pandas寫資料庫_python pandas to_sql將excel數據導入到MySQL資料庫

㈠怎麼用python進行數據

pandas是本書後續內容的首選庫。pandas可以滿足以下需求：

具備按軸自動或顯式數據對齊功能的數據結構。這可以防止許多由於數據未對齊以及來自不同數據源（索引方式不同）的數據而導致的常見錯誤。.
集成時間序列功能
既能處理時間序列數據也能處理非時間序列數據的數據結構
數學運算和簡約（比如對某個軸求和）可以根據不同的元數據（軸編號）執行
靈活處理缺失數據
合並及其他出現在常見資料庫（例如基於SQL的）中的關系型運算

1、pandas數據結構介紹

兩個數據結構：Series和DataFrame。Series是一種類似於以為NumPy數組的對象，它由一組數據（各種NumPy數據類型）和與之相關的一組數據標簽（即索引）組成的。可以用index和values分別規定索引和值。如果不規定索引，會自動創建 0 到 N-1 索引。

#-*- encoding:utf-8 -*-import numpy as npimport osimport pandas as pdfrom pandas import Series,DataFrameimport matplotlib.pyplot as pltimport time#下面看一下cummin函數#注意：這里的cummin函數是截止到目前為止的最小值，而不是加和以後的最小值frame = DataFrame([[1,2,3,4],[5,6,7,8],[-10,11,12,-13]],index = list('abc'),columns = ['one','two','three','four'])print frame.cummin()print frame

one two three four

a 1 2 3 4

b 1 2 3 4

c -10 2 3 -13

one two three four

a 1 2 3 4

b 5 6 7 8

c -10 11 12 -13

相關系數與協方差

有些匯總

㈡怎麼使用Python中Pandas庫Resample，實現重采樣，完成線性插值

#python中的pandas庫主要有DataFrame和Series類(面向對象的的語言更願意叫類) DataFrame也就是
#數據框(主要是借鑒R裡面的data.frame)，Series也就是序列，pandas底層是c寫的性能很棒，有大神
#做過測試處理億級別的數據沒問題，起性能可以跟同等配置的sas媲美
#DataFrame索引 df.loc是標簽選取操作，df.iloc是位置切片操作
print(df[['row_names','Rape']])
df['行標簽']
df.loc[行標簽,列標簽]
print(df.loc[0:2,['Rape','Murder']])
df.iloc[行位置,列位置]
df.iloc[1,1]#選取第二行，第二列的值，返回的為單個值
df.iloc[0,2],:]#選取第一行及第三行的數據
df.iloc[0:2,:]#選取第一行到第三行（不包含）的數據
df.iloc[:,1]#選取所有記錄的第一列的值，返回的為一個Series
df.iloc[1,:]#選取第一行數據，返回的為一個Series
print(df.ix[1,1]) # 更廣義的切片方式是使用.ix，它自動根據你給到的索引類型判斷是使用位置還是標簽進行切片
print(df.ix[0:2])
#DataFrame根據條件選取子集類似於sas裡面if、where ,R裡面的subset之類的函數
df[df.Murder>13]
df[(df.Murder>10)&(df.Rape>30)]
df[df.sex==u'男']
#重命名相當於sas裡面的rename R軟體中reshape包的中的rename
df.rename(columns={'A':'A_rename'})
df.rename(index={1:'other'})
#刪除列相當於sas中的drop R軟體中的test['col']<-null
df.drop(['a','b'],axis=1) or del df[['a','b']]
#排序相當於sas裡面的sort R軟體裡面的df[order(x),]
df.sort(columns='C') #行排序 y軸上
df.sort(axis=1) #各個列之間位置排序 x軸上
#數據描述相當於sas中proc menas R軟體裡面的summary
df.describe()
#生成新的一列跟R裡面有點類似
df['new_columns']=df['columns']
df.insert(1,'new_columns',df['B']) #效率最高
df.join(Series(df['columns'],name='new_columns'))
#列上面的追加相當於sas中的append R裡面cbind()
df.append(df1,ignore_index=True)
pd.concat([df,df1],ignore_index=True)
#最經典的join 跟sas和R裡面的merge類似跟sql裡面的各種join對照
merge()
#刪除重行跟sas裡面nokey R裡面的which(!plicated(df[])類似
df.drop_plicated()
#獲取最大值最小值的位置有點類似矩陣裡面的方法
df.idxmin(axis=0 ) df.idxmax(axis=1) 0和1有什麼不同自己摸索去
#讀取外部數據跟sas的proc import R裡面的read.csv等類似
read_excel() read_csv() read_hdf5() 等
與之相反的是df.to_excel() df.to_ecv()
#缺失值處理個人覺得pandas中缺失值處理比sas和R方便多了
df.fillna(9999) #用9999填充
#鏈接資料庫不多說 pandas裡面主要用 MySQLdb
import MySQLdb
conn=MySQLdb.connect(host="localhost",user="root",passwd="",db="mysql",use_unicode=True,charset="utf8")
read_sql() #很經典
#寫數據進資料庫
df.to_sql('hbase_visit',con, flavor="mysql", if_exists='replace', index=False)
#groupby 跟sas裡面的中的by R軟體中dplyr包中的group_by sql裡面的group by功能是一樣的這里不多說
#求啞變數
miper=pd.get_mmies(df['key'])
df['key'].join(mpier)
#透視表和交叉表跟sas裡面的proc freq步類似 R裡面的aggrate和cast函數類似
pd.pivot_table()
pd.crosstab()
#聚合函數經常跟group by一起組合用
df.groupby('sex').agg({'height':['mean','sum'],'weight':['count','min']})

#數據查詢過濾

test.query("0.2
將STK_ID中的值過濾出來
stk_list = ['600809','600141','600329']中的全部記錄過濾出來，命令是：rpt[rpt['STK_ID'].isin(stk_list)].
將dataframe中，某列進行清洗的命令
刪除換行符：misc['proct_desc'] = misc['proct_desc'].str.replace('\n', '')
刪除字元串前後空格：df["Make"] = df["Make"].map(str.strip)
如果用模糊匹配的話，命令是：
rpt[rpt['STK_ID'].str.contains(r'^600[0-9]{3}$')]

對dataframe中元素，進行類型轉換

df['2nd'] = df['2nd'].str.replace(',','').astype(int) df['CTR'] = df['CTR'].str.replace('%','').astype(np.float64)

#時間變換主要依賴於datemie 和time兩個包
http://www.2cto.com/kf/201401/276088.html
#其他的一些技巧
df2[df2['A'].map(lambda x:x.startswith('61'))] #篩選出以61開頭的數據
df2["Author"].str.replace("<.+>", "").head() #replace("<.+>", "")表示將字元串中以」<」開頭;以」>」結束的任意子串替換為空字元串
commits = df2["Name"].head(15)
print commits.unique(), len(commits.unique()) #獲的NAME的不同個數，類似於sql裡面count(distinct name)
#pandas中最核心最經典的函數apply map applymap

㈢ Python數據分析庫有哪些

Python數據分析必備的第三方庫：

1、Pandas

Pandas是Python強大、靈活的數據分析和探索工具，包含Serise、DataFrame等高級數據結構和工具，安裝Pandas可使Python中處理數據非常快速和簡單。

Pandas是Python的一個數據分析包，Pandas最初使用用作金融數據分析工具而開發出來，因此Pandas為時間序列分析提供了很好的支持。

Pandas是為了解決數據分析任務而創建的，Pandas納入了大量的庫和一些標準的數據模型，提供了高效的操作大型數據集所需要的工具。Pandas提供了大量是我們快速便捷的處理數據的函數和方法。Pandas包含了高級數據結構，以及讓數據分析變得快速、簡單的工具。

2、Numpy

Numpy可以提供數組支持以及相應的高效處理函數，是Python數據分析的基礎，也是Scipy、Pandas等數據處理和科學計算庫最基本的函數功能庫，且其數據類型對Python數據分析十分有用。

Numpy提供了兩種基本的對象：ndarray和ufunc。ndarray是存儲單一數據類型的多維數組，而ufunc是能夠對數組進行處理的函數。

3、Matplotlib

Matplotlib是強大的數據可視化工具和作圖庫，是主要用於繪制數據圖表的Python庫，提供了繪制各類可視化圖形的命令字型檔、簡單的介面，可以方便用戶輕松掌握圖形的格式，繪制各類可視化圖形。

Matplotlib是Python的一個可視化模塊，他能方便的只做線條圖、餅圖、柱狀圖以及其他專業圖形。

Matplotlib是基於Numpy的一套Python包，這個包提供了豐富的數據繪圖工具，主要用於繪制一些統計圖形。

4、SciPy

SciPy是一組專門解決科學計算中各種標准問題域的包的集合，包含的功能有最優化、線性代數、積分、插值、擬合、特殊函數、快速傅里葉變換、信號處理和圖像處理、常微分方程求解和其他科學與工程中常用的計算等，這些對數據分析和挖掘十分有用。

SciPy是一款方便、易於使用、專門為科學和工程設計的Python包，它包括統計、優化、整合、線性代數模塊、傅里葉變換、信號和圖像處理、常微分方程求解器等。Scipy依賴於Numpy，並提供許多對用戶友好的和有效的數值常式，如數值積分和優化。

5、Keras

Keras是深度學習庫，人工神經網路和深度學習模型，基於Theano之上，依賴於Numpy和Scipy，利用它可以搭建普通的神經網路和各種深度學習模型，如語言處理、圖像識別、自編碼器、循環神經網路、遞歸審計網路、卷積神經網路等。

6、Scrapy

Scrapy是專門為爬蟲而生的工具，具有URL讀取、HTML解析、存儲數據等功能，可以使用Twisted非同步網路庫來處理網路通訊，架構清晰，且包含了各種中間件介面，可以靈活的完成各種需求。

7、Gensim

Gensim是用來做文本主題模型的庫，常用於處理語言方面的任務，支持TF-IDF、LSA、LDA和Word2Vec在內的多種主題模型演算法，支持流式訓練，並提供了諸如相似度計算、信息檢索等一些常用任務的API介面。

㈣ pandas寫入csv文件時,如果該文件已存在

如果該文件已存在可以選擇目標表。
使用pandas自帶的數據導入向導，右擊導入的資料庫，瀏覽打開要導入的csv文件，進行必要的設置，如果該文件已存在，因此可以直接選擇目標表。
pandas是基於NumPy的一種工具，該工具是為了解決數據分析任務而創建的。

㈤如何將pandas.dataframe的數據寫入到文件中

步驟操作方法如下：

1、環境准備:

a、右擊桌面上選擇【 in Terminal】打開終端。

b、在彈出的終端中輸入【ipython】進入Python的解釋器中，如圖1所示。

㈥怎麼利用pandas做數據分析

Pandas是Python下一個開源數據分析的庫，它提供的數據結構DataFrame極大的簡化了數據分析過程中一些繁瑣操作。
1. 基本使用：創建DataFrame. DataFrame是一張二維的表，大家可以把它想像成一張Excel表單或者Sql表。Excel 2007及其以後的版本的最大行數是1048576，最大列數是16384，超過這個規模的數據Excel就會彈出個框框「此文本包含多行文本，無法放置在一個工作表中」。Pandas處理上千萬的數據是易如反掌的sh事情，同時隨後我們也將看到它比SQL有更強的表達能力，可以做很多復雜的操作，要寫的code也更少。
說了一大堆它的好處，要實際感觸還得動手碼代碼。首要的任務就是創建一個DataFrame，它有幾種創建方式：
（1）列表，序列(pandas.Series), numpy.ndarray的字典
二維numpy.ndarray
別的DataFrame
結構化的記錄(structured arrays)
（2）其中，二維ndarray創建DataFrame，代碼敲得最少：
import pandas as pd
import numpy as np
df = pd.DataFrame(np.random.randn(10, 4))
df
0 1 2 3
0 0.927474 0.127571 1.655908 0.570818
1 -0.425084 -0.382933 0.468073 -0.862898
2 -1.602712 -0.225793 -0.688641 1.167477
3 -1.771992 -0.692575 -0.693494 -1.063697
4 -0.456724 0.371165 1.883742 -0.344189
5 1.024734 0.647224 1.134449 0.266797
6 1.247507 0.114464 2.271932 -0.682767
7 -0.190627 -0.096997 -0.204778 -0.440155
8 -0.471289 -1.025644 -0.741181 -1.707240
9 -0.172242 0.702187 -1.138795 -0.112005
（3）通過describe方法，可以對df中的數據有個大概的了解：
df.describe()
0 1 2 3
count 10.000000 10.000000 10.000000 10.000000
mean -0.189096 -0.046133 0.394722 -0.320786
std 1.027134 0.557420 1.258019 0.837497
min -1.771992 -1.025644 -1.138795 -1.707240
25% -0.467648 -0.343648 -0.692281 -0.817865
50% -0.307856 0.008734 0.131648 -0.392172
75% 0.652545 0.310266 1.525543 0.172096
max 1.247507 0.702187 2.271932 1.167477
2. 改變cell。
3. group by。
4. 讀寫文件。

㈦ python pandas to_sql將excel數據導入到MySQL資料庫

其實吧，一分鍾10W條數據不能算太快，10秒10W條還差不多。可以研究一下內線程+進程來處理容，或者協程+進程。處理速度肯定能讓你喊一聲「卧槽！」哈哈。
言歸正傳，你說的別的MySQL是不是遠程的，通過ip來連接的哈，如果是的話那就可以理解了。每次連接一次資料庫，都有一個網路延遲的，2台電腦之間距離越遠，這個延遲就越高，而每次導入數據的時間必須要加上這個延遲的時間的，而本地測試的時候因為連接資料庫的時間延遲基本可以忽略不計，所以速度要比連接遠程資料庫要快很多很多。
最後，如果想要解決這個問題的話，要麼把業務資料庫移到本地，去掉時間延遲。要麼就用我上面說的線程+進程或者協程+進程的方式提高程序效率。如果無法把業務資料庫移到本地的話，我非常推薦後者，成本也就是多學一點東西而已，但以後可以省下非常多的時間，效率為王嘛~

導航:首頁 > 編程大全 > pandas寫資料庫

pandas寫資料庫

與pandas寫資料庫相關的資料

友情鏈接