python提取網頁表格資料庫_如何用Python爬蟲抓取網頁內容

㈠如何使用Python從Excel中獲取數據粘貼到網頁，然後再獲取網頁內容

網頁的內容復制到Excel裡面漏唯去的方法如下：打開網頁，定位到需要復制內容的頁面，鍵盤Ctrl+A全選，Ctrl+C復制當前頁面。啟動Excel軟體，Ctrl+V粘貼到Excel的空白裂賣工作表中，肆搜逗這樣，網頁的內容就會被復制到Excel中

㈡ python如何讀取網頁中的數據

用Beautiful Soup這類解析模塊：

Beautiful Soup 是用Python寫的一個HTML/XML的解析器，它可以很好的處理不規范標記並生成剖析樹(parse tree)；
它提供簡單又常用的導航(navigating)，搜索以及修改剖析樹的操作；
用urllib或者urllib2(推薦)將頁面的html代碼下載後，用beautifulsoup解析該html；

然後用beautifulsoup的查找模塊或者正則匹配將你想獲得的內容找出來，就可以進行相關處理了，例如：


html='<html><head><title>test</title></head><body><p>testbody</p></body></html>'
soup=BeautifulSoup(html)
soup.contents[0].name
#u'html'
soup.comtents[0].contents[0].name
#u'head'
head=soup.comtents[0].contents[0]
head.parent.name
#u'html'
head.next
#u'<title>test</title>

㈢不用web框架，怎麼通過python獲取網頁表單提交的數據，並傳入資料庫啊，求大佬們幫幫忙

你想自己實現 wsgi 還是使用 wigiref 模塊？你需要了解wsgi 基礎，所有表單數據段孝侍可以通過慎爛 wsgi 的入口函數中的參數 envrion['wsgi.input'握吵] 獲取到

wsgi參考資料：
https://www.python.org/dev/peps/pep-3333/
https://pep-3333-wsgi.readthedocs.io/en/latest/

㈣如何用python抓取網頁資料庫

最簡單可以用urllib，python2.x和python3.x的用法不同，以python2.x為例：

import urllib
html = urllib.open(url)
text = html.read()
復雜些可以用requests庫，支持各種請求類型，支持cookies，header等
再復雜些的可以用selenium，支持抓取javascript產生的文本

㈤ python如何提取網頁信息

page = urllib2.urlopen(url)

contents = page.read()

#獲搏或旁得了整個網頁的內容也團塵就是源代碼基橡

print(contents)

㈥ python進行資料庫查詢時怎麼把結果提取出來

設置索引欄位。在開始提取數據前，先將member_id列設置為索引欄位。然後開始提取數據。
按行提取信息。第一步是按行提取數據，例如提取某個用戶的信息。
按列提取信息。第二步是按列提取數據，例如提取用戶工作年限列的所有信息。
按行與列提取信息。第三步是按行和列提取信息，把前面兩部的查詢條件放在一起，查詢特定用戶的特定信息。
在前面的基礎上繼續增加條件，增加一行同時查詢兩個特定用戶的貸款金額信息。
在前面的代碼後增加sum函數，對結果進行求和。
除了增加行的查詢條件以外，還可以增加列的查詢條件。
多個列的查詢也可以進行求和計算，在前面的代碼後增加sum函數，對這個用戶的貸款金額和年收入兩個欄位求和，並顯示出結果。
提取特定日期的信息。數據提取中還有一種很常見的需求就是按日期維度對數據進行匯總和提取，如按月，季度的匯總數據提取和按特定時間段的數據提取等等。
設置索引欄位。首先將索引欄位改為數據表中的日期欄位，這里將issue_d設置為數據表的索引欄位。按日期進行查詢和數據提取。

㈦如何用python連接 tableau 資料庫，然後讀取數據

選擇「數據」>「連接到數據」或按鍵盤上的 Ctrl + D。也可以在開始頁面上選擇「連接到數據」選項。
2. 在「連接到數據」頁面上，選擇要連接的數據類型。也可以選擇保察畢存的數據連接（TDS 文件）打開一個 Tableau Server 數據源。
3. 連接到數據的另一種方式是從工作簿導入。工作簿可以包含與不同數據源的多個連接。若要從工作簿導入連接，請在「連接到數據」對話框中單擊「選擇保存的連接」選項卡底部的「從工作簿導入」按鈕。
顯示連接信息
可以顯示有關連接的信息，方法是在「數據」菜單中選擇數據源，然後選擇「屬性」。下面顯示了示例數據源的屬性。
連接到自定義 SQL 查詢
對於大多數關系數據源，可以連接到特定查詢，而非整個數據源。
在連接對話框中選擇「自定義 SQL」。
在文本框中鍵入或粘貼查詢。單擊文本框右上角的「瀏覽」按鈕會打開更大的編輯窗口，可進行更復雜的穗衡查詢或添加參數。
注意：完成連接後，Tableau 的數據窗口只顯示相關欄位。
如果 SQL 查詢引用重復列，則在嘗試使用 Tableau 中的列之一時，可能會出現錯誤。即使查詢有效，也會發生這種情況。例如，考慮以下查詢：
SELECT * from authors, titleauthor where authors.au_id = titleauthor.au_id 該查詢有效，但因為 au_id 欄位在「authors」表和「titleauthor」表中都存在，因此該欄位不明確。Tableau 將連接到查詢，但只要嘗試使用 au_id 欄位，就會出現錯誤。原因是 Tableau 不知道要引用哪個表。
編輯連接
在「數據」菜單中選擇數據源，然後選擇「編輯連接」。猜沒做

㈧怎麼使用python來爬取網頁上的表格信息

稍微說一下背景，當時我想研究蛋白質與小分子的復合物在陸洞空間三維結構上的一些規律，首先得有數據啊，數據從哪裡來？就是從一個涵蓋所有已經解析三維結構的蛋白質-小分子復合物的資料庫裡面下載。這時候，手動一個個去下顯然是不可取的，我們需要寫個腳本，能從特定的網站選擇性得批量下載需要的信息。python是不錯的選擇。

import urllib #python中用於獲取網站的模塊
import urllib2, cookielib

有些網站訪問時需要cookie的，python處理cookie代碼如下：
cj = cookielib.CookieJar ( )
opener = urllib2.build_opener( urllib2.HttpCookieProcessor(cj) )
urllib2.install_opener （opener）

通常我們需要在網站中搜索得到我們需要的信息，這里分為二種情況：

1. 第一種，直接改變網址就可以得到你想要搜索的頁面：

def GetWebPage( x ): #我們定義一個獲取頁面的函數，x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx.cgi?&' + 『你想要搜索的參數』 # 結合自己頁面情況適當修改
page = urllib2.urlopen(url)
pageContent = page.read( )
return pageContent #返回的是HTML格式的頁面信息

2.第二種，你需要用到post方法，將你搜索的內容放在postdata裡面，然後返回你需要的頁面

def GetWebPage( x ): #我們定義一個獲取頁面的函數，x 是用於呈遞你在頁面中搜索的內容的參數
url = 'http://xxxxx/xxx' #這個網址是你進入搜索界面的網址
postData = urllib.urlencode( { 各種『post』參數輸入 } ) #這裡面的post參數輸入需要自己去查
req= urllib2.Request (url, postData)
pageContent = urllib2.urlopen (req). read( )
return pageContent #返回的是HTML格式的頁面信息

在獲取了我們需要的網頁信息之後，我們需要從獲得的網頁中進一步獲取我們需要的信息，這里我推薦使用 BeautifulSoup 這個模塊， python自帶的沒有，可以自行網路谷歌下載安裝。 BeautifulSoup 翻譯就是『美味的湯』，你需要做的是從一鍋湯裡面找到你喜歡吃的東西。

import re # 正則表達式，用於匹配字元
from bs4 import BeautifulSoup # 導入BeautifulSoup 模塊

soup = BeautifulSoup（pageContent） #pageContent就是上面我們搜索得到的頁面

soup就是 HTML 中所有的標簽（tag）BeautifulSoup處理格式化後的字元串，一個標準的tag形式為：

hwkobe24

通過一些過濾方法，我們可以從soup中獲取我們需要的信息：

（1） find_all ( name , attrs , recursive , text , **kwargs)
這裡面，我們通過添加對標簽的約束來獲取需要的標簽列表，比如 soup.find_all ('p') 就是尋找名字為『p』的標簽，而soup.find_all (class = "tittle") 就是找到所有class屬性為"tittle" 的標簽，以及soup.find_all ( class = re.compile('lass')) 表示 class屬性中包含『lass』的所有標簽，這里用到了正則表達式（可以自己學習一下，非常有用滴）

當我們獲取了所有想要標簽的列表之後，凳悉舉遍歷這個列表，再獲取標簽中你需要的內容，通常我們需要標簽中的文字部分，也就是網頁中顯示出來的文字，代碼如下：

tagList = soup.find_all (class="tittle") #如果標簽比較復雜，可以用多個過濾條件使過濾更加棗碧嚴格

for tag in tagList:
print tag.text
f.write ( str(tag.text) ) #將這些信息寫入本地文件中以後使用

（2）find( name , attrs , recursive , text , **kwargs )

它與 find_all( ) 方法唯一的區別是 find_all() 方法的返回結果是值包含一個元素的列表,而 find() 方法直接返回結果

（3）find_parents( ) find_parent( )

find_all() 和 find() 只搜索當前節點的所有子節點,孫子節點等. find_parents() 和 find_parent() 用來搜索當前節點的父輩節點,搜索方法與普通tag的搜索方法相同,搜索文檔搜索文檔包含的內容

（4）find_next_siblings() find_next_sibling()

這2個方法通過 .next_siblings 屬性對當 tag 的所有後面解析的兄弟 tag 節點進代, find_next_siblings() 方法返回所有符合條件的後面的兄弟節點,find_next_sibling() 只返回符合條件的後面的第一個tag節點

（5）find_previous_siblings() find_previous_sibling()

這2個方法通過 .previous_siblings 屬性對當前 tag 的前面解析的兄弟 tag 節點進行迭代, find_previous_siblings()方法返回所有符合條件的前面的兄弟節點, find_previous_sibling() 方法返回第一個符合條件的前面的兄弟節點

（6）find_all_next() find_next()

這2個方法通過 .next_elements 屬性對當前 tag 的之後的 tag 和字元串進行迭代, find_all_next() 方法返回所有符合條件的節點, find_next() 方法返回第一個符合條件的節點

（7）find_all_previous() 和 find_previous()

這2個方法通過 .previous_elements 屬性對當前節點前面的 tag 和字元串進行迭代, find_all_previous() 方法返回所有符合條件的節點, find_previous()方法返回第一個符合條件的節點

具體的使用方法還有很多，用到這里你應該可以解決大部分問題了，如果要更深入了解可以參考官方的使用說明哈！

㈨如何用Python爬蟲抓取網頁內容

首先,你要安裝requests和BeautifulSoup4,然後執行如下代碼.

importrequests
frombs4importBeautifulSoup

iurl='http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res=requests.get(iurl)

res.encoding='utf-8'

#print(len(res.text))

soup=BeautifulSoup(res.text,'html.parser')

#標題
H1=soup.select('#artibodyTitle')[0].text

#來源
time_source=soup.select('.time-source')[0].text


#來源
origin=soup.select('#artibodyp')[0].text.strip()

#原標題
oriTitle=soup.select('#artibodyp')[1].text.strip()

#內容
raw_content=soup.select('#artibodyp')[2:19]
content=[]
forparagraphinraw_content:
content.append(paragraph.text.strip())
'@'.join(content)
#責任編輯
ae=soup.select('.article-editor')[0].text

這樣就可以了

㈩ python中如何將表中的數據做成一張表,然後再從中取出數據

第一部分是生成數據表，常見的生成方法有兩種，第一種是導入外部數據，第二種是直接寫入數據。 Excel 中的文件菜單中提供了獲取外部數據的功能，支持資料庫和文本文件和頁面的多種數據源導入。
獲取外部數據
python 支持從多種類型的數據導入。在開始使用 python 進行數據導入前需要先導入 pandas 庫，為了方便起見，我們也同時導入 numpy 庫。
1 import numpy as np
2 import pandas as pd
導入數據表
下面分別是從 excel 和 csv 格式文件導入數據並創建數據表的方法。代碼是最簡模式，裡面有很多可選參數設置，例如列名稱，索引列，數據格式等等。感興趣的朋友可以參考 pandas 的
官方文檔。

1 df=pd.DataFrame(pd.read_csv(『name.csv』,header=1))

2 df=pd.DataFrame(pd.read_excel(『name.xlsx』))

創建數據表
另一種方法是通過直接寫入數據來生成數據表，excel 中直接在單元格中輸入數據就可以，python 中通過下面的代碼來實現。生成數據表的函數是 pandas 庫中的 DateFrame 函數，數據表一共有 6 行數據，每行有 6 個欄位。在數據中我們特意設置了一些 NA 值和有問題的欄位，例如包含空格等。後面將在數據清洗步驟進行處理。後面我們將統一以 DataFrame 的簡稱 df 來命名數據表。
1 df = pd.DataFrame({『id』:[1001,1002,1003,1004,1005,1006],
2 『date』:pd.date_range(『20130102』, periods=6),
3 『city』:['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '],
4 『age』:[23,44,54,32,34,32],
5 『category』:[『100-A』,『100-B』,『110-A』,『110-C』,『210-A』,『130-F』],
6 『price』:[1200,np.nan,2133,5433,np.nan,4432]},

7 columns =[『id』,『date』,『city』,『category』,『age』,『price』])

這是剛剛創建的數據表，我們沒有設置索引列，price 欄位中包含有 NA 值，city 欄位中還包含了一些臟數據。

數據表檢查
python 中處理的數據量通常會比較大，所以就需要我們對數據表進行檢查。比如我們之前的文章中介紹的紐約計程車數據和 Citibike 的騎行數據，數據量都在千萬級，我們無法一目瞭然的了解數據表的整體情況，必須要通過一些方法來獲得數據表的關鍵信息。數據表檢查的另一個目的是了解數據的概況，例如整個數據表的大小，所佔空間，數據格式，是否有空值和重復項和具體的數據內容。為後面的清洗和預處理做好准備。
數據維度(行列)

Excel 中可以通過 CTRL 向下的游標鍵，和 CTRL 向右的游標鍵來查看行號和列號。Python 中使用 shape 函數來查看數據表的維度，也就是行數和列數，函數返回的結果(6,6)表示數據表有 6 行，6 列。下面是具體的代碼。

1 #查看數據表的維度

2 df.shape

3 (6, 6)

數據表信息

使用 info 函數查看數據表的整體信息，這里返回的信息比較多，包括數據維度，列名稱，數據格式和所佔空間等信息。

1 #數據表信息

2 df.info()

4 <class 『pandas.core.frame.DataFrame』>

5 RangeIndex: 6 entries, 0 to 5

6 Data columns (total 6 columns):

7 id 6 non-null int64

8 date 6 non-null datetime64[ns]

9 city 6 non-null object

10 category 6 non-null object

11 age 6 non-null int64

12 price 4 non-null float64

13 dtypes: datetime64ns, float64(1), int64(2), object(2)

14 memory usage: 368.0 bytes

查看數據格式

Excel 中通過選中單元格並查看開始菜單中的數值類型來判斷數據的格式。Python 中使用 dtypes 函數來返回數據格式。

Dtypes 是一個查看數據格式的函數，可以一次性查看數據表中所有數據的格式，也可以指定一列來單獨查看。
1#查看數據表各列格式
2df.dtypes
3

4id int64

5date datetime64[ns]

6city object

7category object

8age int64

9price float64

10dtype: object

11

12#查看單列格式

13df[『B』].dtype

14

15dtype(『int64』)

查看空值

Excel 中查看空值的方法是使用「定位條件」功能對數據表中的空值進行定位。「定位條件」在「開始」目錄下的「查找和選擇」目錄中。

Isnull 是 Python 中檢驗空值的函數，返回的結果是邏輯值，包含空值返回 True，不包含則返回 False。可以對整個數據表進行檢查，也可以單獨對某一列進行空值檢查。

df_isnull

1#檢查特定列空值

2df[『price』].isnull()

3

40 False

51 True
62 False
73 False

84 True

95 False

10Name: price, dtype: bool

查看唯一值

Excel 中查看唯一值的方法是使用「條件格式」對唯一值進行顏色標記。Python 中使用 unique 函數查看唯一值。

Unique 是查看唯一值的函數，只能對數據表中的特定列進行檢查。下面是代碼，返回的結果是該列中的唯一值。類似與 Excel 中刪除重復項後的結果。

1 #查看 city 列中的唯一值

2 df[『city』].unique()34array(['Beijing ', 『SH』, 』 guangzhou ', 『Shenzhen』, 『shanghai』, 'BEIJING '], dtype=object)

查看數據表數值

Python 中的 Values 函數用來查看數據表中的數值。以數組的形式返回，不包含表頭信息。

1#查看數據表的值

2df.values

3
4array([[1001, Timestamp(『2013-01-02 00:00:00』), 'Beijing ', 『100-A』, 23,
5 1200.0],

6 [1002, Timestamp(『2013-01-03 00:00:00』), 『SH』, 『100-B』, 44, nan],

7 [1003, Timestamp(『2013-01-04 00:00:00』), 』 guangzhou ', 『110-A』, 54,

8 2133.0],

9 [1004, Timestamp(『2013-01-05 00:00:00』), 『Shenzhen』, 『110-C』, 32,

10 5433.0],

11 [1005, Timestamp(『2013-01-06 00:00:00』), 『shanghai』, 『210-A』, 34,
12 nan],

13 [1006, Timestamp(『2013-01-07 00:00:00』), 'BEIJING ', 『130-F』, 32,

14 4432.0]], dtype=object)

查看列名稱

Colums 函數用來單獨查看數據表中的列名稱。

1 #查看列名稱

2 df.columns

3

4 Index([『id』, 『date』, 『city』, 『category』, 『age』, 『price』], dtype=『object』)

查看前 10 行數據

Head 函數用來查看數據表中的前 N 行數據，默認 head()顯示前 10 行數據，可以自己設置參數值來確定查看的行數。下面的代碼中設置查看前 3 行的數據。

1#查看前 3 行數據``df.head(``3``)

Tail 行數與 head 函數相反，用來查看數據表中後 N 行的數據，默認 tail()顯示後 10 行數據，可以自己設置參數值來確定查看的行數。下面的代碼中設置查看後 3 行的數據。

1#查看最後 3 行df.tail(3)

導航:首頁 > 編程大全 > python提取網頁表格資料庫

python提取網頁表格資料庫

與python提取網頁表格資料庫相關的資料

友情鏈接