導航:首頁 > 文件教程 > python下載網頁pdf文件

python下載網頁pdf文件

發布時間:2023-05-27 14:11:29

1. 如何利用Python抓取PDF中的某些內容

利用pdfbox,目前最好的pdf提取工具,功能非常強大,最近剛完成了類似的一個需求。實現方式是用python請求pdfbox的jar,根據傳入的參數完成各種功能,非常簡單。

2. python爬取彈出框是pdf文件的話怎麼弄

pdf_link=requests.get('xxx.pdf').content
with open(路徑) as pdf:
pdf.write(pdf.link)

就是找到pdf的鏈接直接下載

3. 請問怎麼通過python爬蟲獲取網頁中的pdf文件

首先把鏈接URL爬取出來,然後get流下載pdf文件,再用pdf模塊來讀取它。

4. python怎樣讀取pdf文件的內容

首先要下載一個處理pdf的組件pdfminer,網路搜索去官網下載

下載完成解壓以後,打開cmd進入用命令安裝。python setup.py install 進行安裝

我們來測試一下是否安裝成功了,引入這個模塊,運行一下代碼,沒有報錯就說明安裝成功了

官網有文檔也有代碼示例
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfpage import PDFTextExtractionNotAllowed
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice

fp = open('mypdf.pdf', 'rb')
#創建一個PDF文檔解析器對象
parser = PDFParser(fp)
#創建一個PDF文檔對象存儲文檔結構
#提供密碼初始化,沒有就不用傳該參數
document = PDFDocument(parser, password)
#檢查文件是否允許文本提取
if not document.is_extractable:
raise PDFTextExtractionNotAllowed
#創建一個PDF資源管理器對象來存儲共享資源
rsrcmgr = PDFResourceManager()
#創建一個pdf設備對象
device = PDFDevice(rsrcmgr)
#創建一個PDF解析器對象
interpreter = PDFPageInterpreter(rsrcmgr, device)
#處理文檔當中的每個頁面
for page in PDFPage.create_pages(document):
interpreter.process_page(page)

我新建一個pdf,新輸入一些內容

運行一下代碼,看一下效果

5. python在ftp下載文件保存成pdf

1.python圖片保存為pdf格式的功能需要使用到os模塊以及img2pdf模塊,其中img2pdf模塊是第三方的。win+r打開運行窗口之後輸入cmd並回車就能夠啟動命令行提示符,執行如下命令即可安裝:

pip3 install img2pdf
如果是linux系統或者是mac系統的話,就需要打開終端然後在命令前加上sudo參數表此槐示管理員許可權去下載安裝這個庫。

2.安裝完成之後新建一個python腳本來編寫代碼,首先就是將這兩個模塊都給導入進來,示例如下:

import os
import img2pdf
3.然後使用with關鍵字創建出一個上下文管理器結構並且打開一個pdf文件,使用它的原因就在於可以在代碼執行完畢之後自動的釋放資源並關閉文件,示例如森弊友卜汪下:

with open("Output.pdf", "wb") as file:
有沒有這個pdf文件都可以,如果沒有的話會在文件路徑內自動去創建。

4.最後就是需要調用該文件對象的write()方法來將圖片數據寫入進去了,在這個方法裡面會調用convert()將一個文件路徑內後綴名為jpg的圖片全部以二進制流的方式讀取出來,示例如下:

file.write(img2pdf.convert([i for i in os.listdir('文件路徑') if i.endswith(".jpg")]))
以上就是關於「Python怎麼將圖片保存為pdf格式?Python圖片合成為pdf的代碼如何寫」的全部內容了,希望對你有所幫助。

6. python怎樣讀取pdf文件的內容

1,引言
晚上翻看《Python網路數據採集》這本書,看到讀取PDF內容的代碼,想起來前幾天集搜客剛剛發布了一個抓取網頁pdf內容的抓取規則,這個規則能夠把pdf內容當成html來做網頁抓取。神奇之處要歸功於Firefox解析PDF的能力,能夠把pdf格式轉換成html標簽,比如,div之類的標簽,從而用GooSeeker網頁抓取軟體像抓普通網頁一樣抓取結構化內容。
從而產生了一個問題:用Python爬蟲的話,能做到什麼程度。下面將講述一個實驗過程和源代碼。
2,把pdf轉換成文本的Python源代碼
下面的python源代碼,讀取pdf文件內容(互聯網上的或是本地的),轉換成文本,列印出來。這段代碼主要用了一個第三方庫PDFMiner3K把PDF讀成字元串,然後用StringIO轉換成文件對象。(源代碼下載地址參看文章末尾的GitHub源)
復制代碼
from urllib.request import urlopen
from pdfminer.pdfinterp import PDFResourceManager, process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from io import StringIO
from io import open
def readPDF(pdfFile):
rsrcmgr = PDFResourceManager()
retstr = StringIO()
laparams = LAParams()
device = TextConverter(rsrcmgr, retstr, laparams=laparams)
process_pdf(rsrcmgr, device, pdfFile)
device.close()
content = retstr.getvalue()
retstr.close()
return content
pdfFile = urlopen("http://pythonscraping.com/pages/warandpeace/chapter1.pdf")
outputString = readPDF(pdfFile)
print(outputString)
pdfFile.close()
復制代碼
如果PDF文件在你的電腦里,那就把urlopen返回的對象pdfFile替換成普通的open()文件對象。
3,展望
這個實驗只是把pdf轉換成了文本,但是沒有像開頭所說的轉換成html標簽,那麼在Python編程環境下是否有這個能力,留待今後探索。
4,集搜客GooSeeker開源代碼下載源
1. GooSeeker開源Python網路爬蟲GitHub源
5,文檔修改歷史
2016-05-26:V2.0,增補文字說明
2016-05-29:V2.1,增加第六章:源代碼下載源,並更換github源的網址

閱讀全文

與python下載網頁pdf文件相關的資料

熱點內容
windows8顯示隱藏文件 瀏覽:603
ipad2可以升級到92嗎 瀏覽:857
如何打開ps保存的文件 瀏覽:744
幼兒編程教育有哪些 瀏覽:453
汽車發外地用什麼app 瀏覽:810
網路如何贊美女人漂亮 瀏覽:143
如何把桌面文件放到excel裡面 瀏覽:363
照片文件名是怎麼查的 瀏覽:876
c怎麼在cmd模式下顯示文件 瀏覽:325
手機怎麼把文件夾的圖片移到相冊 瀏覽:440
hjc是啥文件的格式 瀏覽:298
報廢鐵皮文件櫃圖片 瀏覽:801
win10系統更新文件能 瀏覽:558
怎麼讓蘋果手機下載其他APP 瀏覽:471
多個cs文件編譯成一個dll 瀏覽:606
sql管理工具70 瀏覽:130
js裡面的圖片對齊 瀏覽:965
三星2016視頻文件夾 瀏覽:317
舊手機創新手機數據怎麼傳 瀏覽:954
怎麼刪除領克app里的記錄 瀏覽:254

友情鏈接