導航:首頁 > 文件教程 > python讀寫word

python讀寫word

發布時間:2023-09-18 03:48:44

❶ 如何在 Linux 上使用 Python 讀取 word 文件信息

第一步:獲取doc文件的xml組成文件

import zipfiledef get_word_xml(docx_filename):
with open(docx_filename) as f:
zip = zipfile.ZipFile(f)
xml_content = zip.read('word/document.xml')
return xml_content

第二步:解析xml為樹形數據結構
from lxml import etreedef get_xml_tree(xml_string):
return etree.fromstring(xml_string)

第三步:讀取word內容:
def _itertext(self, my_etree):
"""Iterator to go through xml tree's text nodes"""
for node in my_etree.iter(tag=etree.Element):
if self._check_element_is(node, 't'):
yield (node, node.text)def _check_element_is(self, element, type_char):
word_schema = '99999'
return element.tag == '{%s}%s' % (word_schema,type_char)

❷ 如何在 Linux 上使用 Python 讀取 word 文件信息

必須說明:不同於Illustrator、InDesign、CorelDRAW、OpenOffice DRAW、Incscape等工具,Word是流動分頁的,文件內容本身並不存儲分頁結果。具體分頁時斷在哪裡、最後分出多少頁,都需要現場渲染所有的圖文內容之後才能確定。

(簡而言之就是:Word文件中僅包含了一行一行的文本,與頁面設置中指定的頁面尺寸。Word每次打開文件時都會一行一行「擺放」文本數據,發現一頁裝不下了自動新開一頁。當然真正的Word渲染引擎肯定有更復雜的行為。)

從.doc/.docx文件中直接讀出頁面數量,這本身就是個偽命題。所以千萬別在「直接讀取頁面數量」這個方向上尋求方案——軟體開發的技法不好可以改正,但路線錯了必死無疑!

你需要調動一套能夠真的把Word文件的內容渲染出來的工具(支持二次開發的)。只有把Word文件的所有內容渲染成為可以觀看的圖形,才能准確得知頁面的總數。在Linux上很可能LibreOffice可以吧。而在Windows上就當然是用Word本身了。

注意Word的分頁結論是沒有保證的。缺少字體、字形不同、軟體環境不同等各種原因,都會造成不同電腦上打開同一個Word文件的頁數不一致。這一點對伺服器也沒有例外。得到了頁數也只能參考使用,而不要100%信賴。

❸ 如何用python讀取word

使用Python的內部方法open()讀取文本文件

try:
f=open('/file','r')
print(f.read())
finally:
iff:
f.close()

如果讀取word文檔推薦使用第三方插件,python-docx 可以在官網上下載

使用方式

#-*-coding:cp936-*-
importdocx
document=docx.Document(文件路徑)
docText=' '.join([
paragraph.text.encode('utf-8')forparagraphindocument.paragraphs
])
printdocText

❹ python如何讀取word文件中的文本內容並寫入到新的txt文件

❺ python如何讀取word文件中的文本內容並寫入到新的txt文件

#確保安裝了python-docx包
from docx import Document as Doc
docu=Doc(input('path:'))
file=''
for i in docu.paragraphs:
----file+=i.text
f=open(input('new path:'),'w',encoding='utf-8')
f.write(file)
f.close()
#減號的位置是縮進

❻ python處理word文檔

有個庫叫『Python-docx』
安裝之後 python 可以讀寫 word 文檔,就可以拼接了。

閱讀全文

與python讀寫word相關的資料

熱點內容
怎麼把很多文件夾里 瀏覽:892
文件夾中的文件按照excel進行分類 瀏覽:967
如何利用網路學英語 瀏覽:986
word如何刪除單頁頁眉 瀏覽:712
服裝設計數據報錯會損失多少 瀏覽:791
魅族主題文件在哪個文件夾 瀏覽:957
vbnet讀取xlsx文件 瀏覽:257
word2003公式編號右對齊 瀏覽:223
word文件夾怎麼樣可以全選 瀏覽:658
在大一編程跟不上怎麼辦 瀏覽:742
coreldraw文件如何導入3dmax 瀏覽:150
招標文件如何用word做密封頁 瀏覽:44
如何在c51中調用匯編程序 瀏覽:824
java字元串轉碼gbk 瀏覽:983
win怎麼打開隱藏文件夾選項 瀏覽:454
榮耀手機qq接收文件在哪個文件夾 瀏覽:708
messagebox的頭文件 瀏覽:100
java啟動線程處理 瀏覽:622
騰迅收藏的表情在哪個文件夾 瀏覽:388
為什麼excel的文件是word打開的 瀏覽:781

友情鏈接