① DOC文件是什麼格式
DOC文件是word2003以前版本的文本文檔格式。打開DOC文件的方法:
1、首先在電內腦桌面里找到DOC格式容的這份文件。
② Lucene doc 文件格式詳解
本文及後面關於Lucene的文章所採用的lucene 版本為8.1.0.
doc 文件主要用於保存term的倒排表信息,包括docId倒排鏈及term在docId的term freq信息等。倒排鏈是Lucene 進行全文檢索的核心數據結構,請特別關注這個數據結構
請參考 Lucene tim文件格式詳解 第三部分
文件頭部分主要內容為標識此文件類型為 Lucene50PostingsWriterDoc , 源碼部分在 Lucene50PostingsWriter 的123行,主要內容如下
開始本部分閱讀時,請注意一個在第3部分得到的結果及含義, 現在開始分析該部分內容
下面為term的doc信息。 主要邏輯是: 對於term的doc freq = 1的term來說,doc文件不保存這個term的doc信息,而是在 tim 文件中保存,doc 文件只保存doc freq > 1的term。在範例中,只有nice的doc freq > 1, 故只保存nice的doc倒排鏈
關於其它term(term freq = 1)的編碼方式,請參考 tim 文件相應的格式內容
footer區主要有以下內容
③ .doc與.docx有什麼區別
docx文件比doc文件所佔用空間更小。
docx格式的文件本質上是一個ZIP文件。將一個docx文件的後綴改為ZIP後是可以用解壓工具打開或是解壓的。事實上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。
docx 格式文件的主要內容是保存為XML格式的,但文件並非直接保存於磁碟。它是保存在一個ZIP文件中,然後取擴展名為docx。將.docx 格式的文件後綴改為ZIP後解壓, 可以看到解壓出來的文件夾中有word這樣一個文件夾,它包含了Word文檔的大部分內容。而其中的document.xml文件則包含了文檔的主要文本內容。
具體來講可以分以下幾個區別:
1、運行環境不同,docx格式的文件是Office2007及以上版本保存的新型文檔,而doc是Word2003以及之前版本保存的文檔,如果要轉化它們還需要特殊的兼容系統。