① DOC文件是什么格式
DOC文件是word2003以前版本的文本文档格式。打开DOC文件的方法:
1、首先在电内脑桌面里找到DOC格式容的这份文件。
② Lucene doc 文件格式详解
本文及后面关于Lucene的文章所采用的lucene 版本为8.1.0.
doc 文件主要用于保存term的倒排表信息,包括docId倒排链及term在docId的term freq信息等。倒排链是Lucene 进行全文检索的核心数据结构,请特别关注这个数据结构
请参考 Lucene tim文件格式详解 第三部分
文件头部分主要内容为标识此文件类型为 Lucene50PostingsWriterDoc , 源码部分在 Lucene50PostingsWriter 的123行,主要内容如下
开始本部分阅读时,请注意一个在第3部分得到的结果及含义, 现在开始分析该部分内容
下面为term的doc信息。 主要逻辑是: 对于term的doc freq = 1的term来说,doc文件不保存这个term的doc信息,而是在 tim 文件中保存,doc 文件只保存doc freq > 1的term。在范例中,只有nice的doc freq > 1, 故只保存nice的doc倒排链
关于其它term(term freq = 1)的编码方式,请参考 tim 文件相应的格式内容
footer区主要有以下内容
③ .doc与.docx有什么区别
docx文件比doc文件所占用空间更小。
docx格式的文件本质上是一个ZIP文件。将一个docx文件的后缀改为ZIP后是可以用解压工具打开或是解压的。事实上,Word2007的基本文件就是ZIP格式的,他可以算作是docx文件的容器。
docx 格式文件的主要内容是保存为XML格式的,但文件并非直接保存于磁盘。它是保存在一个ZIP文件中,然后取扩展名为docx。将.docx 格式的文件后缀改为ZIP后解压, 可以看到解压出来的文件夹中有word这样一个文件夹,它包含了Word文档的大部分内容。而其中的document.xml文件则包含了文档的主要文本内容。
具体来讲可以分以下几个区别:
1、运行环境不同,docx格式的文件是Office2007及以上版本保存的新型文档,而doc是Word2003以及之前版本保存的文档,如果要转化它们还需要特殊的兼容系统。