导航:首页 > 文件类型 > word文件解析

word文件解析

发布时间：2023-06-12 08:45:29

Ⅰ nodejs实现一个word文档解析器思路详解

之前项目里遇到一个需求，需要前端上传一个word文档，然后后端提取出该文档的指定位置的内容并保存。这里后端用的是nodejs，开始接到这个需求，发现无从下手，主要是没有处理过word这种类型的文档，怎么解析?
Excel倒是有相关的库可以用，而且很简单
思路
搜索了好一会儿，在npm上发现了一个叫做
adm-zip
的包，这个包可以解压缩word文档，原来word文档也是可以解压缩的，之前一直不知道,通过如下代码就可以将word文档解压缩，并进一步提取内容
var
admZip
=
require('adm-zip');
const
zip
=
new
admZip('test.docx');
//将该docx解压到指定文件夹result下
zip.extractAllTo("./result",
/*overwrite*/true);
首先我们新建一个docx文档，内容如下

然后运行上述代码进行解压缩，得到如下的文件，由下图可以看出生成了好几个文件夹，word的内容其实是在word文件夹里的document.xml文件内(这里解压缩后其实源文件还在，并没有消失)

进入word文件夹后的内容

我们继续打开document.xml文件来一探究竟里面到底是啥？注意要用浏览器直接打开，如果用ide打开显示出的所有内容都在一行，无法阅读！

上图只是word文档的一部分，会发现word文档内看着只有几段文字，但是xml中却是长篇大论，仔细分析下也很正常，xml全称可扩展标记语言，其被设计为传输和存储数据，它仅仅是一个纯文本的表示，而word中内容格式千变万化，肯定需要一种方法来有效描述这些内容的格式，因此采用了xml来描述
我们尝试一下将
测试文档
四个字加粗变色倾斜字体，如下图

然后再进行解压缩，得到docuemnt.xml并查看对应的内容，如下

这就很明显了，
<w:b/>
表示文字加粗,
<w:i/>
表示文字倾斜，
<w:color>
表示文字的颜色，所以这么4个字就需要这几行xml来描述，因此长篇大论的xml也就不足为奇
提取内容
上面说到了xml仅仅是一个文本的表示，我们可以用如下代码读取整个xml的内容，结果是一个
string
var
contentXml
=
zip.readAsText("word/document.xml");
接下来是重点，如何提取我们想要的内容呢，答案是正则表达式，首先我们得分析一下word文档的结构，word文档其实是由叫做
Paragraph
的段落所构成，在vb中可以很轻松的获取并修改段落，官网传送门点此

那么到底怎么样才是一个
Paragraph
呢，其实很简单，仔细观察word文档，见到下图中的小箭头了么，每个小箭头前面的内容就是一个段落，那么下图中一共有16个
Paragraph
,当然有些段落是空的，没有任何内容

我们再来研究xml的结构，收起展开的xml，如下图，发现
<w:p></w:p>
这么个标签就是表示的一个段落，中间还有些
<w:p>
藏在表格内，这么一看表格前面3个段落，后面3个段落，和上图是对应的

因此，
我们就可以提取出每个段落的文本并返回一个数组，每一项就是一个段落的内容
,这样就能够完整的解析出整个word的内容，关键在于如何提取每个
<w:p>
的内容，我们继续展开一个
<w:p>
进行观察，如下图，发现内容虽多，其实文本都保存在
<w:t>
中间，因此思路就清晰了，
首先用正则表达式提取出所有<w:p>的内容，再针对每个<w:p>的内容，进行进一步正则提取，提取出其里面所有<w:t>的内容，并拼接在一起构成一个段落的总内容

具体代码
下面是具体的提取代码
//参数是word文件名,第二个参数是回调表示解析完成
var
parser
=
function
parseWordDocument(absoluteWordPath,callback){
//返回内容的数组
var
resultList
=
[];
//如果文件存在
fs.exists(absoluteWordPath,
function(exists){
if(exists){
//解压缩
const
zip
=
new
admZip(absoluteWordPath);
//将document.xml(解压缩后得到的文件)读取为text内容
var
contentXml
=
zip.readAsText("word/document.xml");
//正则匹配出对应的<w:p>里面的内容,方法是先匹配<w:p>,再匹配里面的<w:t>,将匹配到的加起来即可
//注意？表示非贪婪模式(尽可能少匹配字符)，否则只能匹配到一个<w:p></w:p>
var
matchedWP
=
contentXml.match(/<w:p.*?>.*?<\/w:p>/gi);
//继续匹配每个<w:p></w:p>里面的<w:t>,这里必须判断matchedWP存在否则报错
if(matchedWP){
matchedWP.forEach(function(wpItem){
//注意这里<w:t>的匹配，有可能是<w:t
xml:space="preserve">这种格式，需要特殊处理
var
matchedWT
=
wpItem.match(/(<w:t>.*?<\/w:t>)|(<w:t\s.[^>]*?>.*?<\/w:t>)/gi);
var
textContent
=
'';
if(matchedWT){
matchedWT.forEach(function(wtItem){
//如果不是<w:t
xml:space="preserve">格式
if(wtItem.indexOf('xml:space')===-1){
textContent+=wtItem.slice(5,-6);
}else{
textContent+=wtItem.slice(26,-6);
}
});
resultList.push(textContent)
}
});
//解析完成
callback(resultList)
}
}else{
callback(resultList)
}
});
};
注意一下如果段落前有空格，那么
<w:t>
的格式是不同的，如下，多了这个space描述，所以需要特殊处理
代码量其实很少，关键在于正则的编写，上述docx文档提取后的输出结果如下

最后我把这个工具写成了一个npm包，地址点这里

Ⅱ word可以解析html吗

word可以解析html。具体方法如下：
1、使用墨子界面上左上角的文件，在展开的页面中选择打开。
2、在其中的打开界面里选择所需要的html个键，解析即可。

Ⅲ java：解析word文档（前程无忧简历），最好有代码案例poi或者jacob解析都可以，有jar资源，求急。感谢

poi读取前程无忧的简历会打不开的，至少我以前读是这样的，因为他有时候是mht文件直接另存为word文档的，所以保险起见建议用jacob来读，如果他是doc或者是docx文档可以转化为html然后用jsoup来读取，效果挺好的

下面是转化的代码：

packagecom.java.doc;
importcom.jacob.activeX.ActiveXComponent;
importcom.jacob.com.Dispatch;
importcom.jacob.com.Variant;
publicclassJacobRead{
publicstaticvoidextractDoc(StringinputFIle,StringoutputFile){
booleanflag=false;

//打开Word应用程序
ActiveXComponentapp=newActiveXComponent("Word.Application");
try{
//设置word不可见
app.setProperty("Visible",newVariant(false));
//打开word文件
Dispatchdoc1=app.getProperty("Documents").toDispatch();
Dispatchdoc2=Dispatch.invoke(
doc1,
"Open",
Dispatch.Method,
newObject[]{inputFIle,newVariant(false),
newVariant(true)},newint[1]).toDispatch();
//作为txt格式保存到临时文件
Dispatch.invoke(doc2,"SaveAs",Dispatch.Method,newObject[]{
outputFile,newVariant(7)},newint[1]);
//关闭word
Variantf=newVariant(false);
Dispatch.call(doc2,"Close",f);
flag=true;
}catch(Exceptione){
e.printStackTrace();
}finally{
app.invoke("Quit",newVariant[]{});
}
if(flag==true){
System.out.println("TransformedSuccessfully");
}else{
System.out.println("TransformFailed");
}
}

publicstaticvoidmain(String[]args){
	
	
JacobRead.extractDoc("D:/xxxx简历.doc","D:/e.txt");
}
}

当然，也可以转化为txt读取，这部分代码没保存，你可以到网上找找，和转化成html的方法大差不差。

然后下面是我以前写的poi读取的方式：

packageTestHanLp;

importjava.io.FileInputStream;
importjava.io.FileNotFoundException;
importjava.io.IOException;

importorg.apache.poi.POIXMLDocument;
importorg.apache.poi.POIXMLTextExtractor;
importorg.apache.poi.hwpf.extractor.WordExtractor;
importorg.apache.poi.openxml4j.opc.OPCPackage;
importorg.apache.poi.xwpf.extractor.XWPFWordExtractor;
importorg.apache.poi.xwpf.usermodel.XWPFDocument;


publicclassTest{
	
	privatestaticStringtext="";
	publicstaticStringRead(Stringpath)throwsException{
		//解析docx格式的简历
		if(path.toLowerCase().endsWith("docx")){
			
			try{
				OPCPackageoPCPackage=POIXMLDocument.openPackage(path);
		XWPFDocumentxwpf=newXWPFDocument(oPCPackage);
		POIXMLTextExtractorex=newXWPFWordExtractor(xwpf);
	text=ex.getText();
		oPCPackage.close();
		}
		catch(FileNotFoundExceptione)
		{
		e.printStackTrace();
		}
		catch(IOExceptione)
		{
		e.printStackTrace();
		}
			
		}else{
			
			//解析doc格式的简历
			if(path.toLowerCase().endsWith("doc")){
				FileInputStreamfis=newFileInputStream(path);//载入文档
				WordExtractorwordExtractor=newWordExtractor(fis);
			String[]paragraph=wordExtractor.getParagraphText();
			StringBufferstringBuffer=newStringBuffer();
			for(inti=0;i<paragraph.length;i++){
					if(null!=paragraph[i]&&!"".equals(paragraph[i])){
						paragraph[i]=paragraph[i].substring(0,paragraph[i].length()-1);//去掉末尾符号
					}
					stringBuffer.append(paragraph[i]).append("
");//将每一小段隔开
				}
				text=stringBuffer.toString();
			}	
		}
		returntext;
	}
}

望题主采纳

对了，jacob读取word文档的效果比poi号，但运行速度不够，用的时候自己考虑考虑吧

Ⅳ word文档出现文件无法解析是怎么回事

肯定是编辑的时候用的word版本比较高但是打开的那个word版本比较低，有些个文件解析不出来，出现乱码！

Ⅳ java解析word文档有哪些方法

java读取word文档时，虽然网上介绍了很多插件poi、java2Word、jacob、itext等等，poi无法读取格式(新的估
计行好像还在处于研发阶段，不太稳定，做项目不太敢用)；java2Word、jacob容易报错找不到注册，比较诡异，我曾经在不同的机器上试过，操作
方法完全一致，有的机器不报错，有的报错，去他们论坛找高人解决也说不出原因，项目部署用它有点玄；itxt好像写很方便但是我查了好久资料没有见到过关
于读的好办法。经过一番选择还是折中点采用rtf最好，毕竟rtf是开源格式，不需要借助任何插件，只需基本IO操作外加编码转换即可。rtf格式文件表
面看来和doc没啥区别，都可以用word打开，各种格式都可以设定。

----- 实现的功能：读取rtf模板内容（格式和文本内容），替换变化部分，形成新的rtf文档。

----- 实现思路：模板中固定部分手动输入，变化的部分用$info$表示，只需替换$info$即可。

1、采用字节的形式读取rtf模板内容

2、将可变的内容字符串转为rtf编码

3、替换原文中的可变部分，形成新的rtf文档

主要程序如下：

public String bin2hex(String bin) {

char[] digital = "0123456789ABCDEF".toCharArray();

StringBuffer sb = new StringBuffer("");

byte[] bs = bin.getBytes();

int bit;

for (int i = 0; i < bs.length;i++) {

bit = (bs[i] & 0x0f0)
>> 4;

sb.append("\\'");

sb.append(digital[bit]);

bit = bs[i] & 0x0f;

sb.append(digital[bit]);

}

return sb.toString();

}

public String readByteRtf(InputStream ins, String path){

String sourcecontent =
"";

try{

ins = new
FileInputStream(path);

byte[] b
= new byte[1024];

if (ins == null) {

System.out.println("源模板文件不存在");

}

int bytesRead = 0;

while (true) {

bytesRead = ins.read(b, 0, 1024); // return final read bytes
counts

if(bytesRead == -1) {// end of InputStream

System.out.println("读取模板文件结束");

break;

}

sourcecontent += new String(b, 0, bytesRead); // convert to string
using bytes

}

}catch(Exception e){

e.printStackTrace();

}

return sourcecontent ;

}

以上为核心代码，剩余部分就是替换，从新组装java中的String.replace(oldstr,newstr);方法可以实现，在这就不贴了。源代码部分详见附件。

运行源代码前提：

c盘创建YQ目录，将附件中"模板.rtf"复制到YQ目录之下，运行OpreatorRTF.java文件即可，就会在YQ目录下生成文件名如：21时15分19秒_cheney_记录.rtf
的文件。

package com;

import java.io.File;

import java.io.FileInputStream;

import java.io.FileWriter;

import java.io.IOException;

import java.io.InputStream;

import java.io.PrintWriter;

import java.text.SimpleDateFormat;

import java.util.Date;

public class OperatorRTF {

public String strToRtf(String content){

char[] digital = "0123456789ABCDEF".toCharArray();

StringBuffer sb = new StringBuffer("");

byte[] bs = content.getBytes();

int bit;

for (int i = 0; i < bs.length; i++) {

bit = (bs[i] & 0x0f0)
>> 4;

sb.append("\\'");

sb.append(digital[bit]);

bit = bs[i] & 0x0f;

sb.append(digital[bit]);

}

return sb.toString();

}

public String replaceRTF(String content,String replacecontent,int
flag){

String rc = strToRtf(replacecontent);

String target = "";

if(flag==0){

target = content.replace("$timetop$",rc);

}

if(flag==1){

target = content.replace("$info$",rc);

}

if(flag==2){

target = content.replace("$idea$",rc);

}

if(flag==3){

target = content.replace("$advice$",rc);

}

if(flag==4){

target = content.replace("$infosend$",rc);

}

return target;

}

public String getSavePath() {

String path = "C:\\YQ";

File fDirecotry = new File(path);

if (!fDirecotry.exists()) {

fDirecotry.mkdirs();

}

return path;

}

public String ToSBC(String input){

char[] c =
input.toCharArray();

for (int i =
0; i < c.length; i++){

if (c[i] == 32){

c[i] = (char) 12288;

continue;

}

if (c[i] < 127){

c[i] = (char) (c[i] + 65248);

}

}

return new
String(c);

}

public void rgModel(String username, String content) {

// TODO Auto-generated method stub

Date current=new Date();

SimpleDateFormat sdf=new java.text.SimpleDateFormat("yyyy-MM-dd
HH:mm:ss");

String targetname = sdf.format(current).substring(11,13) + "时";

targetname += sdf.format(current).substring(14,16) + "分";

targetname += sdf.format(current).substring(17,19) + "秒";

targetname += "_" + username +"_记录.rtf";

String strpath = getSavePath();

String sourname = strpath+"\\"+"模板.rtf";

String sourcecontent = "";

InputStream ins = null;

try{

ins = new FileInputStream(sourname);

byte[] b = new byte[1024];

if (ins == null) {

System.out.println("源模板文件不存在");

}

int bytesRead = 0;

while (true) {

bytesRead = ins.read(b, 0, 1024); // return final read bytes
counts

if(bytesRead == -1) {// end of InputStream

System.out.println("读取模板文件结束");

break;

}

sourcecontent += new String(b, 0, bytesRead); // convert to string
using bytes

}

}catch(Exception e){

e.printStackTrace();

}

String targetcontent = "";

String array[] = content.split("~");

for(int i=0;i<array.length;i++){

if(i==0){

targetcontent = replaceRTF(sourcecontent, array[i], i);

}else{

targetcontent = replaceRTF(targetcontent, array[i], i);

}

}

try {

FileWriter fw = new FileWriter(getSavePath()+"\\" +
targetname,true);

PrintWriter out = new PrintWriter(fw);

if(targetcontent.equals("")||targetcontent==""){

out.println(sourcecontent);

}else{

out.println(targetcontent);

}

out.close();

fw.close();

System.out.println(getSavePath()+" 该目录下生成文件" +
targetname + " 成功");

} catch (IOException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

}

public static void main(String[] args) {

// TODO Auto-generated method stub

OperatorRTF oRTF = new OperatorRTF();

String content =
"2008年10月12日9时-2008年10月12日6时~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法~我们参照检验药品的方法";

oRTF.rgModel("cheney",content);

}

}

阅读全文

与word文件解析相关的资料

热点内容

手机桌面的文件路径发布：2025-04-29 11:15:31 浏览：892

改款新宝来怎么使用手机app 发布：2025-04-29 11:15:30 浏览：281

dede工具发布：2025-04-29 10:43:22 浏览：507

5g网盟app怎么下载发布：2025-04-29 10:41:44 浏览：486

微信备份老是连接中断发布：2025-04-29 10:36:35 浏览：886

出台多少份文件发布：2025-04-29 10:29:24 浏览：380

鞋子怎么搭配衣服的app 发布：2025-04-29 10:28:37 浏览：755

文件名使用的通配符的符号是什么发布：2025-04-29 10:28:35 浏览：916

lol分卷文件损坏怎么办发布：2025-04-29 10:22:08 浏览：276

6分管车螺纹怎么编程发布：2025-04-29 10:21:54 浏览：732

海口农商银行信用卡app是什么发布：2025-04-29 10:20:31 浏览：770

win10任务栏文件夹我的电脑发布：2025-04-29 10:11:49 浏览：14

安卓nba2k18 发布：2025-04-29 10:05:13 浏览：776

文件夹密码怎么修改密码发布：2025-04-29 09:57:59 浏览：271

苹果数据中心用什么服务器发布：2025-04-29 09:55:34 浏览：769

省内圆通快递寄文件夹需要多少钱发布：2025-04-29 09:48:50 浏览：740

iphone程序加密发布：2025-04-29 09:26:22 浏览：884

win10文件夹调整文件行高发布：2025-04-29 09:20:20 浏览：681

创意手绘教程发布：2025-04-29 09:11:09 浏览：754

微信删除帐号信息发布：2025-04-29 09:09:41 浏览：596

导航:首页 > 文件类型 > word文件解析

word文件解析

与word文件解析相关的资料

友情链接