poi读取word文件_POI读取word文件怎样返回包含关键字的一行

⑴ POI读取word 文件怎样返回包含关键字的一行

给个思路吧。
读取word用doc4j，然后就是读成字符串进行处理了。
提取关键字专首先是中文分词技属术，就是把一段话划分成多个组成的词语，然后统计词语的出现次数，这个是主要依据。这个是有实现的jar包的，可以去搜，搜java 中文分词就行。
分词之后，记录词语出现位置，这个是辅助的依据，记录词语一句话中的位置，越靠前越像关键字，权重越高。
甚至可能需要建立一个权重体系，次数设置一个权重，整体位置设置一个权重，不同位置权重也不同。不了解权重可以理解成系数（百分比的，然后计算那个词是关键词）。
同时需要注意，可能需要排除一些常用词，哪些次需要排除，这个需要根据程序反复运行，读取不同word文章的结果来定。

⑵ java 中用poi读取word和用docx4j读取word

不知道你是具体读取Word里面的什么元素，下面以读取文字和图片为例吧，两个代码示例，你参考看看:

读取文本

import com.spire.doc.Document;
import java.io.FileWriter;
import java.io.IOException;
public class ExtractText {

public static void main(String[] args) throws IOException {

//加载Word文档
Document document = new Document();
document.loadFromFile("C:\Users\Administrator\Desktop\sample.docx");

//获取文档中的文本保存为String
String text=document.getText();

//将String写入Txt文件
writeStringToTxt(text,"ExtractedText.txt");
}

public static void writeStringToTxt(String content, String txtFileName) throws IOException {

FileWriter fWriter= new FileWriter(txtFileName,true);
try {
fWriter.write(content);
}catch(IOException ex){
ex.printStackTrace();
}finally{
try{
fWriter.flush();
fWriter.close();
} catch (IOException ex) {
ex.printStackTrace();
}
}
}
}

2. 读取图片

import com.spire.doc.Document;
import com.spire.doc.documents.DocumentObjectType;
import com.spire.doc.fields.DocPicture;
import com.spire.doc.interfaces.ICompositeObject;
import com.spire.doc.interfaces.IDocumentObject;
import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.ArrayList;
import java.util.LinkedList;
import java.util.List;
import java.util.Queue;
public class ExtractImages {
public static void main(String[] args) throws IOException {
//加载Word文档
Document document = new Document();
document.loadFromFile("C:\Users\Administrator\Desktop\sample.docx");
//创建Queue对象
Queue nodes = new LinkedList();
nodes.add(document);
//创建List对象
List images = new ArrayList();
//遍历文档中的子对象
while (nodes.size() > 0) {
ICompositeObject node = nodes.poll();
for (int i = 0; i < node.getChildObjects().getCount(); i++) {
IDocumentObject child = node.getChildObjects().get(i);
if (child instanceof ICompositeObject) {
nodes.add((ICompositeObject) child);
//获取图片并添加到List
if (child.getDocumentObjectType() == DocumentObjectType.Picture) {
DocPicture picture = (DocPicture) child;
images.add(picture.getImage());
}
}
}
}
//将图片保存为PNG格式文件
for (int i = 0; i < images.size(); i++) {
File file = new File(String.format("output/图片-%d.png", i));
ImageIO.write(images.get(i), "PNG", file);
}
}
}

注意这里使用的jar包是spire.doc.jar，需要在java程序中先导入jar文件。

⑶ 有关Java POI问题：从数据库读取word excel 或者是html文件，如何读取文件内容，创建包含内容的图片文件

你可以把word文件用二进制的方式保存到数据库，再把他读取出来，
WordExtractor extractor = new WordExtractor();
String str = extractor.extractText(in);
这个in 你可以把读取出来的二进制转为ByteArrayInputStream 对象。

⑷ java 谁有poi读取本地word然后在替换word的内容如table、图片....的demo、然后再将word转成pdf 在线等

读取到word后用freemarker 定义模板写出来就可以了！

⑸ java poi 操作word文档，怎么写入带上下标的文字

1.1 添加poi支持：包下载地址http://www.apache.org/dyn/closer.cgi/poi/release/

1.2 POI对Excel文件的读取操作比较方便，POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块，需要另外下载一个POI的扩展的Jar包。下载地址为http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/ 下载extractors-0.4_zip这个文件

package com.ray.poi.util;

import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.IOException;

import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.DocumentEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.textmining.text.extraction.WordExtractor;

/**
* 读写doc
* @author wangzonghao
*
*/
public class POIWordUtil {
/**
* 读入doc
* @param doc
* @return
* @throws Exception
*/
public static String readDoc(String doc) throws Exception {
// 创建输入流读取DOC文件
FileInputStream in = new FileInputStream(new File(doc));
WordExtractor extractor = null;
String text = null;
// 创建WordExtractor
extractor = new WordExtractor();
// 对DOC文件进行提取
text = extractor.extractText(in);
return text;
}
/**
* 写出doc
* @param path
* @param content
* @return
*/
public static boolean writeDoc(String path, String content) {
boolean w = false;
try {

// byte b[] = content.getBytes("ISO-8859-1");
byte b[] = content.getBytes();

ByteArrayInputStream s = new ByteArrayInputStream(b);

POIFSFileSystem fs = new POIFSFileSystem();
DirectoryEntry directory = fs.getRoot();

DocumentEntry de = directory.createDocument("WordDocument", s);

FileOutputStream ostream = new FileOutputStream(path);

fs.writeFilesystem(ostream);

s.close();
ostream.close();

} catch (IOException e) {
e.printStackTrace();
}
return w;
}

}
测试

package com.ray.poi.util;

import junit.framework.TestCase;

public class POIUtilTest extends TestCase {

public void testReadDoc() {
try{
String text = POIWordUtil.readDoc("E:/work_space/poi/com/ray/poi/util/demo.doc");
System.out.println(text);
}catch(Exception e){
e.printStackTrace();
}

}

public void testWriteDoc() {
String wr;
try {
wr = POIWordUtil.readDoc("E:/work_space/poi/com/ray/poi/util/demo.doc");

boolean b = POIWordUtil.writeDoc("c:\\demo.doc",wr);
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

}

⑹ 关于poi读和写word文档

java.lang.
明显得是提示数据越界了，检查一下你代码中有关数组的操作看下标是不是可能产生问题，这是运行时异常，查起来比较麻烦，主要是整理自己的思路。祝你顺利。

导航:首页 > 文件类型 > poi读取word文件

poi读取word文件

与poi读取word文件相关的资料

友情链接