使用 NodeJS 编写前端工具时,操作得最多的是文本文件,因此也就涉及到了文件编码的处理问题。我们常用的文本编码有 UTF8 和 GBK 两种,并且 UTF8 文件还可能带有 BOM。在读取不同编码的文本文件时,需要将文件内容转换为 JS 使用的 UTF8 编码字符串后才能正常处理。
1、BOM 的移除
BOM 用于标记一个文本文件使用 Unicode 编码,其本身是一个 Unicode 字符("uFEFF"),位于文本文件头部。在不同的 Unicode 编码下,BOM 字符对应的二进制字节如下:
3、单字节编码
有时候,我们无法预知需要读取的文件采用哪种编码,因此也就无法指定正确的编码。比如我们要处理的某些 CSS 文件中,有的用 GBK 编码,有的用 UTF8 编码。虽然可以一定程度可以根据文件的字节内容猜测出文本编码,但这里要介绍的是有些局限,但是要简单得多的一种技术。
首先我们知道,如果一个文本文件只包含英文字符,比如 Hello World,那无论用 GBK 编码或是 UTF8 编码读取这个文件都是没问题的。这是因为在这些编码下,ASCII0~128 范围内字符都使用相同的单字节编码。
反过来讲,即使一个文本文件中有中文等字符,如果我们需要处理的字符仅在 ASCII0~128 范围内,比如除了注释和字符串以外的JS代码,我们就可以统一使用单字节编码来读取文件,不用关心文件的实际编码是 GBK 还是 UTF8。
B. nodejs判断第一个字符是否是绝对路径
nodejs判断第一个字符是否是绝对路径处理方法为:
1、dirname表示当前文件所在的目录的绝对路径。
2、filename表示当前文件的绝对路径。
C. nodejs检查文件是否含有mp4
用exists方法检查。
可以用exists方法检查MP4文件是否存在,有两个参数分别为文件路径与回调函数。其中回调函数中参数为布尔值,表示文件是否存在。
Node.js是一个开源和跨平台的javaScript运行时环境。它几乎是任何类型项目的流行工具。Node.js在浏览器之外运行V8JavaScript引擎(GoogleChrome的内核)。这使得Node.js的性能非常好。Node.js应游铅用程序在单个进程中运行,无需为每个请求创建新的线程。Node.js在其标准库中提供了一组异步的I/O原语,以防止JavaScript代码阻塞,通常,Node.js中的库是使用非阻塞范式编写的,使得阻塞行为成为异常而不是常态。当Node.js执行I/O操作时(比如从网络读取、访问数据库或文件系统),Node.js将在响应返回时恢复操作(而不是阻塞线程和浪费CPU周渣前期等待)。这允许Node.js使用单个服务神梁好器处理数千个并发连接,而不会引入管理线程并发(这可能是错误的重要来源)的负担。
D. nodejs删除安卓手机指定文件
nodejs删除安卓手机指定文件
* 删除目录下 指定 文件方法
* 参数: dir 文件夹名称
* fs.stat => 判断是文件还是文件夹
* fs.unlink => 删除文件
* fs.readdir => 读取文件夹内容
*/
const fs = require('fs')
const path = require('path')
const deleteFiles = function (dir) {
fs.readdir(dir, function (err, files) {
files.forEach(function (filename) {
var src = path.join(dir, filename)
fs.stat(src, function (err, st) {
if (err) {
throw err
}
// 判断是否为文件
if (st.isFile()) {
// 这里可以使用正则,也可以使用其他方法,比如字符串处理等,/\.d\.ts$/
if (/\.we$/.test(filename)) {
fs.unlink(src, err => {
if (err) throw err
console.log('成功删除:' + src)
})
}
} else {
// 递归文件夹
deleteFiles(src)
}
})
})
})
}
deleteFiles('./')
复制代码
修改文件名称
复制代码
fs = require('fs') // 引用文件系统模块
const PATH = `./src/` // 当前文件夹
const readFileList = function (path, filesList) {
filesList = filesList || []
let files = fs.readdirSync(path)
files.forEach(function (filename, index) {
// const stat = fs.statSync(path + filename); //读取的文件信息
// isDirectory 判断是不是目录
if (fs.statSync(path + filename).isDirectory()) {
// 递归读取文件
readFileList(`${path}${filename}/`, filesList)
} else {
filesList.push({
path, // 路径
filename // 名字
})
}
})
return filesList
}
// 修改文件名称
const rename = function (oldPath, newPath, filename, newSuffixFile) {
fs.rename(oldPath, newPath, function (err) {
if (err) {
throw err
}
console.log(`${filename} 修改为 => ${newSuffixFile}`)
})
}
// 批量修改文件名称
const getChangeFiles = function (path, oldSuffix, newSuffix) {
if (!oldSuffix && !newSuffix) {
console.log(`后缀未设置`)
}
this.readFileList(path).forEach(item => {
if (item.filename.indexOf(oldSuffix) > -1) {
console.log(item.filename)
let oldPath = item.path + item.filename,
newSuffixFile = item.filename.split(oldSuffix)[0] + newSuffix,
newPath = item.path + newSuffixFile
rename(oldPath, newPath, item.filename, newSuffixFile)
}
})
}
getChangeFiles(PATH, `.we`, `.js`)
// 引入fs文件处理模块
const fs = require('fs')
// 现在我们要关心的是‘icons‘文件夹
// 我们不妨用变量表示这个文件夹名称,方便日后维护和管理
const src = 'dist'
// API文档中中找到遍历文件夹的API
// 找到了,是fs.readdir(path, callback)
// 文档中有叙述:
// 读取 path 路径所在目录的内容。 回调函数 (callback) 接受两个参数 (err, files) 其中 files 是一个存储目录中所包含的文件名称的数组
// 因此:
fs.readdir(src, function (err, files) {
// files是名称数组,因此
// 可以使用forEach遍历哈, 此处为ES5 JS一点知识
// 如果不清楚,也可以使用for循环哈
files.forEach(function (filename) {
// 下面就是文件名称重命名
// API文档中找到重命名的API,如下
// fs.rename(oldPath, newPath, callback)
// 下面,我们就可以依葫芦画瓢,确定新旧文件名称:
const oldPath = src + '/' + filename
// newPath = src + ‘/‘ + filename.replace(/_/g, ‘-‘);
const newPath = src + '/' + 'index.html'
if (filename === 'Homepad.html') {
// 重命名走起
fs.rename(oldPath, newPath, function (err) {
if (!err) {
console.log(filename + '重命名成功!')
}
})
}
})
})
复制代码
E. nodejs编译后js文件名前缀
Node.js 是一个基于 Chrome V8 引擎的 JavaScript 运行环境。
Node与javaScript的区别在于,javaScript的顶层对象是window,而node是global
//这里使用的var声明的变量不是全局的,是当前模块下的,用global声明的表示是全局的
var s = 100;
global.s = 200;
//这里访问到的s是var生命的
console.log(s); //100
//这里访问到的才是全局变量
console.log(global.s); //200
模块:在node中,文件和模块是一一对应的,也就是一个文件就是一个模块;每个模块都有自己的作用域,我们通过var申明的变量并非全局而是该模块作用域下的。
(2)mole模块
1、文件查找
1)首先按照加载的模块的文件名称进行查找,如果没有找到,则会带上 .js、.json 或 .node 拓展名在加载
2)以 '/' 为前缀的模块是文件的绝对路径。 例如,require('/home/marco/foo.js') 会加载 /home/marco/foo.js 文件。
3)以 './' 为前缀的模块是相对于调用 require() 的文件的。 也就是说,circle.js 必须和 foo.js 在同一目录下以便于 require('./circle') 找到它。
4)当没有以 '/'、'./' 或 '../' 开头来表示文件时,这个模块必须是一个核心模块或加载自 node_moles 目录。
5)如果给定的路径不存在,则 require() 会抛出一个 code 属性为 'MODULE_NOT_FOUND' 的 Error。
2、mole 作用域
在一个模块中通过var定义的变量,其作用域范围是当前模块,外部不能够直接的访问,如果我们想一个模块能够访问另外一个模块中定义的变量,可以有一下两种方式:
1)把变量作为global对象的一个属性,但这样的做法是不推荐的
2)使用模块对象 mole。mole保存提供和当前模块有关的一些信息。
在这个mole对象中有一个子对象exports对象,我们可以通过这个对象把一个模块中的局部变量对象进行提供访问。
//这个方法的返回值,其实就是被加载模块中的mole.exports
require('./02.js');
3、__dirname:当前模块的目录名。
例子,在 /Users/mjr 目录下运行 node example.js:
console.log(__dirname);
// 输出: /Users/mjr
console.log(path.dirname(__filename));
// 输出: /Users/mjr
4、__filename:当前模块的文件名(处理后的绝对路径)。当前模块的目录名可以使用 __dirname 获取。
在 /Users/mjr 目录下运行 node example.js:
console.log(__filename);
// 输出: /Users/mjr/example.js
console.log(__dirname);
// 输出: /Users/mjr
(3)process(进程)
process 对象是一个全局变量,提供 Node.js 进程的有关信息以及控制进程。 因为是全局变量,所以无需使用 require()。
1、process.argv
返回进程启动时的命令行参数。第一个元素是process.execPath。第二个元素是当前执行的JavaScript文件的路径。剩余的元素都是额外的命令行参数。
console.log(process.argv);
打印结果:
2、process.execPath返回启动进程的可执行文件的绝对路径。
3、process.env 返回用户的环境信息。
在process.env中可以新增属性:
process.env.foo = 'bar';
console.log(process.env.foo);
可以通过delete删除属性:
delete process.env.foo;
console.log(process.env);
在Windows上,环境变量不区分大小写
4、process.pid 属性返回进程的PID。
5、process.platform属性返回字符串,标识Node.js进程运行其上的操作系统平台。
6、process.title 属性用于获取或设置当前进程在 ps 命令中显示的进程名字
7、process.uptime() 方法返回当前 Node.js 进程运行时间秒长
注意: 该返回值包含秒的分数。 使用 Math.floor() 来得到整秒钟。
8、process.versions属性返回一个对象,此对象列出了Node.js和其依赖的版本信息。
process.versions.moles表明了当前ABI版本,此版本会随着一个C++API变化而增加。 Node.js会拒绝加载模块,如果这些模块使用一个不同ABI版本的模块进行编译。
9、process对象-输入输出流
var a;
var b;
process.stdout.write('请输入a的值: ');
process.stdin.on('data', (chunk) => {
if (!a) {
a = Number(chunk);
process.stdout.write('请输入b的值:');
}else{
b = Number(chunk);
process.stdout.write('a+b的值:'+(a+b));
process.exit();
}
});
(4)Buffer缓冲器
Buffer类,一个用于更好的操作二进制数据的类,我们在操作文件或者网络数据的时候,其实操作的就是二进制数据流,Node为我们提供了一个更加方便的去操作这种数据流的类Buffer,他是一个全局的类
1、如何创建使用buffer
Buffer.from(array) 返回一个 Buffer,包含传入的字节数组的拷贝。
Buffer.from(arrayBuffer[, byteOffset [, length]]) 返回一个 Buffer,与传入的 ArrayBuffer 共享内存。
Buffer.from(buffer) 返回一个 Buffer,包含传入的 Buffer 的内容的拷贝。
Buffer.from(string[, encoding]) 返回一个 Buffer,包含传入的字符串的拷贝。
Buffer.alloc(size[, fill[, encoding]]) 返回一个指定大小且已初始化的 Buffer。 该方法比 Buffer.allocUnsafe(size) 慢,但能确保新创建的 Buffer 不会包含旧数据。
Buffer.allocUnsafe(size) 与 Buffer.allocUnsafeSlow(size) 返回一个指定大小但未初始化的 Buffer。 因为 Buffer 是未初始化的,可能包含旧数据。
// 创建一个长度为 10、且用 01 填充的 Buffer。
const buf1 = Buffer.alloc(10,1);
// 创建一个长度为 10、且未初始化的 Buffer。
// 这个方法比调用 Buffer.alloc() 更快,但返回的 Buffer 实例可能包含旧数据,因此需要使用 fill() 或 write() 重写。
const buf2 = Buffer.allocUnsafe(10);
const buf3 = Buffer.from([1, 2, 3]);
const buf4 = Buffer.from('tést');
console.log(buf1); //<Buffer 01 01 01 01 01 01 01 01 01 01>
console.log(buf2); //<Buffer 00 00 00 00 08 00 00 00 07 00>
console.log(buf3); //<Buffer 01 02 03>
console.log(buf4); //<Buffer 74 c3 a9 73 74>
2、Buffer对象提供的toString、JSON的使用
1)buf.toString(encoding,start,end)
var bf = Buffer.from('miaov');
console.log(bf.toString('utf-8',1,4)); //iaov
console.log(bf.toString('utf-8',0,5)); //miaov
console.log(bf.toString('utf-8',0,6)); //miaov
2)buf.write(string,offset,length,encoding)
string 要写入 buf 的字符串。
offset 开始写入的偏移量。默认 0,这里指的是buffer对象的起始要写入的位置。
length 要写入的字节数。默认为 buf.length - offset。
encoding string 的字符编码。默认为 'utf8'。
返回: 已写入的字节数。
var str = "miaov hello";
var bf = Buffer.from(str);
var bf2 = Buffer.alloc(8);
//从0开始写入5个
bf2.write(str,0,5);
console.log(bf);
console.log(bf2);
3)buf.toJSON()
const buf = Buffer.from([0x1, 0x2, 0x3, 0x4, 0x5]);
const json = JSON.stringify(buf);
console.log(json);
// 输出: {"type":"Buffer","data":[1,2,3,4,5]}
3、Buffer中静态方法的使用
1)Buffer.isEncoding(encoding) : 判断是否是Buffer支持的字符编码,是则返回true,不是则返回false
console.log(Buffer.isEncoding('utf-8')); //true
2)Buffer.isBuffer(obj) :如果 obj 是一个 Buffer,则返回 true,否则返回 false。
(5)fs(文件系统)
该模块是核心模块,需要使用require('fs')导入后使用,该模块主要用来操作文件
1、fs.open(path, flags, mode, callback)
path:要打开的文件的路径;
flags:打开文件的方式 读/写;
mode:设置文件的模式 读/写/执行
callback(err,fd):文件打开以后,在回调函数中做相应的处理,回调函数的两个参数:
err:文件打开失败的错误保存在err里面,如果成功err为null
fd:被打开文件的标识
var fs = require('fs');
fs.open('./test.txt','r',function(err,fd){
if(err){
console.log("文件打开失败");
}else{
console.log("文件打开成功");
}
});
2、fs.openSync(path, flags, mode) :返回文件描述符。
var fs = require('fs');
console.log(fs.openSync('./test.txt','r')); //3
3、fs.read(fd, buffer, offset, length, position, callback)
从 fd 指定的文件中读取数据;
buffer 指定要写入数据的 buffer;
offset 指定 buffer 中开始写入的偏移量;
length 指定要读取的字节数;
position 指定文件中开始读取的偏移量。 如果 position 为 null,则从文件的当前位置开始读取;
callback 有三个参数 (err, bytesRead, buffer)
示例:test.txt 中的值为123456789
fs.open('./test.txt','r',function(err,fd){
if(!err){
var bf = Buffer.alloc(5);
fs.read(fd,bf,0,5,0,function(){
console.log(bf.toString()); //12345
})
}
});
4、fs.write(fd, buffer, offset, length, position, callback)
将 buffer 写入到 fd 指定的文件。
offset 指定 buffer 中要开始被写入的偏移量,length 指定要写入的字节数。
position 指定文件中要开始写入的偏移量。 如果 typeof position !== 'number',则从当前位置开始写入。
callback 有三个参数 (err, bytesWritten, buffer),其中 bytesWritten 指定 buffer 中已写入文件的字节数。
var fs = require('fs');
fs.open('./test.txt','r+',function(err,fd){
if(!err){
var bf = Buffer.alloc(5);
fs.read(fd,bf,0,5,0,function(){
console.log(bf.toString()); //12345
});
var bf = Buffer.from('test数据');
fs.write(fd,bf,0,10,0);
fs.write(fd,'测试数据2',10,'utf-8');
}
});
fs.write(fd, string, position, encoding, callback)
将 string 写入到 fd 指定的文件。 如果 string 不是一个字符串,则会强制转换成字符串。
position 指定文件中要开始写入的偏移量。 如果 typeof position !== 'number',则从当前位置开始写入。
encoding 指定字符串的编码。
callback 有三个参数 (err, written, string),其中 written 指定字符串中已写入文件的字节数。 写入的字节数与字符串的字符数是不同的。
5、fs.exists(path,callback)检查指定路径的文件或者目录是否存在
fs.appendFile(path, data, callback):将数据追加到文件,如果文件不存在则创建文件。
//检查文件是否存在
var fs = require('fs');
var filename = './test2.txt';
fs.exists(filename,function(isExists){
if(!isExists){
fs.writeFile(filename,'miaov',function(err){
if(err){
console.log("文件创建失败");
}else{
console.log("文件创建成功");
}
});
}else{
fs.appendFile(filename,'-leo',function(err){
if(err){
console.log("文件内容追加失败");
}else{
console.log("文件内容追加成功");
}
})
}
});
(6)前端项目自动化构建
1、创建myProject项目文件以及对应的文件夹
var projectData ={
'name':'myProject',
'fileData':[
{
'name':'css',
'type':'dir'
},{
'name':'js',
'type':'dir'
},{
'name':'images',
'type':'dir'
},{
'name':'index.html',
'type':'file',
'content' : '<html>\n\t<head>\n\t\t<title>title</title>\n\t</head>\n\t<body>\n\t\t<h1>Hello</h1>\n\t</body>\n</html>'
}
]
};
var fs = require('fs');
if(projectData.name){
// 创建项目文件夹
fs.mkdirSync(projectData.name);
var fileData = projectData.fileData;
if(fileData && fileData.length){
fileData.forEach(function(file){
//文件或文件夹路径
file.path = './'+projectData.name +'/'+ file.name;
//根据type类型创建文件或文件夹
file.content = file.content || '';
switch(file.type){
case 'dir':
fs.mkdirSync(file.path);
break;
case 'file':
fs.writeFileSync(file.path,file.content);
break;
default:
break;
}
});
}
}
2、自动打包多个文件
var fs = require('fs');
var filedir = './myProject/dist';
fs.exists(filedir,function(isExists){
if(!isExists){
fs.mkdirSync(filedir);
}
fs.watch(filedir,function(ev,file){
//只要有一个文件发生了变化,我们就需要对文件夹下的所有文件进行读取、合并
fs.readdir(filedir,function(err,dataList){
var arr = [];
dataList.forEach(function(file){
if(file){
//statSync查看文件属性
var info = fs.statSync(filedir + '/' +file);
//mode文件权限
if(info.mode === 33206){
arr.push(filedir + '/' +file);
}
}
});
//读取数组中的文件内容
var content = '';
arr.forEach(function(file){
var c = fs.readFileSync(file);
content += c.toString()+'\n';
});
//合并文件中的内容
fs.writeFileSync('./myProject/js/index.js',content);
})
});
});
(7)使用node进行web开发
1、搭建一个http的服务器,用于处理用户发送的http请求
//加载一个http模块
var http = require('http');
//通过http模块下的createServer创建并返回一个web服务器对象
var server = http.createServer();
//开启 HTTP 服务器监听连接,只有调用了listen方法以后,服务器才开始工作
server.listen(8000,'localhost');
//服务器是否正在监听连接
server.on('listening',function(){
console.log("listening..........");
});
//每次接收到一个请求时触发,每个连接可能有多个请求(在 HTTP keep-alive 连接的情况下)。
server.on('request',function(){
res.write('<p>hello</p>');
res.end();
});
2、request方法有两个参数:request、response
1)request:http.IncomingMessage的一个实例,获取请求的一些信息,如头信息,数据等
httpVession:使用的http协议的版本
headers:请求头信息中的数据
url:请求的地址
method:请求的方式
2)response:http.ServerResponse的一个实例,可以向请求的客户端输出返回响应
write(chunk,encoding):发送一个数据块到相应正文中
end(chunk,encoding):当所有的正文和头信息发送完成以后调用该方法告诉服务器数据已经全部发送完成了,这个方法在每次完成信息发送以后必须调用,并且是最后调用。
statusCode:该属性用来设置返回的状态码
setHeader(name,value):设置返回头信息
writeHead(statusCode,reasonPhrase,headers)这个方法只能在当前请求中使用一次,并且必须在response.end()之前调用
3、使用fs模块实现行为表现分离
var http = require('http');
var url = require('url');
var fs = require('fs');
var server = http.createServer();
//html文件的路径
var htmlDir = __dirname + '/html/';
server.on('request',function(request,response){
var urlStr = url.parse(request.url);
//根据pathname匹配对应的html文件
switch(urlStr.pathname){
case '/':
sendData(htmlDir + 'index.html',request,response);
break;
case '/user':
sendData(htmlDir + 'user.html',request,response);
break;
case '/login':
sendData(htmlDir + 'login.html',request,response);
break;
default:
//处理其他情况
sendData(htmlDir + 'err.html',request,response );
break;
}
});
function sendData(file,request,response){
//读取文件,存在则返回对应读取的内容,不存在则返回错误信息
fs.readFile(file,function(err,data){
if(err){
response.writeHead(404,{
'content-type':'text/html;charset=utf-8'
});
response.end('<h1>页面不存在</h1>')
}else{
response.writeHead(200,{
'content-type':'text/html;charset=utf-8'
});
response.end(data);
}
})
}
server.listen(8000,'localhost');
F. nodejs statSync判断一个目录或文件是否存在
nodejs statSync判断一个目录桥举或文件是否存在
获取目则银录下某个文敏盯碧件中的信息 [ { name, photoUrl, ...}, ]
目录: 项目名称/app/public/json_tb/user_1/blog_1/commiter_2.json
G. nodejs实现一个word文档解析器思路详解
之前项目里遇到一个需求,需要前端上传一个word文档,然后后端提取出该文档的指定位置的内容并保存。这里后端用的是nodejs,开始接到这个需求,发现无从下手,主要是没有处理过word这种类型的文档,怎么解析?
Excel倒是有相关的库可以用,而且很简单
思路
搜索了好一会儿,在npm上发现了一个叫做
adm-zip
的包,这个包可以解压缩word文档,原来word文档也是可以解压缩的,之前一直不知道,通过如下代码就可以将word文档解压缩,并进一步提取内容
var
admZip
=
require('adm-zip');
const
zip
=
new
admZip('test.docx');
//将该docx解压到指定文件夹result下
zip.extractAllTo("./result",
/*overwrite*/true);
首先我们新建一个docx文档,内容如下
然后运行上述代码进行解压缩,得到如下的文件,由下图可以看出生成了好几个文件夹,word的内容其实是在word文件夹里的document.xml文件内(这里解压缩后其实源文件还在,并没有消失)
进入word文件夹后的内容
我们继续打开document.xml文件来一探究竟里面到底是啥?注意要用浏览器直接打开,如果用ide打开显示出的所有内容都在一行,无法阅读!
上图只是word文档的一部分,会发现word文档内看着只有几段文字,但是xml中却是长篇大论,仔细分析下也很正常,xml全称可扩展标记语言,其被设计为传输和存储数据,它仅仅是一个纯文本的表示,而word中内容格式千变万化,肯定需要一种方法来有效描述这些内容的格式,因此采用了xml来描述
我们尝试一下将
测试文档
四个字加粗变色倾斜字体,如下图
然后再进行解压缩,得到docuemnt.xml并查看对应的内容,如下
这就很明显了,
<w:b/>
表示文字加粗,
<w:i/>
表示文字倾斜,
<w:color>
表示文字的颜色,所以这么4个字就需要这几行xml来描述,因此长篇大论的xml也就不足为奇
提取内容
上面说到了xml仅仅是一个文本的表示,我们可以用如下代码读取整个xml的内容,结果是一个
string
var
contentXml
=
zip.readAsText("word/document.xml");
接下来是重点,如何提取我们想要的内容呢,答案是正则表达式,首先我们得分析一下word文档的结构,word文档其实是由叫做
Paragraph
的段落所构成,在vb中可以很轻松的获取并修改段落,官网传送门点此
那么到底怎么样才是一个
Paragraph
呢,其实很简单,仔细观察word文档,见到下图中的小箭头了么,每个小箭头前面的内容就是一个段落,那么下图中一共有16个
Paragraph
,当然有些段落是空的,没有任何内容
我们再来研究xml的结构,收起展开的xml,如下图,发现
<w:p></w:p>
这么个标签就是表示的一个段落,中间还有些
<w:p>
藏在表格内,这么一看表格前面3个段落,后面3个段落,和上图是对应的
因此,
我们就可以提取出每个段落的文本并返回一个数组,每一项就是一个段落的内容
,这样就能够完整的解析出整个word的内容,关键在于如何提取每个
<w:p>
的内容,我们继续展开一个
<w:p>
进行观察,如下图,发现内容虽多,其实文本都保存在
<w:t>
中间,因此思路就清晰了,
首先用正则表达式提取出所有<w:p>的内容,再针对每个<w:p>的内容,进行进一步正则提取,提取出其里面所有<w:t>的内容,并拼接在一起构成一个段落的总内容
具体代码
下面是具体的提取代码
//参数是word文件名,第二个参数是回调表示解析完成
var
parser
=
function
parseWordDocument(absoluteWordPath,callback){
//返回内容的数组
var
resultList
=
[];
//如果文件存在
fs.exists(absoluteWordPath,
function(exists){
if(exists){
//解压缩
const
zip
=
new
admZip(absoluteWordPath);
//将document.xml(解压缩后得到的文件)读取为text内容
var
contentXml
=
zip.readAsText("word/document.xml");
//正则匹配出对应的<w:p>里面的内容,方法是先匹配<w:p>,再匹配里面的<w:t>,将匹配到的加起来即可
//注意?表示非贪婪模式(尽可能少匹配字符),否则只能匹配到一个<w:p></w:p>
var
matchedWP
=
contentXml.match(/<w:p.*?>.*?<\/w:p>/gi);
//继续匹配每个<w:p></w:p>里面的<w:t>,这里必须判断matchedWP存在否则报错
if(matchedWP){
matchedWP.forEach(function(wpItem){
//注意这里<w:t>的匹配,有可能是<w:t
xml:space="preserve">这种格式,需要特殊处理
var
matchedWT
=
wpItem.match(/(<w:t>.*?<\/w:t>)|(<w:t\s.[^>]*?>.*?<\/w:t>)/gi);
var
textContent
=
'';
if(matchedWT){
matchedWT.forEach(function(wtItem){
//如果不是<w:t
xml:space="preserve">格式
if(wtItem.indexOf('xml:space')===-1){
textContent+=wtItem.slice(5,-6);
}else{
textContent+=wtItem.slice(26,-6);
}
});
resultList.push(textContent)
}
});
//解析完成
callback(resultList)
}
}else{
callback(resultList)
}
});
};
注意一下如果段落前有空格,那么
<w:t>
的格式是不同的,如下,多了这个space描述,所以需要特殊处理
代码量其实很少,关键在于正则的编写,上述docx文档提取后的输出结果如下
最后我把这个工具写成了一个npm包,地址点这里
H. nodejs fs.stat 能查看文件夹是否存在么
varfs=require("fs");varstat=fs.lstatSync("./xx");console.log(stat.isDirectory());如果返回结果为true则为文件夹。
I. nodejs如何判断数据库操作是否执行完毕
判断如下:
将运行结果用arr.length来判断,如果arr.length不像我们期望的那样,比如由于网络传输或者处理异常,少一条,那么我们将无法做后续的处理。这种处理方式强业务耦合;不具有普适性。taskWatcher 充当异步任务执行情况的观察员,仅与异步过程的调用次数有关,且与其他处理过程无关。方法返回一个 Promise, 它将在上述可迭代对象中的所有 Promise 被 resolve 之后被 resolve,或者在任一 Promise 被 reject 后被 reject。
J. nodejs 判断key是否存在exists 每次都是true
判断每次都是true if(rdsclie