wordcount降序_一个txt文档已经用结巴分词分完词怎么用python工具对这个分完词的文档进行计算统计词频求脚本非

① 一个txt文档，已经用结巴分词分完词，怎么用python工具对这个分完词的文档进行计算统计词频，求脚本，非

#!/usr/bin/envpython3
#-*-coding:utf-8-*-

importos,random

#假设要读取文件名为aa，位于当前路径
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注释掉的程序段，用于测试脚本，它生成20行数据，每行有1-20随机个数字，每个数字随机1-20
'''
test=''
foriinrange(20):
forjinrange(random.randint(1,20)):
test+=str(random.randint(1,20))+''
test+='
'
withopen(f_n,'w')aswf:
wf.write(test)
'''
withopen(f_n)asf:
s=f.readlines()

#将每一行数据去掉首尾的空格和换行符，然后用空格分割，再组成一维列表
words=[]
forlineins:
words.extend(line.strip().split(''))

#格式化要输出的每行数据，首尾各占8位，中间占18位
defgeshi(a,b,c):
returnalignment(str(a))+alignment(str(b),18)+alignment(str(c))+'
'
#中英文混合对齐，参考http://bbs.fishc.com/thread-67465-1-1.html，二楼
#汉字与字母格式化占位format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文
#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐
defalignment(str1,space=8,align='left'):
length=len(str1.encode('gb2312'))
space=space-lengthifspace>=lengthelse0
ifalignin['left','l','L','Left','LEFT']:
str1=str1+''*space
elifalignin['right','r','R','Right','RIGHT']:
str1=''*space+str1
elifalignin['center','c','C','Center','CENTER','centre']:
str1=''*(space//2)+str1+''*(space-space//2)
returnstr1

w_s=geshi('序号','词','频率')
#由(词,频率)元组构成列表，先按频率降序排序，再按词升序排序，多级排序，一组升，一组降，高级sorted
wordcount=sorted([(w,words.count(w))forwinset(words)],key=lambdal:(-l[1],l[0]))
#要输出的数据，每一行由：序号(占8位)词(占20位)频率(占8位)+'
'构成，序号=List.index(element)+1
for(w,c)inwordcount:
w_s+=geshi(wordcount.index((w,c))+1,w,c)
#将统计结果写入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
withopen(w_n,'w')aswf:
wf.write(w_s)

热点内容

shell编辑文件内容发布：2025-07-04 09:11:55 浏览：614

u盘驱动在哪个文件夹里发布：2025-07-04 09:03:14 浏览：938

华为手机跟苹果手机怎么克隆app 发布：2025-07-04 08:49:06 浏览：172

cad文件为什么显示文件名是否正确发布：2025-07-04 08:23:17 浏览：174

程序配置文件能自动转换成txt 发布：2025-07-04 08:20:27 浏览：985

r4烧录卡不同版本发布：2025-07-04 08:10:13 浏览：962

怎么升级qq群为2000 发布：2025-07-04 07:56:42 浏览：347

微信己册除的文件怎样找回来发布：2025-07-04 07:49:07 浏览：715

苹果美国账号共享2017 发布：2025-07-04 07:43:35 浏览：252

ps文件修改后打开还是原图发布：2025-07-04 07:33:46 浏览：220

烧卡机苹果4微信qq哪里下载发布：2025-07-04 07:33:03 浏览：780

ug120找不到指定文件发布：2025-07-04 07:30:02 浏览：522

cda文件怎么转换成mp3格式发布：2025-07-04 07:26:32 浏览：702

青岛hpv疫苗在哪个app预约发布：2025-07-04 07:25:44 浏览：881

双十一成交额2021数据在哪里看发布：2025-07-04 07:15:52 浏览：631

苹果手机怎么打开移动数据发布：2025-07-04 07:08:35 浏览：637

文件扫描成图片是彩色的吗发布：2025-07-04 06:58:37 浏览：50

编程里的comply什么意思发布：2025-07-04 06:46:22 浏览：91

电脑上面点了禁用网络怎么改回来发布：2025-07-04 06:35:37 浏览：28

javacatch执行发布：2025-07-04 06:35:32 浏览：182

导航:首页 > 文件教程 > wordcount降序

wordcount降序

与wordcount降序相关的资料

友情链接