导航:首页 > 文件教程 > wordcount降序

wordcount降序

发布时间:2025-01-12 15:45:45

① 一个txt文档,已经用结巴分词分完词,怎么用python工具对这个分完词的文档进行计算统计词频,求脚本,非

#!/usr/bin/envpython3
#-*-coding:utf-8-*-

importos,random

#假设要读取文件名为aa,位于当前路径
filename='aa.txt'
dirname=os.getcwd()
f_n=os.path.join(dirname,filename)
#注释掉的程序段,用于测试脚本,它生成20行数据,每行有1-20随机个数字,每个数字随机1-20
'''
test=''
foriinrange(20):
forjinrange(random.randint(1,20)):
test+=str(random.randint(1,20))+''
test+=' '
withopen(f_n,'w')aswf:
wf.write(test)
'''
withopen(f_n)asf:
s=f.readlines()

#将每一行数据去掉首尾的空格和换行符,然后用空格分割,再组成一维列表
words=[]
forlineins:
words.extend(line.strip().split(''))

#格式化要输出的每行数据,首尾各占8位,中间占18位
defgeshi(a,b,c):
returnalignment(str(a))+alignment(str(b),18)+alignment(str(c))+' '
#中英文混合对齐,参考http://bbs.fishc.com/thread-67465-1-1.html,二楼
#汉字与字母格式化占位format对齐出错对不齐汉字对齐数字汉字对齐字母中文对齐英文
#alignment函数用于英汉混合对齐、汉字英文对齐、汉英对齐、中英对齐
defalignment(str1,space=8,align='left'):
length=len(str1.encode('gb2312'))
space=space-lengthifspace>=lengthelse0
ifalignin['left','l','L','Left','LEFT']:
str1=str1+''*space
elifalignin['right','r','R','Right','RIGHT']:
str1=''*space+str1
elifalignin['center','c','C','Center','CENTER','centre']:
str1=''*(space//2)+str1+''*(space-space//2)
returnstr1

w_s=geshi('序号','词','频率')
#由(词,频率)元组构成列表,先按频率降序排序,再按词升序排序,多级排序,一组升,一组降,高级sorted
wordcount=sorted([(w,words.count(w))forwinset(words)],key=lambdal:(-l[1],l[0]))
#要输出的数据,每一行由:序号(占8位)词(占20位)频率(占8位)+' '构成,序号=List.index(element)+1
for(w,c)inwordcount:
w_s+=geshi(wordcount.index((w,c))+1,w,c)
#将统计结果写入文件ar.txt中
writefile='ar.txt'
w_n=os.path.join(dirname,writefile)
withopen(w_n,'w')aswf:
wf.write(w_s)

阅读全文

与wordcount降序相关的资料

热点内容
win10支持苹果指纹 浏览:711
大项目数据库有多少张表 浏览:764
outlook2010规则导入无文件夹 浏览:722
工厂文件夹里找不到 浏览:594
穿越火线更新文件在哪里 浏览:821
sap2000v15安装教程 浏览:370
苹果平板和安卓手机怎么共享网络 浏览:729
常州编程考级哪里不错 浏览:511
手机上的文件从哪里打开 浏览:727
qq异地登陆改不了密码 浏览:950
工作室网站建设 浏览:296
苹果win10网页怎么截屏快捷键 浏览:886
iphone手机如何下载网站文件 浏览:719
魅族触摸音效文件 浏览:161
找不到镜像文件和网络有关系吗 浏览:493
如何找到使用软件的app 浏览:73
wordcount降序 浏览:699
用模版批量建立excel表格文件 浏览:929
mif文件波形生成器 浏览:334
cf文件程序损坏修复器就行 浏览:469

友情链接