导航:首页 > 文件管理 > 统计一个大文件单词如何计数

统计一个大文件单词如何计数

发布时间:2024-08-22 10:16:48

『壹』 用c语言编程,统计文件中出现的单词的次数

#include <iostream>
#include <fstream>
#include <string>
#include <vector>
using namespace std;
//定义存储单词和出现次数的结构体
typedef struct{
string word;
int num;
}count;
int main()
{
vector<count> v; //定义count类型的向量,动态存储count变量
count tempstr; //临时存储count变量
tempstr.num=0; //num初始化为0
ifstream in("english.txt"); //打开文件
string temp; //临时变量,存储文件的一行信息
string str; //临时变量,存储单个单词
int count=0; //记录单词字符个数
int j=0;

//按行读取文件,对每行信息截取单词并计数
while(getline(in,temp))
{
for(int i=0;i<temp.length ();i++)
{
if((temp[i]>='a'&&temp[i]<='z')||(temp[i]>='A'&&temp[i]<='Z'))
count++; //如果是英文字符,则计数加1
else if(count) //单词遇非英文字符时,计数终止,截取单词
{
str=temp.substr (i-count,count); //取子串(截取单词)
if(v.size ()) //若向量的长度不为0,则将单词与已有单词比较
{
for(j=0;j<v.size ();j++)
if(str.compare(v[j].word )==0)
{
v[j].num ++; //单词相同,则将相应单词的数目加1
count=0; //计数变量重新赋值为0,以便记录新的单词
break;
}
} //end if
if(j>=v.size ()) //单词第一次出现,将其添加至向量中
{
tempstr.word = str;
tempstr.num =1;
v.push_back (tempstr);
count = 0; //单词添加完毕,计数变量归0,记录新单词
} //end if
} //end elseif
} //end for
} //end while
//打印单词及出现次数
for(int i=0;i<v.size ();i++)
cout<<"the word is:"<<v[i].word<<", the times is:"<<v[i].num<<endl;
return 0;
}

『贰』 C语言小白求问。如何读取字符串文件,并根据不同长度的单词统计总共出现的频率

看你问题演示,是统计一段英文文字中,不同单词出现次数(但world明明只出现1次,你演示代码却输出的是2)。

如想统计一段文件中的英文单词出现次数。需实现以下功能:

一、遍历字符串,通过分割符号空格及标点符号获取单词数组。

二、大小写转换,把数组单词全部转换为大写或者小写(识别同一个单词不同大小写)。

三、遍历单词数组,累加统计每个单词数量。(可遍历到第一个单词作为当前统计对象,之后每遍历到相同单词,就将对应变量计数+1,并将该单词字符串置0)。

思路:可先用fopen打开文件流,之后用fgets把全文读出到字符串变量。

之后两个选择:

1、直接变量字符串,遇字母作为一个单词开始,遇非字母作为一个字母结束,这样把所有单词,拆出来放到字符串数组中。(大小写转换可同时进行)。

2、变量字符串将所有标点符号全部替换成空格,再用fprintf写入覆盖原文件,再用循环fscanf(返回-1表示读取结束),将所有以空格间隔的单词直接读取到字符串数组。

最后变量字符串数组。

『叁』 python 文件内容操作,如一个文件100万条数据,查询相同行数

使用open函数逐行读抄取文件,依次对比袭,如包含要求字符串,则数量累加1,读取完成后可统计出行数,代码如下:

n=0
forlineinopen('filename','r'):
if'固定字符串'inline:
n+=1

print(n)

说明:

使用 for line in open这种方式可以提高代码效率,如需要更复杂统计,例如重复行,则可以使用hash函数,把行hash值存入列表,再做统计。

『肆』 word文档如何对英文单词计数

推荐用软件Replace Pioneer,可以找出所有单词并可以按词频排序。

详细步骤:

首先需要把word文档保内存为txt文本文件,然后:容

1. 安装并打开Replace Pioneer, 选择Tools->Pattern Counter菜单
2. 在上面的Source选择 File/http,然后在右边输入(或选择)txt文本的路径。
3. 确定Counter Template选择的是Characters, Words, Lines(默认值)
4. 点中第3行Words,然后点击Detail,就可以按照出现次数列出所有词的频率。

不仅如此,你可以统计任何模式的出现频率,比如标点符号,单个字符,双字符组合,等等。

如果你会正则表达式,你甚至可以统计有多少个词是以s结尾的,多少个词是3个字母的,等等任意统计。

『伍』 文本文件单词的检索与计数C/C++代码

完全原创,已经编译运行确认:
创建一个a.txt 存放文本,
但是注意,由于时间较紧,所以对于标点符号的处理没有做。

#include<conio.h>
#include<stdio.h>
#include<string.h>
#include<ctype.h>

#define N 100

struct a
{
char ch[20];
int m;
int flag;
};

void main()
{
struct a word[N]={NULL};

int k=0,j=0,i=0,count=1;
FILE *fp;
char c[20];

if((fp=fopen("a.txt","r"))!=NULL)
{
while(!(feof(fp)))
{
fscanf(fp,"%s",word[k].ch);
k++;
}

for(i=0;i<k;i++)
{
if(word[i].flag!=1)
{
word[i].flag=1;
word[i].m++;

for(j=i+1;j<k;j++)
{
if((strcmp(word[i].ch,word[j].ch)==0)&&(word[j].flag!=1))
{
word[i].m++;
word[j].flag=1;
}
}
}
}
}

printf("文本统计结果如下: \n");

for(i=0;(word[i].ch!=NULL)&&(i<N);i++)
{
if(word[i].m!=0)
{
printf("%3d. %s,出现了次数:%d次.\n",count,word[i].ch,word[i].m);
count++;
}

}

getch();
}

阅读全文

与统计一个大文件单词如何计数相关的资料

热点内容
u盘两个系统可以放一个文件夹吗 浏览:538
linuxshell变量累加 浏览:386
win10控制面板怎么看 浏览:574
如何编程换装游戏程序 浏览:269
怎么登录沭阳县民政局网站 浏览:451
iphone6降级ios7 浏览:92
怎么隐藏三星应用程序图标不见了 浏览:203
可以兼职的app 浏览:493
iphone圆角图标制作 浏览:659
建设银行app怎么申请 浏览:163
系统备份文件夹在哪 浏览:998
qq分组exo韩文 浏览:849
华硕装装win7系统教程视频 浏览:407
什么是数据直连 浏览:210
笔记本连接无线网络慢 浏览:486
压缩文件怎么控制在4m以内 浏览:1
indesign最新版本2016 浏览:300
为什么压缩文件窗口变小 浏览:904
居民医保工行手机app怎么缴费 浏览:602
图论与网络流理论答案 浏览:913

友情链接