1,读取文件大小(比如大小是200K)。
2,启动5个线程,第一个线程从其实读,第二个线程跳过40在读40。。。
Ⅱ java多线程处理大批文件
线程数量一般是个估算值。这个要凭经验来判定。
判定规则如下:
如果您能保证您的线程程序不会因为等待任何I/O事件产生等待(比如等待网络、等待数据库、等待磁盘),那么应创建CPU进程个数个线程数。
如果您的线程程序I/O等待时间和执行时间大致相等,应创建CPU进程数x2个线程数。
Ⅲ java 多线程读取txt 文件
多线程将读取的数据全部读取到一个Buffer里面去,然后再通过Buffer去处理,也就是版生产者消费者模型,你将权txt读取到一个ByteBuffer或者是大字节数组队列里面都可以,然后通过其它处理线程进行按行分隔
Ⅳ java中怎么用多个线程同时对一个文件读取,最终将文件内容保存到一个字节数组中去呢
多线程复读取文件在一块硬盘上没制用,瓶颈在硬盘I/O,而不在CPU和内存。读取文件时,CPU不用复杂的计算工作,只是数据传输而已,多线程反而造成磁头来回移动,效率不高。如果是两块以上的硬盘,可以用不同的线程访问不同的硬盘,效率比单线程要高
而且多线程操作同一文件除了效率还会有多线程问题,多个线程同时往数组里存数据还会有线程安全问题,如果不同步处理读取的文件就是错误的。
如果读取的话只能设置每个线程各自读取偏 移量
读取文件大小(比如大小是200K)。 2,启动5个线程,第一个线程读到40,第二个线程跳过40在读到80,总之得合理安排好各个线程读取的大小。这样才能不重复读取。大数据处理框架maprece原理和此类似
Ⅳ java 利用RandomAccessFile实现多线程并发读写一个大文件
楼主,如果写,先判断要写多大的文件、然后分段写,各线程写自己的段
如果读,也是先得到文件大小、再分段,然后各线程读自己的段
Ⅵ java多线程读写文件
public static void main(String[] args) {
File data = new File("data.txt");
try {
InputStreamReader read = new InputStreamReader(new FileInputStream(
data), "UTF-8");
final BufferedReader bufferedReader = new BufferedReader(read);
for (int i = 0; i < 5; i++) {
new Thread(new Runnable() {
@
public void run() {
String lineTXT = null;
synchronized (bufferedReader) {
try {
while ((lineTXT = bufferedReader.readLine()) != null) {
System.out.println(Thread.currentThread()+":"+lineTXT);
bufferedReader.notify();
bufferedReader.wait();
}
} catch (IOException e) {
e.printStackTrace();
} catch (InterruptedException e) {
e.printStackTrace();
}finally{
bufferedReader.notifyAll();
}
}
}
}).start();
}
} catch (UnsupportedEncodingException e) {
e.printStackTrace();
} catch (FileNotFoundException e) {
e.printStackTrace();
}
}
Ⅶ java多线程同时读取一个文件,这个方法可行吗
不可行。
多线程能够提高效率是因为现在的cpu普遍是多核cpu, 多条线程可以在版多个内核中权同时执行来提高计算效率。但是计算机磁盘的磁头只有一个,即使多条线程去读也并不能提高读取效率,反而因为多线程的上下文切换问题会耗时更久。
Ⅷ 如何用多线程读取大文件并且做数据处理,100
先说几个要点:
a、文件在操作系统级,有描述符标记,关联到打开的文件表项,文件表项纪录了一个很重要的信息,当前文件的指针;
b、cpu要干的工作比读文件快不,读一次文件的速度要慢于cpu处理一次的速度,没必要多多线程,多线程提升不了多少性能,还增加编程的难度,单线程处理即可。
c、待处理文件,必须知道一定的边界值,如分页边界或单条纪录边界。
有了上面的前提,每个线程维护单独的缓冲区,缓存区大小就是c点提到的边界纪录大小。线程启动,把缓冲区读满,处理数据。此处有个要点,必须做文件锁,把要读的边界锁住。否则读出来的数据会产生混乱。(如果强行打开多个不同的文件不划算,内存占用可能会过多)。产生混乱的原因简单,读文件实际上是进行系统调用,系统调用有自己的缓冲区,这缓冲区未必跟你设置的缓冲区一样大。多次读多次移动指针,不加文件锁处理的数据必定会乱。
文件锁两种方式加锁,对整个文件加锁,对字节区间加锁。都不是什么难事。
实现方式1:对整个文件加锁,因为我们要保证的是读到的数据别混乱。
实现方式2:如果内存足够大,维护n个独立的文件描述符,这些文件描述符必须有独立的文件指针,操作系统上有对应实现。每个线程操作未读纪录,这么做还需要维护共享的已读纪录指针。防止重复处理。这么做处理完成如果需要按顺序合并文件是难点。处理过的数据有新的纪录边界。要视实际情况而定能不能这么做。写程序要优先保证的是正确性,之后才是提升效率。
我说的理论,依据是操作系统提供的api处理。别的语言要依赖操作系统运行。原理差不多,目标语言有没有操作系统提供的api强悍。依据使用的目标语言而定。绝大多数能叫编程语言的语言都会提供操作系统api对应的方法。(脚本语言例外,如shell,perl,javascript,vbscript,就可能没这么强的控制能力。),java,objective-c,swift,php,python一般是不会有问题的。
Ⅸ java读取解析大文件 40G左右求出name重复次top10的信息并输出求教高手,怕以后遇到类似问题
1、首先大文件统计词频如果不依赖第三方组件的话实现起来很麻烦没有回相关经验的话很容易出问题答
2、若要使用java原生库的话建议使用多线程构建一个MapRece模型,多线程逐行或者按块读将各自任务下的词频统计到DB
3、若使用第三方的话建议使用solr或者flink这种高度封装的组件既可以保证结果的正确性也可以保证性能