完美解决java读取大文件内存溢出的问题_Java教程

完美解决java读取大文件内存溢出的问题

2020-12-13 20:10echoty Java教程

下面小编就为大家带来一篇完美解决java读取大文件内存溢出的问题。小编觉得挺不错的，现在就分享给大家，也给大家做个参考。一起跟随小编过来看看吧

1. 传统方式：在内存中读取文件内容

读取文件行的标准方式是在内存中读取，Guava 和Apache Commons IO都提供了如下所示快速读取文件行的方法：

1 2	`Files.readLines(new File(path), Charsets.UTF_8);` `FileUtils.readLines(new File(path));`

实际上是使用BufferedReader或者其子类LineNumberReader来读取的。

传统方式的问题： 是文件的所有行都被存放在内存中，当文件足够大时很快就会导致程序抛出OutOfMemoryError 异常。

问题思考：我们通常不需要把文件的所有行一次性地放入内存中，相反，我们只需要遍历文件的每一行，然后做相应的处理，处理完之后把它扔掉。所以我们可以通过行迭代方式来读取，而不是把所有行都放在内存中。

2. 大文件读取处理方式

不重复读取与不耗尽内存的情况下处理大文件：

（1）文件流方式：使用java.util.Scanner类扫描文件的内容，一行一行连续地读取

									FileInputStream inputStream = null; 

									Scanner sc = null; 

									try { 

									 inputStream = new FileInputStream(path); 

									 sc = new Scanner(inputStream, UTF-8); 

									 while (sc.hasNextLine()) {

									  String line = sc.nextLine(); 

									  // System.out.println(line); 

									  } 

									}catch(IOException e){

									  logger.error(e);

									}finally {

									  if (inputStream != null) { 

									  inputStream.close(); 

									  } 

									  if (sc != null) {

									    sc.close();

									   }

									}

该方案将会遍历文件中的所有行，允许对每一行进行处理，而不保持对它的引用。总之没有把它们存放在内存中！

（2）Apache Commons IO流：使用Commons IO库实现，利用该库提供的自定义LineIterator

									LineIterator it = FileUtils.lineIterator(theFile, UTF-8); 

									try {

									 while (it.hasNext()) {

									 String line = it.nextLine(); 

									 // do something with line 

									  } 

									} finally {

									 LineIterator.closeQuietly(it);

									}