读取大文件一直是一个头痛的问题,我们像使用PHP开发读取小文件可以直接使用各种函数实现,但一到大文章就会发现常用的方法是无法正常使用或时间太长太卡了,下面我们就一起来看看关于PHP读取大文件问题解决办法,希望例子能帮助到各位。
场景:PHP读取超大文件,例如1G的日志文件,我这里使用的是400M的access.log文件
1、使用file直接读取
ini_set('memory_limit','-1');
$file = 'testfile.txt';
$data = file($file);
$line = $data[count($data) - 1000];
$endtime=microtime_float();
echo count($data),"
";
echo $endtime-$starttime;
function microtime_float(){
list($usec,$sec) = explode(" ",microtime());
return ((float)$usec + (float)$sec);
}
?>
运行结果:10127784 行 共使用了,7.8764359951s
我的电脑是3G内存,此方法不是推荐使用,因为需要把文件全部载入内存
2、使用linux命令 tail
$starttime=microtime_float();
$file = 'testfile.txt';
$file = escapeshellarg($file); // 对命令行参数进行安全转义
$line = tail -n 100 $file
;
echo $line,"
";
$endtime=microtime_float();
echo $endtime-$starttime;
function microtime_float(){
list($usec,microtime());
return ((float)$usec + (float)$sec);
}
//end
运行结果:只使用了几毫秒、轻松搞定、这种方法不能在windows下使用
3、使用fseek函数
这种方式是最为普遍的方式,它不需要将文件的内容全部读入内容,因为PHP是C写的,所以实现的时候也类似C读取文件,通过指针的移动,所以效率是相当高效的。在使用fseek来对文件进行操作时,也有多种不同的方法,效率可能也是略有差别的,
下面是常用的几种方法
$fp = fopen($file,"r+");
$line = 100;
$pos = -2;
$t =$data="";
while ($line > 0)
{
while ($t != "\n") //换行符
{
fseek($fp,$pos,SEEK_END);//移动指针
$t = fgetc($fp);//获取一个字符
$pos--;//向前偏移
}
$t = "";
$data = fgets($fp);//获取当前行的数据
$line--;
}
fclose($fp);
echo $data,"
";
$endtime=microtime_float();
echo $endtime-$starttime;
function microtime_float(){
list($usec,microtime());
return ((float)$usec + (float)$sec);
}
?>
运行结果:0.338493108749
方法二:一块一块的读取
$file = 'testfile.txt';
$fp = fopen($file,"r");
$num = 10;
$chunk = 4096;//4K的块
$fs = sprintf("%u",filesize($file));
$readData='';
$max = (intval($fs) == PHP_INT_MAX) ? PHP_INT_MAX : $fs;
for($len = 0; $len < $max; $len += $chunk){
$seekSize = ($max - $len > $chunk) ? $chunk : $max - $len;
fseek($fp,($len + $seekSize) * -1,SEEK_END);
$readData = fread($fp,$seekSize) . $readData;
if (substr_count($readData,"\n") >= $num + 1) {
$ns=substr_count($readData,"\n")-$num+2;
preg_match('/(.*?\n){'.$ns.'}/',$readData,$match);
$data = $match[1];
break;
}
}
fclose($fp);
echo $data,"
";
$endtime=microtime_float();
echo $endtime-$starttime;
function microtime_float(){
list($usec,microtime());
return ((float)$usec + (float)$sec);
}
?>
运行时间:0.00199198722839
使用fgets函数,一行一行读取
spl库函数
'; }catch (Exception $e){ echo $e->getMessage(); }
另外网上有很多按照块读取文件的,有兴趣的读者可以试试,我试了没成功,好像必须含有换行符“\n”才可以。