unix – 当你有足够的内存时,最快的排序巨大的(50-100 GB)文件的方法

前端之家收集整理的这篇文章主要介绍了unix – 当你有足够的内存时,最快的排序巨大的(50-100 GB)文件的方法前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
当数据不适合内存时,有关于在Unix上排序大量文件主题,有很多关于网络的讨论.一般使用mergeesort和variant.

如果假设有足够的记忆来适应整个数据,那么可能是最有效/最快的排序方式呢? csv文件是〜50 GB(> 10亿行),并且有足够的内存(5倍的数据大小)来保存整个数据.

我可以使用Unix排序,但仍然需要> 1小时.我可以使用任何必要的语言,但我主要寻找的是速度.我明白我们可以把数据加载到一个柱状的db表和排序中,但这是一次性的努力,所以寻找更灵活的东西…

提前致谢.

对大数据使用并行排序算法.

有用的主题
Which parallel sorting algorithm has the best average case performance?

原文链接:https://www.f2er.com/bash/384011.html

猜你在找的Bash相关文章