当数据不适合内存时,有关于在Unix上排序大量
文件的
主题,有很多关于网络的讨论.一般使用mergeesort和variant.
如果假设有足够的记忆来适应整个数据,那么可能是最有效/最快的排序方式呢? csv文件是〜50 GB(> 10亿行),并且有足够的内存(5倍的数据大小)来保存整个数据.
我可以使用Unix排序,但仍然需要> 1小时.我可以使用任何必要的语言,但我主要寻找的是速度.我明白我们可以把数据加载到一个柱状的db表和排序中,但这是一次性的努力,所以寻找更灵活的东西…
提前致谢.
原文链接:https://www.f2er.com/bash/384011.html