频道导航

基于Java的大型数据集的基于文件的合并排序

2019-05-08 Java 前端之家

前端之家收集整理的这篇文章主要介绍了基于Java的大型数据集的基于文件的合并排序，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

给定不适合内存的大型数据集,是否有任何库或api在 Java中执行排序？
实现可能类似于linux实用程序排序.

解决方法

Java提供了一个通用的排序例程,可以作为更大的解决方案的一部分.对数据进行排序的一种常见方法是太大,无法全部适合内存,这是：

1)读取与主内存相符的数据,假设它是1 Gb

2)1 Gb的Quicksort(这里是从Collections框架中使用Java内置排序的地方)

3)将排序1 Gb的磁盘写入“chunk-1”

4)重复步骤1-3,直到完成所有数据,将每个数据块保存在单独的文件中.因此,如果您的原始数据为9 Gb,那么现在将有9个批量的数据标记为“chunk-1”,通过“chunk-9”

5)您现在只需要一个最终的合并排序,将9个排序的块合并成一个完全排序的数据集.合并排序将对这些预先排序的块非常有效.它将基本上打开9个文件读取器(每个块一个),加上一个文件写入器(用于输出).然后比较每个读取文件中的第一个数据元素,并选择最小值,写入输出文件.读取器从该选择的值进入其下一个数据元素,并重复找到最小值的9路比较过程,再次将答案写入输出文件.该过程重复,直到从所有块文件读取所有数据.

6)一旦步骤5读完所有完成的数据,您的输出文件现在包含一个完全排序的数据集

使用这种方法,您可以轻松地编写一个通用的“megasort”实用程序,它使用一个文件名和maxMemory参数,并通过使用临时文件来有效地排序文件.我敢打赌,你可以在这里找到至少几个实现,但如果不是,你可以按照上述方式滚动自己的.

上一篇：java – 在Amazon DynamoDB中添加/下一篇：javax.activation.UnsupportedData

猜你在找的Java相关文章

ArrayList源码分析

ArrayList简介：ArrayList 的底层是数组队列，相当于动态数组。与 Java 中的数组相比，它的...

作者：前端之家时间：2021-02-27

java多线程与并发（基础篇）

一、进程与线程进程：是代码在数据集合上的一次运行活动，是系统进行资源分配和调度的基本...

作者：前端之家时间：2021-02-27

LinkedList 的实现原理

本文为博客园作者所写： 一寸HUI，个人博客地址：https://www.cnblogs.com/zsql/...

作者：前端之家时间：2021-02-27

java之面向对象详解

#############java面向对象详解#############1、面向对象基本概念2、类与对象3、类和对象的...

作者：前端之家时间：2021-02-27

java之异常详解

一、什么是异常? 异常就是有异于常态，和正常情况不一样，有错误出错。在java中，阻止当前...

作者：前端之家时间：2021-02-27

Map的四种遍历

//Map的四种遍历方法 //Map不能直接遍历，只能通过遍历Key与Value间接遍历 public static...

作者：前端之家时间：2021-02-25

throw和throws的区别以及try,catch,finally在有return的情况下执行的顺序

一，抛出异常有三种形式，一是throw,一个throws，还有一种系统自动抛异常。下面它们之间的...

作者：前端之家时间：2021-02-25

Jdk14 都要出了，Jdk9 的新特性还不了解一下？

中最大的亮点是 Java 平台模块化的引入，以及模块化 JDK。但是还有很多其他新功能，这篇...

作者：前端之家时间：2021-02-25

还看不懂同事代码？快来补一波 Java 7 语法特性

Jdk 频繁更新，新特性了解吗？每次更新都注重提高生产效率，提高 JVM 性能，推行模块化等，...

作者：前端之家时间：2021-02-25

Java 12 新特性介绍，快来补一补

Java 12 早在 2019 年 3 月 19 日发布，这些新特性你知道吗

作者：前端之家时间：2021-02-25

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章