频道导航

java – 使用Hadoop处理大量小文件

2019-05-05 Java 前端之家

前端之家收集整理的这篇文章主要介绍了java – 使用Hadoop处理大量小文件，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我正在使用Hadoop示例程序WordCount来处理大量的小文件/网页(cca.2-3 kB).由于这远离hadoop文件的最佳文件大小,因此程序非常慢.我想这是因为设置和撕毁工作的成本远远高于工作本身.这些小文件也会导致文件名的命名空间耗尽.

我读到在这种情况下我应该使用HDFS归档(HAR),但我不知道如何修改此程序WordCount以从此档案中读取.程序可以继续工作而无需修改或需要进行一些修改吗？

即使我在档案中打包了很多文件,问题仍然存在,这是否会提高性能.我读到即使我打包多个文件,一个存档中的这些文件也不会由一个映射器处理,但很多,在我的情况下(我猜)不会提高性能.

如果这个问题太简单,请理解我是Hadoop的新手并且对它的经验很少.

解决方法

使用HDFS不会改变你导致hadoop处理大量小文件的情况.在这种情况下,最好的选择可能是将文件捕获到单个(或几个大)文件中.
这将减少您拥有的映射器数量,这将减少需要处理的事物数量.

如果您在分布式系统上运行,则使用HDFS可以提高性能.如果你只是伪分布式(一台机器),那么HDFS不会提高性能.限制是机器.

当您对大量小文件进行操作时,需要大量的映射器和缩减器.设置/关闭可以与文件本身的处理时间相比,从而导致很大的开销.对文件进行处理会减少作业的映射器hadoop运行次数,从而提高性能.

使用HDFS存储文件时可以看到的好处是分布式模式,有多台机器.这些文件将存储在跨机器的块(默认为64MB)中,每台机器都能够处理驻留在机器上的数据块.这减少了网络带宽的使用,因此它不会成为处理的瓶颈.

归档文件,如果hadoop将取消归档它们只会导致hadoop仍然有大量的小文件.

希望这有助于您的理解.

上一篇：java – JAX-WS客户端：维护多个服下一篇：java – 如何命名存储库和服务接口

猜你在找的Java相关文章

ArrayList源码分析

ArrayList简介：ArrayList 的底层是数组队列，相当于动态数组。与 Java 中的数组相比，它的...

作者：前端之家时间：2021-02-27

java多线程与并发（基础篇）

一、进程与线程进程：是代码在数据集合上的一次运行活动，是系统进行资源分配和调度的基本...

作者：前端之家时间：2021-02-27

LinkedList 的实现原理

本文为博客园作者所写： 一寸HUI，个人博客地址：https://www.cnblogs.com/zsql/...

作者：前端之家时间：2021-02-27

java之面向对象详解

#############java面向对象详解#############1、面向对象基本概念2、类与对象3、类和对象的...

作者：前端之家时间：2021-02-27

java之异常详解

一、什么是异常? 异常就是有异于常态，和正常情况不一样，有错误出错。在java中，阻止当前...

作者：前端之家时间：2021-02-27

Map的四种遍历

//Map的四种遍历方法 //Map不能直接遍历，只能通过遍历Key与Value间接遍历 public static...

作者：前端之家时间：2021-02-25

throw和throws的区别以及try,catch,finally在有return的情况下执行的顺序

一，抛出异常有三种形式，一是throw,一个throws，还有一种系统自动抛异常。下面它们之间的...

作者：前端之家时间：2021-02-25

Jdk14 都要出了，Jdk9 的新特性还不了解一下？

中最大的亮点是 Java 平台模块化的引入，以及模块化 JDK。但是还有很多其他新功能，这篇...

作者：前端之家时间：2021-02-25

还看不懂同事代码？快来补一波 Java 7 语法特性

Jdk 频繁更新，新特性了解吗？每次更新都注重提高生产效率，提高 JVM 性能，推行模块化等，...

作者：前端之家时间：2021-02-25

Java 12 新特性介绍，快来补一补

Java 12 早在 2019 年 3 月 19 日发布，这些新特性你知道吗

作者：前端之家时间：2021-02-25

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章