如何使用linux或hdfs命令将多个镶木地板文件合并到单个镶木地板文件?

前端之家收集整理的这篇文章主要介绍了如何使用linux或hdfs命令将多个镶木地板文件合并到单个镶木地板文件?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有多个小的镶木地板文件作为hive ql作业的输出生成,我想将输出文件合并到单个镶木地板文件

使用一些hdfs或linux命令执行此操作的最佳方法是什么?

我们曾经使用cat命令合并文本文件,但这对于镶木地板也适用吗?
我们可以在编写输出文件时使用HiveQL本身吗,就像我们如何使用spark中的重新分区或coalesc方法一样?

解决方法

根据这个 https://issues.apache.org/jira/browse/PARQUET-460
现在您可以下载源代码并编译在merge命令中构建的镶木地板工具.
java -jar ./target/parquet-tools-1.8.2-SNAPSHOT.jar merge /input_directory/
        /output_idr/file_name

或者使用像https://github.com/stripe/herringbone这样的工具

猜你在找的Linux相关文章