我有多个小的镶木地板文件作为hive ql作业的输出生成,我想将输出文件合并到单个镶木地板文件?
使用一些hdfs或linux命令执行此操作的最佳方法是什么?
我们曾经使用cat命令合并文本文件,但这对于镶木地板也适用吗?
我们可以在编写输出文件时使用HiveQL本身吗,就像我们如何使用spark中的重新分区或coalesc方法一样?
解决方法
根据这个
https://issues.apache.org/jira/browse/PARQUET-460
现在您可以下载源代码并编译在merge命令中构建的镶木地板工具.
现在您可以下载源代码并编译在merge命令中构建的镶木地板工具.
java -jar ./target/parquet-tools-1.8.2-SNAPSHOT.jar merge /input_directory/ /output_idr/file_name
或者使用像https://github.com/stripe/herringbone这样的工具