频道导航

Hive 导入 parquet 格式数据

2020-11-25 大数据前端之家

前端之家收集整理的这篇文章主要介绍了Hive 导入 parquet 格式数据，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

Hive 导入 parquet 数据步骤如下：

查看 parquet 文件的格式
构造建表语句
倒入数据

一、查看 parquet 内容和结构

下载地址

命令

查看结构：
java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar schema -d activity.201711171437.0.parquet |head -n 30
查看内容：
java -jar parquet-tools-1.6.0rc3-SNAPSHOT.jar head -n 2 activity.201711171437.0.parquet

parquet 和 hive 的 field 类型映射关系

BINARY -> STRING
BOOLEAN -> BOOLEAN
DOUBLE -> DOUBLE
FLOAT -> FLOAT
INT32 -> INT
INT64 -> BIGINT
INT96 -> TIMESTAMP
BINARY + OriginalType UTF8 -> STRING
BINARY + OriginalType DECIMAL -> DECIMAL

二、hive 命令

创建表

create table test_data(a bigint) stored as parquet; 
# 创建表时可选择数据存储格式

Tips：分区 partitioned by (date string)

本地导入数据

load data local inpath '/path/data.parquet' into table test_database.test_table_name;

导入HDFS中的数据

load data inpath '/path/data.parquet' into table test_database.test_table_name;

Tips：区别是没有 local

三、pandas 数据导成 parquet 文件

先安装 pyarrow 或 fastparquet 库

import pandas as pd
>>> df = pd.DataFrame(data={'col1': [1,2],'col2': [3,4]})
>>> df.to_parquet('df.parquet.gzip',compression='gzip')
>>> pd.read_parquet('df.parquet.gzip')
    col1  col2
0     1     3
1     2     4

参考

上一篇：Presto 常用配置及操作下一篇：分布式基础通信协议：paxos、totem

猜你在找的大数据相关文章

windows下通过idea连接hadoop和spark集群

###windows下链接hadoop集群 1、假如在linux机器上已经搭建好hadoop集群 2、在windows上把...

作者：前端之家时间：2021-02-27

hadoop2.7+spark2.2+zookeeper3.4.简单安装

1、zookeeper的安装##配置/etc/hosts192.168.88.130 lgh192.168.88.131 lgh1192.168.88.13...

作者：前端之家时间：2021-02-27

flink 1.7.2 安装详解

##flink 1.7.2 安装需要java环境下载地址 https://flink.apache.org/downloads.html#1、单...

作者：前端之家时间：2021-02-27

cloudera manager server迁移

一、迁移背景服务器出了问题，导致整个cm server界面呈现出不可用的状态，也就是获取不到...

作者：前端之家时间：2021-02-27

hadoop2.7作业提交详解之文件分片 hadoop2.7之作业提交详解（上）

在前面一篇文章中（hadoop2.7之作业提交详解（上））中涉及到文件的分片。 JobSubmitter.s...

作者：前端之家时间：2021-02-27

hadoop2.7之作业提交详解（上） hadoop2.7之作业提交详解（下）

根据wordcount进行分析：这上面是个简单wordcount的代码，这里就不一一说明了，我们首先看...

作者：前端之家时间：2021-02-27

Apache YARN(Yet Another Resource Negotiator)是一个Hadoop集群资源管理系统。YARN是在Ha...

作者：前端之家时间：2021-01-21

Cloudera Manager及CDH最新版本安装全程记录

大家都知道，Apache Hadoop的配置很繁琐，而且很零散，为此Cloudera公司提供了Clouder Man...

作者：前端之家时间：2021-01-21

第3章:Hadoop分布式文件系统(2)

数据流读取文件数据的剖析为了知道客户端与HDFS，NameNode,DataNode交互过程中数据的流向...

作者：前端之家时间：2021-01-21

Hive中自定义Map/Reduce示例 In Java

Hive支持自定义map与reduce script。接下来我用一个简单的wordcount例子加以说明。如果自...

作者：前端之家时间：2021-01-21

编程分类

区块链大数据图像处理 DevOps Kafka Spark Dubbo

最新文章

热门标签更多 ►