频道导航

Sqoop将数据从oracle导入到hive时，数据错位问题

2020-07-25 Oracle 前端之家

前端之家收集整理的这篇文章主要介绍了Sqoop将数据从oracle导入到hive时，数据错位问题，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

在使用sqoop将数据从oracle导入hive时，对数据进行验证，发现hive中的数据比oracle的多，然后发现多出来的数据严重错位，大量字段为null

怀疑是某些字段含有了hive默认的分隔符，如“\n”，“\r”，“\01”

解决办法是增加参数--hive-drop-import-delims来解决

以下是http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html中摘抄的内容，很好的解释了该参数

Hive will have problems using Sqoop-imported data if your database’s rows contain string fields that have Hive’s default row delimiters (\nand\rcharacters) or column delimiters (\01characters) present in them. You can use the--hive-drop-import-delimsoption to drop those characters on import to give Hive-compatible text data. Alternatively,you can use the--hive-delims-replacementoption to replace those characters with a user-defined string on import to give Hive-compatible text data. These options should only be used if you use Hive’s default delimiters and should not be used if different delimiters are specified.

可以从中看出，“\n”、“\r”是hive默认的行分隔符，而“\01”则是hive默认的列分隔符，如果数据中含有这些分隔符，在不处理的情况下，hive就会对数据进行错误的分割，造成数据错位以及数据增多的问题，解决办法就是

第一种，使用--hive-drop-import-delims 来去除这些字符

第二种，使用--hive-delims-replacement来替换这些字符

上一篇：算法分析：Oracle 11g 中基于哈希算下一篇：asmcmd:Connected to an idle inst

猜你在找的Oracle相关文章

[Oracle]记一次由sequence引发的enq sv-contention等待事件

数据库版本：11.2.0.4 RAC(1)问题现象从EM里面可以看到，在23号早上8：45~8：55时，数据库...

作者：前端之家时间：2021-02-21

oracle统计信息的锁定与解锁

（一）问题背景最近在对一个大约200万行数据的表查看执行计划时，发现存在异常，理论上应该...

作者：前端之家时间：2021-02-21

【转】RMAN删除过期备份或非过期备份

（一）删除备份--DELETE命令用于删除RMAN备份记录及相应的物理文件。当使用RMAN执行备份操...

作者：前端之家时间：2021-02-21

数据恢复顾问（DRA）

（1）DRA介绍数据恢复顾问（Data Recovery Advise）是一个诊断和修复数据库的工具，DRA能...

作者：前端之家时间：2021-02-21

RMAN备份与恢复（一）--认识RMAN

RMAN（Recovery Manager）是Oracle恢复管理器的简称，是集数据库备份（backup）、修复（re...

作者：前端之家时间：2021-02-21

RMAN备份与恢复（二）--RMAN常用操作学习

（1）连接目标数据库在RMAN中可以建立与目标数据库或恢复目录数据库的连接。与目标数据库...

作者：前端之家时间：2021-02-21

ORA-00245问题总结

（1）问题描述在进行数据库归档备份时（备份归档日志文件和控制文件），有时成功，有时失...

作者：前端之家时间：2021-02-21

使用RMAN对数据文件进行恢复

（1）备份数据库在使用RMAN进行数据库恢复之前，先用RMAN进行全库备份（2）删除数据文件...

作者：前端之家时间：2021-02-21

Oracle使用fy_recover_data恢复truncate删除的数据

(一)truncate操作概述在生产中，truncate是使用较多的命令，在使用不当的情况下，往往会造...

作者：前端之家时间：2021-02-21

备份与恢复（四）--RMAN使用恢复目录catalog来保存档案资料库

（一）恢复目录概述RMAN档案资料库用于存储数据库备份、修复以及恢复所需的信息。这些信息...

作者：前端之家时间：2021-02-21

编程分类

MySQL MsSQL Oracle Sqlite Postgre SQL Mariadb MongoDB NoSQL HBase JDBC

最新文章