频道导航

为什么来自Oracle的Spark查询(加载)与SQOOP相比如此之慢？

2020-06-30 Oracle 前端之家

前端之家收集整理的这篇文章主要介绍了为什么来自Oracle的Spark查询(加载)与SQOOP相比如此之慢？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我们发现,自Spark 1.3到现在的Spark 2.0.1,来自Oracle数据库的Spark API的加载数据一直很慢.典型的代码在 Java中是这样的：

Map<String,String> options = new HashMap<String,String>();
        options.put("url",ORACLE_CONNECTION_URL);
        options.put("dbtable",dbTable);
        options.put("batchsize","100000");
        options.put("driver","oracle.jdbc.OracleDriver");

        Dataset<Row> jdbcDF = sparkSession.read().options(options)
                .format("jdbc")
                .load().cache();
        jdbcDF.createTempView("my");

        //= sparkSession.sql(dbTable);
        jdbcDF.printSchema();
        jdbcDF.show();

        System.out.println(jdbcDF.count());

我们的一位成员试图自定义这部分,他当时改进了很多(Spark 1.3.0).但Spark核心代码的某些部分成为Spark的内部代码,因此在版本之后无法使用.此外,我们看到HADOOP的SQOOP比Spark快得多(但它写入HDFS,需要大量的工作才能转换为数据集以供Spark使用).使用Spark的Dataset写入方法写入Oracle似乎对我们有好处.令人费解的是为什么会这样！

那么@Pau Z Wu已在评论中回答了问题,但问题是wasoptions.put(“batchsize”,“100000”);这需要是options.put(“fetchsize”,“100000”);因为提取大小涉及限制一次从数据库中恢复的行数,并最终使加载时间更快.

更多信息可以在这里找到：https://docs.oracle.com/cd/A87860_01/doc/java.817/a83724/resltse5.htm

上一篇：Oracle AQ同一消息传递两次下一篇：让Oracle客户端在Windows 7 RC上运

猜你在找的Oracle相关文章

[Oracle]记一次由sequence引发的enq sv-contention等待事件

数据库版本：11.2.0.4 RAC(1)问题现象从EM里面可以看到，在23号早上8：45~8：55时，数据库...

作者：前端之家时间：2021-02-21

oracle统计信息的锁定与解锁

（一）问题背景最近在对一个大约200万行数据的表查看执行计划时，发现存在异常，理论上应该...

作者：前端之家时间：2021-02-21

【转】RMAN删除过期备份或非过期备份

（一）删除备份--DELETE命令用于删除RMAN备份记录及相应的物理文件。当使用RMAN执行备份操...

作者：前端之家时间：2021-02-21

数据恢复顾问（DRA）

（1）DRA介绍数据恢复顾问（Data Recovery Advise）是一个诊断和修复数据库的工具，DRA能...

作者：前端之家时间：2021-02-21

RMAN备份与恢复（一）--认识RMAN

RMAN（Recovery Manager）是Oracle恢复管理器的简称，是集数据库备份（backup）、修复（re...

作者：前端之家时间：2021-02-21

RMAN备份与恢复（二）--RMAN常用操作学习

（1）连接目标数据库在RMAN中可以建立与目标数据库或恢复目录数据库的连接。与目标数据库...

作者：前端之家时间：2021-02-21

ORA-00245问题总结

（1）问题描述在进行数据库归档备份时（备份归档日志文件和控制文件），有时成功，有时失...

作者：前端之家时间：2021-02-21

使用RMAN对数据文件进行恢复

（1）备份数据库在使用RMAN进行数据库恢复之前，先用RMAN进行全库备份（2）删除数据文件...

作者：前端之家时间：2021-02-21

Oracle使用fy_recover_data恢复truncate删除的数据

(一)truncate操作概述在生产中，truncate是使用较多的命令，在使用不当的情况下，往往会造...

作者：前端之家时间：2021-02-21

备份与恢复（四）--RMAN使用恢复目录catalog来保存档案资料库

（一）恢复目录概述RMAN档案资料库用于存储数据库备份、修复以及恢复所需的信息。这些信息...

作者：前端之家时间：2021-02-21

编程分类

MySQL MsSQL Oracle Sqlite Postgre SQL Mariadb MongoDB NoSQL HBase JDBC

最新文章