频道导航

java-CSV内容被Spark读取为null

2019-12-22 Java 前端之家

前端之家收集整理的这篇文章主要介绍了java-CSV内容被Spark读取为null ，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我正在尝试读取CSV文件,以便可以使用Spark SQL查询它. CSV如下所示：

16;10;9/6/2018

CSV文件不包含标题,但是我们知道第一列是部门代码,第二列是建筑代码,第三列是格式为m / d / YYYY的日期.

我编写了以下代码以使用自定义架构加载CSV文件：

 StructType sch = DataTypes.createStructType(new StructField[] {
            DataTypes.createStructField("department",DataTypes.IntegerType,true),DataTypes.createStructField("building",false),DataTypes.createStructField("date",DataTypes.DateType,});
    Dataset<Row> csvLoad = sparkSession.read().format("csv")
            .option("delimiter",";")
            .schema(sch)
            .option("header","false")
            .load(somefilePath);
    csvLoad.show(2);

当我使用csvLoad.show(2)时,仅显示以下输出：

|department|building|date|
+----------+---------+---+
|null      |null     |null |
|null      |null     |null |

谁能告诉我代码中有什么问题吗？我正在使用spark 2.4版本.

最佳答案

问题在于您的日期字段,因为它具有自定义格式,因此您需要将格式指定为选项：

Dataset<Row> csvLoad = sparkSession.read().format("csv")
        .option("delimiter",";")
        .schema(sch)
        .option("header","false")
        .option("dateFormat","m/d/YYYY")
        .load(somefilePath);

这将导致输出：

+----------+--------+----------+
|department|building|      date|
+----------+--------+----------+
|        16|      10|2018-01-06|
+----------+--------+----------+

上一篇：java-此三维数组中存在多少引用？下一篇：java-建议一次提交多个相关任务的线

猜你在找的Java相关文章

ArrayList源码分析

ArrayList简介：ArrayList 的底层是数组队列，相当于动态数组。与 Java 中的数组相比，它的...

作者：前端之家时间：2021-02-27

java多线程与并发（基础篇）

一、进程与线程进程：是代码在数据集合上的一次运行活动，是系统进行资源分配和调度的基本...

作者：前端之家时间：2021-02-27

LinkedList 的实现原理

本文为博客园作者所写： 一寸HUI，个人博客地址：https://www.cnblogs.com/zsql/...

作者：前端之家时间：2021-02-27

java之面向对象详解

#############java面向对象详解#############1、面向对象基本概念2、类与对象3、类和对象的...

作者：前端之家时间：2021-02-27

java之异常详解

一、什么是异常? 异常就是有异于常态，和正常情况不一样，有错误出错。在java中，阻止当前...

作者：前端之家时间：2021-02-27

Map的四种遍历

//Map的四种遍历方法 //Map不能直接遍历，只能通过遍历Key与Value间接遍历 public static...

作者：前端之家时间：2021-02-25

throw和throws的区别以及try,catch,finally在有return的情况下执行的顺序

一，抛出异常有三种形式，一是throw,一个throws，还有一种系统自动抛异常。下面它们之间的...

作者：前端之家时间：2021-02-25

Jdk14 都要出了，Jdk9 的新特性还不了解一下？

中最大的亮点是 Java 平台模块化的引入，以及模块化 JDK。但是还有很多其他新功能，这篇...

作者：前端之家时间：2021-02-25

还看不懂同事代码？快来补一波 Java 7 语法特性

Jdk 频繁更新，新特性了解吗？每次更新都注重提高生产效率，提高 JVM 性能，推行模块化等，...

作者：前端之家时间：2021-02-25

Java 12 新特性介绍，快来补一补

Java 12 早在 2019 年 3 月 19 日发布，这些新特性你知道吗

作者：前端之家时间：2021-02-25

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章