我有一个输入文件foo.txt,其中包含以下内容:
c1|c2|c3|c4|c5|c6|c7|c8| 00| |1.0|1.0|9|27.0|0|| 01|2|3.0|4.0|1|10.0|1|1|
我想将其转换为Dataframe以执行一些SQL查询:
var text = sc.textFile("foo.txt") var header = text.first() var rdd = text.filter(row => row != header) case class Data(c1: String,c2: String,c3: String,c4: String,c5: String,c6: String,c7: String,c8: String)
在此之前一切正常,问题出现在下一句话中:
var df = rdd.map(_.split("\\|")).map(p => Data(p(0),p(1),p(2),p(3),p(4),p(5),p(6),p(7))).toDF()
如果我尝试使用df.show打印df,我会收到一条错误消息:
scala> df.show() java.lang.ArrayIndexOutOfBoundsException: 7
我知道错误可能是因为分句.我还尝试使用以下语法拆分foo.txt:
var df = rdd.map(_.split("""|""")).map(p => Data(p(0),p(7))).toDF()
然后我得到这样的东西:
scala> df.show() +------+---------+----------+-----------+-----+-----------+----------------+----------------+ | c1 | c2 | c3 | c4 | c5 | c6 | c7 | c8 | +------+---------+----------+-----------+-----+-----------+----------------+----------------+ | 0| 0| || | || 1| .| 0| | 0| 1| || 2| || 3| .| 0| +------+---------+----------+-----------+-----+-----------+----------------+----------------+
因此,我的问题是如何正确地将此文件传递给Dataframe.
编辑:由于||,错误在第一行没有中间空间的领域.这种类型的字段定义取决于示例工作正常或崩溃.
解决方法
这是因为你的一条线比其他线短:
scala> var df = rdd.map(_.split("\\|")).map(_.length).collect() df: Array[Int] = Array(7,8)
您可以手动填写行(但需要手动处理每个案例):
val df = rdd.map(_.split("\\|")).map{row => row match { case Array(a,b,c,d,e,f,g,h) => Data(a,h) case Array(a,g) => Data(a," ") } } scala> df.show() +---+---+---+---+---+----+---+---+ | c1| c2| c3| c4| c5| c6| c7| c8| +---+---+---+---+---+----+---+---+ | 00| |1.0|1.0| 9|27.0| 0| | | 01| 2|3.0|4.0| 1|10.0| 1| 1| +---+---+---+---+---+----+---+---+
编辑:
更通用的解决方案是这样的:
val df = rdd.map(_.split("\\|",-1)).map(_.slice(0,8)).map(p => Data(p(0),p(7))).toDF()
如果您假设始终具有正确数量的分隔符,则可以安全地使用此语法截断最后一个值.