解决方法
要回答这个问题,我们首先必须澄清什么是DataFrame的第一个元素,因为我们不是在谈论放置在单个机器上的有序集合,而是在处理分布式集合而在分区之间没有特定的顺序,所以答案并不明显.
如果您想从每个分区中删除第一个元素,您可以使用:
df.mapPartitions(iterator => iterator.drop(1))
如果要从第一个分区中删除第一个元素,可以使用:
val rdd = df.rdd.mapPartitionsWithIndex{ case (index,iterator) => if(index==0) iterator.drop(1) else iterator } sqlContext.createDataFrame(rdd,df.schema)