scala – 如何在Spark中将RDD转换为RDD?

前端之家收集整理的这篇文章主要介绍了scala – 如何在Spark中将RDD转换为RDD?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有一个文件,每一行都是这样的

info1,info2
info3,info4
...

扫描完之后,我想运行k-means算法:

val rawData = sc.textFile(myFile)
  val converted = convertToVector(rawData)
  val kmeans = new KMeans()
  kmeans.setK(10)
  kmeans.setRuns(10)
  kmeans.setEpsilon(1.0e-6)
  val model = kmeans.run(rawData) -> problem: k-means accepts only RDD<Vector>

因为k-means只接受RDD< Vector>,所以我创建了一个转换我的RDD< String>的函数. rawData到RDD< Vector>.但我不知道如何做到这一点,下面这个功能正在进行中:

def converToVector(rawData: RDD[String]): RDD[Vector] = {

    //TODO...
    val toConvert = rawData.collect().toVector
    val map = rawData.map {
      line => line.split(",").toVector
    }

    map
  }

有关如何实现这一目标的任何建议?

提前致谢.

解决方法

考虑到输入文件的每一行都是一个用逗号分隔的字符串表示的假设向量,这是一个非常基本的操作.

您只需映射每个字符串entrie,将其拆分在分隔符上,然后从中创建一个密集的Vector:

val parsedData = rawData.map(s => Vectors.dense(s.split(',').map(_.toDouble)))

猜你在找的Scala相关文章