我有这个
JSON文件
{ "a": 1,"b": 2 }
这是使用Python json.dump方法获得的.
现在,我想使用pyspark将此文件读入Spark中的DataFrame.以下文档,我在这样做
sc = SparkContext()
df = sqlc.read.json(‘my_file.json’)
print df.show()
打印声明:
+---------------+ |_corrupt_record| +---------------+ | {| | "a": 1,| | "b": 2| | }| +---------------+
任何人都知道发生了什么,为什么不正确地解释文件?
解决方法
您的输入文件中每行需要一个json对象,请参阅
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrameReader.json
如果你的json文件看起来像这样,它会给你预期的数据帧:
{ "a": 1,"b": 2 } { "a": 3,"b": 4 } .... df.show() +---+---+ | a| b| +---+---+ | 1| 2| | 3| 4| +---+---+