我正在使用pyspark数据框分析一些数据,假设我有一个数据帧df,我正聚合:
原文链接:https://www.f2er.com/javaschema/282086.htmldf.groupBy("group")\ .agg({"money":"sum"})\ .show(100)
这将给我:
group SUM(money#2L) A 137461285853 B 172185566943 C 271179590646
聚合工作很好,但我不喜欢新的列名称“SUM(money#2L)”。有没有一种整洁的方式将这个列重命名为.agg方法可读的东西?也许更类似于在dplyr中做什么:
df %>% group_by(group) %>% summarise(sum_money = sum(money))