频道导航

重命名pyspark数据帧聚合的列

2020-07-01 设计模式前端之家

前端之家收集整理的这篇文章主要介绍了重命名pyspark数据帧聚合的列，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我正在使用pyspark数据框分析一些数据，假设我有一个数据帧df，我正聚合：

df.groupBy("group")\
  .agg({"money":"sum"})\
  .show(100)

这将给我：

group                SUM(money#2L)
A                    137461285853
B                    172185566943
C                    271179590646

聚合工作很好，但我不喜欢新的列名称“SUM(money#2L)”。有没有一种整洁的方式将这个列重命名为.agg方法可读的东西？也许更类似于在dplyr中做什么：

df %>% group_by(group) %>% summarise(sum_money = sum(money))

虽然我仍然喜欢dplyr语法，但这段代码片段可以做到：

import pyspark.sql.functions as func

df.groupBy("group")\
  .agg(func.sum('money').alias('money'))\
  .show(100)

它变得冗长

上一篇：[沫沫金]软件单一功能点，说明书编下一篇：依赖注射 – Laravel 4：Facade vs

猜你在找的设计模式相关文章

适配器模式-让不兼容的接口得以适配

适配器模式将一个类的接口转换成客户期望的另一个接口，使得原本接口不兼容的类可以相互合...

作者：前端之家时间：2021-02-24

策略模式-定义一个算法族

策略模式定义了一系列算法族，并封装在类中，它们之间可以互相替换，此模式让算法的变化独...

作者：前端之家时间：2021-02-24

设计模式之高质量代码

设计模式讲的是如何编写可扩展、可维护、可读的高质量代码，它是针对软件开发中经常遇到的...

作者：前端之家时间：2021-02-24

模板方法模式-封装一套算法流程

模板方法模式在一个方法中定义一个算法的骨架，而将一些步骤延迟到子类中，使得子类可以在...

作者：前端之家时间：2021-02-24

迭代器模式-统一集合的遍历方式

迭代器模式提供了一种方法，用于遍历集合对象中的元素，而又不暴露其内部的细节。

作者：前端之家时间：2021-02-24

单例模式的五种实现方式及优缺点

单例模式（Singleton Design Pattern）保证一个类只能有一个实例，并提供一个全局访问点。

作者：前端之家时间：2021-02-24

组合模式-统一的处理个别对象与组合对象

组合模式可以将对象组合成树形结构来表示“整体-部分”的层次结构，使得客户可以用一致的方...

作者：前端之家时间：2021-02-24

装饰者模式-动态的包装原有对象的行为

装饰者模式能够更灵活的，动态的给对象添加其它功能，而不需要修改任何现有的底层代码。

作者：前端之家时间：2021-02-24

观察者模式-将消息通知给观察者

观察者模式（Observer Design Pattern）定义了对象之间的一对多依赖，当对象状态改变的时候...

作者：前端之家时间：2021-02-24

代理模式-访问对象的代理而非其本身

代理模式为对象提供一个代理，来控制对该对象的访问。代理模式在不改变原始类代码的情况下...

作者：前端之家时间：2021-02-24

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章