频道导航

如何使用dplyr根据组上的聚合函数计算新列？

2020-09-15 设计模式前端之家

前端之家收集整理的这篇文章主要介绍了如何使用dplyr根据组上的聚合函数计算新列？，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我经常需要计算R数据帧的新列(长格式),其值应取决于组的聚合函数(例如总和).例如,我可能想知道任何一天产品占销售额的比例：

daily fraction = revenue for product i on day d / sum or revenue for all products on day d

我目前的策略是总结和加入：

library(dplyr)

join_summary <- function(data,...) left_join(data,summarise(data,...))

data = data.frame(
  day = c(1,1,2,3,3),product = rep(c("A","B"),revenue = c(2,4,8,7,9,2)
)

data2 <- data %>%
  group_by(day) %>%
  join_summary(daily_revenue = sum(revenue)) %>%
  mutate(revenue_fraction = revenue / daily_revenue)

这有效,但我不确定它是否是反模式.在多行上重复相同的数据(每日收入)似乎有点低效,使用聚合乱丢我的数据框.我的问题是：

>我目前的做法是否正常？
>有没有更好的方法,最好使用dplyr或更广泛的Hadleyverse工具？
>我真的需要我的自定义函数join_summary,还是可以使用现有的dplyr动词完成？ (不过我更喜欢呆在“管道流”中.)

解决方法

除了使用汇总进行聚合外,您还可以使用mutate将摘要统计信息分配给完整列：

data %>% 
  group_by(day) %>% 
  mutate(
    daily_revenue = sum(revenue),revenue_fraction = revenue / daily_revenue
  )

这使

Source: local data frame [6 x 5]
Groups: day [3]

    day product revenue daily_revenue revenue_fraction
  <dbl>  <fctr>   <dbl>         <dbl>            <dbl>
1     1       A       2             6        0.3333333
2     1       B       4             6        0.6666667
3     2       A       8            15        0.5333333
4     2       B       7            15        0.4666667
5     3       A       9            11        0.8181818
6     3       B       2            11        0.1818182

这是有效的,因为值sum(revenue)会被回收以填充组中的所有行.

上一篇：f# – 记录与单一案例歧视联盟下一篇：域驱动设计 – DDD – 如何补水

猜你在找的设计模式相关文章

适配器模式-让不兼容的接口得以适配

适配器模式将一个类的接口转换成客户期望的另一个接口，使得原本接口不兼容的类可以相互合...

作者：前端之家时间：2021-02-24

策略模式-定义一个算法族

策略模式定义了一系列算法族，并封装在类中，它们之间可以互相替换，此模式让算法的变化独...

作者：前端之家时间：2021-02-24

设计模式之高质量代码

设计模式讲的是如何编写可扩展、可维护、可读的高质量代码，它是针对软件开发中经常遇到的...

作者：前端之家时间：2021-02-24

模板方法模式-封装一套算法流程

模板方法模式在一个方法中定义一个算法的骨架，而将一些步骤延迟到子类中，使得子类可以在...

作者：前端之家时间：2021-02-24

迭代器模式-统一集合的遍历方式

迭代器模式提供了一种方法，用于遍历集合对象中的元素，而又不暴露其内部的细节。

作者：前端之家时间：2021-02-24

单例模式的五种实现方式及优缺点

单例模式（Singleton Design Pattern）保证一个类只能有一个实例，并提供一个全局访问点。

作者：前端之家时间：2021-02-24

组合模式-统一的处理个别对象与组合对象

组合模式可以将对象组合成树形结构来表示“整体-部分”的层次结构，使得客户可以用一致的方...

作者：前端之家时间：2021-02-24

装饰者模式-动态的包装原有对象的行为

装饰者模式能够更灵活的，动态的给对象添加其它功能，而不需要修改任何现有的底层代码。

作者：前端之家时间：2021-02-24

观察者模式-将消息通知给观察者

观察者模式（Observer Design Pattern）定义了对象之间的一对多依赖，当对象状态改变的时候...

作者：前端之家时间：2021-02-24

代理模式-访问对象的代理而非其本身

代理模式为对象提供一个代理，来控制对该对象的访问。代理模式在不改变原始类代码的情况下...

作者：前端之家时间：2021-02-24

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章