频道导航

用聚合解决ddply任务的优雅方法(希望获得更好的性能)

2020-04-08 设计模式前端之家

前端之家收集整理的这篇文章主要介绍了用聚合解决ddply任务的优雅方法(希望获得更好的性能)，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我想通过一个名为ensg的标识符变量来聚合data.frame.数据框如下所示：

chromosome probeset               ensg symbol    XXA_00    XXA_36    XXB_00
1          X  4938842 ENSMUSG00000000003   Pbsn  4.796123  4.737717  5.326664

我想计算具有相同ensg值的行上每个数字列的平均值.这里的问题是我想保留其他身份变量染色体和符号不变,因为它们对于相同的ensg也是相同的.

最后,我希望有一个带有标识列的data.frame,具有相同标识符的行上的数字列的染色体,ensg,符号和平均值.我在ddply中实现了这个,但与聚合相比它非常慢：

spec.mean <- function(eset.piece)
  {
    cbind(eset.piece[1,-numeric.columns],t(colMeans(eset.piece[,numeric.columns])))
  }
t
mean.eset <- ddply(eset.consensus.grand,.(ensg),spec.mean,.progress="tk")

我的第一个聚合实现看起来像这样,

mean.eset=aggregate(eset[,numeric.columns],by=list(eset$ensg),FUN=mean,na.rm=TRUE);

并且要快得多.但聚合的问题是我必须重新附加描述变量.我没有想出如何使用我的自定义函数与聚合,因为聚合不传递数据帧,但只传递矢量.

使用聚合有一种优雅的方法吗？或者使用ddply有更快的方法吗？

首先让我们定义一个玩具示例：

df <- data.frame(chromosome = gl(3,10,labels = c('A','B','C')),probeset = gl(3,labels = c('X','Y','Z')),ensg =  gl(3,labels = c('E1','E2','E3')),symbol = gl(3,labels = c('S1','S2','S3')),XXA_00 = rnorm(30),XXA_36 = rnorm(30),XXB_00 = rnorm(30))

然后我们使用公式接口的聚合：

df1 <- aggregate(cbind(XXA_00,XXA_36,XXB_00) ~ ensg + chromosome + symbol,data = df,FUN = mean)

> df1
  ensg chromosome symbol      XXA_00      XXA_36      XXB_00
1   E1          A     S1 -0.02533499 -0.06150447 -0.01234508
2   E2          B     S2 -0.25165987  0.02494902 -0.01116426
3   E3          C     S3  0.09454154 -0.48468517 -0.25644569

上一篇：设计模式 – DDD应用服务中的CRUD？下一篇：publish-subscribe – 在事件驱动的

猜你在找的设计模式相关文章

适配器模式-让不兼容的接口得以适配

适配器模式将一个类的接口转换成客户期望的另一个接口，使得原本接口不兼容的类可以相互合...

作者：前端之家时间：2021-02-24

策略模式-定义一个算法族

策略模式定义了一系列算法族，并封装在类中，它们之间可以互相替换，此模式让算法的变化独...

作者：前端之家时间：2021-02-24

设计模式之高质量代码

设计模式讲的是如何编写可扩展、可维护、可读的高质量代码，它是针对软件开发中经常遇到的...

作者：前端之家时间：2021-02-24

模板方法模式-封装一套算法流程

模板方法模式在一个方法中定义一个算法的骨架，而将一些步骤延迟到子类中，使得子类可以在...

作者：前端之家时间：2021-02-24

迭代器模式-统一集合的遍历方式

迭代器模式提供了一种方法，用于遍历集合对象中的元素，而又不暴露其内部的细节。

作者：前端之家时间：2021-02-24

单例模式的五种实现方式及优缺点

单例模式（Singleton Design Pattern）保证一个类只能有一个实例，并提供一个全局访问点。

作者：前端之家时间：2021-02-24

组合模式-统一的处理个别对象与组合对象

组合模式可以将对象组合成树形结构来表示“整体-部分”的层次结构，使得客户可以用一致的方...

作者：前端之家时间：2021-02-24

装饰者模式-动态的包装原有对象的行为

装饰者模式能够更灵活的，动态的给对象添加其它功能，而不需要修改任何现有的底层代码。

作者：前端之家时间：2021-02-24

观察者模式-将消息通知给观察者

观察者模式（Observer Design Pattern）定义了对象之间的一对多依赖，当对象状态改变的时候...

作者：前端之家时间：2021-02-24

代理模式-访问对象的代理而非其本身

代理模式为对象提供一个代理，来控制对该对象的访问。代理模式在不改变原始类代码的情况下...

作者：前端之家时间：2021-02-24

编程分类

算法设计模式多媒体技术正则表达式 Elasticsearch Flink Hadoop IDE

最新文章