我正在处理一个简单的表格表
date variable value 1970-01-01 V1 0.434 1970-01-01 V2 12.12 1970-01-01 V3 921.1 1970-01-02 V1 -1.10 1970-01-03 V3 0.000 1970-01-03 V5 312e6 ... ... ...
对(日期,变量)是唯一的.我想将这个表变成一个广泛的表.
date V1 V2 V3 V4 V5 1970-01-01 0.434 12.12 921.1 NA NA 1970-01-02 -1.10 NA NA NA NA 1970-01-03 0.000 NA NA NA 312e6
而且我想以最快的方式做到这一点,因为我必须重复使用1e6记录的表.在R本机模式下,我相信,通过data.table,tapply(),reshape()和d * ply()都以速度为主.我想测试后者对基于sqlite的解决方案(或其他DB)的性能.以前做过这样吗?有性能提升吗?而且,当“宽”字段(日期)的数量是可变的并且不是预先知道的时候,在sqlite中如何将它们转换成高到全的?
我使用一种基于自定义功能的方法,但是速度更快一个数量级(主要是因为没有每个单元格功能调用).
从Prasad的帖子使用高的时间:
pivot = function(col,row,value) { col = as.factor(col) row = as.factor(row) mat = array(dim = c(nlevels(row),nlevels(col)),dimnames = list(levels(row),levels(col))) mat[(as.integer(col) - 1L) * nlevels(row) + as.integer(row)] = value mat } > system.time( replicate(100,wide <- with(tall,tapply( value,list(dt,tkr),identity)))) user system elapsed 11.31 0.03 11.36 > system.time( replicate(100,pivot(tkr,dt,value)))) user system elapsed 0.9 0.0 0.9
关于订购的可能问题,不应该有任何问题:
> a <- with(tall,value)) > b <- with(tall[sample(nrow(tall)),],value)) > all.equal(a,b) [1] TRUE