根据我的阅读,reshape2中的* cast操作失去了result_variable功能. Hadley暗示为此目的使用plyr(将多个结果列附加到输入数据框).我怎么才能实现文档示例……
aqm <- melt(airquality,id=c("month","day"),na.rm=TRUE) cast(aqm,month ~ variable + result_variable,range)
使用reshape2(dcast)和plyr(ddply)?
由于’reshape2’和’plyr’包的灵活性,这个问题有多个答案.我将在这里展示一个最容易理解的例子:
library(reshape2) library(plyr) aqm <- melt(airquality,id=c("Month","Day"),na.rm=TRUE) aqm_ply <- ddply(aqm,.(Month,variable),summarize,min=min(value),max=max(value)) aqm_melt <- melt(aqm_ply,"variable"),variable.name="variable2") dcast(aqm_melt,Month ~ variable + variable2) # Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min Temp_max # 1 5 1 115 8 334 5.7 20.1 56 81 # 2 6 12 71 31 332 1.7 20.7 65 93 # 3 7 7 135 7 314 4.1 14.9 73 92 # 4 8 9 168 24 273 2.3 15.5 72 97 # 5 9 7 96 14 259 2.8 16.6 63 93
第1步:让我们将其分解为几个步骤.首先,让我们单独留下’aqm’的定义,并根据融化的数据进行处理.这将使示例更容易理解.
aqm <- melt(airquality,na.rm=TRUE) # Month Day variable value # 1 5 1 Ozone 41.0 # 2 5 2 Ozone 36.0 # 3 5 3 Ozone 12.0 # 4 5 4 Ozone 18.0 # ... # 612 9 30 Temp 68.0
第2步:现在,我们要将’value’列替换为’min’和’max’列.我们可以使用’plyr’包中的’ddply’函数来实现这一点.为此,我们使用’ddply’函数(数据帧作为输入,数据帧作为输出,因此“dd”-ply).我们首先指定数据.
ddply(aqm,
然后我们指定要用于对数据进行分组的变量,’月’和’变量’.我们使用.函数直接引用此变量,而不是引用它们包含的值.
ddply(aqm,
现在我们需要选择一个聚合函数.我们在这里选择汇总函数,因为我们不希望在最终数据中包含列(‘Day’和’value’).汇总函数将删除所有原始的非分组列.
ddply(aqm,
最后,我们指定要为每个组执行的计算.我们可以参考原始数据框(‘aqm’)的列,即使它们不会包含在我们的最终数据框中.这就是它的样子:
aqm_ply <- ddply(aqm,max=max(value)) # Month variable min max # 1 5 Ozone 1.0 115.0 # 2 5 Solar.R 8.0 334.0 # 3 5 Wind 5.7 20.1 # 4 5 Temp 56.0 81.0 # 5 6 Ozone 12.0 71.0 # 6 6 Solar.R 31.0 332.0 # 7 6 Wind 1.7 20.7 # 8 6 Temp 65.0 93.0 # 9 7 Ozone 7.0 135.0 # 10 7 Solar.R 7.0 314.0 # 11 7 Wind 4.1 14.9 # 12 7 Temp 73.0 92.0 # 13 8 Ozone 9.0 168.0 # 14 8 Solar.R 24.0 273.0 # 15 8 Wind 2.3 15.5 # 16 8 Temp 72.0 97.0 # 17 9 Ozone 7.0 96.0 # 18 9 Solar.R 14.0 259.0 # 19 9 Wind 2.8 16.6 # 20 9 Temp 63.0 93.0
第3步:我们可以看到数据大大减少了,因为ddply函数聚合了这些行.现在我们需要再次融合数据,因此我们可以获得最终数据框的第二个变量.请注意,我们需要指定一个新的variable.name参数,因此我们没有两个名为“variable”的列.
aqm_melt <- melt(aqm_ply,variable.name="variable2") # Month variable variable2 value # 1 5 Ozone min 1.0 # 2 5 Solar.R min 8.0 # 3 5 Wind min 5.7 # 4 5 Temp min 56.0 # 5 6 Ozone min 12.0 # ... # 37 9 Ozone max 96.0 # 38 9 Solar.R max 259.0 # 39 9 Wind max 16.6 # 40 9 Temp max 93.0
第4步:我们最终可以通过将数据转换为最终形式来将其全部包装起来.
dcast(aqm_melt,Month ~ variable + variable2) # Month Ozone_min Ozone_max Solar.R_min Solar.R_max Wind_min Wind_max Temp_min Temp_max # 1 5 1 115 8 334 5.7 20.1 56 81 # 2 6 12 71 31 332 1.7 20.7 65 93 # 3 7 7 135 7 314 4.1 14.9 73 92 # 4 8 9 168 24 273 2.3 15.5 72 97 # 5 9 7 96 14 259 2.8 16.6 63 93
希望这个例子能让你有足够的理解来帮助你入门.请注意,正在以“dplyr”名称积极开发“plyr”软件包的新数据框优化版本,因此您可能希望在完全成熟后将代码转换为新软件包.