我目前正在格式化来自两个不同数据集的数据.
其中一个数据集反映了按小时计算人数的观察数,第二个是基于5分钟间隔生成的wifi日志的人数.
将这两个数据帧合并为一个之后,我遇到的问题是每小时(“10:00:00”)有原始数据集,但其他数据(每5分钟像“10:47:14”)不包括此数据.
以下是合并数据框的外观:
room time con auth capacity % Count module size
0 B002 Mon Nov 02 10:32:06 23 23 90 NaN NaN NaN NaN`
1 B002 Mon Nov 02 10:37:10 25 25 90 NaN NaN NaN NaN`
12527 B002 Mon Nov 02 10:00:00 NaN NaN 90 50% 45.0 COMP30520 60`
12528 B002 Mon Nov 02 11:00:00 NaN NaN 90 0% 0.0 COMP30520 60`
有没有办法让我通过数据框并从11:00:00找到有关“占用”,“占用”,“模块”和“大小”的所有信息,并将其写入所有的单元格中.同一天,小时在10:00:00到10:59:59之间?
这将允许我获得每行的所有信息,然后允许我根据’day’和’hour’收集min(),max()和median().
要回答原始数据框的评论,这里有:
第一个数据帧:
time room module size
0 Mon Nov 02 09:00:00 B002 COMP30190 29
1 Mon Nov 02 10:00:00 B002 COMP40660 53
第二个数据帧:
room time con auth capacity % Count
0 B002 Mon Nov 02 20:32:06 0 0 NaN NaN NaN
1 B002 Mon Nov 02 20:37:10 0 0 NaN NaN NaN
2 B002 Mon Nov 02 20:42:12 0 0 NaN NaN NaN
12797 B008 Wed Nov 11 13:00:00 NaN NaN 40 25 10.0
12798 B008 Wed Nov 11 14:00:00 NaN NaN 40 50 20.0
12799 B008 Wed Nov 11 15:00:00 NaN NaN 40 25 10.0
这就是将这两个数据帧合并在一起的方式:
DFinal = pd.merge(DF,d3,left_on=["room","time"],right_on=["room",how="outer",left_index=False,right_index=False)
任何有关这方面的帮助将不胜感激.
非常感谢,
-Romain
最佳答案
在某个地方开始:
原文链接:https://www.f2er.com/python/438594.htmlb = df[(df['time'] > X) & (df['time'] < Y)]
选择时间X和Y内的所有元素
然后
df.loc[df['column_name'].isin(b)]
为您提供所需的行(即 – 在X和Y之间),您可以根据需要进行分配.
我想你想要将所选行的值分配给行号X的值?
希望有所帮助.
请注意,这些功能是剪切和粘贴作业
[1] Filter dataframe rows if value in column is in a set list of values
[2] Select rows from a DataFrame based on values in a column in pandas