我希望根据两个列值选择一些特定的行.例如:
d = {'user' : [1.,2.,3.,4],'item' : [5.,6.,7.,8.],'f1' : [9.,16.,17.,18.],'f2':[4,5,6,5],'f3':[4,8]} df = pd.DataFrame(d) print df Out: f1 f2 f3 item user 0 9 4 4 5 1 1 16 5 5 6 2 2 17 6 5 7 3 3 18 5 8 8 4
我想根据’user’和’item’的值选择行.给定一个存储[user,item]值对的2d numpy数组:
samples = np.array([[1,[3,7],[2,6]]) Out: array([[1,6]])
然后预期的输出是:
Out: f1 f2 f3 item user 0 9 4 4 5 1 2 17 6 5 7 3 2 17 6 5 7 3 1 16 5 5 6 2
然后,我的最终目标是获得一个2d numpy数组存储除item和user之外的所有列值,即:
Out: array([[9,4,[17,[16,5]])
我们可以看到,它是列f1,f2,f3的值.
我怎样才能做到这一点?
解决方法
如果使用列user和item对DataFrame进行采样,则可以使用
inner join获取所需的值.默认情况下,pd.merge合并所有样本列并共享共享df – 在这种情况下,这将是用户和项目.因此,
result = pd.merge(samples,df,how='inner')
产量
user item f1 f2 f3 0 1 5 9 4 4 1 3 7 17 6 5 2 3 7 17 6 5 3 2 6 16 5 5
import numpy as np import pandas as pd d = {'user' : [1.,8]} df = pd.DataFrame(d) samples = np.array([[1,6]]) samples = pd.DataFrame(samples,columns=['user','item']) result = pd.merge(samples,how='inner') result = result[['f1','f2','f3']] result = result.values print(result)
产量
[[ 9. 4. 4.] [ 17. 6. 5.] [ 17. 6. 5.] [ 16. 5. 5.]]