我正在尝试完成一个简单的任务:根据其他列的条件在Pandas数据框中创建一个新列.我曾咨询过其他职位(例如this very popular one,但也有其他采用不同方法的职位),但均未成功.
我现在遇到的问题是在新列中仅返回函数中定义的最后一个值
例如:
我有以下专栏:
x
1
2
3
x size
1 Small
2 Medium
3 Large
这是最近尝试的代码:
import pandas as pd
import numpy as np
df = pd.read_csv('blah.csv')
def size (row):
if row['rQ7'] == 1:
return 'Small'
if row['rQ7'] == 2:
return 'Medium'
if row['rQ7'] == 3:
return 'Large'
return -99
'''
I have also tried breaking this into
else:
return -99
but it doesn't work. '''
df['size'] = df.apply (lambda row: size (row),axis=1)
现在,虽然我没有收到任何错误,但是当我将函数应用于数据框时,它仅返回最后一个值,即-99:
x size
1 -99
2 -99
3 -99
我尝试过的其他函数也是如此,当我尝试使用df.loc []时,Python不会将任何值复制到新列中,尽管没有错误.
我感到困惑和茫然:对我来说,根据我尝试过的其他示例,似乎代码应该可以工作.
任何帮助是极大的赞赏.
最佳答案
您可以使用
numpy.select()
:
df['col']=np.select([df.x.eq(1),df.x.eq(2),df.x.eq(3)],['small','medium','large'],\
'something')
您可以将“某物”替换为不满足条件时应显示的值.
print(df)
x size
0 1 small
1 2 medium
2 3 large