我有一个凌乱的数据集.每行8个单词,分布在196列中.任务是在每一行中找到包含该单词的列.示例:单词“ Pad”可以位于196列中的任何一列中,但我们知道它已经存在.我们需要知道它所在的列.感谢您的帮助.
最佳答案
我认为eq idxmax在这里是最简单的几个单词,并且完全匹配,并保证存在该位置.由于只有8个字,因此可能只是列表理解和连接结果:
样本数据:
import pandas as pd
import numpy as np
np.random.seed(123)
l = ['']*192 + ['paid','foo','bar','baz']
df = pd.DataFrame([np.random.choice(l,replace=False,size=196)
for i in range(5)])
码:
pd.concat([df.eq(word).idxmax(1).rename(word) for word in ['paid','baz']],axis=1)
# paid foo bar baz
#0 112 167 184 142
#1 186 93 17 173
#2 56 142 179 67
#3 15 78 38 79
#4 116 84 18 61
如果只需要检查列[4:196],请使用df.iloc [:,4:197] .eq(word)而不是检查每列