数据帧A有一个日期(“fdate”)和一个ID(“cusip”):
我需要将此与此数据帧合并B:
在A.cusip == B.ncusip和A.fdate是在B.namedt和B.nameenddt之间.
在sql中,这将是微不足道的,但是我可以看到如何在大pandas中做到这一点的唯一方法是首先无条件地合并在标识符上,然后过滤日期条件:
df = pd.merge(A,B,how='inner',left_on='cusip',right_on='ncusip') df = df[(df['fdate']>=df['namedt']) & (df['fdate']<=df['nameenddt'])]
这真的是最好的办法吗?看来,如果可以在合并过滤器,以避免在合并之后但在过滤器完成之前避免有可能非常大的数据帧,那将会更好一些.
解决方法
这个答案曾经是解决多态性的问题,这是一个很糟糕的想法.
那么numpy.piecewise
功能出现在另一个答案中,但是很少有解释,所以我想我会澄清一下这个功能如何使用.
分数方式(记忆重)
np.piecewise
功能可用于生成自定义连接的行为.有很多开销涉及到,而不是很有效率的坚持,但它做的工作.
生产条件加盟
import pandas as pd from datetime import datetime presidents = pd.DataFrame({"name": ["Bush","Obama","Trump"],"president_id":[43,44,45]}) terms = pd.DataFrame({'start_date': pd.date_range('2001-01-20',periods=5,freq='48M'),'end_date': pd.date_range('2005-01-21','president_id': [43,43,45]}) war_declarations = pd.DataFrame({"date": [datetime(2001,9,14),datetime(2003,3,3)],"name": ["War in Afghanistan","Iraq War"]}) start_end_date_tuples = zip(terms.start_date.values,terms.end_date.values) conditions = [(war_declarations.date.values >= start_date) & (war_declarations.date.values <= end_date) for start_date,end_date in start_end_date_tuples] > conditions [array([ True,True],dtype=bool),array([False,False],dtype=bool)]
这是一个数组的列表,其中每个数组告诉我们,我们拥有的两个战争声明中的每一个的时间跨度是否匹配.条件可能会与较大的数据集爆炸,因为它将是左df的长度和右df相乘.
分段“魔法”
现在分段将从术语中取得president_id,并将其放在war_declarations数据帧中,为每个相应的战争.
war_declarations['president_id'] = np.piecewise(np.zeros(len(war_declarations)),conditions,terms.president_id.values) date name president_id 0 2001-09-14 War in Afghanistan 43.0 1 2003-03-03 Iraq War 43.0
现在要完成这个例子,我们只需要定期合并总统的名字.
war_declarations.merge(presidents,on="president_id",suffixes=["_war","_president"]) date name_war president_id name_president 0 2001-09-14 War in Afghanistan 43.0 Bush 1 2003-03-03 Iraq War 43.0 Bush
多态(不行)
我想分享我的研究工作,所以即使这不能解决问题,我希望能够在这里至少有一个有用的答复.由于很难发现错误,有人可能尝试这样做,并认为他们有一个工作的解决方案,而实际上他们没有.
我唯一可以想到的方法是创建两个新类,一个PointInTime和一个Timespan
两者应该有__eq__方法,如果将PointInTime与包含它的Timespan进行比较,则返回true.
之后,您可以使用这些对象填充您的DataFrame,并加入他们所在的列.
这样的事情
class PointInTime(object): def __init__(self,year,month,day): self.dt = datetime(year,day) def __eq__(self,other): return other.start_date < self.dt < other.end_date def __neq__(self,other): return not self.__eq__(other) def __repr__(self): return "{}-{}-{}".format(self.dt.year,self.dt.month,self.dt.day) class Timespan(object): def __init__(self,start_date,end_date): self.start_date = start_date self.end_date = end_date def __eq__(self,other): return self.start_date < other.dt < self.end_date def __neq__(self,other): return not self.__eq__(other) def __repr__(self): return "{}-{}-{} -> {}-{}-{}".format(self.start_date.year,self.start_date.month,self.start_date.day,self.end_date.year,self.end_date.month,self.end_date.day)
重要提示:我不会对datetime进行子类化,因为pandas会将datetime对象的列的dtype视为datetime dtype,而且由于时间不是,所以pandas默默地拒绝合并.
如果我们实例化这些类的两个对象,现在可以对它们进行比较:
pit = PointInTime(2015,1,1) ts = Timespan(datetime(2014,1),datetime(2015,2,2)) pit == ts True
我们也可以用这些对象填充两个DataFrames:
df = pd.DataFrame({"pit":[PointInTime(2015,PointInTime(2015,2),3)]}) df2 = pd.DataFrame({"ts":[Timespan(datetime(2015,5)),Timespan(datetime(2015,4,1))]})
然后合并的作品:
pd.merge(left=df,left_on='pit',right=df2,right_on='ts') pit ts 0 2015-2-2 2015-2-1 -> 2015-2-5 1 2015-2-2 2015-2-1 -> 2015-4-1
但只有一种.
PointInTime(2015,3)也应包含在Timespan(datetime(2015,1))的此连接中)
但它不是.
我认为大pandas将PointInTime(2015,3)与PointInTime(2015,2)进行比较,并假定由于它们不相等,3)不能等于Timespan(datetime(2015,1)),因为这个时间段等于PointInTime(2015,2)
像这样排序:
Rose == Flower Lilly != Rose
因此:
Lilly != Flower
编辑:
我试图让所有PointInTime彼此相等,这改变了加入的行为,包括2015-3-3,但2015-2-2只包括在2015-2-1时代 – > 2015-2-5,所以这加强了我上述的假设.
如果有任何其他想法,请评论,我可以尝试.