相当于Oracle Lead / Lag函数的Pandas

发布于 2021-01-29 19:35:00

首先,我是熊猫的新手,但我已经爱上了它。我正在尝试实现与Oracle的滞后功能等效的功能。

假设您有以下DataFrame:

Date                   Group      Data
2014-05-14 09:10:00        A         1
2014-05-14 09:20:00        A         2
2014-05-14 09:30:00        A         3
2014-05-14 09:40:00        A         4
2014-05-14 09:50:00        A         5
2014-05-14 10:00:00        B         1
2014-05-14 10:10:00        B         2
2014-05-14 10:20:00        B         3
2014-05-14 10:30:00        B         4

如果这是一个oracle数据库,而我想创建一个按“ Group”列分组并按Date排序的滞后函数,则可以轻松使用此函数:

 LAG(Data,1,NULL) OVER (PARTITION BY Group ORDER BY Date ASC) AS Data_lagged

这将产生下表:

Date                   Group     Data    Data lagged
2014-05-14 09:10:00        A        1           Null
2014-05-14 09:20:00        A        2            1
2014-05-14 09:30:00        A        3            2
2014-05-14 09:40:00        A        4            3
2014-05-14 09:50:00        A        5            4
2014-05-14 10:00:00        B        1           Null
2014-05-14 10:10:00        B        2            1
2014-05-14 10:20:00        B        3            2
2014-05-14 10:30:00        B        4            3

在大熊猫中,我可以将日期设置为索引并使用shift方法:

db["Data_lagged"] = db.Data.shift(1)

唯一的问题是,这不会按列分组。即使将日期和组这两列设置为索引,我仍然会在滞后列中获得“ 5”。

有没有办法在熊猫中实现等效的超前和滞后功能?

关注者
0
被浏览
79
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    您可以执行groupby / apply(shift)操作

    In [15]: df['Data_lagged'] = df.groupby(['Group'])['Data'].shift(1)
    
    In [16]: df
    Out[16]: 
                    Date Group  Data  Data_lagged
    2014-05-14  09:10:00     A     1          NaN
    2014-05-14  09:20:00     A     2            1
    2014-05-14  09:30:00     A     3            2
    2014-05-14  09:40:00     A     4            3
    2014-05-14  09:50:00     A     5            4
    2014-05-14  10:00:00     B     1          NaN
    2014-05-14  10:10:00     B     2            1
    2014-05-14  10:20:00     B     3            2
    2014-05-14  10:30:00     B     4            3
    
    [9 rows x 4 columns]
    

    为了获得ORDER BY Date ASC效果,您必须首先对DataFrame进行排序:

    df['Data_lagged'] = (df.sort_values(by=['Date'], ascending=True)
                           .groupby(['Group'])['Data'].shift(1))
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看