pandas Groupby Diff

发布于 2021-01-29 17:52:35

所以我的数据框看起来像这样:

from pandas.compat import StringIO
d = StringIO('''
date,site,country,score
2018-01-01,google,us,100
2018-01-01,google,ch,50
2018-01-02,google,us,70
2018-01-03,google,us,60
2018-01-02,google,ch,10
2018-01-01,fb,us,50
2018-01-02,fb,us,55
2018-01-03,fb,us,100
2018-01-01,fb,es,100
2018-01-02,fb,gb,100
''')

df = pd.read_csv(d, sep=",")

每个站点的分数因国家/地区而异。我正在尝试查找每个站点/国家/地区组合得分的1/3/5天差异。

输出应为:

date,site,country,score,1_day_diff
2018-01-01,google,ch,50,0
2018-01-02,google,ch,10,-40
2018-01-01,google,us,100,0
2018-01-02,google,us,70,-30
2018-01-03,google,us,60,-10
2018-01-01,fb,es,100,0
2018-01-02,fb,gb,100,0
2018-01-01,fb,us,50,0
2018-01-02,fb,us,55,5
2018-01-03,fb,us,100,45

我首先尝试按网站/国家/日期排序,然后按网站和国家/地区分组,但是我无法从分组对象中获得区别。

关注者
0
被浏览
143
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    首先,对DataFrame排序,然后您需要做的是groupby.diff()

    df = df.sort_values(by=['site', 'country', 'date'])
    
    df['diff'] = df.groupby(['site', 'country'])['score'].diff().fillna(0)
    
    df
    Out: 
             date    site country  score  diff
    8  2018-01-01      fb      es    100   0.0
    9  2018-01-02      fb      gb    100   0.0
    5  2018-01-01      fb      us     50   0.0
    6  2018-01-02      fb      us     55   5.0
    7  2018-01-03      fb      us    100  45.0
    1  2018-01-01  google      ch     50   0.0
    4  2018-01-02  google      ch     10 -40.0
    0  2018-01-01  google      us    100   0.0
    2  2018-01-02  google      us     70 -30.0
    3  2018-01-03  google      us     60 -10.0
    

    sort_values不支持任意排序。如果您需要进行任意排序(例如Google在fb之前),则需要将它们存储在集合中并将列设置为分类。然后sort_values将遵守您在此处提供的顺序。



知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看