如何理解熊猫重采样方法中的封闭和标签参数?

发布于 2021-01-29 18:57:39

根据此处的熊猫文档:Docs

和例子:

>>> index = pd.date_range('1/1/2000', periods=9, freq='T')
>>> series = pd.Series(range(9), index=index)
>>> series
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8
Freq: T, dtype: int64

重采样后:

>>> series.resample('3T', label='right', closed='right').sum()
2000-01-01 00:00:00     0
2000-01-01 00:03:00     6
2000-01-01 00:06:00    15
2000-01-01 00:09:00    15

我认为,重新采样后,垃圾箱应如下所示:

=========bin 01=========
2000-01-01 00:00:00    0
2000-01-01 00:01:00    1
2000-01-01 00:02:00    2

=========bin 02=========
2000-01-01 00:03:00    3
2000-01-01 00:04:00    4
2000-01-01 00:05:00    5

=========bin 03=========
2000-01-01 00:06:00    6
2000-01-01 00:07:00    7
2000-01-01 00:08:00    8

我在这一步上正确吗?

所以在.sum我认为应该是这样的:

2000-01-01 00:02:00     3
2000-01-01 00:05:00    12
2000-01-01 00:08:00    21

我只是不明白结果如何:

2000-01-01 00:00:00 0

(因为label='right'在这种情况下,2000年1月1日00:00:00不能是任何垃圾箱的任何右边缘)。

2000-01-01 00:09:00 15

(标签2000-01-01 00:09:00甚至在原始系列中也不存在。

关注者
0
被浏览
44
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    简短的答案: 如果您使用closed='left'loffset='2T'那么您将获得期望的结果:

    series.resample('3T', label='left', closed='left', loffset='2T').sum()
    
    2000-01-01 00:02:00     3
    2000-01-01 00:05:00    12
    2000-01-01 00:08:00    21
    

    长答案:( 或者给定您使用的参数,为什么您得到的结果是正确的)从文档中可能不清楚,但是在这种设置下打开和关闭是关于严格不严格不平等(例如<vs
    <=)的问题。

    一个例子应该使这一点变得清楚。使用示例中的内部间隔,这与更改以下值的区别closed

    closed='right' =>  ( 3:00, 6:00 ]  or  3:00 <  x <= 6:00
    closed='left'  =>  [ 3:00, 6:00 )  or  3:00 <= x <  6:00
    

    您可以在类似此处的许多地方找到间隔符号的说明(括号和括号),例如:https
    :
    //en.wikipedia.org/wiki/Interval_(mathematics)

    label参数仅控制显示左侧(3:00)还是右侧(6:00),但不会影响结果本身。

    另请注意,您可以使用loffset参数(应将其输入为时间增量)更改间隔的起点。

    回到示例,在这里我们仅将标签从“ right”更改为“ left”:

    series.resample('3T', label='right', closed='right').sum()
    
    2000-01-01 00:00:00     0
    2000-01-01 00:03:00     6
    2000-01-01 00:06:00    15
    2000-01-01 00:09:00    15
    
    series.resample('3T', label='left', closed='right').sum()
    
    1999-12-31 23:57:00     0
    2000-01-01 00:00:00     6
    2000-01-01 00:03:00    15
    2000-01-01 00:06:00    15
    

    如您所见,结果是相同的,只是索引标签改变了。大熊猫仅可以显示在左边或右边的标签,但如果它表现出 两个
    ,那么它看起来像这样(在下面,我用标准的索引符号,其中(左侧手段打开和]右侧被封闭):

    ( 1999-12-31 23:57:00, 2000-01-01 00:00:00 ]   0   # = 0
    ( 2000-01-01 00:00:00, 2000-01-01 00:03:00 ]   6   # = 1+2+3
    ( 2000-01-01 00:03:00, 2000-01-01 00:06:00 ]  15   # = 4+5+6
    ( 2000-01-01 00:06:00, 2000-01-01 00:09:00 ]  15   # =   7+8
    

    请注意,第一个bin(23:57:00,00:00:00]不为空,只是它包含一行并且该行中的值为零。如果将“ sum”更改为“ count”这变得更加明显:

    series.resample('3T', label='left', closed='right').count()
    
    1999-12-31 23:57:00    1
    2000-01-01 00:00:00    3
    2000-01-01 00:03:00    3
    2000-01-01 00:06:00    2
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看