Python

熊猫MultiIndex DataFrame.rolling偏移量

发布于 2021-01-29 14:57:09

为什么在rolling多索引DataFrame时不能使用偏移量？ 例如，使用：

rng = pd.date_range('2017-01-03', periods=20, freq='8D')
i = pd.MultiIndex.from_product([['A','B','C'], rng], names=['Name','Date'])
df = pd.DataFrame(np.random.randn(60), i, columns=['Vals'])

如果我尝试使用偏移量进行分组和滚动，则会显示“ ValueError：窗口必须为整数 ”：

df['Avg'] = df.groupby(['Name'])['Vals'].rolling('30D').mean() # << Why doesn't this work?

并不是说以下这些变体可以满足我的需求，但是请注意对int作品进行分组和滚动：

df['Avg'] = df.groupby(['Name'])['Vals'].rolling(4).mean()

我可以在DataFrame的单索引子集上使用偏移量滚动：

d = df.loc['A']
d['Avg'] = d['Vals'].rolling('30D').mean()

如果确实不可能在多索引DataFrame上进行偏移滚动，那么将零应用于每个0级索引项的最有效的解决方法是什么？

关注者

被浏览

103

1 个回答

面试哥 2021-01-29

为面试而生，有面试问题，就找面试哥。
为了使用像“
30D”这样的偏移量，您需要一个简单的日期索引。在这种情况下，最简单的实现方法是使用，将“名称”移出索引reset_index(level='Name')，而只将“日期”作为索引：
```
df['Avg'] = df.reset_index(level='Name').groupby(['Name'])['Vals'].rolling('30D').mean()
```

知识点

Python

面圈网VIP题库全新上线，海量真题题库资源。 90大类考试，超10万份考试真题开放下载啦

去下载看看