如何有效地创建数据透视表?

发布于 2021-01-29 16:16:48

我确实有一个像这样的数据框:

import pandas as pd

df = pd.DataFrame({"c0": list('ABC'),
                   "c1": [" ".join(list('ab')), " ".join(list('def')), " ".join(list('s'))],
                   "c2": list('DEF')})

  c0     c1 c2
0  A    a b  D
1  B  d e f  E
2  C      s  F

我想创建一个如下所示的数据透视表:

      c2
c0 c1   
A  a   D
   b   D
B  d   E
   e   E
   f   E
C  s   F

因此,将其中的条目c1拆分,然后将其视为多索引中使用的单个元素。

我这样做如下:

newdf = pd.DataFrame()

for indi, rowi in df.iterrows():

    # get all single elements in string
    n_elements = rowi['c1'].split()

    # only one element so we can just add the entire row
    if len(n_elements) == 1:
        newdf = newdf.append(rowi)
    # more than one element
    else:
        for eli in n_elements:
            # that allows to add new elements using loc, without it we will have identical index values
            if not newdf.empty:
                newdf = newdf.reset_index(drop=True)
                newdf.index = -1 * newdf.index - 1

            # add entire row
            newdf = newdf.append(rowi)
            # replace the entire string by the single element
            newdf.loc[indi, 'c1'] = eli

print newdf.reset_index(drop=True)

产生

  c0 c1 c2
0  A  a  D
1  A  b  D
2  B  d  E
3  B  e  E
4  B  f  E
5  C  s  F

那我就打电话

pd.pivot_table(newdf, index=['c0', 'c1'], aggfunc=lambda x: ' '.join(set(str(v) for v in x)))

这给了我想要的输出(见上文)。

对于可能非常慢的大型数据帧,所以我想知道是否存在更有效的方法。

关注者
0
被浏览
138
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    选项1

    import numpy as np, pandas as pd
    
    s = df.c1.str.split()
    l = s.str.len()
    newdf = df.loc[df.index.repeat(l)].assign(c1=np.concatenate(s)).set_index(['c0', 'c1'])
    newdf
    
          c2
    c0 c1   
    A  a   D
       b   D
    B  d   E
       e   E
       f   E
    C  s   F
    

    选项2
    应该更快

    import numpy as np, pandas as pd
    
    s = np.core.defchararray.split(df.c1.values.astype(str), ' ')
    l = [len(x) for x in s.tolist()]
    r = np.arange(len(s)).repeat(l)
    i = pd.MultiIndex.from_arrays([
        df.c0.values[r],
        np.concatenate(s)
    ], names=['c0', 'c1'])
    newdf = pd.DataFrame({'c2': df.c2.values[r]}, i)
    newdf
    
          c2
    c0 c1   
    A  a   D
       b   D
    B  d   E
       e   E
       f   E
    C  s   F
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看