如何删除熊猫数据框中具有重复列值的行?

发布于 2021-01-29 19:34:24

我有一个看起来像这样的熊猫数据框。

  Column1  Column2 Column3
0     cat        1       C
1     dog        1       A
2     cat        1       B

我想确定cat和bat是重复的相同值,因此想删除一个记录并仅保留第一条记录。结果数据帧应该只有一个。

  Column1  Column2 Column3
0     cat        1       C
1     dog        1       A
关注者
0
被浏览
67
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    使用drop_duplicates具有subset与列的列表上检查重复和keep='first'保持第一重复的。

    如果dataframe是:

    df = pd.DataFrame({'Column1': ["'cat'", "'toy'", "'cat'"],
                       'Column2': ["'bat'", "'flower'", "'bat'"],
                       'Column3': ["'xyz'", "'abc'", "'lmn'"]})
    print(df)
    

    结果:

      Column1   Column2 Column3
    0   'cat'     'bat'   'xyz'
    1   'toy'  'flower'   'abc'
    2   'cat'     'bat'   'lmn'
    

    然后:

    result_df = df.drop_duplicates(subset=['Column1', 'Column2'], keep='first')
    print(result_df)
    

    结果:

      Column1   Column2 Column3
    0   'cat'     'bat'   'xyz'
    1   'toy'  'flower'   'abc'
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看