计算熊猫数据框中的不同单词

发布于 2021-01-29 19:10:51

我有一个Pandas数据框,其中一列包含文本。我想获得一列出现在整列中的唯一单词的列表(空格是唯一的拆分)。

import pandas as pd

r1=['My nickname is ft.jgt','Someone is going to my place']

df=pd.DataFrame(r1,columns=['text'])

输出应如下所示:

['my','nickname','is','ft.jgt','someone','going','to','place']

获得计数也没有什么坏处,但这不是必需的。

关注者
0
被浏览
179
1 个回答
  • 面试哥
    面试哥 2021-01-29
    为面试而生,有面试问题,就找面试哥。

    使用set来创建唯一元素的序列。

    进行一些清理df以使小写字母的字符串分解:

    df['text'].str.lower().str.split()
    Out[43]: 
    0             [my, nickname, is, ft.jgt]
    1    [someone, is, going, to, my, place]
    

    该列中的每个列表都可以传递给set.update函数以获取唯一值。使用apply这样做:

    results = set()
    df['text'].str.lower().str.split().apply(results.update)
    print(results)
    
    set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])
    

    或与Counter()from注释一起使用:

    from collections import Counter
    results = Counter()
    df['text'].str.lower().str.split().apply(results.update)
    print(results)
    


知识点
面圈网VIP题库

面圈网VIP题库全新上线,海量真题题库资源。 90大类考试,超10万份考试真题开放下载啦

去下载看看