计算熊猫数据框中的不同单词
发布于 2021-01-29 19:10:51
我有一个Pandas数据框,其中一列包含文本。我想获得一列出现在整列中的唯一单词的列表(空格是唯一的拆分)。
import pandas as pd
r1=['My nickname is ft.jgt','Someone is going to my place']
df=pd.DataFrame(r1,columns=['text'])
输出应如下所示:
['my','nickname','is','ft.jgt','someone','going','to','place']
获得计数也没有什么坏处,但这不是必需的。
关注者
0
被浏览
179
1 个回答
-
使用
set
来创建唯一元素的序列。进行一些清理
df
以使小写字母的字符串分解:df['text'].str.lower().str.split() Out[43]: 0 [my, nickname, is, ft.jgt] 1 [someone, is, going, to, my, place]
该列中的每个列表都可以传递给
set.update
函数以获取唯一值。使用apply
这样做:results = set() df['text'].str.lower().str.split().apply(results.update) print(results) set(['someone', 'ft.jgt', 'my', 'is', 'to', 'going', 'place', 'nickname'])
或与
Counter()
from注释一起使用:from collections import Counter results = Counter() df['text'].str.lower().str.split().apply(results.update) print(results)