database.py 文件源码-python代码片段

database.py 文件源码

python

阅读 21 收藏 0 点赞 0 评论 0

项目：chat_logs_analysis_for_qq 作者: q673230559 项目源码文件源码

def get_hot_noun_counts(source_file):
    f = open(source_file, "r")
    data = f.read()
    re_pat = r'[\d-]{10}\s[\d:]{7,8}\s+[^\n]+\d{5,11}\)'  # ?????['2016-06-24 15:42:52  ??(40**21)',…]
    # li=re.findall(re_pat,data)
    li_content = re.split(re_pat, data)
    s = ""
    for l in li_content:
        s = s + l
    seg_list = pseg.cut(s.strip())
    lists = []
    for w in seg_list:
        if (w.flag == "ns"):
            lists.append(w.word)
    # print("******?????**0?kp-****")
    # print("???????",len(lists))
    seg_list_norepeat = set(lists)
    # print("???????",len(seg_list_noRepeat))
    word_set = {}
    for seg in seg_list_norepeat:
        count = 0
        for ss in lists:
            if (ss == seg):
                count += 1
        word_set[seg] = count
    word_tuple_sort = sorted(word_set.items(), key=lambda e: e[1], reverse=True)
    return word_tuple_sort