textrank.py 文件源码-python代码片段

textrank.py 文件源码

python

阅读 31 收藏 0 点赞 0 评论 0

项目：YelpDataChallenge 作者: fujunswufe 项目源码文件源码

def extractSentences(document):
    # sent_detector = nltk.data.load('tokenizers/punkt/english.pickle')
    # sentenceTokens = sent_detector.tokenize(text.strip())
    sentenceTokens = document.sentences()
    graph = buildGraph(sentenceTokens)

    calculated_page_rank = nx.pagerank(graph, weight='weight')

    #most important sentences in ascending order of importance
    sentences = sorted(calculated_page_rank, key=calculated_page_rank.get, reverse=True)

    #return a 100 word summary
    summary = ' '.join(sentences)
    summaryWords = summary.split()
    summaryWords = summaryWords[0:101]
    summary = ' '.join(summaryWords)

    return summary