python类Tokenizer()的实例源码-面圈网

entity.py 文件源码项目：cdata 作者: cnschema 项目源码文件源码阅读 28 收藏 0 点赞 0 评论 0

def __init__(self, entity_list):
        """
            [{"@id":"1","name":"??"},{"@id":"2","name":"??"}]
            all input text are assumed (or will be converted into) unicode
        """
        # init entity index
        self.entities = collections.defaultdict(list)
        entity_list_unicode = []
        for entity in entity_list:
            entity_list_unicode.append(any2unicode(entity))

        for entity in entity_list_unicode:
            name = entity["name"]
            self.entities[name].append(entity)

        for entity in entity_list_unicode:
            for name in entity.get("alternateName", []):
                self.entities[name].append(entity)

        stat(entity_list_unicode, ["name"])

        # init jieba
        self.tokenizer = jieba.Tokenizer()
        for name in self.entities:
            self.tokenizer.add_word(name)

__init__.py 文件源码项目：PTTChatBot_DL2017 作者: thisray 项目源码文件源码阅读 22 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：PTTChatBot_DL2017 作者: thisray 项目源码文件源码阅读 27 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance

__init__.py 文件源码项目：ChineseSA 作者: cwlseu 项目源码文件源码阅读 24 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：ChineseSA 作者: cwlseu 项目源码文件源码阅读 24 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance

__init__.py 文件源码项目：Malicious_Domain_Whois 作者: h-j-13 项目源码文件源码阅读 23 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：Malicious_Domain_Whois 作者: h-j-13 项目源码文件源码阅读 24 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance

__init__.py 文件源码项目：jieba-GAE 作者: liantian-cn 项目源码文件源码阅读 24 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：jieba-GAE 作者: liantian-cn 项目源码文件源码阅读 21 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance

__init__.py 文件源码项目：my_bit_v1 作者: iSawyer 项目源码文件源码阅读 25 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：my_bit_v1 作者: iSawyer 项目源码文件源码阅读 23 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance

__init__.py 文件源码项目：http_server 作者: chenguolin 项目源码文件源码阅读 19 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：http_server 作者: chenguolin 项目源码文件源码阅读 23 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance

__init__.py 文件源码项目：http_server 作者: chenguolin 项目源码文件源码阅读 25 收藏 0 点赞 0 评论 0

def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())

__init__.py 文件源码项目：http_server 作者: chenguolin 项目源码文件源码阅读 21 收藏 0 点赞 0 评论 0

def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance