python类Tokenizer()的实例源码

entity.py 文件源码 项目:cdata 作者: cnschema 项目源码 文件源码 阅读 24 收藏 0 点赞 0 评论 0
def __init__(self, entity_list):
        """
            [{"@id":"1","name":"??"},{"@id":"2","name":"??"}]
            all input text are assumed (or will be converted into) unicode
        """
        # init entity index
        self.entities = collections.defaultdict(list)
        entity_list_unicode = []
        for entity in entity_list:
            entity_list_unicode.append(any2unicode(entity))

        for entity in entity_list_unicode:
            name = entity["name"]
            self.entities[name].append(entity)

        for entity in entity_list_unicode:
            for name in entity.get("alternateName", []):
                self.entities[name].append(entity)

        stat(entity_list_unicode, ["name"])

        # init jieba
        self.tokenizer = jieba.Tokenizer()
        for name in self.entities:
            self.tokenizer.add_word(name)
__init__.py 文件源码 项目:PTTChatBot_DL2017 作者: thisray 项目源码 文件源码 阅读 19 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:PTTChatBot_DL2017 作者: thisray 项目源码 文件源码 阅读 25 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
__init__.py 文件源码 项目:ChineseSA 作者: cwlseu 项目源码 文件源码 阅读 19 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:ChineseSA 作者: cwlseu 项目源码 文件源码 阅读 19 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
__init__.py 文件源码 项目:Malicious_Domain_Whois 作者: h-j-13 项目源码 文件源码 阅读 21 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:Malicious_Domain_Whois 作者: h-j-13 项目源码 文件源码 阅读 20 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
__init__.py 文件源码 项目:jieba-GAE 作者: liantian-cn 项目源码 文件源码 阅读 22 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:jieba-GAE 作者: liantian-cn 项目源码 文件源码 阅读 18 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
__init__.py 文件源码 项目:my_bit_v1 作者: iSawyer 项目源码 文件源码 阅读 20 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:my_bit_v1 作者: iSawyer 项目源码 文件源码 阅读 21 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
__init__.py 文件源码 项目:http_server 作者: chenguolin 项目源码 文件源码 阅读 16 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:http_server 作者: chenguolin 项目源码 文件源码 阅读 19 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance
__init__.py 文件源码 项目:http_server 作者: chenguolin 项目源码 文件源码 阅读 21 收藏 0 点赞 0 评论 0
def __init__(self, tokenizer=None):
        self.tokenizer = tokenizer or jieba.Tokenizer()
        self.load_word_tag(self.tokenizer.get_dict_file())
__init__.py 文件源码 项目:http_server 作者: chenguolin 项目源码 文件源码 阅读 19 收藏 0 点赞 0 评论 0
def lcut(self, *args, **kwargs):
        return list(self.cut(*args, **kwargs))

# default Tokenizer instance


问题


面经


文章

微信
公众号

扫码关注公众号