def get_tokenizer(name, lowercase):
if name == 'char':
if lowercase:
return (lambda s: list(s.strip().lower()))
else:
return (lambda s: list(s.strip()))
elif (name == 'space') or (name == 'bpe'):
if lowercase:
return (lambda s: s.lower().split())
else:
return str.split
elif name == 'word':
if lowercase:
return (lambda s: word_tokenize(s.lower()))
else:
return word_tokenize
else:
raise ValueError('Unknown tokenizer: "%s"' % name)
评论列表
文章目录