【Transformers】 Tokenizer

Tokenizer

Tokenizer即分词器，主要任务是将文本输入转化为模型可以接受的输入，即数值索引。

不同的Tokenizer策略可以不同的结果，常用的策略有：word base（按照词进行分词），character base（按照单词进行分词），subword tokenization（按照subword进行分词）

Word-based

word base进行分词的话，有两种方式，一种是根据whitespace进行分割，一种是根据标点符号进行分割，然后再做数字的映射。
word based
每个 word 都被赋予一个ID，这个 ID 的范围是从0到 vocabulary size，这种方式有一种问题，就是很容易出现例如，dog 和 dogs，虽然是相近的词，但是被分配了完全不同的无关的id。对于不在vocabulary 库里面的词，我们会分配 [UNK]，代表未知词。

Character base

Char base的 tokenization 方式，就是用char，而不是word。这种方式的好处在于：vocabulary size 很小；比较少机会出现 out of vocabulary 的问题。但这种方式会导致文本无意义

Subword tokenization

subword tokenization 依赖的原则是：常见词不应该分成subword，不常见的词应该分为更有意义的subword，例如：tokenization 代表不常见的词，可以被分为：token和ization，annoyingly 被分为 annoying 和 ly，这对于英文来说是很有意义的，因为英文本来就是由于词根和词缀组成的。