Bert Tokenizer 使用特殊字符

记录一个使用 Bert Tokenizer 时踩得小坑。

Bert 的 [unused*] 不是直接使用的，在创建 tokenizer 的时候需要提前指定需要用到的 token，具体来说，如果想要用到 [usused1]-> [unused99]，那就要按如下先声明 tokenizer ：

1 2	`added_tokens = [f"[unused{i}" for i in range(1, 100)]] tokenizer = BertTokenizer.from_pretrained("bert-base-cased", additional_special_tokens=added_tokens)`

NLP KG

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！