Bert Tokenizer 使用特殊字符

记录一个使用 Bert Tokenizer 时踩得小坑。

Bert 的 [unused*] 不是直接使用的,在创建 tokenizer 的时候需要提前指定需要用到的 token,具体来说,如果想要用到 [usused1]-> [unused99],那就要按如下先声明 tokenizer

1
2
added_tokens = [f"[unused{i}" for i in range(1, 100)]]
tokenizer = BertTokenizer.from_pretrained("bert-base-cased", additional_special_tokens=added_tokens)

本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!