Bert Tokenizer 使用特殊字符
记录一个使用 Bert Tokenizer 时踩得小坑。
Bert 的 [unused*]
不是直接使用的,在创建 tokenizer
的时候需要提前指定需要用到的 token,具体来说,如果想要用到 [usused1]
-> [unused99]
,那就要按如下先声明 tokenizer
:
1 |
|
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!
记录一个使用 Bert Tokenizer 时踩得小坑。
Bert 的 [unused*]
不是直接使用的,在创建 tokenizer
的时候需要提前指定需要用到的 token,具体来说,如果想要用到 [usused1]
-> [unused99]
,那就要按如下先声明 tokenizer
:
1 |
|
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!
目录