汉字编码格式问题

#6
by luohuashijieyoufengjun - opened

对汉字的编码是这种格式,怎么转换成汉字显示:

image.png

Owner

记不太清楚了,你可以查查 HF 的文档或者在 repo 里面找找,应该有相关代码

记不太清楚了,你可以查查 HF 的文档或者在 repo 里面找找,应该有相关代码

我在tokenizer.json文件中看到了id和token的对应关系。但是从你github上的代码中没有看到这种对应关系的来源,你似乎没有在github上上传tokenizer文件夹

Owner

记不太清楚了,你可以查查 HF 的文档或者在 repo 里面找找,应该有相关代码

我在tokenizer.json文件中看到了id和token的对应关系。但是从你github上的代码中没有看到这种对应关系的来源,你似乎没有在github上上传tokenizer文件夹

是由一个 transformer 实现的标准方法来执行转换的,但是我不记不太清楚是哪个方法了,看看 transformer 文档或者问问 AI 看看

原理可以参考这篇:
https://www.hugchange.life/posts/202311_tokenizer.html
简单说就是做了编码转换,保证唯一对应关系。

原理可以参考这篇:
https://www.hugchange.life/posts/202311_tokenizer.html
简单说就是做了编码转换,保证唯一对应关系。

好的,感谢

Sign up or log in to comment