| task: token-classification | |
| widget: | |
| - text: "Hello, this is a test of my BPE tokenizer." | |
| example_title: "英文分词示例" | |
| - text: "我爱自然语言处理,这是我的分词器测试。" | |
| example_title: "中文分词示例" | |
| # My Tokenizer | |
| 这是一个基于BPE算法训练的分词器,支持中英文混合文本。 | |
| ## 如何使用 | |
| ```python | |
| from tokenizers import Tokenizer | |
| # 加载分词器 | |
| tokenizer = Tokenizer.from_pretrained("你的用户名/my-tokenizer") | |
| # 分词示例 | |
| text = "Hello, world!" | |
| output = tokenizer.encode(text) | |
| print("分词结果:", output.tokens) | |
| ``` | |