File size: 707 Bytes
17e7017 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
import sentencepiece as spm
import os
# 📦 Загрузка модели
sp = spm.SentencePieceProcessor()
sp.load(os.path.join("models", "kyrgyz_bpe_4000.model"))
# 📝 Пример текста
text = "Салам, дүйнө!"
# 🔹 Токенизация — в строки
tokens_str = sp.encode(text, out_type=str)
print("Токены (строки):", tokens_str)
# 🔸 Токенизация — в числовые ID
tokens_id = sp.encode(text, out_type=int)
print("Токены (ID):", tokens_id)
# 🔄 Обратное преобразование
reconstructed_text = sp.decode(tokens_str)
print("Восстановленный текст:", reconstructed_text)
|