File size: 707 Bytes
17e7017
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
import sentencepiece as spm
import os

# 📦 Загрузка модели
sp = spm.SentencePieceProcessor()
sp.load(os.path.join("models", "kyrgyz_bpe_4000.model"))

# 📝 Пример текста
text = "Салам, дүйнө!"

# 🔹 Токенизация — в строки
tokens_str = sp.encode(text, out_type=str)
print("Токены (строки):", tokens_str)

# 🔸 Токенизация — в числовые ID
tokens_id = sp.encode(text, out_type=int)
print("Токены (ID):", tokens_id)

# 🔄 Обратное преобразование
reconstructed_text = sp.decode(tokens_str)
print("Восстановленный текст:", reconstructed_text)