File size: 543 Bytes
f440f03 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 | """Tokenizer palīgfunkcijas."""
from __future__ import annotations
import logging
logger = logging.getLogger(__name__)
def count_tokens(text: str, model: str = "gpt2") -> int:
"""Skaitīt tokenu skaitu tekstā."""
try:
from transformers import AutoTokenizer # type: ignore
tokenizer = AutoTokenizer.from_pretrained(model)
return len(tokenizer.encode(text))
except Exception: # noqa: BLE001
# Aptuvena novērtēšana — vidēji 4 rakstzīmes uz tokenu
return max(1, len(text) // 4)
|