#!/usr/bin/env bash
# scripts/build_tokenizer.sh — treina o tokenizador BPE no corpus Go coletado
set -euo pipefail

RAW_DIR=${RAW_DIR:-data/raw}
TOK_DIR=${TOK_DIR:-data/tokenizer}
VOCAB_SIZE=${VOCAB_SIZE:-32000}

FILES=$(find "$RAW_DIR" -name "*.go" 2>/dev/null | wc -l)
if [ "$FILES" -eq 0 ]; then
    echo "ERRO: Nenhum arquivo .go encontrado em $RAW_DIR."
    echo "      Execute scripts/collect_data.sh primeiro."
    exit 1
fi

echo "==> Treinando tokenizador BPE em $FILES arquivos Go..."
echo "    vocab_size=$VOCAB_SIZE  saída=$TOK_DIR"

llm-go-tokenize \
    --raw-dir   "$RAW_DIR" \
    --out-dir   "$TOK_DIR" \
    --vocab-size "$VOCAB_SIZE"

echo ""
echo "✅ Tokenizador salvo em $TOK_DIR"
echo "   Arquivos:"
ls -lh "$TOK_DIR"