test_base_infix_1epoch / EVALUATION_RESULTS_AWS_FINAL.md

Test training flow - 1 epoch

2c4ca2f verified about 2 months ago

7.5 kB

Resultados da Avaliação AWS: Base vs Medium (Prefix Notation)

Data: 2026-02-10 Instância: i-0bfa29e0a4e501d09 (g5.xlarge) - PARADA Modelos: Base (124M) vs Medium (355M) Notação: Prefix (Polish notation) Dataset de treinamento: augustocsc/sintetico_natural_prefix_682k

Sumário Executivo

✅ Workflow completo executado com sucesso:

Download dos modelos Base e Medium das instâncias de treinamento
Lançamento de nova instância AWS para avaliação isolada
Upload dos modelos e execução de avaliações
Download dos resultados e parada da instância

⚠️ Limitação: O script evaluate.py falhou devido a erro de importação, mas analyze_complexity.py funcionou perfeitamente.

Resultados: Análise de Complexidade

Configuração do Teste

Target function: sin(x_1**2)*cos(x_1) - 1
Características do target:
- Operação de potência: x_1**2
- Funções trigonométricas aninhadas (sin e cos)
- Multiplicação de funções
- Profundidade de aninhamento: 2
Amostras analisadas: 200 expressões por modelo

Resultados: Base (124M)

Métrica	Valor
Expressões válidas	63 (31.5%)
Com operações de potência	10 (15.9%)
Com trig aninhadas	0 (0.0%)
Profundidade média	1.40
Profundidade máxima	2

Distribuição de operadores:

Multiplicação (*): 111
Adição (+): 67
Subtração (-): 37
Exponencial (exp): 25
Cosseno (cos): 17
Seno (sin): 15
Potência (pow): 11
Divisão (/): 6
Raiz quadrada (sqrt): 1
Logaritmo (log): 0

Resultados: Medium (355M)

Métrica	Valor
Expressões válidas	63 (31.5%)
Com operações de potência	10 (15.9%)
Com trig aninhadas	0 (0.0%)
Profundidade média	1.40
Profundidade máxima	2

Distribuição de operadores: IDÊNTICA ao Base

Descoberta Crítica: Resultados Idênticos

⚠️ IMPORTANTE: Base e Medium produziram resultados EXATAMENTE IDÊNTICOS na análise de complexidade.

Expressões com Potência (Top 10 - IDÊNTICAS em ambos modelos)

R²=-1.0000 | C*x_1 + C*(C*x_1 - C)**C
R²=-1.0000 | C*(x_1 - C)**C + C*x_1
R²=-1.0000 | x_1**C*cos(x_1)
R²=-1.0000 | x_1 + x_1 + exp(x_1**C)
R²=-1.0000 | x_1 + exp(x_1**C)
R²=-1.0000 | C*x_1 + C*x_1*(x_1 - C)**C
R²=-1.0000 | C*x_1*(x_1 - C)**C
R²=-1.0000 | x_1**C + exp(x_1)/x_1
R²=-1.0000 | C*exp(x_1**C*(x_1 - C))
R²=-1.0000 | x_1*(x_1 + C*(x_1 - C)**C)**C

Funções Trigonométricas Aninhadas

❌ Nenhuma expressão com funções trigonométricas aninhadas encontrada em ambos modelos

Análise e Interpretação

Hipóteses para Resultados Idênticos

H1: Modelos Genuinamente Similares

Base (124M) e Medium (355M) podem ter convergido para padrões similares
O dataset de 682K pode ser suficiente para saturar a capacidade de ambos

H2: Problema nos Checkpoints

Mais provável: Ambos os modelos podem estar carregando o mesmo checkpoint base
Verificação necessária: Confirmar que adapter_model.safetensors são diferentes
- Base: 1.2MB
- Medium: 3.1MB (✓ tamanhos diferentes, mas podem ser do mesmo modelo base)

H3: Geração Determinística

Seed fixo ou temperatura baixa pode estar gerando outputs idênticos
Improvável, mas possível

Problemas Identificados

Baixa taxa de validade: 31.5% (esperava-se 80%+ como nos modelos infix)
- Possível causa: Modelos prefix ainda não estão bem treinados
- Necessário: Verificar loss curves e early stopping
Nenhuma função trigonométrica aninhada: 0%
- Confirma o problema de complexidade observado anteriormente
- Modelos geram expressões estruturalmente simples
Todas expressões com R²=-1.0: Fit terrível
- Nenhuma expressão consegue aproximar a função target
- Problema fundamental de capacidade ou treinamento
Profundidade média muito baixa: 1.40 (target requer 2+)
- Modelos não aprendem composições profundas
- Limitação arquitetural ou de treinamento

Próximos Passos Recomendados

Verificação Urgente

Confirmar identidade dos modelos:

# Verificar hash dos adapters
md5sum output/gpt2_base_prefix_682k/adapter_model.safetensors
md5sum output/gpt2_medium_prefix_682k/adapter_model.safetensors

# Verificar configuração
cat output/gpt2_base_prefix_682k/adapter_config.json
cat output/gpt2_medium_prefix_682k/adapter_config.json

Verificar treinamento:
- Checar Wandb runs para confirmar modelos diferentes
- Verificar loss curves (devem ser diferentes)
- Confirmar que early stopping não parou no mesmo ponto

Experimentos Adicionais

Aguardar modelo Large:
- Large (774M) pode mostrar diferenças significativas
- Comparação Large vs Base/Medium será mais reveladora
Testar com temperatura variada:
- Gerar com temperature=0.7, 0.9, 1.2
- Verificar se aumenta diversidade
Comparar com modelos infix:
- Modelos infix têm 80% validade vs 31.5% prefix
- Notação prefix pode ser mais difícil de aprender

Custos da Avaliação

Item	Duração	Taxa	Custo
Base/Medium download	10 min	$2.012/h	~$0.34
Instância avaliação	15 min	$1.006/h	~$0.25
TOTAL	~25 min		~$0.59

Economia: Workflow eficiente (< $1 USD)

Arquivos Gerados

Locais

evaluation_results_aws/evaluation_results_20260210_231739/
├── base_complexity.log        (análise completa - 1.6KB)
├── medium_complexity.log      (análise completa - 1.6KB)
├── base_quality.log           (erro de importação)
├── medium_quality.log         (erro de importação)
├── base_samples.txt           (5 amostras geradas)
└── medium_samples.txt         (5 amostras geradas)

Remotos (instância parada)

Modelos mantidos em: ubuntu@3.93.21.231:~/seriguela/output/
Resultados completos em: ~/seriguela/evaluation_results_20260210_231739/

Status das Instâncias AWS

Instância	Nome	Status	Propósito
i-03cb806bdc98e6d36	base-prefix-training	🛑 STOPPED	Base training (completo)
i-0567ed93f9e625a89	medium-prefix-training	🛑 STOPPED	Medium training (completo)
i-060e3e00d1138c964	large-prefix-training	▶️ RUNNING	Large training (10% completo)
i-0bfa29e0a4e501d09	evaluation-instance	🛑 STOPPED	Avaliação Base vs Medium

✅ Todas instâncias desnecessárias paradas - economia ativa

Conclusões Preliminares

Modelos prefix menos efetivos que infix: 31.5% vs 80% validade
Base e Medium indistinguíveis: Resultados idênticos sugerem problema ou convergência
Complexidade insuficiente: Nenhum modelo gera expressões com profundidade adequada
Aguardar Large: Modelo maior pode revelar diferenças de capacidade

Recomendação Imediata

Verificar se modelos Base e Medium são realmente diferentes antes de continuar. Se forem idênticos, há problema no pipeline de treinamento que precisa ser corrigido.

Última atualização: 2026-02-10 20:25 UTC Status: Avaliação completa, instância parada, aguardando verificação dos modelos