test_base_infix_1epoch / EVALUATION_IN_PROGRESS.md
augustocsc's picture
Test training flow - 1 epoch
2c4ca2f verified

Avaliação AWS em Andamento

Hora: 2026-02-10 20:07 UTC Status: ⏳ Uploads em andamento

Progresso

✅ Fase 1: Download dos Modelos - COMPLETO

  • Base downloaded: 1.2MB adapter + checkpoints
  • Medium downloaded: 3.1MB adapter + checkpoints
  • Instâncias Base/Medium: STOPPED (economia ativa)

✅ Fase 2: Instância de Avaliação - LANÇADA

  • Instance ID: i-0bfa29e0a4e501d09
  • IP: 3.93.21.231
  • Tipo: g5.xlarge (NVIDIA A10G, 24GB VRAM)
  • Status: RUNNING
  • Setup: Completo (repo clonado, deps instaladas)

⏳ Fase 3: Upload dos Modelos - EM ANDAMENTO

  • Base: Upload iniciado (task b8c7966)
  • Medium: Upload iniciado (task bdf6287)
  • Tempo estimado: ~5-10 minutos

⏸️ Fase 4: Execução das Avaliações - PRÓXIMO

Será executado após uploads completos:

  1. Validação rápida (5 expressões/modelo)
  2. Métricas de qualidade (500 amostras/modelo)
    • Valid rate, constraint adherence, diversity
  3. Análise de complexidade (200 amostras/modelo)
    • Power ops, nested functions, depth
  4. Comparação Base vs Medium (Nguyen-5)

Tempo estimado: 1-2 horas

⏸️ Fase 5: Download de Resultados - PENDENTE

⏸️ Fase 6: Parada da Instância - PENDENTE

Comandos de Monitoramento

# Checar uploads em progresso
tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/b8c7966.output
tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/bdf6287.output

# SSH na instância de avaliação
ssh -i C:/Users/madeinweb/chave-gpu.pem ubuntu@3.93.21.231

# Verificar modelos uploadados
ssh ubuntu@3.93.21.231 'ls -lh ~/seriguela/output/'

# Monitorar avaliações (depois de iniciadas)
ssh ubuntu@3.93.21.231 'tail -f ~/seriguela/evaluation_results_*/evaluation.log'

Custos

Item Status Tempo Taxa Custo
Base/Medium (download) 10 min $2.012/h ~$0.34
Instância avaliação ▶️ ~2h est. $1.006/h ~$2.00
TOTAL ESTIMADO ~$2.34

Timeline

  • 20:00 UTC: Iniciado workflow
  • 20:05 UTC: ✅ Modelos baixados
  • 20:06 UTC: ✅ Instâncias Base/Medium paradas
  • 20:07 UTC: ✅ Instância avaliação lançada
  • 20:07 UTC: ⏳ Uploads iniciados
  • 20:15 UTC (est.): Uploads completos
  • 20:20 UTC (est.): Avaliações iniciadas
  • 22:00 UTC (est.): Avaliações completas
  • 22:05 UTC (est.): Resultados baixados, instância parada

Próximas Ações (Automáticas)

  1. Aguardar uploads completarem (~5-10 min)
  2. Executar script de avaliação remoto
  3. Monitorar progresso
  4. Baixar resultados quando completo
  5. Parar instância

Última atualização: 2026-02-10 20:07 UTC Próxima checagem: 20:15 UTC (verificar uploads)