test_base_infix_1epoch / EVALUATION_IN_PROGRESS.md
augustocsc's picture
Test training flow - 1 epoch
2c4ca2f verified
# Avaliação AWS em Andamento
**Hora**: 2026-02-10 20:07 UTC
**Status**: ⏳ Uploads em andamento
## Progresso
### ✅ Fase 1: Download dos Modelos - COMPLETO
- Base downloaded: 1.2MB adapter + checkpoints
- Medium downloaded: 3.1MB adapter + checkpoints
- Instâncias Base/Medium: STOPPED (economia ativa)
### ✅ Fase 2: Instância de Avaliação - LANÇADA
- **Instance ID**: i-0bfa29e0a4e501d09
- **IP**: 3.93.21.231
- **Tipo**: g5.xlarge (NVIDIA A10G, 24GB VRAM)
- **Status**: RUNNING
- **Setup**: Completo (repo clonado, deps instaladas)
### ⏳ Fase 3: Upload dos Modelos - EM ANDAMENTO
- **Base**: Upload iniciado (task b8c7966)
- **Medium**: Upload iniciado (task bdf6287)
- **Tempo estimado**: ~5-10 minutos
### ⏸️ Fase 4: Execução das Avaliações - PRÓXIMO
Será executado após uploads completos:
1. **Validação rápida** (5 expressões/modelo)
2. **Métricas de qualidade** (500 amostras/modelo)
- Valid rate, constraint adherence, diversity
3. **Análise de complexidade** (200 amostras/modelo)
- Power ops, nested functions, depth
4. **Comparação Base vs Medium** (Nguyen-5)
**Tempo estimado**: 1-2 horas
### ⏸️ Fase 5: Download de Resultados - PENDENTE
### ⏸️ Fase 6: Parada da Instância - PENDENTE
## Comandos de Monitoramento
```bash
# Checar uploads em progresso
tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/b8c7966.output
tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/bdf6287.output
# SSH na instância de avaliação
ssh -i C:/Users/madeinweb/chave-gpu.pem ubuntu@3.93.21.231
# Verificar modelos uploadados
ssh ubuntu@3.93.21.231 'ls -lh ~/seriguela/output/'
# Monitorar avaliações (depois de iniciadas)
ssh ubuntu@3.93.21.231 'tail -f ~/seriguela/evaluation_results_*/evaluation.log'
```
## Custos
| Item | Status | Tempo | Taxa | Custo |
|------|--------|-------|------|-------|
| Base/Medium (download) | ✅ | 10 min | $2.012/h | ~$0.34 |
| Instância avaliação | ▶️ | ~2h est. | $1.006/h | ~$2.00 |
| **TOTAL ESTIMADO** | | | | **~$2.34** |
## Timeline
- **20:00 UTC**: Iniciado workflow
- **20:05 UTC**: ✅ Modelos baixados
- **20:06 UTC**: ✅ Instâncias Base/Medium paradas
- **20:07 UTC**: ✅ Instância avaliação lançada
- **20:07 UTC**: ⏳ Uploads iniciados
- **20:15 UTC** (est.): Uploads completos
- **20:20 UTC** (est.): Avaliações iniciadas
- **22:00 UTC** (est.): Avaliações completas
- **22:05 UTC** (est.): Resultados baixados, instância parada
## Próximas Ações (Automáticas)
1. Aguardar uploads completarem (~5-10 min)
2. Executar script de avaliação remoto
3. Monitorar progresso
4. Baixar resultados quando completo
5. Parar instância
---
**Última atualização**: 2026-02-10 20:07 UTC
**Próxima checagem**: 20:15 UTC (verificar uploads)