# Avaliação AWS em Andamento

**Hora**: 2026-02-10 20:07 UTC
**Status**: ⏳ Uploads em andamento

## Progresso

### ✅ Fase 1: Download dos Modelos - COMPLETO
- Base downloaded: 1.2MB adapter + checkpoints
- Medium downloaded: 3.1MB adapter + checkpoints
- Instâncias Base/Medium: STOPPED (economia ativa)

### ✅ Fase 2: Instância de Avaliação - LANÇADA
- **Instance ID**: i-0bfa29e0a4e501d09
- **IP**: 3.93.21.231
- **Tipo**: g5.xlarge (NVIDIA A10G, 24GB VRAM)
- **Status**: RUNNING
- **Setup**: Completo (repo clonado, deps instaladas)

### ⏳ Fase 3: Upload dos Modelos - EM ANDAMENTO
- **Base**: Upload iniciado (task b8c7966)
- **Medium**: Upload iniciado (task bdf6287)
- **Tempo estimado**: ~5-10 minutos

### ⏸️ Fase 4: Execução das Avaliações - PRÓXIMO
Será executado após uploads completos:

1. **Validação rápida** (5 expressões/modelo)
2. **Métricas de qualidade** (500 amostras/modelo)
   - Valid rate, constraint adherence, diversity
3. **Análise de complexidade** (200 amostras/modelo)
   - Power ops, nested functions, depth
4. **Comparação Base vs Medium** (Nguyen-5)

**Tempo estimado**: 1-2 horas

### ⏸️ Fase 5: Download de Resultados - PENDENTE

### ⏸️ Fase 6: Parada da Instância - PENDENTE

## Comandos de Monitoramento

```bash
# Checar uploads em progresso
tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/b8c7966.output
tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/bdf6287.output

# SSH na instância de avaliação
ssh -i C:/Users/madeinweb/chave-gpu.pem ubuntu@3.93.21.231

# Verificar modelos uploadados
ssh ubuntu@3.93.21.231 'ls -lh ~/seriguela/output/'

# Monitorar avaliações (depois de iniciadas)
ssh ubuntu@3.93.21.231 'tail -f ~/seriguela/evaluation_results_*/evaluation.log'
```

## Custos

| Item | Status | Tempo | Taxa | Custo |
|------|--------|-------|------|-------|
| Base/Medium (download) | ✅ | 10 min | $2.012/h | ~$0.34 |
| Instância avaliação | ▶️ | ~2h est. | $1.006/h | ~$2.00 |
| **TOTAL ESTIMADO** | | | | **~$2.34** |

## Timeline

- **20:00 UTC**: Iniciado workflow
- **20:05 UTC**: ✅ Modelos baixados
- **20:06 UTC**: ✅ Instâncias Base/Medium paradas
- **20:07 UTC**: ✅ Instância avaliação lançada
- **20:07 UTC**: ⏳ Uploads iniciados
- **20:15 UTC** (est.): Uploads completos
- **20:20 UTC** (est.): Avaliações iniciadas
- **22:00 UTC** (est.): Avaliações completas
- **22:05 UTC** (est.): Resultados baixados, instância parada

## Próximas Ações (Automáticas)

1. Aguardar uploads completarem (~5-10 min)
2. Executar script de avaliação remoto
3. Monitorar progresso
4. Baixar resultados quando completo
5. Parar instância

---

**Última atualização**: 2026-02-10 20:07 UTC
**Próxima checagem**: 20:15 UTC (verificar uploads)