test_base_infix_1epoch / EVALUATION_IN_PROGRESS.md

Test training flow - 1 epoch

2c4ca2f verified about 2 months ago

2.84 kB

	# Avaliação AWS em Andamento

	Hora: 2026-02-10 20:07 UTC
	Status: ⏳ Uploads em andamento

	## Progresso

	### ✅ Fase 1: Download dos Modelos - COMPLETO
	- Base downloaded: 1.2MB adapter + checkpoints
	- Medium downloaded: 3.1MB adapter + checkpoints
	- Instâncias Base/Medium: STOPPED (economia ativa)

	### ✅ Fase 2: Instância de Avaliação - LANÇADA
	- Instance ID: i-0bfa29e0a4e501d09
	- IP: 3.93.21.231
	- Tipo: g5.xlarge (NVIDIA A10G, 24GB VRAM)
	- Status: RUNNING
	- Setup: Completo (repo clonado, deps instaladas)

	### ⏳ Fase 3: Upload dos Modelos - EM ANDAMENTO
	- Base: Upload iniciado (task b8c7966)
	- Medium: Upload iniciado (task bdf6287)
	- Tempo estimado: ~5-10 minutos

	### ⏸️ Fase 4: Execução das Avaliações - PRÓXIMO
	Será executado após uploads completos:

	1. Validação rápida (5 expressões/modelo)
	2. Métricas de qualidade (500 amostras/modelo)
	- Valid rate, constraint adherence, diversity
	3. Análise de complexidade (200 amostras/modelo)
	- Power ops, nested functions, depth
	4. Comparação Base vs Medium (Nguyen-5)

	Tempo estimado: 1-2 horas

	### ⏸️ Fase 5: Download de Resultados - PENDENTE

	### ⏸️ Fase 6: Parada da Instância - PENDENTE

	## Comandos de Monitoramento

	```bash
	# Checar uploads em progresso
	tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/b8c7966.output
	tail -f C:/Users/MADEIN~1/AppData/Local/Temp/claude/C--Users-madeinweb-seriguela/tasks/bdf6287.output

	# SSH na instância de avaliação
	ssh -i C:/Users/madeinweb/chave-gpu.pem ubuntu@3.93.21.231

	# Verificar modelos uploadados
	ssh ubuntu@3.93.21.231 'ls -lh ~/seriguela/output/'

	# Monitorar avaliações (depois de iniciadas)
	ssh ubuntu@3.93.21.231 'tail -f ~/seriguela/evaluation_results_*/evaluation.log'
	```

	## Custos

	\| Item \| Status \| Tempo \| Taxa \| Custo \|
	\|------\|--------\|-------\|------\|-------\|
	\| Base/Medium (download) \| ✅ \| 10 min \| $2.012/h \| ~$0.34 \|
	\| Instância avaliação \| ▶️ \| ~2h est. \| $1.006/h \| ~$2.00 \|
	\| TOTAL ESTIMADO \| \| \| \| ~$2.34 \|

	## Timeline

	- 20:00 UTC: Iniciado workflow
	- 20:05 UTC: ✅ Modelos baixados
	- 20:06 UTC: ✅ Instâncias Base/Medium paradas
	- 20:07 UTC: ✅ Instância avaliação lançada
	- 20:07 UTC: ⏳ Uploads iniciados
	- 20:15 UTC (est.): Uploads completos
	- 20:20 UTC (est.): Avaliações iniciadas
	- 22:00 UTC (est.): Avaliações completas
	- 22:05 UTC (est.): Resultados baixados, instância parada

	## Próximas Ações (Automáticas)

	1. Aguardar uploads completarem (~5-10 min)
	2. Executar script de avaliação remoto
	3. Monitorar progresso
	4. Baixar resultados quando completo
	5. Parar instância

	---

	Última atualização: 2026-02-10 20:07 UTC
	Próxima checagem: 20:15 UTC (verificar uploads)