Migration Guide - Nova Estrutura do Projeto

Este documento mapeia a estrutura antiga para a nova estrutura organizada por fases de pesquisa.

Estrutura Antiga → Nova

Dados

Antigo	Novo
`data/benchmarks/nguyen/`	`1_data/benchmarks/nguyen/`
`data/processed/`	`1_data/processed/`
`data/experiments/`	`1_data/processed/`

Scripts de Treinamento

Antigo	Novo
`scripts/train.py`	`2_training/supervised/train.py`
`scripts/train_with_json.py`	`2_training/supervised/train_with_json.py`
`scripts/ppo_symbolic.py`	`2_training/reinforcement/ppo_symbolic.py`
`scripts/grpo_symbolic.py`	`2_training/reinforcement/grpo_symbolic.py`
`scripts/reinforce_*.py`	`2_training/reinforcement/`
`configs/`	`2_training/configs/`

Scripts de Avaliação

Antigo	Novo
`scripts/evaluate.py`	`3_evaluation/quality/evaluate.py`
`scripts/evaluate_quality_simple.py`	`3_evaluation/quality/`
`scripts/evaluate_nguyen_benchmarks.py`	`3_evaluation/benchmarks/`
`scripts/compare_models.py`	`3_evaluation/comparison/`
`scripts/generate.py`	`3_evaluation/generate.py`

Scripts de Análise

Antigo	Novo
`scripts/analyze_complexity.py`	`4_analysis/complexity/`
`scripts/aggregate_nguyen_results.py`	`4_analysis/statistical/`
`analyze_nguyen_results.py`	`4_analysis/statistical/`
`create_visualizations.py`	`4_analysis/visualization/`

Modelos

Antigo	Novo
`output/gpt2_base_700K_json/`	`models/gpt2/base_700k_json/`
`output/gpt2_medium_700K_json/`	`models/gpt2/medium_700k_json/`
`output/gpt2_large_700K_json/`	`models/gpt2/large_700k_json/`

Resultados

Antigo	Novo
`results_final/quality/`	`results/2025-02_model_scaling/quality/`
`results_nguyen_benchmarks/`	`results/2025-02_model_scaling/nguyen_benchmarks/`
`visualizations/`	`results/2025-02_model_scaling/analysis/` (cópia)

Documentação

Antigo	Novo
`SCIENTIFIC_REPORT_MODEL_SCALING.md`	`docs/reports/`
`NGUYEN_RESULTS_FINAL.md`	`docs/reports/`
`MODEL_CARD_*.md`	`docs/model_cards/`
`visualizations/`	`docs/visualizations/`
`CLAUDE.md`	`docs/guides/CLAUDE.md`

Código Fonte

Antigo	Novo
`classes/`	`src/seriguela/utils/`
`__init__.py`	`src/seriguela/__init__.py`

Atualizar Imports

Antes

from classes.expression import Expression
from classes.dataset import Dataset

Depois

from src.seriguela.utils.expression import Expression
from src.seriguela.utils.dataset import Dataset

# Ou (se instalado como package)
from seriguela.utils import Expression, Dataset

Atualizar Caminhos em Scripts

Exemplo: Treinamento

Antes:

cd seriguela
python scripts/train_with_json.py \
  --dataset_path ./data/processed/700K \
  --output_dir ./output/test

Depois:

cd seriguela/2_training/supervised
python train_with_json.py \
  --dataset_path ../../1_data/processed/700K \
  --output_dir ../../models/gpt2/test

Exemplo: Avaliação

Antes:

python scripts/evaluate_nguyen_benchmarks.py \
  --model_path ./output/gpt2_medium_700K_json \
  --benchmark ./data/benchmarks/nguyen/nguyen_5.csv

Depois:

cd 3_evaluation/benchmarks
python evaluate_nguyen_benchmarks.py \
  --model_path ../../models/gpt2/medium_700k_json \
  --benchmark ../../1_data/benchmarks/nguyen/nguyen_5.csv

AWS Scripts

A chave SSH correta é chave-gpu-nova (não chave-gpu):

# Atualizar scripts AWS
sed -i 's/chave-gpu/chave-gpu-nova/g' scripts/aws/*.sh

Verificação de Migração

# Verificar se novos diretórios foram criados
ls -d 1_data 2_training 3_evaluation 4_analysis models results docs src

# Verificar se modelos foram movidos
ls models/gpt2/

# Verificar se READMEs existem
find . -name "README.md" -type f | head -10

# Verificar se resultados foram copiados
ls results/2025-02_model_scaling/

Retrocompatibilidade

Os diretórios antigos (scripts/, output/, data/) ainda existem por enquanto para retrocompatibilidade. Recomendamos:

Atualizar scripts para usar nova estrutura
Testar workflows completos
Depois de validar, remover diretórios antigos:

# APENAS após validar nova estrutura
rm -rf output/  # (modelos já copiados para models/)
rm -rf data/    # (dados já copiados para 1_data/)
rm -rf results_final/ results_nguyen_benchmarks/  # (já em results/)

Benefícios da Nova Estrutura

Clareza: Fases numeradas (1→2→3→4) guiam o workflow
Escalabilidade: Fácil adicionar novos modelos/benchmarks
Documentação: README em cada diretório
Organização: Resultados separados por experimento
Manutenibilidade: Código fonte isolado em src/

Suporte

Para dúvidas sobre a migração, consulte:

README.md de cada diretório
docs/guides/CLAUDE.md (guia completo)
Issues no GitHub