1_data/ - Preparação de Dados
Este diretório contém todos os dados utilizados no projeto, organizados por estágio de processamento e tipo.
Estrutura
1_data/
├── raw/ # Dados originais sem processamento
├── processed/ # Dados processados e prontos para treino
└── benchmarks/ # Benchmarks para avaliação
├── nguyen/ # Nguyen benchmarks 1-12 (atual)
├── feynman/ # Feynman equations (futuro)
└── strogatz/ # Strogatz benchmarks (futuro)
Fontes de Dados
Dados de Treinamento
- Fonte: HuggingFace Hub (
augustocsc/sintetico_natural) - Tamanho: 700K expressões matemáticas sintéticas
- Formato: JSON estruturado
- Localização:
processed/
Benchmarks Disponíveis
Nguyen Benchmarks (1-12)
Benchmarks padrão para symbolic regression:
- Nguyen-1: x³ + x² + x
- Nguyen-2: x⁴ + x³ + x² + x
- Nguyen-3: x⁵ + x⁴ + x³ + x² + x
- Nguyen-4: x⁶ + x⁵ + x⁴ + x³ + x² + x
- Nguyen-5: sin(x²)·cos(x) - 1
- Nguyen-6: sin(x) + sin(x + x²)
- Nguyen-7: log(x + 1) + log(x² + 1)
- Nguyen-8: √x
- Nguyen-9: sin(x) + sin(y²)
- Nguyen-10: 2·sin(x)·cos(y)
- Nguyen-11: x^y
- Nguyen-12: x⁴ - x³ + y²/2 - y
Localização: benchmarks/nguyen/
Próximos Benchmarks (Planejados)
Feynman Equations
Equações da física de Feynman - 120+ fórmulas
- Complexidade maior que Nguyen
- Multi-variáveis (até 10+)
- Constantes físicas
Strogatz Benchmarks
Sistemas dinâmicos e equações diferenciais
- Osciladores
- Sistemas caóticos
- Modelos populacionais
Uso
Preparar Dados de Treinamento
# A partir do diretório raiz
cd 2_training/supervised
python train_with_json.py --dataset_path ../../1_data/processed/700K
Adicionar Novo Benchmark
- Criar diretório:
benchmarks/novo_benchmark/ - Adicionar arquivos CSV com formato:
x,y 1.0,2.5 2.0,5.0 ... - Adicionar metadata em
novo_benchmark/metadata.json:{ "name": "Novo Benchmark", "formula": "expressão matemática", "variables": ["x", "y"], "description": "descrição" }
Scripts Relacionados
- Processamento:
src/seriguela/data/ - Avaliação em benchmarks:
3_evaluation/benchmarks/
Referências
- Nguyen et al. (2012): "Semantically-based crossover in genetic programming"
- Feynman Lectures on Physics
- Dataset original: https://huggingface.co/datasets/augustocsc/sintetico_natural