augustocsc's picture
GPT-2 Medium trained on prefix dataset (682K)
a1190da verified
# 1_data/ - Preparação de Dados
Este diretório contém todos os dados utilizados no projeto, organizados por estágio de processamento e tipo.
## Estrutura
```
1_data/
├── raw/ # Dados originais sem processamento
├── processed/ # Dados processados e prontos para treino
└── benchmarks/ # Benchmarks para avaliação
├── nguyen/ # Nguyen benchmarks 1-12 (atual)
├── feynman/ # Feynman equations (futuro)
└── strogatz/ # Strogatz benchmarks (futuro)
```
## Fontes de Dados
### Dados de Treinamento
- **Fonte**: HuggingFace Hub (`augustocsc/sintetico_natural`)
- **Tamanho**: 700K expressões matemáticas sintéticas
- **Formato**: JSON estruturado
- **Localização**: `processed/`
### Benchmarks Disponíveis
#### Nguyen Benchmarks (1-12)
Benchmarks padrão para symbolic regression:
- **Nguyen-1**: x³ + x² + x
- **Nguyen-2**: x⁴ + x³ + x² + x
- **Nguyen-3**: x⁵ + x⁴ + x³ + x² + x
- **Nguyen-4**: x⁶ + x⁵ + x⁴ + x³ + x² + x
- **Nguyen-5**: sin(x²)·cos(x) - 1
- **Nguyen-6**: sin(x) + sin(x + x²)
- **Nguyen-7**: log(x + 1) + log(x² + 1)
- **Nguyen-8**: √x
- **Nguyen-9**: sin(x) + sin(y²)
- **Nguyen-10**: 2·sin(x)·cos(y)
- **Nguyen-11**: x^y
- **Nguyen-12**: x⁴ - x³ + y²/2 - y
**Localização**: `benchmarks/nguyen/`
## Próximos Benchmarks (Planejados)
### Feynman Equations
Equações da física de Feynman - 120+ fórmulas
- Complexidade maior que Nguyen
- Multi-variáveis (até 10+)
- Constantes físicas
### Strogatz Benchmarks
Sistemas dinâmicos e equações diferenciais
- Osciladores
- Sistemas caóticos
- Modelos populacionais
## Uso
### Preparar Dados de Treinamento
```bash
# A partir do diretório raiz
cd 2_training/supervised
python train_with_json.py --dataset_path ../../1_data/processed/700K
```
### Adicionar Novo Benchmark
1. Criar diretório: `benchmarks/novo_benchmark/`
2. Adicionar arquivos CSV com formato:
```csv
x,y
1.0,2.5
2.0,5.0
...
```
3. Adicionar metadata em `novo_benchmark/metadata.json`:
```json
{
"name": "Novo Benchmark",
"formula": "expressão matemática",
"variables": ["x", "y"],
"description": "descrição"
}
```
## Scripts Relacionados
- Processamento: `src/seriguela/data/`
- Avaliação em benchmarks: `3_evaluation/benchmarks/`
## Referências
- Nguyen et al. (2012): "Semantically-based crossover in genetic programming"
- Feynman Lectures on Physics
- Dataset original: https://huggingface.co/datasets/augustocsc/sintetico_natural