augustocsc's picture
GPT-2 Medium trained on prefix dataset (682K)
a1190da verified

1_data/ - Preparação de Dados

Este diretório contém todos os dados utilizados no projeto, organizados por estágio de processamento e tipo.

Estrutura

1_data/
├── raw/                    # Dados originais sem processamento
├── processed/              # Dados processados e prontos para treino
└── benchmarks/             # Benchmarks para avaliação
    ├── nguyen/            # Nguyen benchmarks 1-12 (atual)
    ├── feynman/           # Feynman equations (futuro)
    └── strogatz/          # Strogatz benchmarks (futuro)

Fontes de Dados

Dados de Treinamento

  • Fonte: HuggingFace Hub (augustocsc/sintetico_natural)
  • Tamanho: 700K expressões matemáticas sintéticas
  • Formato: JSON estruturado
  • Localização: processed/

Benchmarks Disponíveis

Nguyen Benchmarks (1-12)

Benchmarks padrão para symbolic regression:

  • Nguyen-1: x³ + x² + x
  • Nguyen-2: x⁴ + x³ + x² + x
  • Nguyen-3: x⁵ + x⁴ + x³ + x² + x
  • Nguyen-4: x⁶ + x⁵ + x⁴ + x³ + x² + x
  • Nguyen-5: sin(x²)·cos(x) - 1
  • Nguyen-6: sin(x) + sin(x + x²)
  • Nguyen-7: log(x + 1) + log(x² + 1)
  • Nguyen-8: √x
  • Nguyen-9: sin(x) + sin(y²)
  • Nguyen-10: 2·sin(x)·cos(y)
  • Nguyen-11: x^y
  • Nguyen-12: x⁴ - x³ + y²/2 - y

Localização: benchmarks/nguyen/

Próximos Benchmarks (Planejados)

Feynman Equations

Equações da física de Feynman - 120+ fórmulas

  • Complexidade maior que Nguyen
  • Multi-variáveis (até 10+)
  • Constantes físicas

Strogatz Benchmarks

Sistemas dinâmicos e equações diferenciais

  • Osciladores
  • Sistemas caóticos
  • Modelos populacionais

Uso

Preparar Dados de Treinamento

# A partir do diretório raiz
cd 2_training/supervised
python train_with_json.py --dataset_path ../../1_data/processed/700K

Adicionar Novo Benchmark

  1. Criar diretório: benchmarks/novo_benchmark/
  2. Adicionar arquivos CSV com formato:
    x,y
    1.0,2.5
    2.0,5.0
    ...
    
  3. Adicionar metadata em novo_benchmark/metadata.json:
    {
      "name": "Novo Benchmark",
      "formula": "expressão matemática",
      "variables": ["x", "y"],
      "description": "descrição"
    }
    

Scripts Relacionados

  • Processamento: src/seriguela/data/
  • Avaliação em benchmarks: 3_evaluation/benchmarks/

Referências