augustocsc
/

gpt2_medium_prefix_682k

Model card Files Files and versions

gpt2_medium_prefix_682k / 1_data /README.md

augustocsc's picture

GPT-2 Medium trained on prefix dataset (682K)

a1190da verified 17 days ago

|

history blame contribute delete

2.62 kB

	# 1_data/ - Preparação de Dados

	Este diretório contém todos os dados utilizados no projeto, organizados por estágio de processamento e tipo.

	## Estrutura

	```
	1_data/
	├── raw/ # Dados originais sem processamento
	├── processed/ # Dados processados e prontos para treino
	└── benchmarks/ # Benchmarks para avaliação
	├── nguyen/ # Nguyen benchmarks 1-12 (atual)
	├── feynman/ # Feynman equations (futuro)
	└── strogatz/ # Strogatz benchmarks (futuro)
	```

	## Fontes de Dados

	### Dados de Treinamento
	- Fonte: HuggingFace Hub (`augustocsc/sintetico_natural`)
	- Tamanho: 700K expressões matemáticas sintéticas
	- Formato: JSON estruturado
	- Localização: `processed/`

	### Benchmarks Disponíveis

	#### Nguyen Benchmarks (1-12)
	Benchmarks padrão para symbolic regression:
	- Nguyen-1: x³ + x² + x
	- Nguyen-2: x⁴ + x³ + x² + x
	- Nguyen-3: x⁵ + x⁴ + x³ + x² + x
	- Nguyen-4: x⁶ + x⁵ + x⁴ + x³ + x² + x
	- Nguyen-5: sin(x²)·cos(x) - 1
	- Nguyen-6: sin(x) + sin(x + x²)
	- Nguyen-7: log(x + 1) + log(x² + 1)
	- Nguyen-8: √x
	- Nguyen-9: sin(x) + sin(y²)
	- Nguyen-10: 2·sin(x)·cos(y)
	- Nguyen-11: x^y
	- Nguyen-12: x⁴ - x³ + y²/2 - y

	Localização: `benchmarks/nguyen/`

	## Próximos Benchmarks (Planejados)

	### Feynman Equations
	Equações da física de Feynman - 120+ fórmulas
	- Complexidade maior que Nguyen
	- Multi-variáveis (até 10+)
	- Constantes físicas

	### Strogatz Benchmarks
	Sistemas dinâmicos e equações diferenciais
	- Osciladores
	- Sistemas caóticos
	- Modelos populacionais

	## Uso

	### Preparar Dados de Treinamento

	```bash
	# A partir do diretório raiz
	cd 2_training/supervised
	python train_with_json.py --dataset_path ../../1_data/processed/700K
	```

	### Adicionar Novo Benchmark

	1. Criar diretório: `benchmarks/novo_benchmark/`
	2. Adicionar arquivos CSV com formato:
	```csv
	x,y
	1.0,2.5
	2.0,5.0
	...
	```
	3. Adicionar metadata em `novo_benchmark/metadata.json`:
	```json
	{
	"name": "Novo Benchmark",
	"formula": "expressão matemática",
	"variables": ["x", "y"],
	"description": "descrição"
	}
	```

	## Scripts Relacionados

	- Processamento: `src/seriguela/data/`
	- Avaliação em benchmarks: `3_evaluation/benchmarks/`

	## Referências

	- Nguyen et al. (2012): "Semantically-based crossover in genetic programming"
	- Feynman Lectures on Physics
	- Dataset original: https://huggingface.co/datasets/augustocsc/sintetico_natural