gpt2_medium_prefix_682k / DATASET_PREFIX_READY.md

GPT-2 Medium trained on prefix dataset (682K)

a1190da verified 3 days ago

9.99 kB

	# ✅ Dataset Prefix Pronto para Uso!

	Data: 2026-02-09
	Status: ✅ COMPLETO E PUBLICADO

	---

	## 🎯 O Que Foi Feito

	### 1. Conversão Completa ✅
	- 12,221 expressões convertidas de infix para prefix
	- Taxa de sucesso: 100%
	- Tempo: ~8 segundos
	- Nova coluna: `p_prompt_n_converted`

	### 2. Upload para HuggingFace ✅
	- Repositório: `augustocsc/sintetico_natural_prefix`
	- URL: https://huggingface.co/datasets/augustocsc/sintetico_natural_prefix
	- Tamanho: 2.30 MB (comprimido)
	- Tempo de upload: ~3 segundos

	---

	## 🚀 Como Usar o Dataset

	### Carregar do HuggingFace Hub

	```python
	from datasets import load_dataset

	# Carregar dataset convertido
	ds = load_dataset('augustocsc/sintetico_natural_prefix', split='train')

	print(f"Total de exemplos: {len(ds)}")
	print(f"Colunas: {ds.column_names}")

	# Ver exemplo
	print("\nExemplo:")
	print("INFIX:", ds[0]['i_prompt_n'])
	print("PREFIX:", ds[0]['p_prompt_n_converted'])
	```

	### Carregar Localmente (se preferir)

	```python
	from datasets import load_from_disk

	ds = load_from_disk('./1_data/processed/700K_prefix_converted')
	```

	---

	## 🏋️ Treinar Modelo com Formato Prefix

	### Opção 1: Usando Script Existente (Adaptar)

	O script `2_training/supervised/train.py` precisa ser adaptado para usar a nova coluna.

	Comando sugerido (após adaptação):
	```bash
	python 2_training/supervised/train.py \
	--model_name_or_path gpt2 \
	--dataset_repo_id augustocsc/sintetico_natural_prefix \
	--data_dir . \
	--data_column p_prompt_n_converted \
	--approach prefix \
	--output_dir ./output/gpt2_prefix_converted \
	--num_train_epochs 3 \
	--per_device_train_batch_size 8 \
	--learning_rate 5e-5 \
	--fp16 \
	--wandb_project seriguela \
	--wandb_run_name gpt2-prefix-converted
	```

	### Opção 2: Script Customizado

	```python
	#!/usr/bin/env python
	"""Train GPT-2 with prefix notation dataset."""

	from datasets import load_dataset
	from transformers import (
	AutoTokenizer,
	AutoModelForCausalLM,
	Trainer,
	TrainingArguments,
	DataCollatorForLanguageModeling
	)
	from peft import LoraConfig, get_peft_model, TaskType

	# Load dataset
	print("Loading prefix dataset...")
	dataset = load_dataset('augustocsc/sintetico_natural_prefix', split='train')

	# Use p_prompt_n_converted column
	dataset = dataset.rename_column('p_prompt_n_converted', 'text')

	# Load tokenizer and model
	tokenizer = AutoTokenizer.from_pretrained('gpt2')
	tokenizer.pad_token = tokenizer.eos_token

	model = AutoModelForCausalLM.from_pretrained('gpt2')

	# LoRA configuration
	lora_config = LoraConfig(
	r=8,
	lora_alpha=32,
	target_modules=["c_attn"],
	lora_dropout=0.05,
	bias="none",
	task_type=TaskType.CAUSAL_LM
	)

	model = get_peft_model(model, lora_config)
	model.print_trainable_parameters()

	# Tokenize
	def tokenize_function(examples):
	return tokenizer(examples["text"], truncation=True, max_length=128)

	tokenized_dataset = dataset.map(tokenize_function, batched=True, remove_columns=dataset.column_names)

	# Data collator
	data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)

	# Training arguments
	training_args = TrainingArguments(
	output_dir="./output/gpt2_prefix_converted",
	num_train_epochs=3,
	per_device_train_batch_size=8,
	learning_rate=5e-5,
	gradient_accumulation_steps=4,
	warmup_steps=500,
	weight_decay=0.01,
	logging_steps=100,
	save_strategy="epoch",
	save_total_limit=2,
	fp16=True,
	report_to="wandb",
	run_name="gpt2-prefix-converted"
	)

	# Trainer
	trainer = Trainer(
	model=model,
	args=training_args,
	train_dataset=tokenized_dataset,
	data_collator=data_collator,
	)

	# Train
	print("Starting training...")
	trainer.train()

	# Save
	trainer.save_model()
	print("Model saved to ./output/gpt2_prefix_converted")
	```

	---

	## 📊 Comparação: Infix vs Prefix

	Agora você pode treinar dois modelos com a MESMA expressão em notações diferentes:

	### Modelo A: Infix (Baseline)
	```bash
	python 2_training/supervised/train.py \
	--dataset_repo_id augustocsc/sintetico_natural \
	--data_column i_prompt_n \
	--approach infix \
	--output_dir ./output/gpt2_infix_baseline
	```

	### Modelo B: Prefix (Novo)
	```bash
	python 2_training/supervised/train.py \
	--dataset_repo_id augustocsc/sintetico_natural_prefix \
	--data_column p_prompt_n_converted \
	--approach prefix \
	--output_dir ./output/gpt2_prefix_converted
	```

	### Comparar Resultados
	```bash
	python 3_evaluation/comparison/compare_trained_models.py \
	--model_base ./output/gpt2_infix_baseline \
	--model_medium ./output/gpt2_prefix_converted \
	--dataset 1_data/benchmarks/nguyen/nguyen_5.csv \
	--epochs 10
	```

	Pergunta de Pesquisa: Qual notação o modelo aprende melhor?

	---

	## 🔍 Validar Conversão

	### Script de Validação

	```python
	#!/usr/bin/env python
	"""Validate that prefix conversion is correct."""

	from datasets import load_dataset
	from classes.expression import Expression
	import numpy as np

	# Load dataset
	ds = load_dataset('augustocsc/sintetico_natural_prefix', split='train')

	print("Validating prefix conversions...")
	errors = 0

	for i in range(min(100, len(ds))): # Test first 100
	try:
	# Parse infix
	infix_text = ds[i]['i_prompt_n'].split('expr:')[1].strip()
	expr_infix = Expression(infix_text, is_prefix=False)

	# Parse prefix converted
	prefix_text = ds[i]['p_prompt_n_converted'].split('expr:')[1].strip()
	expr_prefix = Expression(prefix_text, is_prefix=True)

	# Test on random data
	x = np.random.rand(10, 5) # 10 samples, 5 variables

	result_infix = expr_infix.evaluate(x)
	result_prefix = expr_prefix.evaluate(x)

	# Compare
	if not np.allclose(result_infix, result_prefix, rtol=1e-5):
	print(f"[ERROR] Example {i}: Results don't match!")
	print(f" Infix: {infix_text}")
	print(f" Prefix: {prefix_text}")
	errors += 1

	except Exception as e:
	print(f"[ERROR] Example {i}: {e}")
	errors += 1

	if errors == 0:
	print(f"\n✅ All 100 conversions validated successfully!")
	else:
	print(f"\n❌ {errors}/100 conversions had errors")
	```

	---

	## 📝 Exemplos do Dataset

	### Exemplo 1: Expressão Complexa

	INFIX:
	```
	vars: x_1, x_2, x_3, x_4, x_5
	oper: *, +, -, /, abs, asin, cos, exp, log, sin, sqrt, tan
	cons: C
	expr: x_2 - (x_5 - C)(x_4 + exp(Cx_2) + C)
	```

	PREFIX CONVERTIDO:
	```
	vars: x_1, x_2, x_3, x_4, x_5
	oper: *, +, -, /, abs, asin, cos, exp, log, sin, sqrt, tan
	cons: C
	expr: - x_2 * - x_5 C + + x_4 exp * C x_2 C
	```

	### Exemplo 2: Expressão com Funções Aninhadas

	INFIX:
	```
	vars: x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9, x_10
	oper: **, +, -, /, cos, exp, sin, sqrt
	cons: C
	expr: x_2 - x_1 + sin(exp(x_9))
	```

	PREFIX CONVERTIDO:
	```
	vars: x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9, x_10
	oper: **, +, -, /, cos, exp, sin, sqrt
	cons: C
	expr: + + x_2 * -1 x_1 sin exp x_9
	```

	### Exemplo 3: Expressão Simples

	INFIX:
	```
	vars: x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9, x_10
	oper: *, +, /, asin, sin, tan
	cons: C
	expr: (tan(x_7) + C)*(asin(x_5) + C)
	```

	PREFIX CONVERTIDO:
	```
	vars: x_1, x_2, x_3, x_4, x_5, x_6, x_7, x_8, x_9, x_10
	oper: *, +, /, asin, sin, tan
	cons: C
	expr: * + tan x_7 C + asin x_5 C
	```

	---

	## 🎓 Vantagens do Formato Prefix

	### 1. Estrutura Mais Clara
	- Operador sempre vem primeiro
	- Não precisa de parênteses
	- Ordem de avaliação explícita

	### 2. Parsing Mais Simples
	- Algoritmo stack-based
	- Sem ambiguidade de precedência
	- Mais eficiente

	### 3. Comparabilidade
	- Agora pode comparar infix vs prefix com mesmas expressões
	- Isola efeito da notação do efeito da expressão

	---

	## 📚 Arquivos Criados

	1. ✅ `scripts/data/convert_infix_to_prefix.py` - Script de conversão
	2. ✅ `1_data/processed/700K_prefix_converted/` - Dataset local
	3. ✅ `1_data/processed/PREFIX_CONVERSION_README.md` - Guia técnico
	4. ✅ `DATASET_PREFIX_CONVERTED_STATUS.md` - Status da conversão
	5. ✅ `DATASET_PREFIX_READY.md` - Este arquivo (instruções de uso)
	6. ✅ HuggingFace Hub: `augustocsc/sintetico_natural_prefix`

	---

	## 🚀 Próximos Passos Recomendados

	### 1. Testar Treinamento
	```bash
	# Teste rápido (1 época)
	python train_prefix.py --num_train_epochs 1 --save_strategy no
	```

	### 2. Comparar com Infix
	Treinar ambos os modelos e comparar:
	- Valid expression rate
	- R² scores em Nguyen benchmarks
	- Diversidade de expressões
	- Complexidade das expressões geradas

	### 3. Publicar Resultados
	- Documentar diferenças de performance
	- Criar model cards para ambos
	- Adicionar ao relatório de pesquisa

	---

	## ✅ Checklist Completo

	- [x] Dataset convertido (12,221 exemplos)
	- [x] Taxa de sucesso 100%
	- [x] Dataset salvo localmente
	- [x] Upload para HuggingFace Hub
	- [x] Documentação completa criada
	- [ ] Treinamento de modelo teste
	- [ ] Comparação infix vs prefix
	- [ ] Publicação de resultados

	---

	## 🔗 Links Importantes

	- Dataset no HuggingFace: https://huggingface.co/datasets/augustocsc/sintetico_natural_prefix
	- Dataset Original: https://huggingface.co/datasets/augustocsc/sintetico_natural
	- Script de Conversão: `scripts/data/convert_infix_to_prefix.py`
	- Documentação Técnica: `1_data/processed/PREFIX_CONVERSION_README.md`

	---

	## 🤝 Contribuindo

	Se encontrar algum problema:
	1. Verificar se a conversão está correta (validação script)
	2. Reportar issue no GitHub
	3. Sugerir melhorias no algoritmo de conversão

	---

	Pronto para treinar! 🚀

	```bash
	# Comando exemplo para começar
	python 2_training/supervised/train.py \
	--dataset_repo_id augustocsc/sintetico_natural_prefix \
	--data_column p_prompt_n_converted \
	--approach prefix \
	--output_dir ./output/gpt2_prefix_converted \
	--num_train_epochs 3
	```

	---

	Data de Criação: 2026-02-09
	Status: ✅ PRONTO PARA USO
	Autor: Claude Sonnet 4.5 (co-authored)