Spaces:

beAnalytic
/

Training

Runtime error

amarorn commited on Dec 26, 2025

Commit

7a2a0ae

1 Parent(s): 7179322

fix: corrigir erro KeyError 'validation' no treinamento

- Verificar se dataset possui chave 'validation' antes de acessar
- Se não existir, criar divisão train/validation (80/20) a partir do dataset de treinamento
- Resolve erro onde dataset não possui split de validação

Files changed (1) hide show

train.py +11 -1

train.py CHANGED Viewed

@@ -123,7 +123,17 @@ def format_prompt(example):
 # Aplicar formatação
 train_dataset = dataset["train"].map(format_prompt, remove_columns=dataset["train"].column_names)
-eval_dataset = dataset["validation"].map(format_prompt, remove_columns=dataset["validation"].column_names)
 # Tokenizar
 def tokenize_function(examples):

 # Aplicar formatação
 train_dataset = dataset["train"].map(format_prompt, remove_columns=dataset["train"].column_names)
+# Verificar se existe dataset de validação, caso contrário criar a partir do train
+if "validation" in dataset:
+    eval_dataset = dataset["validation"].map(format_prompt, remove_columns=dataset["validation"].column_names)
+else:
+    print("⚠️ Dataset de validação não encontrado. Criando divisão a partir do dataset de treinamento...")
+    # Dividir o dataset de treinamento em train e validation (80/20)
+    split_dataset = dataset["train"].train_test_split(test_size=0.2, seed=42)
+    train_dataset = split_dataset["train"].map(format_prompt, remove_columns=split_dataset["train"].column_names)
+    eval_dataset = split_dataset["test"].map(format_prompt, remove_columns=split_dataset["test"].column_names)
+    print(f"✅ Dataset dividido: {len(train_dataset)} exemplos de treino, {len(eval_dataset)} exemplos de validação")
 # Tokenizar
 def tokenize_function(examples):