RodrigoGariv
/

IntentoProyecto

Model card Files Files and versions

xet

Community

RodrigoGariv commited on Apr 24, 2025

Commit

3428531

verified ·

1 Parent(s): efc88c2

Create proyecto.py

Browse files

Files changed (1) hide show

proyecto.py +154 -0

proyecto.py ADDED Viewed

	@@ -0,0 +1,154 @@

+# --- PASO 0: Instalación de Librerías ---
+# Descomenta y ejecuta esta celda si no tienes las librerías instaladas
+# !pip install transformers datasets accelerate -U
+# !pip install sentencepiece # Necesario para algunos tokenizers como el de mT5
+import datasets
+from datasets import Dataset
+from transformers import (
+    AutoTokenizer,
+    AutoModelForSeq2SeqLM,
+    Seq2SeqTrainingArguments,
+    Seq2SeqTrainer,
+    DataCollatorForSeq2Seq
+)
+# --- PASO 1: Preparar el Dataset (¡¡¡REEMPLAZAR CON TU DATASET REAL!!!) ---
+# Este es un EJEMPLO MUY PEQUEÑO. Necesitas un dataset GRANDE y REAL.
+# Tu dataset debería tener miles de ejemplos.
+raw_data = {
+    "train": [
+        {"input_text": "El medico me receto analgesicos.", "target_text": "El médico me recetó analgésicos."},
+        {"input_text": "La cancion tiene una melodia pegadiza.", "target_text": "La canción tiene una melodía pegadiza."},
+        {"input_text": "La accion legal continuo.", "target_text": "La acción legal continuó."},
+        {"input_text": "Manana habra reunion.", "target_text": "Mañana habrá reunión."},
+        # ... Agrega MUCHOS MÁS ejemplos aquí ...
+    ],
+    "validation": [
+        {"input_text": "La informacion es util.", "target_text": "La información es útil."},
+        {"input_text": "El analisis fue complejo.", "target_text": "El análisis fue complejo."},
+        # ... Agrega ejemplos de validación ...
+    ]
+}
+# Convertir el diccionario a un objeto Dataset de Hugging Face
+raw_datasets = datasets.DatasetDict({
+    "train": Dataset.from_dict(raw_data["train"]),
+    "validation": Dataset.from_dict(raw_data["validation"])
+})
+print("Dataset de ejemplo cargado:")
+print(raw_datasets)
+# --- PASO 2: Cargar Tokenizer y Modelo ---
+# Elegimos un modelo Seq2Seq preentrenado. mT5-small es relativamente ligero.
+# Para mejores resultados, considera modelos más grandes o específicos para español si están disponibles.
+model_checkpoint = "google/mt5-small"
+tokenizer = AutoTokenizer.from_pretrained(model_checkpoint, legacy=False) # legacy=False recomendado para T5
+model = AutoModelForSeq2SeqLM.from_pretrained(model_checkpoint)
+# --- PASO 3: Preprocesar el Dataset ---
+max_input_length = 128
+max_target_length = 128
+def preprocess_function(examples):
+    # Asegurarse que los textos son strings
+    inputs = [str(ex) for ex in examples["input_text"]]
+    targets = [str(ex) for ex in examples["target_text"]]
+    # Tokenizar entradas
+    model_inputs = tokenizer(inputs, max_length=max_input_length, truncation=True, padding="max_length")
+    # Tokenizar salidas (targets) como etiquetas
+    # Usamos el tokenizer en modo "target" para preparar las labels correctamente para el decoder
+    with tokenizer.as_target_tokenizer():
+        labels = tokenizer(targets, max_length=max_target_length, truncation=True, padding="max_length")
+    # Los IDs de padding en las etiquetas deben ser ignorados en la función de pérdida
+    # Reemplazamos los pad_token_id por -100
+    labels["input_ids"] = [
+        [(l if l != tokenizer.pad_token_id else -100) for l in label] for label in labels["input_ids"]
+    ]
+    model_inputs["labels"] = labels["input_ids"]
+    return model_inputs
+# Aplicar la función de preprocesamiento a todo el dataset
+tokenized_datasets = raw_datasets.map(preprocess_function, batched=True)
+print("\nDataset tokenizado:")
+print(tokenized_datasets)
+# --- PASO 4: Configurar el Entrenamiento ---
+# Directorio donde se guardarán los resultados y checkpoints
+output_dir = "./results-accent-corrector"
+# Argumentos de entrenamiento
+training_args = Seq2SeqTrainingArguments(
+    output_dir=output_dir,
+    evaluation_strategy="epoch",        # Evaluar después de cada época
+    learning_rate=2e-5,                 # Tasa de aprendizaje
+    per_device_train_batch_size=8,      # Tamaño de lote por GPU/CPU para entrenamiento (ajusta según tu memoria)
+    per_device_eval_batch_size=8,       # Tamaño de lote por GPU/CPU para evaluación
+    weight_decay=0.01,                  # Decaimiento de peso
+    save_total_limit=3,                 # Guardar solo los últimos 3 checkpoints
+    num_train_epochs=3,                 # Número de épocas (ajusta según tu dataset y convergencia)
+    predict_with_generate=True,         # Necesario para generar texto durante la evaluación Seq2Seq
+    fp16=False,                         # Cambiar a True si tienes GPU compatible y quieres acelerar (requiere 'accelerate')
+    logging_steps=10,                   # Frecuencia de logging
+    # report_to="tensorboard",          # Opcional: para visualizar en TensorBoard
+    # push_to_hub=False,                # Cambiar a True para subir tu modelo al Hub de Hugging Face (necesitas login)
+)
+# Data Collator: prepara los lotes de datos para el modelo Seq2Seq
+data_collator = DataCollatorForSeq2Seq(tokenizer=tokenizer, model=model)
+# Crear el objeto Trainer
+trainer = Seq2SeqTrainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_datasets["train"],
+    eval_dataset=tokenized_datasets["validation"],
+    tokenizer=tokenizer,
+    data_collator=data_collator,
+    # compute_metrics=compute_metrics, # Opcional: define una función para métricas más avanzadas
+)
+# --- PASO 5: Entrenar el Modelo ---
+print("\nIniciando entrenamiento...")
+trainer.train()
+print("Entrenamiento completado.")
+# --- PASO 6: Guardar el Modelo Final y Tokenizer ---
+final_model_path = f"{output_dir}/final_model"
+trainer.save_model(final_model_path)
+tokenizer.save_pretrained(final_model_path)
+print(f"Modelo final y tokenizer guardados en: {final_model_path}")
+# --- PASO 7: Probar el Modelo Entrenado (Inferencia) ---
+from transformers import pipeline
+print("\nProbando el modelo afinado...")
+# Cargar el pipeline con el modelo afinado localmente
+# Si el entrenamiento fue corto o con pocos datos, el resultado puede no ser bueno.
+corrector_pipe = pipeline("text2text-generation", model=final_model_path, tokenizer=final_model_path)
+# Frases de ejemplo sin acentos
+test_sentences = [
+    "Que dia es manana?",
+    "La musica clasica me relaja.",
+    "El exito requiere dedicacion.",
+    "accion" # El ejemplo original del usuario
+]
+for sentence in test_sentences:
+    result = corrector_pipe(sentence, max_length=50) # Ajusta max_length si es necesario
+    corrected_text = result[0]['generated_text']
+    print(f"Entrada: {sentence}")
+    print(f"Salida:  {corrected_text}")
+    print("---")
+print("\n¡Proceso terminado!")