Spaces:

Andro0s
/

AmorCoderAI-Train

Runtime error

App Files Files Community

Andro0s commited on Oct 20

Commit

3410ef1

verified ·

1 Parent(s): 014c3de

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -8

app.py CHANGED Viewed

@@ -21,6 +21,16 @@ BASE_MODEL = "bigcode/santacoder"  # Modelo público
 LORA_PATH = "./lora_output"        # Carpeta donde se guardará LoRA
 DATASET_PATH = "tu_dataset.json"   # Cambia aquí al nombre de tu dataset
 # ============================================================
 # 🧩 Función de entrenamiento LoRA
 # ============================================================
@@ -58,7 +68,7 @@ def train_lora(epochs, batch_size, learning_rate):
         trainer.train()
         # Guardar LoRA
-        model.save_pretrained(LORA_PATH)
         tokenizer.save_pretrained(LORA_PATH)
         return "✅ Entrenamiento completado y guardado en ./lora_output"
@@ -71,13 +81,13 @@ def train_lora(epochs, batch_size, learning_rate):
 def generate_text(prompt_text):
     try:
         # Cargar modelo base
-        tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-        base_model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)
         # Aplicar LoRA
-        model = PeftModel.from_pretrained(base_model, LORA_PATH)
-        generator = pipeline("text-generation", model=model, tokenizer=tokenizer)
         output = generator(prompt_text, max_new_tokens=100, temperature=0.7, top_p=0.9)
         return output[0]["generated_text"]
     except Exception as e:
@@ -86,9 +96,6 @@ def generate_text(prompt_text):
 # ============================================================
 # 💻 Interfaz Gradio
 # ============================================================
-tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-base_model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)
 with gr.Blocks(title="AmorCoderAI - Entrenamiento LoRA") as demo:
     gr.Markdown("# 💙 AmorCoderAI - Entrenamiento y Pruebas")
     gr.Markdown("Entrena y prueba tu modelo basado en `bigcode/santacoder` con LoRA")

 LORA_PATH = "./lora_output"        # Carpeta donde se guardará LoRA
 DATASET_PATH = "tu_dataset.json"   # Cambia aquí al nombre de tu dataset
+# ============================================================
+# 🔧 Inicializar tokenizer y modelo base
+# ============================================================
+tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
+base_model = AutoModelForCausalLM.from_pretrained(BASE_MODEL)
+# 🔧 Asegurar que haya un pad_token
+if tokenizer.pad_token is None:
+    tokenizer.pad_token = tokenizer.eos_token
 # ============================================================
 # 🧩 Función de entrenamiento LoRA
 # ============================================================
         trainer.train()
         # Guardar LoRA
+        base_model.save_pretrained(LORA_PATH)
         tokenizer.save_pretrained(LORA_PATH)
         return "✅ Entrenamiento completado y guardado en ./lora_output"
 def generate_text(prompt_text):
     try:
         # Cargar modelo base
+        tokenizer_gen = AutoTokenizer.from_pretrained(BASE_MODEL)
+        base_model_gen = AutoModelForCausalLM.from_pretrained(BASE_MODEL)
         # Aplicar LoRA
+        model = PeftModel.from_pretrained(base_model_gen, LORA_PATH)
+        generator = pipeline("text-generation", model=model, tokenizer=tokenizer_gen)
         output = generator(prompt_text, max_new_tokens=100, temperature=0.7, top_p=0.9)
         return output[0]["generated_text"]
     except Exception as e:
 # ============================================================
 # 💻 Interfaz Gradio
 # ============================================================
 with gr.Blocks(title="AmorCoderAI - Entrenamiento LoRA") as demo:
     gr.Markdown("# 💙 AmorCoderAI - Entrenamiento y Pruebas")
     gr.Markdown("Entrena y prueba tu modelo basado en `bigcode/santacoder` con LoRA")