Spaces:

Andro0s
/

AmorCoderAI-Train

Runtime error

App Files Files Community

Andro0s commited on Oct 21

Commit

ce6b6c1

verified ·

1 Parent(s): 2176a59

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -108

app.py CHANGED Viewed

@@ -1,108 +1,17 @@
-import os
-import gradio as gr
-from huggingface_hub import login
-from datasets import load_dataset
-from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling, pipeline
-from peft import get_peft_model, LoraConfig, TaskType, PeftModel
-import json
-# ============================================================
-# ⚙️ CONFIGURACIÓN GLOBAL
-# ============================================================
-# Modelo base para generación de código
-BASE_MODEL = "bigcode/santacoder"
-LORA_PATH = "./lora_output"        # Directorio para guardar los adaptadores LoRA
-# Nombre del archivo donde se guardará el dataset procesado
-DATASET_FILE = "codesearchnet_lora_dataset.json"
-MAX_TOKEN_LENGTH = 256             # Longitud de secuencia uniforme
-NUM_SAMPLES_TO_PROCESS = 5000
-DEFAULT_EPOCHS = 5 # <--- ¡ENTRENAMIENTO PROFUNDO!
-# Variables globales
-tokenizer = None
-lora_model = None
-tokenized_dataset = None
-lora_generator = None
-# ============================================================
-# 🚨 LÓGICA DE PRE-PROCESAMIENTO DE DATOS (INTEGRADA) 🚨
-# ============================================================
-def prepare_codesearchnet():
-    """Descarga, procesa y guarda el dataset CodeSearchNet si no existe."""
-    if os.path.exists(DATASET_FILE):
-        print(f"✅ Dataset '{DATASET_FILE}' ya existe.")
-        return
-    print(f"🔄 Descargando y procesando CodeSearchNet ({NUM_SAMPLES_TO_PROCESS} muestras)...")
-    try:
-        raw_csn = load_dataset('Nan-Do/code-search-net-python', split=f'train[:{NUM_SAMPLES_TO_PROCESS}]')
-        def format_for_lora(example):
-            prompt_text = (
-                f"# Descripción: {example['docstring_summary']}\n"
-                f"# Completa la siguiente función:\n"
-                f"def {example['func_name']}("
-            )
-            completion_text = example['code']
-            return {
-                "prompt": prompt_text,
-                "completion": completion_text
-            }
-        lora_dataset = raw_csn.map(
-            format_for_lora,
-            batched=False,
-            remove_columns=raw_csn["train"].column_names,
-        )
-        lora_dataset.to_json(DATASET_FILE)
-        print(f"✅ Pre-procesamiento completado. {NUM_SAMPLES_TO_PROCESS} ejemplos guardados en '{DATASET_FILE}'.")
-    except Exception as e:
-        print(f"❌ Error CRÍTICO al descargar/procesar CodeSearchNet. Error: {e}")
-        minimal_dataset = [{"prompt": "# Error de carga. Intenta de nuevo.", "completion": "pass\n"}] * 10
-        with open(DATASET_FILE, 'w') as f:
-            json.dump(minimal_dataset, f)
-# ============================================================
-# 🔐 AUTENTICACIÓN Y PRE-CARGA DE RECURSOS (SINGLETON)
-# ============================================================
-def setup_resources():
-    """Carga y configura todos los recursos (modelo, tokenizer, dataset) una sola vez."""
-    global tokenizer, lora_model, tokenized_dataset
-    prepare_codesearchnet()
-    hf_token = os.environ.get("HF_TOKEN")
-    if hf_token:
-        login(token=hf_token)
-    # 1. Carga del Tokenizer y Modelo Base
-    print("\n🔄 Cargando modelo base y tokenizer...")
-    tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
-    base_model = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map="auto")
-    if tokenizer.pad_token is None:
-        tokenizer.pad_token = tokenizer.eos_token
-    # 2. Configuración y Aplicación LoRA (PEFT)
-    peft_config = LoraConfig(
-        task_type=TaskType.CAUSAL_LM,
-        r=8,
-        lora_alpha=32,
-        lora_dropout=0.1,
-        target_modules=["c_proj", "c_attn"],
-    )
-    lora_model = get_peft_model(base_model, peft_config)
-    # Hemos simplificado este print para evitar que se rompa
-    print(f"✅ Modelo LoRA preparado. Parámetros entrenables listos.")
-    # 3. Carga y Tokenización del Dataset
-    print(f"📚 Cargando y tokenizando dataset: {DATASET_FILE}...")
-    try:
-        raw_dataset = load_dataset("json", data_files=DATAS

+runtime error
+Exit code: 1. Reason:   File "/home/user/app/app.py", line 108
+    raw_dataset = load_dataset("json", data_files=DATAS
+                              ^
+SyntaxError: '(' was never closed
+Container logs:
+===== Application Startup at 2025-10-21 06:25:42 =====
+  File "/home/user/app/app.py", line 108
+    raw_dataset = load_dataset("json", data_files=DATAS
+                              ^
+SyntaxError: '(' was never closed
+  File "/home/user/app/app.py", line 108
+    raw_dataset = load_dataset("json", data_files=DATAS
+                              ^
+SyntaxError: '(' was never closed