Spaces:
Runtime error
Runtime error
Update app.py
Browse files
app.py
CHANGED
|
@@ -9,10 +9,14 @@ import json
|
|
| 9 |
# ============================================================
|
| 10 |
# ⚙️ CONFIGURACIÓN GLOBAL
|
| 11 |
# ============================================================
|
|
|
|
| 12 |
BASE_MODEL = "bigcode/santacoder"
|
| 13 |
-
LORA_PATH = "./lora_output"
|
|
|
|
|
|
|
| 14 |
DATASET_FILE = "codesearchnet_lora_dataset.json"
|
| 15 |
-
MAX_TOKEN_LENGTH = 256
|
|
|
|
| 16 |
NUM_SAMPLES_TO_PROCESS = 5000
|
| 17 |
DEFAULT_EPOCHS = 5 # <--- ¡ENTRENAMIENTO PROFUNDO!
|
| 18 |
|
|
@@ -97,9 +101,4 @@ def setup_resources():
|
|
| 97 |
target_modules=["c_proj", "c_attn"],
|
| 98 |
)
|
| 99 |
lora_model = get_peft_model(base_model, peft_config)
|
| 100 |
-
print(f"✅ Modelo LoRA preparado.
|
| 101 |
-
|
| 102 |
-
# 5. Carga y Tokenización del Dataset
|
| 103 |
-
print(f"📚 Cargando y tokenizando dataset de: {DATASET_FILE}...")
|
| 104 |
-
try:
|
| 105 |
-
raw_dataset = load_dataset("json", data_files=DATASET_FILE)
|
|
|
|
| 9 |
# ============================================================
|
| 10 |
# ⚙️ CONFIGURACIÓN GLOBAL
|
| 11 |
# ============================================================
|
| 12 |
+
# Modelo base para generación de código
|
| 13 |
BASE_MODEL = "bigcode/santacoder"
|
| 14 |
+
LORA_PATH = "./lora_output" # Directorio para guardar los adaptadores LoRA
|
| 15 |
+
|
| 16 |
+
# Nombre del archivo donde se guardará el dataset procesado
|
| 17 |
DATASET_FILE = "codesearchnet_lora_dataset.json"
|
| 18 |
+
MAX_TOKEN_LENGTH = 256 # Longitud de secuencia uniforme
|
| 19 |
+
# Usamos un número manejable (5000) para entornos limitados como un móvil/Spaces
|
| 20 |
NUM_SAMPLES_TO_PROCESS = 5000
|
| 21 |
DEFAULT_EPOCHS = 5 # <--- ¡ENTRENAMIENTO PROFUNDO!
|
| 22 |
|
|
|
|
| 101 |
target_modules=["c_proj", "c_attn"],
|
| 102 |
)
|
| 103 |
lora_model = get_peft_model(base_model, peft_config)
|
| 104 |
+
print(f"✅ Modelo LoRA preparado. Parámetr
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|