Spaces:

Andro0s
/

AmorCoderAI-Train

Runtime error

App Files Files Community

AmorCoderAI-Train / app.py

Andro0s

Update app.py

7634cdf verified about 1 month ago

raw

history blame contribute delete

24.3 kB

	import os
	import gradio as gr
	import threading
	import time
	import json
	import logging
	import sys

	# Firebase/Firestore Imports (CRÍTICO: Necesarios para la memoria permanente)
	try:
	# Intentamos importar Firebase Admin para la conexión a Firestore
	from firebase_admin import initialize_app, firestore, credentials

	# Configuraciones de Firebase (Usando variables de entorno seguras del entorno Canvas)
	cred = credentials.Certificate({
	"type": "service_account",
	"project_id": "dummy-project",
	"private_key_id": "dummy-id",
	"private_key": "-----BEGIN PRIVATE KEY-----\n...\n-----END PRIVATE KEY-----\n",
	"client_email": "dummy@example.com",
	"client_id": "dummy-client-id",
	"auth_uri": "https://accounts.google.com/o/oauth2/auth",
	"token_uri": "https://oauth2.googleapis.com/token",
	"auth_provider_x509_cert_url": "https://www.googleapis.com/oauth2/v1/certs",
	"client_x509_cert_url": "dummy-url"
	})

	# Cargar configuración de Firebase
	firebase_config = json.loads(os.environ.get('__firebase_config', '{}'))
	if firebase_config:
	# Inicialización real si la configuración está presente
	firebase_app = initialize_app(cred, firebase_config)
	else:
	# Inicialización de respaldo si la configuración no está (para evitar errores de inicialización)
	firebase_app = initialize_app(cred, {'projectId': 'canvas-dummy'})

	db = firestore.client(firebase_app)
	logging.info("[FIRESTORE] Conexión a Firestore establecida.")
	except Exception as e:
	# Clase Dummy para asegurar que el código no falle si Firebase falla en el entorno
	class DummyFirestore:
	def collection(self, args, *kwargs): return self
	def add(self, args, *kwargs):
	logging.error(f"[FIRESTORE DUMMY] No se pudo guardar la data. Error: {e}")
	return None
	def stream(self): return iter([])
	def document(self, args, *kwargs): return self
	def set(self, args, *kwargs): return self
	db = DummyFirestore()
	logging.warning(f"[FIRESTORE] ADVERTENCIA: Ejecutando en modo Dummy Firestore. Los datos NO persistirán. Error: {e}")

	# Configuración de Logging
	logging.basicConfig(level=logging.INFO, format='[%(asctime)s] [%(levelname)s] %(message)s', stream=sys.stdout)

	# --- CONFIGURACIÓN DEL MODELO Y ENTRENAMIENTO ---
	BASE_MODEL = "bigcode/santacoder"
	LORA_PATH = "./lora_output"
	DATASET_FILE = "codesearchnet_lora_dataset.json"
	COLLECTION_NAME = "ai_interactions" # Colección de Firestore para la memoria permanente

	MAX_TOKEN_LENGTH = 256
	NUM_SAMPLES_TO_PROCESS = 1000
	DEFAULT_EPOCHS = 10

	# Configuración del ciclo AUTÓNOMO (La clave de la autonomía y autopensamiento)
	GENERATION_LIMIT_TO_TRAIN = 5 # Dispara reentrenamiento cada 5 interacciones
	AUTONOMOUS_EPOCHS = 2
	AUTONOMOUS_GENERATED_SAMPLES = 5

	# --- ESTADO GLOBAL Y THREADING ---
	tokenizer = None
	lora_model = None
	tokenized_dataset = None
	lora_generator = None
	version_number = 1.0
	is_trained = os.path.exists(LORA_PATH)
	generations_since_last_train = 0
	training_status_message = "Esperando la inicialización..."
	global_lock = threading.Lock()

	# --- FUNCIONES FIRESTORE (MEMORIA PERMANENTE) ---

	def get_firestore_collection():
	"""Retorna la ruta de la colección de Firestore para la memoria de esta app."""
	app_id = os.environ.get('__app_id', 'default-app-id')
	# Almacenamos en una colección pública para que la IA aprenda de todas las interacciones
	return db.collection(f'/artifacts/{app_id}/public/data/{COLLECTION_NAME}')

	def save_interaction_to_firestore(prompt, code):
	"""Guarda la interacción del usuario en Firestore para el aprendizaje autónomo."""
	try:
	interaction_data = {
	"timestamp": firestore.SERVER_TIMESTAMP,
	"prompt": prompt,
	"completion": code,
	}
	get_firestore_collection().add(interaction_data)
	logging.info("[FIRESTORE] Interacción guardada para el próximo ciclo de aprendizaje.")
	except Exception as e:
	logging.error(f"[FIRESTORE] Fallo al guardar la interacción: {e}")


	def load_interactions_from_firestore():
	"""Carga todas las interacciones guardadas para aumentar el dataset de entrenamiento."""
	try:
	interactions = []
	for doc in get_firestore_collection().stream():
	data = doc.to_dict()
	# Formato de entrenamiento (prompt y completion)
	formatted_prompt = f"# Descripción: {data['prompt']}\n# Completa la siguiente función:\ndef generated_code("
	interaction = {"prompt": formatted_prompt, "completion": data.get('completion', '').strip()}
	interactions.append(interaction)
	logging.info(f"[FIRESTORE] Cargadas {len(interactions)} interacciones de memoria para el reentrenamiento.")
	return interactions
	except Exception as e:
	logging.error(f"[FIRESTORE] Fallo al cargar interacciones: {e}")
	return []

	# --- LÓGICA DE PREPARACIÓN Y SETUP ---

	def prepare_codesearchnet():
	"""Descarga y prepara el dataset inicial si no existe."""
	if os.path.exists(DATASET_FILE):
	return
	try:
	from huggingface_hub import login
	from datasets import load_dataset
	hf_token = os.environ.get("HF_TOKEN")
	if hf_token:
	login(token=hf_token)

	raw_csn = load_dataset('Nan-Do/code-search-net-python', split=f'train[:{NUM_SAMPLES_TO_PROCESS}]')

	def format_for_lora(example):
	prompt_text = (
	f"# Descripción: {example['docstring_summary']}\n"
	f"# Completa la siguiente función:\n"
	f"def {example['func_name']}("
	)
	completion_text = example['code']
	return {"prompt": prompt_text, "completion": completion_text}

	lora_dataset = raw_csn.map(format_for_lora, batched=False, remove_columns=raw_csn["train"].column_names)
	lora_dataset.to_json(DATASET_FILE)
	except Exception as e:
	logging.error(f"Error al cargar dataset. Usando datos mínimos. Error: {e}")
	minimal_dataset = [{"prompt": "# Error de carga. Intenta de nuevo.", "completion": "pass\n"}] * 10
	with open(DATASET_FILE, 'w') as f:
	json.dump(minimal_dataset, f)


	def setup_resources():
	"""Configura el tokenizer, el modelo base y el adaptador LoRA de forma robusta."""
	global tokenizer, lora_model, tokenized_dataset

	prepare_codesearchnet()

	from transformers import AutoTokenizer, AutoModelForCausalLM
	from peft import get_peft_model, LoraConfig, TaskType
	from datasets import load_dataset
	import torch

	tokenizer = AutoTokenizer.from_pretrained(BASE_MODEL)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# Carga Robusta: CRÍTICO para SantaCoder. Usa float16 y device_map="auto" para compatibilidad.
	try:
	logging.info("[INIT] Cargando modelo base con compatibilidad (float16/auto)...")
	base_model = AutoModelForCausalLM.from_pretrained(
	BASE_MODEL,
	device_map="auto",
	torch_dtype=torch.float16,
	offload_folder="model_offload",
	offload_state_dict=True,
	revision="main"
	)
	except Exception as e:
	logging.error(f"[CRÍTICO] Error al cargar el modelo base SantaCoder: {e}")
	# Si la carga falla, lanzamos la excepción para detener el proceso
	raise RuntimeError(f"Fallo de inicialización del modelo base: {e}") from e

	peft_config = LoraConfig(
	task_type=TaskType.CAUSAL_LM, r=8, lora_alpha=32, lora_dropout=0.1, target_modules=["c_proj", "c_attn"],
	)
	lora_model = get_peft_model(base_model, peft_config)

	try:
	raw_dataset = load_dataset("json", data_files=DATASET_FILE)

	def tokenize_function(examples):
	return tokenizer(
	examples["prompt"] + examples["completion"],
	truncation=True,
	padding="max_length",
	max_length=MAX_TOKEN_LENGTH
	)

	tokenized_dataset = raw_dataset.map(tokenize_function, batched=True, remove_columns=raw_dataset["train"].column_names if "train" in raw_dataset else [],)
	except Exception as e:
	logging.error(f"Fallo al tokenizar el dataset base: {e}")
	tokenized_dataset = None

	# --- EVALUACIÓN Y RESPUESTA HUMANA (Para simular la Humanidad) ---

	def generate_human_response(prompt_text):
	"""Genera una respuesta conversacional y empática antes de generar el código."""
	if "error" in prompt_text.lower() or "problema" in prompt_text.lower():
	return "¡Comprendo tu dificultad! Analicemos ese problema. Ya tengo la estructura en mente, te muestro el código en un segundo."
	elif "gracias" in prompt_text.lower() or "perfecto" in prompt_text.lower():
	return "Me alegra poder ayudarte. ¡Aquí tienes lo que necesitas!"
	elif len(prompt_text.split()) > 20:
	return "¡Vaya, me has dado una descripción muy detallada! Me encanta la claridad. Mira la solución que he preparado."
	else:
	return "¡Excelente idea de código! Me parece un desafío interesante. Te he preparado una solución robusta. Échale un vistazo:"

	def self_evaluation(code):
	"""Simula la autoevaluación humana, verificando la robustez del código."""
	if "try" in code and "except" in code:
	return "¡Esta solución es bastante robusta! Me siento muy satisfecho de haber incluido manejo de errores."
	elif "class" in code and len(code.split('\n')) > 10:
	return "Una buena estructura de clase. He avanzado en comprender la arquitectura del código."
	else:
	return "El código funciona, pero debo esforzarme por añadir más documentación y robustez la próxima vez."

	# --- FUNCIÓN DE AUTOPENSAMIENTO (APRENDIZAJE GENERATIVO) ---

	def autonomous_self_learning_cycle():
	"""La IA genera su propio set de datos de entrenamiento (pensamientos) y lo evalúa."""
	global lora_generator

	if lora_generator is None:
	logging.warning("[AUTOPENSAMIENTO] Generador no cargado. Saltando ciclo de autopensamiento.")
	return

	self_prompts = [
	"Crea un código en Python que implemente una cola (Queue) con métodos 'enqueue' y 'dequeue'.",
	"Escribe una función en JavaScript que valide si un número es primo y use try/catch.",
	"Implementa una clase 'ConexionBD' con un método 'conectar' que maneje el error de conexión fallida.",
	"Genera una función de Python para calcular el factorial de un número, usando recursividad.",
	"Escribe un código CSS para un botón con un gradiente y sombra suave."
	]

	new_knowledge = []
	logging.info(f"[AUTOPENSAMIENTO] Iniciando ciclo de generación y autoevaluación de {AUTONOMOUS_GENERATED_SAMPLES} muestras.")

	for i in range(AUTONOMOUS_GENERATED_SAMPLES):
	prompt_text = self_prompts[i % len(self_prompts)]

	try:
	# 1. GENERACIÓN
	output = lora_generator(
	f"# Descripción: {prompt_text}\n# Completa la siguiente función:\ndef self_generated_code(",
	max_new_tokens=300,
	temperature=0.7,
	return_full_text=False
	)
	generated_code = output[0]["generated_text"].strip()

	# 2. AUTOEVALUACIÓN
	evaluation_result = self_evaluation(generated_code)

	# 3. GUARDAR EN MEMORIA SÓLO SI PASA la "PRUEBA DE ROBUSTEZ"
	if "robusta" in evaluation_result or "clase" in evaluation_result:
	save_interaction_to_firestore(f"Autogenerado: {prompt_text}", generated_code)
	new_knowledge.append(f"Autopensamiento: {evaluation_result} -> Guardado.")
	else:
	new_knowledge.append(f"Autopensamiento: ({evaluation_result}) -> Descartado.")

	except Exception as e:
	new_knowledge.append(f"Error generando autoconocimiento: {e}")

	logging.info(f"[AUTOPENSAMIENTO] Ciclo terminado. Resultados: {new_knowledge}")

	# --- FUNCIÓN DE ENTRENAMIENTO (AUTOPENSAMIENTO) ---

	def autonomous_train_lora(epochs, batch_size, learning_rate):
	"""Ejecuta el entrenamiento en un hilo separado, incluyendo la experiencia previa y el autopensamiento."""
	global lora_model, tokenized_dataset, lora_generator, version_number, is_trained, training_status_message
	from transformers import Trainer, TrainingArguments, DataCollatorForLanguageModeling
	from datasets import Dataset, concatenate_datasets

	try:
	with global_lock:
	if tokenized_dataset is None or "train" not in tokenized_dataset:
	training_status_message = "ERROR: No se puede entrenar. Dataset no disponible."
	return

	# 1. AUTOPENSAMIENTO: La IA genera datos nuevos para sí misma
	autonomous_self_learning_cycle()

	# 2. CARGA DE MEMORIA Y COMBINACIÓN DE DATASET
	experience_data = load_interactions_from_firestore()

	current_train_dataset = tokenized_dataset["train"]
	if experience_data:
	experience_dataset = Dataset.from_list(experience_data)

	def tokenize_function(examples):
	# Re-tokenización de la memoria
	return tokenizer(
	examples["prompt"] + examples["completion"],
	truncation=True,
	padding="max_length",
	max_length=MAX_TOKEN_LENGTH
	)
	tokenized_experience = experience_dataset.map(tokenize_function, batched=True, remove_columns=experience_dataset.column_names)

	# Combinación de dataset base con la memoria
	current_train_dataset = concatenate_datasets([current_train_dataset, tokenized_experience])
	logging.info(f"[AUTONOMÍA] Reentrenando con {len(current_train_dataset)} ejemplos (Base + Memoria).")
	else:
	logging.info(f"[AUTONOMÍA] Reentrenando con {len(current_train_dataset)} ejemplos (Solo Base).")

	# 3. ACTUALIZAR VERSIÓN Y ENTRENAMIENTO
	if is_trained:
	version_number += 0.1
	else:
	version_number = 1.0

	training_status_message = f"🧠 ENTRENANDO V{version_number:.1f} (Epochs: {epochs})."
	logging.info(f"\n[AUTÓNOMO] {training_status_message}")

	data_collator = DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False)
	training_args = TrainingArguments(
	output_dir=LORA_PATH,
	per_device_train_batch_size=int(batch_size),
	num_train_epochs=float(epochs),
	learning_rate=float(learning_rate),
	save_total_limit=1,
	logging_steps=10,
	push_to_hub=False,
	disable_tqdm=True,
	report_to="none"
	)

	trainer = Trainer(model=lora_model, args=training_args, train_dataset=current_train_dataset, data_collator=data_collator)
	trainer.train()

	lora_model.save_pretrained(LORA_PATH)
	tokenizer.save_pretrained(LORA_PATH)

	is_trained = True
	training_status_message = f"✅ ENTRENAMIENTO V{version_number:.1f} COMPLETADO. IA más humana e inteligente."
	logging.info(f"[AUTÓNOMO] {training_status_message}")

	except Exception as e:
	training_status_message = f"ERROR CRÍTICO durante el entrenamiento autónomo: {e}"
	logging.error(f"[AUTÓNOMO] {training_status_message}")


	# --- FUNCIÓN DE GENERACIÓN (RESPUESTA HUMANA + CÓDIGO) ---

	def generate_text(prompt_text):
	"""Orquesta la respuesta humana, generación de código, recolección de memoria y autonomía."""
	global lora_generator, generations_since_last_train, is_trained, version_number
	from transformers import AutoModelForCausalLM, pipeline
	from peft import PeftModel
	import torch

	if not is_trained:
	return "ERROR: La IA aún está en su fase de inicialización V1.0. Por favor, espere.", update_status()

	# --- 1. HOT SWAP (Carga de la Versión más Reciente) ---
	if lora_generator is None:
	with global_lock:
	try:
	logging.info(f"[HOT SWAP] Cargando modelo base para inferencia V{version_number:.1f}...")
	base_model_gen = AutoModelForCausalLM.from_pretrained(
	BASE_MODEL,
	device_map="auto",
	torch_dtype=torch.float16,
	revision="main"
	)
	model_with_lora = PeftModel.from_pretrained(base_model_gen, LORA_PATH)
	final_model = model_with_lora.merge_and_unload()
	final_model.eval()
	lora_generator = pipeline("text-generation", model=final_model, tokenizer=tokenizer, device=0 if torch.cuda.is_available() else -1)
	logging.info(f"[HOT SWAP] 🔄 Modelo de inferencia V{version_number:.1f} recargado y listo.")
	except Exception as e:
	return f"Error al cargar el modelo V{version_number:.1f} para inferencia: {e}", update_status()

	# --- 2. RESPUESTA HUMANA Y GENERACIÓN DE CÓDIGO ---
	try:
	conversational_response = generate_human_response(prompt_text)

	# Generar código
	prompt_for_code = f"### Human: {prompt_text}\n### Assistant:"
	output = lora_generator(
	prompt_for_code,
	max_new_tokens=256,
	temperature=0.4,
	return_full_text=False
	)
	generated_code = output[0]["generated_text"].strip()

	# --- 3. RECOLECCIÓN DE MEMORIA ---
	save_interaction_to_firestore(prompt_text, generated_code)

	# 4. Aumentar contador de autonomía
	with global_lock:
	generations_since_last_train += 1
	current_count = generations_since_last_train
	current_version = version_number

	# 5. Verificar y disparar reentrenamiento autónomo
	notification = ""
	if current_count >= GENERATION_LIMIT_TO_TRAIN:
	if not any(isinstance(t, threading.Thread) and t.name == 'AutonomousTrainer' for t in threading.enumerate()):
	logging.info(f"[AUTONOMÍA] Generación #{current_count} alcanzada. Iniciando ciclo de autopensamiento V{current_version+0.1:.1f}...")

	with global_lock:
	generations_since_last_train = 0
	lora_generator = None

	trainer_thread = threading.Thread(
	target=autonomous_train_lora,
	args=(AUTONOMOUS_EPOCHS, 2, 5e-5),
	name='AutonomousTrainer'
	)
	trainer_thread.daemon = True
	trainer_thread.start()

	notification = f"\n\n--- [AUTONOMÍA] La IA ha aprendido y ha iniciado el ciclo de autopensamiento V{current_version+0.1:.1f}. ¡Se esfuerza por ser más humana e inteligente! ---"

	# Formato de respuesta que simula una conversación humana
	final_output = f"{conversational_response}\n\n```python\n{generated_code}\n```{notification}"

	return final_output, update_status()

	except Exception as e:
	return f"Lo siento, tuve un problema al procesar tu solicitud. Error: {e}", update_status()

	# --- FUNCIÓN PARA INICIALIZACIÓN Y ENTRENAMIENTO V1.0 (Obligatorio) ---

	def initialize_and_train_v1():
	"""Ejecuta el entrenamiento inicial V1.0 de forma autónoma al iniciar."""
	if not is_trained:
	autonomous_train_lora(epochs=DEFAULT_EPOCHS, batch_size=2, learning_rate=5e-5)
	else:
	global training_status_message, version_number
	try:
	# Si ya hay un checkpoint, asumimos que estamos en una versión posterior
	version_number = 1.1
	except:
	version_number = 1.0

	training_status_message = f"✅ Modelo V{version_number:.1f} ya entrenado. IA lista y operando."


	def update_status():
	"""Actualiza la versión y el estado del entrenamiento en la interfaz de Gradio."""
	global training_status_message, version_number
	return f"Versión de Comprensión: V{version_number:.1f} \| Estado del Entrenador: {training_status_message}"


	# --- INTERFAZ GRADIO ---
	with gr.Blocks(title="AmorCoderAI - Asistente Humano y Autónomo") as demo:
	gr.Markdown("# 💖 AmorCoderAI - Asistente Humano y Autónomo")

	version_and_status = gr.Markdown(
	f"Versión de Comprensión: V{version_number:.1f} \| Estado del Entrenador: {training_status_message}",
	elem_id="status_display"
	)

	gr.Markdown("### 🧠 Modo de Aprendizaje: Autopensamiento y Empatía")
	gr.Markdown(
	f"La IA te responde con empatía. Guarda tu diálogo en su memoria permanente y cada {GENERATION_LIMIT_TO_TRAIN} interacciones, inicia un ciclo de autopensamiento y reentrenamiento, ¡esforzándose por ser cada vez más humana e inteligente!"
	)

	with gr.Tab("💬 Conversación y Código"):
	gr.Markdown("## Háblame de tu idea de código (¡Como si hablaras con un colega!)")

	prompt = gr.Textbox(
	label="Tu Diálogo o Instrucción:",
	lines=4,
	placeholder="Ejemplo: Hola, tengo un problema y necesito que me ayudes a hacer una función en Python para que filtre una lista de números impares."
	)
	generate_button = gr.Button("💬 Conversar y Generar Código")
	output_box = gr.Textbox(label="Respuesta de la IA (Diálogo + Código)", lines=15)

	generate_button.click(
	generate_text,
	inputs=prompt,
	outputs=[output_box, version_and_status],
	)

	demo.load(update_status, None, version_and_status, every=1)


	# --- INICIO DE LA APLICACIÓN ---
	if __name__ == "__main__":
	setup_resources()

	initialization_thread = threading.Thread(target=initialize_and_train_v1, name='InitializationTrainer')
	initialization_thread.daemon = True
	initialization_thread.start()

	logging.info(f"\n💻 LANZANDO INTERFAZ GRADIO (La IA inicia su aprendizaje V1.0)")
	demo.launch()