Upload 2 files

bbe1432 verified about 1 month ago

8.38 kB

	import os
	from transformers import AutoModelForCausalLM, AutoTokenizer
	import torch
	import re
	from peft import PeftModel


	def get_model_and_tokenizer(model_name="prometheus-eval/prometheus-7b-v2.0" ):
	"""
	Carga el modelo Prometheus y su tokenizador asociado desde Hugging Face.

	Esta función es esencial para el hackathon ya que inicializa el evaluador LLM-as-a-Judge.
	Recuerda configurar tu token de Hugging Face de antemano.

	Args:
	model_name (str): La versión específica del modelo de Prometheus a cargar.

	Returns:
	model, tokenizer: Tupla con el modelo y el tokenizador listos para realizar inferencias.
	"""
	hf_token = os.getenv("HF_TOKEN")
	if not hf_token:
	print("Warning: HF_TOKEN not found in environment variables.")

	print(f"Loading model: {model_name}...")

	# 1. Cargar y configurar el Tokenizador
	tokenizer = AutoTokenizer.from_pretrained(model_name, token=hf_token)

	# Configuramos el pad_token si no existe (común en Mistral/Llama)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# Padding a la izquierda es obligatorio para modelos decodificadores (CausalLM)
	# cuando se hace inferencia en batches
	tokenizer.padding_side = "left"

	# 2. Cargar el Modelo
	model = AutoModelForCausalLM.from_pretrained(
	model_name,
	token=hf_token,
	device_map="auto",
	# dtype=torch.float16, # Media precisión para ganar velocidad y ahorrar VRAM # No necesario dado que usamos cuantización a 4-bit
	low_cpu_mem_usage=True,
	trust_remote_code=True, # Añadido
	use_safetensors=True, # Añadido
	#safetensors_filename="gptq_model-4bit-128g.safetensors"
	)


	return model, tokenizer




	def split_model_reason_result(sample, output_suffix : str = "model", input_col: str = "model_output")->dict:
	"""
	Post-procesa la salida del modelo para separar la explicación de la puntuación.

	Busca la etiqueta '[RESULT]' para dividir el texto. Si no la encuentra,
	asume que todo el texto es el razonamiento y devuelve un resultado nulo.

	Args:
	sample (dict \| str): Ejemplo que contiene 'model_output'.
	output_suffix (str): Sufijo para nombrar la columna de salida.
	input_col (str): Nombre de la columna de entrada.

	Returns:
	dict: Diccionario con las claves 'reason' (explicación) y 'result' (puntuación limpia).
	"""

	output = sample.get(input_col, "") if not isinstance(sample, str) else sample

	if "[RESULT]" in output:
	# Dividimos por la última aparición del tag para evitar errores
	parts = output.rsplit("[RESULT]", 1)
	reason = parts[0].strip()
	result_raw = parts[1].strip()

	# Limpieza mediante regex para capturar solo el dígito (evita puntos finales, etc.)
	score_match = re.search(r'(\d+)', result_raw)
	result = score_match.group(1) if score_match else result_raw
	else:
	reason = output.strip()
	result = None

	return {
	f"{output_suffix}_reason": reason,
	f"{output_suffix}_pred": result
	}



	def model_predict(model, tokenizer, prompt, max_new_tokens =200, temperature=0.7):
	"""
	Realiza una inferencia simple para un único prompt utilizando el modelo y tokenizador proporcionados.

	Esta función prepara el texto, lo envía al dispositivo donde reside el modelo (GPU/CPU)
	y genera una respuesta de forma determinista. Es ideal para pruebas rápidas o
	validaciones unitarias durante la hackathon.

	Args:
	model (transformers.PreTrainedModel): El modelo de lenguaje ya cargado.
	tokenizer (transformers.PreTrainedTokenizer): El tokenizador correspondiente al modelo.
	prompt (str): El texto de entrada o instrucción para el modelo.

	Returns:
	str: El texto generado por el modelo, limpio de tokens especiales y del prompt original.
	"""
	# 1. Identificar el dispositivo del modelo (soporta device_map="auto")
	device = model.device

	# 2. Tokenizar y mover tensores al dispositivo correcto
	inputs = tokenizer(prompt, return_tensors="pt").to(device)

	# 3. Generación determinista (do_sample=False para evitar variabilidad en pruebas)
	with torch.no_grad():
	outputs = model.generate(
	**inputs,
	max_new_tokens=max_new_tokens,
	do_sample=True,
	pad_token_id=tokenizer.pad_token_id if tokenizer.pad_token_id else tokenizer.eos_token_id
	)

	# 4. Decodificar solo la parte nueva (ignorando los tokens del prompt)
	input_length = inputs["input_ids"].shape[1]
	prediction = tokenizer.decode(outputs[0][input_length:], skip_special_tokens=True)

	return prediction.strip()



	def model_predict_batched(model, tokenizer, batch, input_col = "user_content",
	temperature = 0.1, max_new_tokens = 1000, completion_colname = "model_output"):
	"""
	Realiza inferencia en lotes (batches) sobre un conjunto de prompts.

	Esta función es más eficiente que `model_predict` cuando se procesan múltiples ejemplos a la vez,
	ya que aprovecha el procesamiento en paralelo de la GPU. Aplica el template de chat
	del tokenizador automáticamente.

	Args:
	model (transformers.PreTrainedModel): El modelo cargado.
	tokenizer (transformers.PreTrainedTokenizer): El tokenizador correspondiente.
	batch (dict o pd.DataFrame): El lote de datos de entrada.
	input_col (str, opcional): El nombre de la columna que contiene los prompts de usuario. Por defecto "user_content".
	temperature (float, opcional): Parámetro de temperatura para controlar la aleatoriedad. Por defecto 0.1.
	max_new_tokens (int, opcional): Límite máximo de tokens a generar. Por defecto 1000.
	completion_colname (str, opcional): Nombre de la columna de salida. Por defecto "model_output".

	Returns:
	dict: Diccionario que contiene una lista con las respuestas generadas bajo la clave f"{completion_colname}".
	"""
	# 1. Detectamos el dispositivo de entrada (donde está la primera c apa)
	model_device = model.device

	messages_list = [[{"role": "user", "content": p}] for p in batch[input_col]]


	# 2. IMPORTANTE: Pedimos que devuelva un diccionario completo (return_dict=True)
	inputs = tokenizer.apply_chat_template(
	messages_list,
	add_generation_prompt=True,
	tokenize=True,
	return_tensors="pt",
	padding=True,
	return_dict=True # Esto asegura que tengamos input_ids y attention_mask
	).to(model_device)

	with torch.no_grad():
	generated_ids = model.generate(
	**inputs, # Ahora inputs es un dict con todo en la GPU correcta
	max_new_tokens=max_new_tokens,
	do_sample=True,
	temperature=temperature,
	pad_token_id=tokenizer.pad_token_id
	)

	input_length = inputs["input_ids"].shape[1]
	decoded_outputs = tokenizer.batch_decode(
	generated_ids[:, input_length:],
	skip_special_tokens=True
	)

	return {f"{completion_colname}": decoded_outputs}




	def load_lora_model(model_name, model_path):
	"""
	Carga un modelo base y le aplica los pesos ajustados de un entrenamiento LoRA (PEFT).

	Durante el hackathon, usarás esta función para cargar tu propio modelo afinao (Fine-Tuned)
	y comparar sus evaluaciones con las del modelo original.

	Args:
	model_name (str): Nombre o ruta del modelo base original (p. ej., "prometheus-eval/prometheus-7b-v2.0").
	model_path (str): Ruta donde se encuentran guardados los adaptadores LoRA entrenados.

	Returns:
	model, tokenizer: Tupla con el modelo ajustado y su tokenizador.
	"""

	# 1. Load the original BASE model (the one you started with)
	base_model = AutoModelForCausalLM.from_pretrained(model_name, device_map="auto")

	# 2. Load the Tokenizer (now that you've saved it to the FT path)
	tokenizer = AutoTokenizer.from_pretrained(model_path)

	# 3. Load the LoRA adapters onto the base model
	model = PeftModel.from_pretrained(base_model, model_path)
	return model, tokenizer