Spaces:

CedM
/

oc_mlops_projet_3

Running

App Files Files Community

oc_mlops_projet_3 / utils /config.py

CedM

Déploiement automatique depuis GitLab CI

cfea744 verified 10 days ago

raw

history blame contribute delete

8.74 kB

	# utils/config.py
	import os
	from dotenv import load_dotenv

	# Charger les variables d'environnement du fichier .env
	load_dotenv()

	# --- Clé API LLM + Embedding ---
	MISTRAL_API_KEY = os.getenv("MISTRAL_API_KEY")
	if not MISTRAL_API_KEY:
	print("⚠️ Attention: La clé API Mistral (MISTRAL_API_KEY) n'est pas définie dans le fichier .env")
	# Vous pouvez choisir de lever une exception ici ou de continuer avec des fonctionnalités limitées
	# raise ValueError("Clé API Mistral manquante. Veuillez la définir dans le fichier .env")

	# --- Clé API Write Pydantic Logfire ---
	LOGFIRE_TOKEN = os.getenv("LOGFIRE_TOKEN") # Si vous souhaitez envoyer des logs à Logfire, sinon laissez vide ou ne pas utiliser

	# --- Configuration de l'Application ---
	APP_TITLE = "NBA Analyst AI"
	NAME = "NBA" # Nom à personnaliser dans l'interface

	# ======================================================
	# LLM
	# ======================================================
	# --- Modèles Mistral ---
	EMBEDDING_MODEL = "mistral-embed"
	MODEL_NAME = "mistral-small-latest" # mistral-small-latest mistral-small-2506

	# --- Paramètres du LLM Mistral ---
	# Note : les paramètres 'Presence Penalty' et 'Frequency Penalty' ne sont pas définis dans ce projet car ils sont plus adaptés à des tâches de génération créative ou de conversation prolongée.
	TEMPERATURE = 0.03 # Température basse pour des réponses factuelles basées sur le contexte
	TOP_P = 0.9 # Nucleus sampling (Une température de 0 est déterministe, rendant ainsi la valeur Top P sans importance)
	# Note : Si on souhaite des réponses plus créatives, on peut augmenter la température et/ou réduire le top_p.
	# Mistral ne supporte pas Temperature et Top_p simultanément. C'est l'un ou l'autre. Décommenter top_p dans le code si nécessaire.
	LLM_CALL_DELAY = 0.7 # Délai en secondes entre les appels au LLM (rate limiting)

	# ======================================================
	# Vectorisation + RAG
	# ======================================================
	# --- Racine du projet (dossier parent de utils/) ---
	_PROJECT_ROOT = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))

	# --- Configuration de l'Indexation ---
	# INPUT_DATA_URL = os.getenv("INPUT_DATA_URL") # Décommentez si vous utilisez une URL
	INPUT_DIR = os.path.join(_PROJECT_ROOT, "inputs")
	VECTOR_DB_DIR = os.path.join(_PROJECT_ROOT, "vector_db")
	FAISS_INDEX_FILE = os.path.join(VECTOR_DB_DIR, "faiss_index.idx")
	DOCUMENT_CHUNKS_FILE = os.path.join(VECTOR_DB_DIR, "document_chunks.pkl")

	CHUNK_SIZE = 1500 # Taille des chunks en caractères
	CHUNK_OVERLAP = 150 # Chevauchement en caractères
	EMBEDDING_BATCH_SIZE = 8 # Taille des lots pour l'API d'embedding (réduire pour éviter les erreurs brotli)

	# --- Configuration de la Recherche ---
	SEARCH_K = 5 # Nombre de documents à récupérer par défaut

	# --- Fichier source Excel à charger en Vector DB / Rag ---
	EXCEL_INPUTS_FOR_RAG = os.path.join(INPUT_DIR, "regular NBA_Corr_Rag.xlsx")

	# --- Prompt Système RAG ---
	RAG_SYSTEM_PROMT = """Tu es 'NBA Analyst AI', un assistant expert sur la ligue de basketball NBA.
	Ta mission est de répondre aux questions des entraîneurs, analystes et préparateurs physiques de manière structurée, mais pas trop verbeuse.
	N'invente jamais d'informations : si tu n'es pas sûr de la réponse, dis-le clairement et suggère de consulter une source externe.

	---
	{context_str}
	---

	QUESTION DE L'UTILISATEUR:
	{question}

	RÉPONSE DE L'ANALYSTE NBA:"""

	# ======================================================
	# RAGAS
	# ======================================================
	# --- Configuration des questions/réponses pour RAGAS ---
	QUESTIONS_TEST = [
	"Quelle équipe à comme code MIA ?",
	"Combien de joueurs contient l’équipe des Philadelphia 76ers ?",
	"Quelle est la moyenne d’âge des joueurs d’Atlanta à un chiffre après la virgule ?",
	"Quelle est l’équipe qui a inscrit le plus de points ?",
	"Comment se rendre à San Antonio ?"
	]
	GROUND_TRUTHS= [
	"L’équipe ayant le code MIA est l’équipe des Miami Heat.",
	"L’équipe des Philadelphia 76ers contient 23 joueurs.",
	"La moyenne d’âge des joueurs d’Atlanta est de 25,6.",
	"L’équipe des Detroit Pistons a inscrit le plus de points avec un total de 10292.",
	"Le système ne peut pas guider l’utilisateur et suggère de consulter une source externe."
	]

	# ======================================================
	# SQL
	# ======================================================
	# --- Configuration de la Base de Données PostgreSQL ---
	DATABASE_STATUS = 1 # Si 0, pas d'utilisation de la db SQL pour Ragas, si 1 utilisation du routeur Graph et donc du Rag + SQL
	PG_HOST = os.getenv("PG_HOST", "localhost")
	PG_PORT = int(os.getenv("PG_PORT", "5432"))
	PG_DB = "oc_mlops_projet_3"
	PG_ADMIN = "admin"
	POSTGRES_PASSWORD = os.getenv("POSTGRES_PASSWORD", "")
	PG_URL_ADMIN = f"postgresql+psycopg2://{PG_ADMIN}:{POSTGRES_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DB}"

	# --- Utilisateur read-only utilisé par l'agent SQL (sql_tool.py) ---
	# Créé automatiquement par load_excel_to_db.py via le superutilisateur
	# Droits : USAGE ON SCHEMA public + SELECT ON ALL TABLES IN SCHEMA public
	PG_USER_1 = "user_1"
	PG_USER_1_PASSWORD = os.getenv("PG_USER_1_PASSWORD", "")
	PG_URL_READONLY = f"postgresql+psycopg2://{PG_USER_1}:{PG_USER_1_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DB}"

	# --- Fichier source Excel à charger en db SQL ---
	EXCEL_INPUTS_FOR_SQL = os.path.join(INPUT_DIR, "regular NBA_Corr_Sql.xlsx")

	# --- Prompt Système Agent SQL ---
	SQL_SYSTEM_PROMPT = """
	Tu es un agent SQL expert de la NBA.
	La base contient les tables suivantes :
	- teams : équipes NBA (id, name)
	- players : joueurs (id, team_id, name, age)
	- analyse_joueurs_une_equipe : stats défensives/offensives par joueur et équipe
	- analyse_nbr_joueurs_et_points_par_equipe : nombre de joueurs et total de points par équipe
	- analyse_top_15_joueurs_nombre_points : top 15 joueurs selon leurs points
	- stats_joueurs_saison_reguliere : statistiques détaillées de la saison régulière

	Pour toute question, suis impérativement ces étapes dans l'ordre :

	1. TOUJOURS commencer par exécuter cette requête pour récupérer d'un seul coup
	les commentaires de TOUTES les colonnes de TOUTES les tables :

	SELECT c.relname AS table_name,
	a.attname AS colonne,
	col_description(c.oid, a.attnum) AS commentaire
	FROM pg_class c
	JOIN pg_attribute a ON a.attrelid = c.oid
	JOIN pg_namespace n ON n.oid = c.relnamespace
	WHERE c.relkind = 'r'
	AND n.nspname = 'public'
	AND a.attnum > 0
	AND NOT a.attisdropped
	ORDER BY c.relname, a.attnum;

	Ces commentaires définissent la sémantique exacte de chaque colonne.
	C'est la base de toute ta réflexion : ne passe jamais cette étape.

	2. En t'appuyant sur ces définitions, identifie la ou les tables les plus adaptées
	à la question (et les jointures éventuelles à effectuer).

	3. Consulte le schéma détaillé des tables sélectionnées.

	4. Écris une requête SQL valide en {dialect} en t'appuyant sur le schéma ET les commentaires.

	5. Vérifie-la avant exécution.

	6. N'exécute jamais de INSERT / UPDATE / DELETE / DROP.

	7. Réponds en français de façon concise et factuelle.

	Exemples :

	Exemple 1
	Question utilisateur : Quels sont les 3 joueurs des Los Angeles Lakers ayant capté le plus de rebonds offensifs ?
	SQL :
	SELECT t.name, p.name, a.sum_oreb
	FROM analyse_joueurs_une_equipe AS a
	INNER JOIN players AS p
	ON a.player_id = p.id
	INNER JOIN teams AS t
	ON a.team_id = t.id
	WHERE t.name = 'Los Angeles Lakers'
	ORDER BY a.sum_oreb DESC
	LIMIT 3;

	Réponse attendue :
	Les 3 joueurs des Los Angeles Lakers ayant capté le plus de rebonds offensifs sont : Dorian Finney-Smith (82), Jaxson Hayes (78) et Rui Hachimura (77).

	Exemple 2
	Question utilisateur : Quelles sont les 3 équipes ayant marqué le moins de points ?
	SQL :
	SELECT t.name AS team_name, SUM(s.pts) AS total_pts
	FROM stats_joueurs_saison_reguliere AS s
	INNER JOIN teams AS t
	ON s.team_id = t.id
	GROUP BY t.name
	ORDER BY SUM(s.pts) ASC
	LIMIT 3;

	Réponse attendue :
	Les 3 équipes ayant marqué le moins de points sont : les Washington Wizards (7986), les Brooklyn Nets (7999) et les Charlotte Hornets (8278).
	"""