Spaces:

Stive-G
/

AvisSense

Sleeping

rima ouchefoune

Commentaires pédagogiques détaillés sur tout le code

762c0d3 16 days ago

12.2 kB

	"""
	evaluate.py — Évaluation détaillée du modèle sauvegardé sur le test set Allociné.
	==================================================================================

	CE QUE FAIT CE SCRIPT (à lancer APRÈS train.py) :
	1. Recharge le modèle fine-tuné depuis model/sentiment_model/
	2. Prédit le sentiment des avis du split TEST (jamais vus à l'entraînement)
	3. Affiche : accuracy, precision, recall, F1, rapport par classe,
	matrice de confusion
	4. Montre les ERREURS LES PLUS CONFIANTES : les avis où le modèle se
	trompe en étant très sûr de lui. C'est l'analyse la plus instructive
	du projet : on y trouve l'ironie, les avis mitigés, le vocabulaire
	ambigu... -> matière directe pour la section "limites".

	POURQUOI UN SCRIPT SÉPARÉ DE train.py ?
	- On peut ré-évaluer le modèle à tout moment sans ré-entraîner (20 min
	économisées à chaque fois).
	- On peut évaluer sur plus d'avis que pendant l'entraînement.
	- Séparation des responsabilités : entraîner et évaluer sont deux
	activités distinctes du cycle de vie d'un modèle.

	COMMENT LANCER (depuis la racine du projet) :
	python scripts/evaluate.py
	python scripts/evaluate.py --max-test 5000 --show-errors 10
	"""

	# ─── IMPORTS ────────────────────────────────────────────────────────────────
	import argparse # Options en ligne de commande
	import sys # Sortie propre en cas d'erreur
	from pathlib import Path # Chemins portables

	import numpy as np # Tableaux numériques (tri des erreurs, masques)
	import torch # Exécution du modèle
	from datasets import load_dataset
	from sklearn.metrics import (
	accuracy_score, # % de bonnes réponses
	classification_report, # Rapport precision/recall/F1 PAR classe
	confusion_matrix, # Où sont les erreurs
	precision_recall_fscore_support,
	)
	from transformers import AutoModelForSequenceClassification, AutoTokenizer

	# ─── CONSTANTES (mêmes conventions que train.py) ────────────────────────────
	PROJECT_ROOT = Path(__file__).resolve().parent.parent
	MODEL_DIR = PROJECT_ROOT / "model" / "sentiment_model"
	MAX_LENGTH = 256 # Même longueur max qu'à l'entraînement
	SEED = 42


	def parse_args():
	parser = argparse.ArgumentParser(description="Évaluation du modèle sur le test set")
	parser.add_argument("--max-test", type=int, default=2000,
	help="Nombre d'avis du test set à évaluer (max 20 000)")
	parser.add_argument("--batch-size", type=int, default=32,
	help="Nombre d'avis prédits en même temps. Plus grand = "
	"plus rapide, mais plus de mémoire")
	parser.add_argument("--show-errors", type=int, default=5,
	help="Nombre d'erreurs les plus confiantes à afficher")
	return parser.parse_args()


	# ─────────────────────────────────────────────────────────────────────────────
	# Prédiction par lots (batch) — bien plus rapide qu'avis par avis
	# ─────────────────────────────────────────────────────────────────────────────
	def predict_in_batches(texts, model, tokenizer, batch_size, device):
	"""Prédit le sentiment d'une liste de textes, par lots.

	POURQUOI PAR LOTS ? Prédire 2000 avis un par un = 2000 passages dans le
	modèle. Par lots de 32, on n'en fait que 63 : le GPU/CPU calcule les 32
	avis EN PARALLÈLE dans les mêmes opérations matricielles.

	Renvoie deux tableaux numpy alignés avec `texts` :
	predictions : la classe prédite (0 ou 1) pour chaque texte
	confidences : la probabilité softmax de la classe prédite
	"""
	all_predictions = []
	all_confidences = []

	model.eval() # Mode évaluation : dropout désactivé (cf. predict.py)

	# range(0, N, batch_size) découpe la liste en tranches de 32
	for start in range(0, len(texts), batch_size):
	batch_texts = texts[start:start + batch_size]

	# Tokenisation du lot entier d'un coup.
	# padding=True : les avis du lot n'ont pas la même longueur -> on
	# complète les courts avec des tokens <pad> jusqu'à la longueur du
	# plus long DU LOT (l'attention_mask dira au modèle de les ignorer).
	# .to(device) : envoie les tenseurs sur le GPU si disponible.
	inputs = tokenizer(
	batch_texts,
	return_tensors="pt",
	truncation=True,
	max_length=MAX_LENGTH,
	padding=True,
	).to(device)

	# Inférence sans calcul de gradients (on ne fait que prédire)
	with torch.no_grad():
	logits = model(**inputs).logits # forme (batch_size, 2)

	# softmax ligne par ligne : chaque avis a ses 2 probabilités
	probabilities = torch.softmax(logits, dim=-1)
	# torch.max renvoie EN MÊME TEMPS la valeur max (= la confiance) et
	# son indice (= la classe prédite), pour chaque ligne du lot.
	confidences, predictions = torch.max(probabilities, dim=-1)

	# .cpu().numpy() : rapatrie les résultats du GPU vers des tableaux numpy
	all_predictions.extend(predictions.cpu().numpy())
	all_confidences.extend(confidences.cpu().numpy())

	# Barre de progression maison (le \r réécrit la même ligne)
	done = min(start + batch_size, len(texts))
	print(f"\r Progression : {done}/{len(texts)} avis", end="", flush=True)

	print() # Retour à la ligne final
	return np.array(all_predictions), np.array(all_confidences)


	# ─────────────────────────────────────────────────────────────────────────────
	# Analyse qualitative : les erreurs les plus confiantes
	# ─────────────────────────────────────────────────────────────────────────────
	def show_most_confident_errors(texts, labels, predictions, confidences,
	id2label, n_errors):
	"""Affiche les erreurs où le modèle était le plus sûr de lui.

	POURQUOI C'EST INTÉRESSANT ? Une erreur à 51 % de confiance = le modèle
	hésitait, c'est excusable. Une erreur à 99 % = le modèle est
	SYSTÉMATIQUEMENT trompé par quelque chose : ironie ("Bravo, 2h de
	perdues"), avis mitigé, négation complexe... Ce sont ces cas qu'on
	cite dans la section "limites" du projet.
	"""
	# np.where renvoie les indices où la condition est vraie (les erreurs)
	error_indices = np.where(predictions != labels)[0]
	if len(error_indices) == 0:
	print("\nAucune erreur sur cet échantillon !")
	return

	# On trie les erreurs par confiance DÉCROISSANTE :
	# argsort trie en croissant, le signe - inverse l'ordre.
	sorted_errors = error_indices[np.argsort(-confidences[error_indices])]

	print(f"\nTop {n_errors} erreurs les plus confiantes "
	f"({len(error_indices)} erreurs au total) :")
	print("-" * 70)
	for index in sorted_errors[:n_errors]:
	true_label = id2label[int(labels[index])]
	predicted_label = id2label[int(predictions[index])]
	print(f" Vrai : {true_label:<8} \| Prédit : {predicted_label:<8} "
	f"\| Confiance : {confidences[index]:.2%}")
	print(f" « {texts[index][:160]}... »")
	print("-" * 70)


	# ─────────────────────────────────────────────────────────────────────────────
	# Programme principal
	# ─────────────────────────────────────────────────────────────────────────────
	def main():
	args = parse_args()

	# ── 1. Recharger le modèle fine-tuné ────────────────────────────────────
	if not MODEL_DIR.exists():
	sys.exit(f"Erreur : modèle introuvable dans {MODEL_DIR}. "
	"Lancez d'abord : python scripts/train.py")

	# "cuda" = GPU NVIDIA ; sinon on calcule sur le processeur
	device = "cuda" if torch.cuda.is_available() else "cpu"
	print(f"Matériel : {device} \| Modèle : {MODEL_DIR}")
	tokenizer = AutoTokenizer.from_pretrained(str(MODEL_DIR))
	model = AutoModelForSequenceClassification.from_pretrained(str(MODEL_DIR)).to(device)
	id2label = model.config.id2label # {0: "négatif", 1: "positif"} (écrit par train.py)

	# ── 2. Charger le test set ──────────────────────────────────────────────
	# split="test" : on ne télécharge QUE le split de test.
	# Le test set n'a servi ni à entraîner ni à choisir le meilleur
	# checkpoint -> c'est la mesure honnête de la généralisation.
	print("Chargement du test set Allociné...")
	test_data = load_dataset("allocine", split="test").shuffle(seed=SEED)
	# min(...) : sécurité si on demande plus d'avis qu'il n'en existe
	test_data = test_data.select(range(min(args.max_test, len(test_data))))
	texts = test_data["review"]
	labels = np.array(test_data["label"])
	print(f"Évaluation sur {len(texts)} avis de test\n")

	# ── 3. Prédire tous les avis ────────────────────────────────────────────
	predictions, confidences = predict_in_batches(
	texts, model, tokenizer, args.batch_size, device
	)

	# ── 4. Métriques globales ───────────────────────────────────────────────
	precision, recall, f1, _ = precision_recall_fscore_support(
	labels, predictions, average="binary" # la classe 1 (positif) = référence
	)
	print("\nMétriques sur le test set :")
	print(f" accuracy : {accuracy_score(labels, predictions):.4f}")
	print(f" precision : {precision:.4f}")
	print(f" recall : {recall:.4f}")
	print(f" f1 : {f1:.4f}")
	# La confiance moyenne donne une idée de la "certitude" générale du
	# modèle (attention : softmax est naturellement sur-confiant).
	print(f" confiance moyenne : {confidences.mean():.4f}")

	# Rapport détaillé PAR classe : permet de voir si le modèle est meilleur
	# sur les positifs que sur les négatifs (ou l'inverse).
	print("\nRapport par classe :")
	print(classification_report(
	labels, predictions, target_names=["négatif", "positif"], digits=4
	))

	# Matrice de confusion : la diagonale = succès, hors-diagonale = erreurs
	matrix = confusion_matrix(labels, predictions)
	print("Matrice de confusion :")
	print(f"{'':>16} \| {'prédit négatif':>15} \| {'prédit positif':>15}")
	print("-" * 52)
	print(f"{'vrai négatif':>16} \| {matrix[0][0]:>15} \| {matrix[0][1]:>15}")
	print(f"{'vrai positif':>16} \| {matrix[1][0]:>15} \| {matrix[1][1]:>15}")

	# ── 5. Analyse qualitative des erreurs ──────────────────────────────────
	show_most_confident_errors(
	texts, labels, predictions, confidences, id2label, args.show_errors
	)


	if __name__ == "__main__":
	main()