Spaces:

hoololi
/

novels-embeddings

Sleeping

App Files Files Community

novels-embeddings / app.py

hoololi

Upload app.py

95258cd verified 6 months ago

raw

history blame contribute delete

9.26 kB

	"""
	App Gradio pour visualiser les embeddings de romans français
	Interface minimaliste avec style Seaborn
	"""

	import gradio as gr
	import pandas as pd
	import numpy as np
	import matplotlib.pyplot as plt
	import seaborn as sns
	from datasets import load_dataset
	import warnings
	warnings.filterwarnings('ignore')

	# ==================== CONFIGURATION ====================

	DATASET_NAME = "hoololi/novels-embeddings-dataset"

	# Configuration du style visuel
	plt.style.use('default')
	sns.set_style("whitegrid")
	sns.set_palette("deep")

	# ==================== CHARGEMENT DES DONNÉES ====================

	# Charger le dataset au démarrage
	print("🔄 Initialisation de l'application...")
	try:
	# Approche hybride : essayer plusieurs URLs parquet
	print("📊 Tentative de chargement parquet...")

	# URLs possibles pour le fichier parquet
	possible_urls = [
	f"https://huggingface.co/datasets/{DATASET_NAME}/resolve/main/data/train-00000-of-00001-5211c5ec6e8e9559.parquet", # Nom exact avec hash
	f"https://huggingface.co/datasets/{DATASET_NAME}/resolve/main/data/train-00000-of-00001.parquet",
	f"https://huggingface.co/datasets/{DATASET_NAME}/resolve/main/train.parquet",
	f"https://huggingface.co/datasets/{DATASET_NAME}/resolve/main/data.parquet",
	f"https://huggingface.co/datasets/{DATASET_NAME}/resolve/main/dataset.parquet"
	]

	df_full = None
	for url in possible_urls:
	try:
	print(f"🔗 Essai: {url}")
	df_full = pd.read_parquet(url)
	print(f"✅ Succès avec: {url}")
	break
	except Exception as url_error:
	print(f"❌ Échec: {url_error}")
	continue

	if df_full is not None:
	print(f"✅ Fichier parquet chargé: {len(df_full)} lignes")
	print(f"📊 Colonnes disponibles: {list(df_full.columns)}")

	# Sélectionner seulement les colonnes nécessaires
	columns_needed = ['roman', 'tsne_x', 'tsne_y']

	# Vérifier que les colonnes existent
	missing_cols = [col for col in columns_needed if col not in df_full.columns]
	if missing_cols:
	print(f"⚠️ Colonnes manquantes: {missing_cols}")
	print(f"📋 Colonnes disponibles: {list(df_full.columns)}")
	raise Exception(f"Colonnes requises manquantes: {missing_cols}")

	dataset_df = df_full[columns_needed].copy()

	print(f"✅ Dataset filtré: {len(dataset_df)} phrases")
	available_novels = sorted(dataset_df['roman'].unique().tolist())
	print(f"📚 Romans disponibles: {available_novels}")
	else:
	raise Exception("Aucune URL parquet n'a fonctionné")

	except Exception as e:
	print(f"❌ Erreur de chargement parquet: {e}")
	print("🔄 Fallback vers données de test...")

	# Fallback : données de test
	try:
	import numpy as np
	np.random.seed(42)

	test_data = []
	romans = ["Proust - Test", "Dumas - Test", "Chrétien - Test", "Zola - Test"]

	for i, roman in enumerate(romans):
	for j in range(100): # 100 points par roman
	test_data.append({
	'roman': roman,
	'tsne_x': np.random.normal(i*10, 5), # Clusters séparés
	'tsne_y': np.random.normal(i*5, 3)
	})

	dataset_df = pd.DataFrame(test_data)
	available_novels = romans
	print(f"✅ Données de test créées: {len(dataset_df)} phrases")

	except Exception as test_error:
	print(f"❌ Impossible de créer les données de test: {test_error}")
	dataset_df = None
	available_novels = []

	# ==================== FONCTIONS DE VISUALISATION ====================

	def create_embeddings_plot(selected_novels, figsize=(10, 8)):
	"""Crée le graphique t-SNE avec les romans sélectionnés"""

	if dataset_df is None or not selected_novels:
	# Graphique vide en cas d'erreur
	fig, ax = plt.subplots(figsize=figsize)
	ax.text(0.5, 0.5, 'Aucune donnée à afficher',
	ha='center', va='center', transform=ax.transAxes, fontsize=16)
	ax.set_xlim(0, 1)
	ax.set_ylim(0, 1)
	return fig

	# Filtrer les données selon les romans sélectionnés
	filtered_df = dataset_df[dataset_df['roman'].isin(selected_novels)]

	if filtered_df.empty:
	fig, ax = plt.subplots(figsize=figsize)
	ax.text(0.5, 0.5, 'Aucun roman sélectionné',
	ha='center', va='center', transform=ax.transAxes, fontsize=16)
	ax.set_xlim(0, 1)
	ax.set_ylim(0, 1)
	return fig

	# Calculer les bornes globales pour garder l'échelle fixe
	all_x = dataset_df['tsne_x']
	all_y = dataset_df['tsne_y']
	x_margin = (all_x.max() - all_x.min()) * 0.05
	y_margin = (all_y.max() - all_y.min()) * 0.05

	x_min, x_max = all_x.min() - x_margin, all_x.max() + x_margin
	y_min, y_max = all_y.min() - y_margin, all_y.max() + y_margin

	# Créer le graphique avec style Seaborn
	fig, ax = plt.subplots(figsize=figsize)

	# Scatter plot avec Seaborn
	scatter = sns.scatterplot(
	data=filtered_df,
	x='tsne_x',
	y='tsne_y',
	hue='roman',
	alpha=0.7,
	s=60, # Taille des points
	ax=ax
	)

	# Configuration du graphique
	plt.xlabel('t-SNE dimension 1', fontsize=12)
	plt.ylabel('t-SNE dimension 2', fontsize=12)

	# Fixer les bornes pour garder l'échelle constante
	plt.xlim(x_min, x_max)
	plt.ylim(y_min, y_max)

	# Configuration de la légende - en bas
	legend = plt.legend(
	title='Romans',
	bbox_to_anchor=(0.5, -0.15),
	loc='upper center',
	fontsize=10,
	title_fontsize=12,
	ncol=2 # Répartir sur 2 colonnes pour gagner de la place
	)
	legend.set_frame_on(True)
	legend.get_frame().set_facecolor('white')
	legend.get_frame().set_alpha(0.9)

	# Grille et style
	plt.grid(True, alpha=0.3)
	plt.tight_layout()

	return fig

	# ==================== INTERFACE GRADIO ====================

	def create_gradio_interface():
	"""Crée l'interface Gradio minimaliste"""

	if not available_novels:
	# Interface d'erreur
	with gr.Blocks(title="Erreur - Dataset non disponible") as demo:
	gr.Markdown("# ❌ Erreur")
	gr.Markdown(f"Impossible de charger le dataset `{DATASET_NAME}`")
	return demo

	# Interface principale
	with gr.Blocks(
	title="📚 Embeddings de Romans Français",
	theme=gr.themes.Soft(),
	css="""
	.gradio-container {
	max-width: 1200px;
	margin: auto;
	}
	.plot-container {
	display: flex;
	justify-content: center;
	}
	"""
	) as demo:

	# Header
	gr.Markdown(
	"""
	# 📚 Visualisation d'Embeddings de Romans Français

	Explorez comment les styles littéraires se regroupent dans l'espace des embeddings.
	"""
	)

	# Contrôles - Checkboxes horizontales pour chaque roman
	gr.Markdown("### 🎛️ Sélection des romans")

	with gr.Row():
	# Créer les checkboxes dynamiquement en horizontal
	novel_checkboxes = {}
	for novel in available_novels:
	novel_checkboxes[novel] = gr.Checkbox(
	label=novel,
	value=True, # Tous cochés par défaut
	interactive=True
	)

	# Graphique principal
	plot_display = gr.Plot(
	label="📊 Projection t-SNE des embeddings",
	value=create_embeddings_plot(available_novels)
	)

	# Événements - Mise à jour quand les checkboxes changent
	checkbox_inputs = list(novel_checkboxes.values())

	def update_from_checkboxes(*checkbox_values):
	# Reconstruire le dictionnaire novel -> bool
	novel_selection = {novel: value for novel, value in zip(available_novels, checkbox_values)}
	selected_novels = [novel for novel, selected in novel_selection.items() if selected]

	# Créer le graphique
	fig = create_embeddings_plot(selected_novels)

	return fig

	# Connecter tous les checkboxes à la fonction de mise à jour
	for checkbox in checkbox_inputs:
	checkbox.change(
	fn=update_from_checkboxes,
	inputs=checkbox_inputs,
	outputs=[plot_display]
	)

	return demo

	# ==================== LANCEMENT ====================

	def create_demo():
	"""Fonction pour Hugging Face Spaces"""
	return create_gradio_interface()

	if __name__ == "__main__":
	# Créer et lancer l'interface
	demo = create_gradio_interface()
	demo.launch(
	share=True,
	debug=True,
	server_name="0.0.0.0",
	server_port=7860
	)

	# Export pour Spaces
	demo = create_gradio_interface()