Spaces:

Geraldine
/

demo-word2vec

Sleeping

App Files Files Community

demo-word2vec / src /streamlit_app.py

Geraldine

Update src/streamlit_app.py

1a2d39d verified about 1 month ago

raw

history blame contribute delete

15.7 kB

	# Mini app Streamlit pour explorer Word2Vec (gensim KeyedVectors)
	from __future__ import annotations

	import os
	import re
	from typing import List, Optional, Tuple

	import numpy as np
	import pandas as pd
	import streamlit as st

	try:
	from gensim.models import KeyedVectors, Word2Vec
	except Exception:
	KeyedVectors = None
	Word2Vec = None

	try:
	from sklearn.decomposition import PCA
	except Exception:
	PCA = None

	try:
	import plotly.express as px
	except Exception:
	px = None


	st.set_page_config(page_title="Word2Vec Playground", layout="wide")


	# -----------------------------
	# Helpers
	# -----------------------------
	def _norm_spaces(s: str) -> str:
	return re.sub(r"\s+", " ", (s or "").strip())


	def parse_word_list(s: str) -> List[str]:
	"""
	Parse "king, woman" or "king woman" or one-per-line into a list of tokens.
	"""
	s = _norm_spaces(s.replace("\n", " ").replace("\t", " "))
	if not s:
	return []
	# split on comma OR spaces
	parts = re.split(r"[,\s]+", s)
	return [p for p in (p.strip() for p in parts) if p]


	def in_vocab(model, word: str) -> bool:
	if model is None or not word:
	return False
	return word in model.key_to_index


	def safe_most_similar(model, positive: List[str], negative: List[str], topn: int = 10):
	if model is None:
	return [], ["Aucun modèle chargé."]
	missing = [w for w in positive + negative if w and not in_vocab(model, w)]
	if missing:
	return [], [f"Mots hors vocabulaire : {', '.join(missing)}"]
	try:
	res = model.most_similar(positive=positive or None, negative=negative or None, topn=topn)
	return res, []
	except Exception as e:
	return [], [f"Erreur: {e}"]


	def safe_similarity(model, w1: str, w2: str) -> Tuple[Optional[float], List[str]]:
	if model is None:
	return None, ["Aucun modèle chargé."]
	missing = [w for w in [w1, w2] if w and not in_vocab(model, w)]
	if missing:
	return None, [f"Mots hors vocabulaire : {', '.join(missing)}"]
	try:
	return float(model.similarity(w1, w2)), []
	except Exception as e:
	return None, [f"Erreur: {e}"]


	def to_df_similar(items: List[Tuple[str, float]]) -> pd.DataFrame:
	if not items:
	return pd.DataFrame(columns=["mot", "similarité_cosine"])
	return pd.DataFrame(items, columns=["mot", "similarité_cosine"])


	def tokenizer(text) -> List[str]:
	"""Remove ^, lowercase, strip punctuation, tokenize (words 2+ chars)."""
	if pd.isna(text):
	return []
	s = str(text).replace("^", " ").lower()
	return re.findall(r"\b\w{2,}\b", s)


	def load_uploaded_file(uploaded_file) -> Optional[pd.DataFrame]:
	"""Load CSV, Excel, or JSON file from Streamlit upload."""
	if uploaded_file is None:
	return None
	name = (uploaded_file.name or "").lower()
	try:
	if name.endswith(".csv"):
	return pd.read_csv(uploaded_file)
	if name.endswith((".xlsx", ".xls")):
	return pd.read_excel(uploaded_file)
	if name.endswith(".json"):
	return pd.read_json(uploaded_file)
	except Exception:
	pass
	return None


	# -----------------------------
	# Model loading
	# -----------------------------

	@st.cache_resource(show_spinner=False)
	def load_local_kv(path: str, binary: bool):
	if KeyedVectors is None:
	raise RuntimeError("gensim n'est pas disponible. Installez `gensim`.")
	# Heuristique: si l'extension est .kv/.model -> KeyedVectors.load
	lower = path.lower()
	if lower.endswith(".kv") or lower.endswith(".model"):
	return KeyedVectors.load(path)
	# Sinon, on tente le format word2vec (txt ou bin)
	return KeyedVectors.load_word2vec_format(path, binary=binary)

	def _get_local_model_files() -> List[str]:
	"""Return paths to .model files in the script's directory."""
	root = os.path.dirname(os.path.abspath(__file__))
	if not os.path.isdir(root):
	return []
	return sorted(
	os.path.join(root, f)
	for f in os.listdir(root)
	if f.lower().endswith(".model")
	)


	# -----------------------------
	# UI
	# -----------------------------
	st.title("Word2Vec Playground")
	st.caption("Exploration de modèles d'embeddings word2vec (gensim KeyedVectors) : vecteur d'un mot, similarité, voisins, analogies.")

	with st.sidebar:
	st.header("1) Choisir un modèle")
	model_files = _get_local_model_files()

	if not model_files:
	st.warning("Aucun fichier .model trouvé dans le répertoire du script.")
	st.session_state["kv_model"] = None
	st.session_state["kv_label"] = None
	else:
	labels = [os.path.basename(p) for p in model_files]
	selected_label = st.radio("Modèle", labels, index=0)
	selected_path = model_files[labels.index(selected_label)]

	if st.session_state.get("kv_model_path") != selected_path:
	with st.spinner(f"Chargement de {selected_label}…"):
	try:
	model = load_local_kv(selected_path, binary=False)
	st.session_state["kv_model"] = model
	st.session_state["kv_label"] = selected_label
	st.session_state["kv_model_path"] = selected_path
	except Exception as e:
	st.error(str(e))
	st.session_state["kv_model"] = None
	st.session_state["kv_label"] = None
	st.session_state["kv_model_path"] = None

	model = st.session_state.get("kv_model")
	model_label = st.session_state.get("kv_label")

	# Header model info
	info_cols = st.columns([2, 2, 3])
	with info_cols[0]:
	st.metric("Modèle", model_label or "—")
	with info_cols[1]:
	if model is None:
	st.metric("Vocabulaire", "—")
	else:
	st.metric("Vocabulaire", f"{len(model.key_to_index):,}".replace(",", " "))
	with info_cols[2]:
	if model is None:
	st.metric("Dimension", "—")
	else:
	st.metric("Dimension", f"{model.vector_size}")

	st.divider()

	# Tabs for intro operations
	tab1, tab2, tab3, tab4, tab5 = st.tabs([
	"Vecteur d'un mot",
	"Similarité (cosine)",
	"Mots les plus similaires",
	"Analogie sémantique",
	"Modèle word2vec local",
	])

	with tab1:
	st.subheader("Obtenir le vecteur d'un mot")
	st.write("Donne le vecteur (embedding) associé à un mot, et quelques stats simples.")
	colA, colB = st.columns([2, 3])
	with colA:
	word = st.text_input("Mot", value="queen")
	show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
	with colB:
	if model is None:
	st.info("Charger un modèle dans la barre latérale.")
	else:
	if not in_vocab(model, word):
	st.warning("Mot hors vocabulaire pour ce modèle.")
	else:
	vec = model[word]
	st.write(f"Norme L2: `{np.linalg.norm(vec):.4f}` \| min: `{vec.min():.4f}` \| max: `{vec.max():.4f}`")
	st.code(np.array2string(vec[:show_n], precision=4, separator=", "), language="text")

	with tab2:
	st.subheader("Mesurer la similarité entre 2 mots (cosine)")
	colA, colB, colC = st.columns([2, 2, 2])
	with colA:
	w1 = st.text_input("Mot 1", value="paris")
	with colB:
	w2 = st.text_input("Mot 2", value="book")
	with colC:
	topn = st.slider("Top-N (optionnel pour contexte)", 3, 20, 8)

	if model is None:
	st.info("Charge un modèle dans la barre latérale.")
	else:
	sim, errs = safe_similarity(model, w1, w2)
	if errs:
	for e in errs:
	st.warning(e)
	else:
	st.success(f"Similarité cosine({w1}, {w2}) = {sim:.4f}")

	# petit bonus : montre les voisins de chaque mot
	with st.expander("Voir les voisins de chaque mot"):
	a, _ = safe_most_similar(model, [w1], [], topn=topn)
	b, _ = safe_most_similar(model, [w2], [], topn=topn)
	c1, c2 = st.columns(2)
	with c1:
	st.write(f"Voisins de {w1}")
	st.dataframe(to_df_similar(a), use_container_width=True, hide_index=True)
	with c2:
	st.write(f"Voisins de {w2}")
	st.dataframe(to_df_similar(b), use_container_width=True, hide_index=True)

	with tab3:
	st.subheader("Trouver les mots les plus similaires à un mot donné")
	colA, colB = st.columns([2, 2])
	with colA:
	query = st.text_input("Mot cible", value="queen")
	with colB:
	topn = st.slider("Top-N", 3, 50, 10)

	if model is None:
	st.info("Charge un modèle dans la barre latérale.")
	else:
	res, errs = safe_most_similar(model, [query], [], topn=topn)
	if errs:
	for e in errs:
	st.warning(e)
	else:
	st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)

	with tab4:
	st.subheader("Analogie sémantique (positive - negative)")
	st.write(
	"Exemple classique : `king - man + woman ≈ queen`.\n\n"
	"Saisir plusieurs mots (séparés par virgule ou espaces)."
	)
	colA, colB, colC = st.columns([2, 2, 1])
	with colA:
	positive_s = st.text_area("Positive (+)", value="king, woman", height=80)
	with colB:
	negative_s = st.text_area("Negative (-)", value="man", height=80)
	with colC:
	topn = st.slider("Top-N", 3, 20, 5)

	positive = parse_word_list(positive_s)
	negative = parse_word_list(negative_s)

	if model is None:
	st.info("Charge un modèle dans la barre latérale.")
	else:
	res, errs = safe_most_similar(model, positive, negative, topn=topn)
	if errs:
	for e in errs:
	st.warning(e)
	else:
	st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)

	with tab5:
	st.subheader("Modèle Word2Vec local depuis CSV / Excel / JSON")
	st.write(
	"Uploader un fichier, sélectionner les colonnes à encoder, "
	"entraîner un Word2Vec et visualiser les embeddings (PCA)."
	)

	uploaded = st.file_uploader(
	"Fichier CSV, Excel ou JSON",
	type=["csv", "xlsx", "xls", "json"],
	key="w2v_local_upload",
	)
	df_upload = load_uploaded_file(uploaded)

	if uploaded is not None and df_upload is None:
	st.error("Impossible de charger le fichier. Vérifie le format (CSV, Excel, JSON).")
	elif df_upload is not None and not df_upload.empty:
	st.dataframe(df_upload.head(100), use_container_width=True, hide_index=True)
	st.caption(f"Aperçu des {min(100, len(df_upload))} premières lignes sur {len(df_upload)}.")

	text_cols = [c for c in df_upload.columns if df_upload[c].dtype == "object" or df_upload[c].dtype.name == "string"]
	if not text_cols:
	text_cols = list(df_upload.columns)

	selected_cols = st.multiselect(
	"Colonnes à encoder (concaténées)",
	options=text_cols,
	default=text_cols[:1] if text_cols else [],
	key="w2v_local_cols",
	)

	col_a, col_b = st.columns(2)
	with col_a:
	vector_size = st.slider("Dimension des vecteurs", 50, 300, 100)
	min_count = st.slider("min_count", 1, 10, 2)
	with col_b:
	window = st.slider("window", 2, 15, 5)
	sg = st.radio("Algorithme", ["CBOW (sg=0)", "Skip-gram (sg=1)"], index=1, horizontal=True)

	if selected_cols and st.button("Entraîner Word2Vec et visualiser PCA", type="primary", key="w2v_train_btn"):
	concat = df_upload[selected_cols].fillna("").astype(str).agg(" ".join, axis=1)
	tokenized = concat.apply(tokenizer)
	tokenized = [t for t in tokenized if t]

	if len(tokenized) < 2:
	st.warning("Pas assez de texte tokenisé. Vérifie les colonnes sélectionnées.")
	elif Word2Vec is None:
	st.error("gensim Word2Vec non disponible.")
	elif PCA is None:
	st.error("scikit-learn PCA non disponible.")
	elif px is None:
	st.error("plotly non disponible.")
	else:
	with st.spinner("Entraînement Word2Vec…"):
	w2v = Word2Vec(
	sentences=tokenized,
	vector_size=vector_size,
	window=window,
	min_count=min_count,
	sg=1 if "Skip-gram" in sg else 0,
	workers=4,
	)

	words = list(w2v.wv.index_to_key)
	if len(words) < 2:
	st.warning("Vocabulaire trop petit après entraînement.")
	else:
	vectors = np.array([w2v.wv[w] for w in words])
	with st.spinner("Réduction PCA…"):
	pca = PCA(n_components=2)
	reduced = pca.fit_transform(vectors)

	fig = px.scatter(
	x=reduced[:, 0],
	y=reduced[:, 1],
	text=words,
	title="Embeddings Word2Vec (PCA 2D)",
	)
	fig.update_traces(textposition="top center", mode="markers+text", textfont_size=10)
	fig.update_layout(
	xaxis_title="PC1",
	yaxis_title="PC2",
	height=600,
	showlegend=False,
	)
	st.plotly_chart(fig, use_container_width=True)
	st.caption(f"Vocabulaire : {len(words)} mots \| variance expliquée : {pca.explained_variance_ratio_.sum():.1%}")

	elif df_upload is not None and df_upload.empty:
	st.warning("Le fichier est vide.")
	else:
	st.info("Uploader un fichier CSV, Excel ou JSON pour commencer.")

	st.divider()
	with st.expander("Idées d'usage 'métier'"):
	st.markdown(
	"""
	- Enrichir un vocabulaire : donner un terme (ex. biologie, archives, catalogage) et explorer les termes voisins.
	- Détecter des variantes : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
	- Comparaison de modèles : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
	"""
	)

	st.divider()
	with st.expander("Code source"):
	code = '''
	#!uv pip install -U gensim
	import gensim.downloader as api
	#======================================================
	# Liste des modèles disponibles
	print(list(api.info()['models'].keys()))
	#['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']
	#======================================================
	# Charger un modèle
	model = api.load("glove-wiki-gigaword-50")
	# Obtenir le vecteur d'un mot
	vec = model["queen"]
	print(vec)
	# Obtenir les voisins d'un mot
	neighbors = model.most_similar("queen")
	print(neighbors)
	# Obtenir la similarité entre 2 mots
	similarity = model.similarity("queen", "woman")
	print(similarity)
	# Obtenir les analogies sémantiques
	analogies = model.most_similar(positive=["king", "woman"], negative=["man"])
	print(analogies)
	'''
	st.code(code, language="python")