Spaces:
Sleeping
Sleeping
Update src/streamlit_app.py
Browse files- src/streamlit_app.py +33 -6
src/streamlit_app.py
CHANGED
|
@@ -104,8 +104,8 @@ def _get_local_model_files() -> List[str]:
|
|
| 104 |
# -----------------------------
|
| 105 |
# UI
|
| 106 |
# -----------------------------
|
| 107 |
-
st.title("Word2Vec Playground
|
| 108 |
-
st.caption("
|
| 109 |
|
| 110 |
with st.sidebar:
|
| 111 |
st.header("1) Choisir un modèle")
|
|
@@ -170,7 +170,7 @@ with tab1:
|
|
| 170 |
show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
|
| 171 |
with colB:
|
| 172 |
if model is None:
|
| 173 |
-
st.info("
|
| 174 |
else:
|
| 175 |
if not in_vocab(model, word):
|
| 176 |
st.warning("Mot hors vocabulaire pour ce modèle.")
|
|
@@ -233,7 +233,7 @@ with tab4:
|
|
| 233 |
st.subheader("Analogie sémantique (positive - negative)")
|
| 234 |
st.write(
|
| 235 |
"Exemple classique : `king - man + woman ≈ queen`.\n\n"
|
| 236 |
-
"
|
| 237 |
)
|
| 238 |
colA, colB, colC = st.columns([2, 2, 1])
|
| 239 |
with colA:
|
|
@@ -257,11 +257,38 @@ with tab4:
|
|
| 257 |
st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)
|
| 258 |
|
| 259 |
st.divider()
|
| 260 |
-
with st.expander("
|
| 261 |
st.markdown(
|
| 262 |
"""
|
| 263 |
- **Enrichir un vocabulaire** : donner un terme (ex. *biologie*, *archives*, *catalogage*) et explorer les termes voisins.
|
| 264 |
- **Détecter des variantes** : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
|
| 265 |
- **Comparaison de modèles** : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
|
| 266 |
"""
|
| 267 |
-
)
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 104 |
# -----------------------------
|
| 105 |
# UI
|
| 106 |
# -----------------------------
|
| 107 |
+
st.title("Word2Vec Playground")
|
| 108 |
+
st.caption("Exploration de modèles d'embeddings word2vec (gensim KeyedVectors) : vecteur d'un mot, similarité, voisins, analogies.")
|
| 109 |
|
| 110 |
with st.sidebar:
|
| 111 |
st.header("1) Choisir un modèle")
|
|
|
|
| 170 |
show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
|
| 171 |
with colB:
|
| 172 |
if model is None:
|
| 173 |
+
st.info("Charger un modèle dans la barre latérale.")
|
| 174 |
else:
|
| 175 |
if not in_vocab(model, word):
|
| 176 |
st.warning("Mot hors vocabulaire pour ce modèle.")
|
|
|
|
| 233 |
st.subheader("Analogie sémantique (positive - negative)")
|
| 234 |
st.write(
|
| 235 |
"Exemple classique : `king - man + woman ≈ queen`.\n\n"
|
| 236 |
+
"Saisir plusieurs mots (séparés par virgule ou espaces)."
|
| 237 |
)
|
| 238 |
colA, colB, colC = st.columns([2, 2, 1])
|
| 239 |
with colA:
|
|
|
|
| 257 |
st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)
|
| 258 |
|
| 259 |
st.divider()
|
| 260 |
+
with st.expander("Idées d'usage 'métier'"):
|
| 261 |
st.markdown(
|
| 262 |
"""
|
| 263 |
- **Enrichir un vocabulaire** : donner un terme (ex. *biologie*, *archives*, *catalogage*) et explorer les termes voisins.
|
| 264 |
- **Détecter des variantes** : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
|
| 265 |
- **Comparaison de modèles** : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
|
| 266 |
"""
|
| 267 |
+
)
|
| 268 |
+
|
| 269 |
+
st.divider()
|
| 270 |
+
with st.expander("Code source"):
|
| 271 |
+
code = '''
|
| 272 |
+
#!uv pip install -U gensim
|
| 273 |
+
import gensim.downloader as api
|
| 274 |
+
#======================================================
|
| 275 |
+
# Liste des modèles disponibles
|
| 276 |
+
print(list(api.info()['models'].keys()))
|
| 277 |
+
#['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']
|
| 278 |
+
#======================================================
|
| 279 |
+
# Charger un modèle
|
| 280 |
+
model = api.load("glove-wiki-gigaword-50")
|
| 281 |
+
# Obtenir le vecteur d'un mot
|
| 282 |
+
vec = model["queen"]
|
| 283 |
+
print(vec)
|
| 284 |
+
# Obtenir les voisins d'un mot
|
| 285 |
+
neighbors = model.most_similar("queen")
|
| 286 |
+
print(neighbors)
|
| 287 |
+
# Obtenir la similarité entre 2 mots
|
| 288 |
+
similarity = model.similarity("queen", "woman")
|
| 289 |
+
print(similarity)
|
| 290 |
+
# Obtenir les analogies sémantiques
|
| 291 |
+
analogies = model.most_similar(positive=["king", "woman"], negative=["man"])
|
| 292 |
+
print(analogies)
|
| 293 |
+
'''
|
| 294 |
+
st.code(code, language="python")
|