Geraldine commited on
Commit
25281e8
·
verified ·
1 Parent(s): 5684bd5

Update src/streamlit_app.py

Browse files
Files changed (1) hide show
  1. src/streamlit_app.py +33 -6
src/streamlit_app.py CHANGED
@@ -104,8 +104,8 @@ def _get_local_model_files() -> List[str]:
104
  # -----------------------------
105
  # UI
106
  # -----------------------------
107
- st.title("Word2Vec Playground (pour démos non-codeurs)")
108
- st.caption("Explore un modèle d'embeddings (gensim KeyedVectors) : vecteur d'un mot, similarité, voisins, analogies.")
109
 
110
  with st.sidebar:
111
  st.header("1) Choisir un modèle")
@@ -170,7 +170,7 @@ with tab1:
170
  show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
171
  with colB:
172
  if model is None:
173
- st.info("Charge un modèle dans la barre latérale.")
174
  else:
175
  if not in_vocab(model, word):
176
  st.warning("Mot hors vocabulaire pour ce modèle.")
@@ -233,7 +233,7 @@ with tab4:
233
  st.subheader("Analogie sémantique (positive - negative)")
234
  st.write(
235
  "Exemple classique : `king - man + woman ≈ queen`.\n\n"
236
- "Tu peux saisir plusieurs mots (séparés par virgule ou espaces)."
237
  )
238
  colA, colB, colC = st.columns([2, 2, 1])
239
  with colA:
@@ -257,11 +257,38 @@ with tab4:
257
  st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)
258
 
259
  st.divider()
260
- with st.expander("💡 Idées d'usage 'métier' (thésaurus / enrichissement)"):
261
  st.markdown(
262
  """
263
  - **Enrichir un vocabulaire** : donner un terme (ex. *biologie*, *archives*, *catalogage*) et explorer les termes voisins.
264
  - **Détecter des variantes** : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
265
  - **Comparaison de modèles** : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
266
  """
267
- )
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
104
  # -----------------------------
105
  # UI
106
  # -----------------------------
107
+ st.title("Word2Vec Playground")
108
+ st.caption("Exploration de modèles d'embeddings word2vec (gensim KeyedVectors) : vecteur d'un mot, similarité, voisins, analogies.")
109
 
110
  with st.sidebar:
111
  st.header("1) Choisir un modèle")
 
170
  show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
171
  with colB:
172
  if model is None:
173
+ st.info("Charger un modèle dans la barre latérale.")
174
  else:
175
  if not in_vocab(model, word):
176
  st.warning("Mot hors vocabulaire pour ce modèle.")
 
233
  st.subheader("Analogie sémantique (positive - negative)")
234
  st.write(
235
  "Exemple classique : `king - man + woman ≈ queen`.\n\n"
236
+ "Saisir plusieurs mots (séparés par virgule ou espaces)."
237
  )
238
  colA, colB, colC = st.columns([2, 2, 1])
239
  with colA:
 
257
  st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)
258
 
259
  st.divider()
260
+ with st.expander("Idées d'usage 'métier'"):
261
  st.markdown(
262
  """
263
  - **Enrichir un vocabulaire** : donner un terme (ex. *biologie*, *archives*, *catalogage*) et explorer les termes voisins.
264
  - **Détecter des variantes** : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
265
  - **Comparaison de modèles** : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
266
  """
267
+ )
268
+
269
+ st.divider()
270
+ with st.expander("Code source"):
271
+ code = '''
272
+ #!uv pip install -U gensim
273
+ import gensim.downloader as api
274
+ #======================================================
275
+ # Liste des modèles disponibles
276
+ print(list(api.info()['models'].keys()))
277
+ #['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']
278
+ #======================================================
279
+ # Charger un modèle
280
+ model = api.load("glove-wiki-gigaword-50")
281
+ # Obtenir le vecteur d'un mot
282
+ vec = model["queen"]
283
+ print(vec)
284
+ # Obtenir les voisins d'un mot
285
+ neighbors = model.most_similar("queen")
286
+ print(neighbors)
287
+ # Obtenir la similarité entre 2 mots
288
+ similarity = model.similarity("queen", "woman")
289
+ print(similarity)
290
+ # Obtenir les analogies sémantiques
291
+ analogies = model.most_similar(positive=["king", "woman"], negative=["man"])
292
+ print(analogies)
293
+ '''
294
+ st.code(code, language="python")