Spaces:

Geraldine
/

demo-word2vec

Sleeping

App Files Files Community

Geraldine commited on Feb 12

Commit

25281e8

verified ·

1 Parent(s): 5684bd5

Update src/streamlit_app.py

Browse files

Files changed (1) hide show

src/streamlit_app.py +33 -6

src/streamlit_app.py CHANGED Viewed

@@ -104,8 +104,8 @@ def _get_local_model_files() -> List[str]:
 # -----------------------------
 # UI
 # -----------------------------
-st.title("Word2Vec Playground (pour démos non-codeurs)")
-st.caption("Explore un modèle d'embeddings (gensim KeyedVectors) : vecteur d'un mot, similarité, voisins, analogies.")
 with st.sidebar:
     st.header("1) Choisir un modèle")
@@ -170,7 +170,7 @@ with tab1:
         show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
     with colB:
         if model is None:
-            st.info("Charge un modèle dans la barre latérale.")
         else:
             if not in_vocab(model, word):
                 st.warning("Mot hors vocabulaire pour ce modèle.")
@@ -233,7 +233,7 @@ with tab4:
     st.subheader("Analogie sémantique (positive - negative)")
     st.write(
         "Exemple classique : `king - man + woman ≈ queen`.\n\n"
-        "Tu peux saisir plusieurs mots (séparés par virgule ou espaces)."
     )
     colA, colB, colC = st.columns([2, 2, 1])
     with colA:
@@ -257,11 +257,38 @@ with tab4:
             st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)
 st.divider()
-with st.expander("💡 Idées d'usage 'métier' (thésaurus / enrichissement)"):
     st.markdown(
         """
 - **Enrichir un vocabulaire** : donner un terme (ex. *biologie*, *archives*, *catalogage*) et explorer les termes voisins.
 - **Détecter des variantes** : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
 - **Comparaison de modèles** : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
         """
-    )

 # -----------------------------
 # UI
 # -----------------------------
+st.title("Word2Vec Playground")
+st.caption("Exploration de modèles d'embeddings word2vec (gensim KeyedVectors) : vecteur d'un mot, similarité, voisins, analogies.")
 with st.sidebar:
     st.header("1) Choisir un modèle")
         show_n = st.slider("Afficher les n premières dimensions", 5, 50, 15)
     with colB:
         if model is None:
+            st.info("Charger un modèle dans la barre latérale.")
         else:
             if not in_vocab(model, word):
                 st.warning("Mot hors vocabulaire pour ce modèle.")
     st.subheader("Analogie sémantique (positive - negative)")
     st.write(
         "Exemple classique : `king - man + woman ≈ queen`.\n\n"
+        "Saisir plusieurs mots (séparés par virgule ou espaces)."
     )
     colA, colB, colC = st.columns([2, 2, 1])
     with colA:
             st.dataframe(to_df_similar(res), use_container_width=True, hide_index=True)
 st.divider()
+with st.expander("Idées d'usage 'métier'"):
     st.markdown(
         """
 - **Enrichir un vocabulaire** : donner un terme (ex. *biologie*, *archives*, *catalogage*) et explorer les termes voisins.
 - **Détecter des variantes** : synonymes, quasi-synonymes, noms propres proches, formes dérivées.
 - **Comparaison de modèles** : utiliser 2 modèles successivement et comparer les différences : l'espace dépend du corpus !
         """
+    )
+st.divider()
+with st.expander("Code source"):
+    code = '''
+    #!uv pip install -U gensim
+    import gensim.downloader as api
+    #======================================================
+    # Liste des modèles disponibles
+    print(list(api.info()['models'].keys()))
+    #['fasttext-wiki-news-subwords-300', 'conceptnet-numberbatch-17-06-300', 'word2vec-ruscorpora-300', 'word2vec-google-news-300', 'glove-wiki-gigaword-50', 'glove-wiki-gigaword-100', 'glove-wiki-gigaword-200', 'glove-wiki-gigaword-300', 'glove-twitter-25', 'glove-twitter-50', 'glove-twitter-100', 'glove-twitter-200', '__testing_word2vec-matrix-synopsis']
+    #======================================================
+    # Charger un modèle
+    model = api.load("glove-wiki-gigaword-50")
+    # Obtenir le vecteur d'un mot
+    vec = model["queen"]
+    print(vec)
+    # Obtenir les voisins d'un mot
+    neighbors = model.most_similar("queen")
+    print(neighbors)
+    # Obtenir la similarité entre 2 mots
+    similarity = model.similarity("queen", "woman")
+    print(similarity)
+    # Obtenir les analogies sémantiques
+    analogies = model.most_similar(positive=["king", "woman"], negative=["man"])
+    print(analogies)
+    '''
+    st.code(code, language="python")