Spaces:

ZurichNLP
/

rumlem

Running

App Files Files Community

dominic-fischer commited on Oct 25, 2025

Commit

aa54010

1 Parent(s): 2c49b4b

unmix translations, i.e. make sure that the ones pertaining to the same idiom remain together

Browse files

Files changed (1) hide show

app.py +27 -19

app.py CHANGED Viewed

@@ -21,33 +21,35 @@ def process_text(text):
     # Create a list to store token analyses
     token_analyses = []
     for token in doc.tokens:
-        # For each token, get its lemmas and analyses
         token_info = {
             "token": token.text,
-            "lemmas": {},
-            "translations": []
         }
-        # Get lemmas for the document's idiom
         for lemma, analyses in token.lemmas.items():
             if lemma.text not in token_info["lemmas"]:
-                token_info["lemmas"][lemma.text] = []
             for analysis in analyses:
-                # Handle case when analysis.features is None
                 try:
                     analysis_str = str(analysis)
                 except AttributeError:
                     analysis_str = "-"
-                token_info["lemmas"][lemma.text].append(analysis_str)
-            # Add German translations
-            if lemma.translation_de != "null":
-                token_info["translations"].append(f"{lemma.text}: {lemma.translation_de}")
         token_analyses.append(token_info)
     # Create DataFrame for token analysis
     df_tokens = pd.DataFrame([
@@ -55,16 +57,22 @@ def process_text(text):
             "Token": t["token"],
             "Lemma": "<br>".join([f"<b>{lemma}</b>" for lemma in t["lemmas"].keys()]),
             "German translations": "<br>".join([
-            f"<span style='font-style: italic; font-weight: bold; color: #0028A5;'>{translation.split(':')[1].strip()}</span>"
-            for translation in sorted(t["translations"], key=len)[:10]
             ]),
             "Morphological Analysis": "<br>".join([
-                f"{'<br>'.join(list(set(map(str, analyses))))}<br>"
-                for lemma, analyses in t["lemmas"].items()
             ])
         }
         for t in token_analyses
     ])
     # Create bar chart data for idiom scores using plotly

     # Create a list to store token analyses
     token_analyses = []
     for token in doc.tokens:
         token_info = {
             "token": token.text,
+            "lemmas": {}
         }
         for lemma, analyses in token.lemmas.items():
+            # Initialize lemma entry
             if lemma.text not in token_info["lemmas"]:
+                token_info["lemmas"][lemma.text] = {
+                    "analyses": [],
+                    "translations": []
+                }
+            # Collect analyses
             for analysis in analyses:
                 try:
                     analysis_str = str(analysis)
                 except AttributeError:
                     analysis_str = "-"
+                token_info["lemmas"][lemma.text]["analyses"].append(analysis_str)
+            # Collect lemma-specific translation
+            if getattr(lemma, "translation_de", None) and lemma.translation_de != "null":
+                token_info["lemmas"][lemma.text]["translations"].append(lemma.translation_de)
         token_analyses.append(token_info)
     # Create DataFrame for token analysis
     df_tokens = pd.DataFrame([
             "Token": t["token"],
             "Lemma": "<br>".join([f"<b>{lemma}</b>" for lemma in t["lemmas"].keys()]),
             "German translations": "<br>".join([
+                f"<b>{lemma}</b>: " +
+                "<br>".join([
+                    f"<span style='font-style: italic; color: #0028A5;'>{tr}</span>"
+                    for tr in lem_data["translations"]
+                ])
+                for lemma, lem_data in t["lemmas"].items()
             ]),
             "Morphological Analysis": "<br>".join([
+                f"<b>{lemma}</b>: " +
+                "<br>".join(sorted(set(lem_data["analyses"])))
+                for lemma, lem_data in t["lemmas"].items()
             ])
         }
         for t in token_analyses
     ])
     # Create bar chart data for idiom scores using plotly