Spaces:

LoloSemper
/

new_language_maximum_efficiency2

Sleeping

App Files Files Community

LoloSemper commited on Oct 6, 2025

Commit

3b1bb09

verified ·

1 Parent(s): b46ea19

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -43

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
-# app.py — Universal Conlang Translator (Max Compresión Exacta)
-# UI bilingüe ES/EN + Pestaña de Léxico (OMW → Minimax/Kōmín) + Acordeones explicativos
-# Archivos requeridos en la raíz:
 #  - lexicon_minimax.json
 #  - lexicon_komin.json
 #  - lexicon_master.json
@@ -16,7 +15,7 @@ import re
 import json
 import base64
 import zlib
-from typing import Dict, Optional, List, Any
 import gradio as gr
 # ------------ Archivos esperados ------------
@@ -72,11 +71,11 @@ def load_lexicons():
     return (es2mini, es2komi, mini2es, komi2es,
             en2mini, en2komi, mini2en, komi2en,
-            es2en_lemma, en2es_lemma, master)
 (ES2MINI, ES2KOMI, MINI2ES, KOMI2ES,
  EN2MINI, EN2KOMI, MINI2EN, KOMI2EN,
- ES2EN_LEMMA, EN2ES_LEMMA, MASTER_OBJ) = load_lexicons()
 # ------------ OOV reversible (Semi-lossless) ------------
 ALPHA_MINI64 = "@ptkmnslraeiouy0123456789><=:/!?.+-_*#bcdfghjvqwxzACEGHIJKLMNOPRS"[:64]
@@ -141,7 +140,7 @@ def lemma_of(tok, src_lang: str) -> str:
     else:
         return norm_en(tok.lemma_ if tok.lemma_ else tok.text)
-# ------------ Utilidades de análisis ------------
 def detect_polarity(doc) -> bool:
     return "?" in doc.text
@@ -307,7 +306,7 @@ def realize_komin(doc, src_lang: str, drop_articles=True, zero_copula=True, semi
     if is_q: out += " " + Q_FIN
     return out
-# ------------ Sidecars (compresión exacta) ------------
 SIDECAR_B85_RE = re.compile(r"\s?§\((?P<b85>[A-Za-z0-9!#$%&()*+\-;<=>?@^_`{|}~]+)\)$")
 def b85_enc_raw(s: str) -> str:
@@ -351,7 +350,7 @@ def extract_custom_sidecar(text: str) -> Optional[str]:
 def strip_custom_sidecar(text: str) -> str:
     return text.split('~')[0].rstrip() if '~' in text else text
-# ------------ Codificación / decodificación simple ------------
 def encode_simple(text: str, src_lang: str, target: str) -> str:
     if not text.strip(): return ""
     def repl_es(m):
@@ -701,7 +700,7 @@ TUTORIAL_EN = """
 > To recover the **exact** original later, enable **Max Exact Compression**.
 """
-# === Explicación de construcción de léxico (OMW → Minimax/Kōmín) ===
 LEXICON_BUILD_ES = """
 ### 🧱 Cómo se construyó el léxico (OMW → Minimax/Kōmín)
 Este léxico se genera en un Colab desde **OMW (Open Multilingual WordNet 1.4)**:
@@ -711,7 +710,7 @@ Este léxico se genera en un Colab desde **OMW (Open Multilingual WordNet 1.4)**
 3) (Opcional) **spaCy** ayuda a lematizar y reducir duplicados; (opcional) **Argos** rellena equivalentes EN.
 4) Se crean **códigos compactos** para cada lema en dos alfabetos:
    - **Minimax-ASCII** (ASCII, muy práctico en texto plano).
-    - **Kōmín-CJK** (símbolos densos estilo CJK).
    Los alfabetos se **barajan con una semilla fija (SEED)** y se generan combinaciones hasta una longitud máxima
    (`MAXLEN_MINI`, `MAXLEN_CJK`). Así el mapeo es **reproducible** y prioriza **códigos cortos** para palabras frecuentes.
 5) Se exportan:
@@ -742,19 +741,6 @@ The lexicon is generated in Colab from **OMW (Open Multilingual WordNet 1.4)**:
 **Handy params**: `SEED`, `MAXLEN_MINI`, `MAXLEN_CJK`, `USE_SPACY`, `USE_ARGOS`, `LIMIT_ES`.
 """
-# === Helpers UI para mostrar vista de léxico ===
-def master_preview(n: int = 20) -> List[List[Any]]:
-    try:
-        entries = (MASTER_OBJ or {}).get("entries", [])
-        head = entries[:max(0, int(n))]
-        rows = [["lemma_es","lemma_en","minimax","komin"]]
-        for e in head:
-            rows.append([e.get("lemma_es",""), e.get("lemma_en",""), e.get("minimax",""), e.get("komin","")])
-        return rows
-    except Exception:
-        return [["lemma_es","lemma_en","minimax","komin"], ["(no data)","","",""]]
-# === Construcción de grupos ES/EN ===
 def make_group_es():
     with gr.Group(visible=True) as group:
         gr.Markdown("# 🌐 Universal Conlang Translator · Compresión Exacta (ES)")
@@ -764,6 +750,7 @@ def make_group_es():
                     gr.Markdown(EXPLAIN_ES)
                 with gr.Accordion("FAQ (ES)", open=False):
                     gr.Markdown(FAQ_ES)
                 with gr.Accordion("Cómo se construyó el léxico (ES)", open=False):
                     gr.Markdown(LEXICON_BUILD_ES)
             with gr.Column(scale=1):
@@ -877,6 +864,7 @@ def make_group_en():
                     gr.Markdown(EXPLAIN_EN)
                 with gr.Accordion("FAQ (EN)", open=False):
                     gr.Markdown(FAQ_EN)
                 with gr.Accordion("How the lexicon was built (EN)", open=False):
                     gr.Markdown(LEXICON_BUILD_EN)
             with gr.Column(scale=1):
@@ -981,30 +969,11 @@ def make_group_en():
         gr.Markdown("Made with ❤️ · **spaCy** (optional) · Everything runs inside this Space.")
     return group
-# ============================== Pestaña global de Léxico ==============================
-def make_lexicon_tab():
-    with gr.TabItem("ℹ️ Léxico / Lexicon (OMW → Minimax/Kōmín)"):
-        gr.Markdown("## 🧱 Construcción del léxico / Lexicon build")
-        with gr.Row():
-            with gr.Column():
-                with gr.Accordion("Resumen (ES)", open=True):
-                    gr.Markdown(LEXICON_BUILD_ES)
-            with gr.Column():
-                with gr.Accordion("Summary (EN)", open=False):
-                    gr.Markdown(LEXICON_BUILD_EN)
-        gr.Markdown("### 👀 Vista de ejemplo (primeras filas de `lexicon_master.json`)")
-        n_rows = gr.Slider(5, 100, value=20, step=5, label="Filas a mostrar / Rows to show")
-        table = gr.Dataframe(headers=["lemma_es","lemma_en","minimax","komin"], row_count=1, interactive=False)
-        gr.Button("Actualizar vista / Refresh").click(lambda n: master_preview(int(n)), [n_rows], [table])
-# ================================ Lanzador de la app =================================
 with gr.Blocks(title="Universal Conlang Translator", theme=gr.themes.Soft()) as demo:
     gr.Markdown("## 🌍 Idioma / Language")
     lang_select = gr.Radio(choices=["ES","EN"], value="ES", label="Selecciona / Select")
     group_es = make_group_es()
     group_en = make_group_en()
-    make_lexicon_tab()
     def switch_lang(code):
         if code == "EN":
@@ -1018,3 +987,4 @@ if __name__ == "__main__":

+# app.py — Universal Conlang Translator (Max Compresión Exacta) — UI bilingüe ES/EN + Explicación de léxico
+# Archivos necesarios en la raíz:
 #  - lexicon_minimax.json
 #  - lexicon_komin.json
 #  - lexicon_master.json
 import json
 import base64
 import zlib
+from typing import Dict, Optional
 import gradio as gr
 # ------------ Archivos esperados ------------
     return (es2mini, es2komi, mini2es, komi2es,
             en2mini, en2komi, mini2en, komi2en,
+            es2en_lemma, en2es_lemma)
 (ES2MINI, ES2KOMI, MINI2ES, KOMI2ES,
  EN2MINI, EN2KOMI, MINI2EN, KOMI2EN,
+ ES2EN_LEMMA, EN2ES_LEMMA) = load_lexicons()
 # ------------ OOV reversible (Semi-lossless) ------------
 ALPHA_MINI64 = "@ptkmnslraeiouy0123456789><=:/!?.+-_*#bcdfghjvqwxzACEGHIJKLMNOPRS"[:64]
     else:
         return norm_en(tok.lemma_ if tok.lemma_ else tok.text)
+# ------------ Utilidades de análisis sintáctico ------------
 def detect_polarity(doc) -> bool:
     return "?" in doc.text
     if is_q: out += " " + Q_FIN
     return out
+# ------------ Sidecars para compresión exacta ------------
 SIDECAR_B85_RE = re.compile(r"\s?§\((?P<b85>[A-Za-z0-9!#$%&()*+\-;<=>?@^_`{|}~]+)\)$")
 def b85_enc_raw(s: str) -> str:
 def strip_custom_sidecar(text: str) -> str:
     return text.split('~')[0].rstrip() if '~' in text else text
+# ------------ Codificar/decodificar léxico puro ------------
 def encode_simple(text: str, src_lang: str, target: str) -> str:
     if not text.strip(): return ""
     def repl_es(m):
 > To recover the **exact** original later, enable **Max Exact Compression**.
 """
+# === NUEVO: explicación de cómo se construyó el léxico (OMW → Minimax/Kōmín) ===
 LEXICON_BUILD_ES = """
 ### 🧱 Cómo se construyó el léxico (OMW → Minimax/Kōmín)
 Este léxico se genera en un Colab desde **OMW (Open Multilingual WordNet 1.4)**:
 3) (Opcional) **spaCy** ayuda a lematizar y reducir duplicados; (opcional) **Argos** rellena equivalentes EN.
 4) Se crean **códigos compactos** para cada lema en dos alfabetos:
    - **Minimax-ASCII** (ASCII, muy práctico en texto plano).
+   - **Kōmín-CJK** (símbolos densos estilo CJK).
    Los alfabetos se **barajan con una semilla fija (SEED)** y se generan combinaciones hasta una longitud máxima
    (`MAXLEN_MINI`, `MAXLEN_CJK`). Así el mapeo es **reproducible** y prioriza **códigos cortos** para palabras frecuentes.
 5) Se exportan:
 **Handy params**: `SEED`, `MAXLEN_MINI`, `MAXLEN_CJK`, `USE_SPACY`, `USE_ARGOS`, `LIMIT_ES`.
 """
 def make_group_es():
     with gr.Group(visible=True) as group:
         gr.Markdown("# 🌐 Universal Conlang Translator · Compresión Exacta (ES)")
                     gr.Markdown(EXPLAIN_ES)
                 with gr.Accordion("FAQ (ES)", open=False):
                     gr.Markdown(FAQ_ES)
+                # NUEVO: acordeón con la explicación del léxico
                 with gr.Accordion("Cómo se construyó el léxico (ES)", open=False):
                     gr.Markdown(LEXICON_BUILD_ES)
             with gr.Column(scale=1):
                     gr.Markdown(EXPLAIN_EN)
                 with gr.Accordion("FAQ (EN)", open=False):
                     gr.Markdown(FAQ_EN)
+                # NEW: accordion with lexicon explanation
                 with gr.Accordion("How the lexicon was built (EN)", open=False):
                     gr.Markdown(LEXICON_BUILD_EN)
             with gr.Column(scale=1):
         gr.Markdown("Made with ❤️ · **spaCy** (optional) · Everything runs inside this Space.")
     return group
 with gr.Blocks(title="Universal Conlang Translator", theme=gr.themes.Soft()) as demo:
     gr.Markdown("## 🌍 Idioma / Language")
     lang_select = gr.Radio(choices=["ES","EN"], value="ES", label="Selecciona / Select")
     group_es = make_group_es()
     group_en = make_group_en()
     def switch_lang(code):
         if code == "EN":