import os import subprocess import sys import urllib.request import json import pandas as pd import spacy import gradio as gr import re import unicodedata from translit import latin_to_basic_grc # --- 1. INSTALAÇÃO E CARREGAMENTO --- def install_odycy(): try: import grc_odycy_joint_sm except ImportError: url = "https://huggingface.co/chcaa/grc_odycy_joint_sm/resolve/main/grc_odycy_joint_sm-any-py3-none-any.whl" valid_wheel_name = "grc_odycy_joint_sm-1.0.0-py3-none-any.whl" urllib.request.urlretrieve(url, valid_wheel_name) subprocess.check_call([sys.executable, "-m", "pip", "install", valid_wheel_name, "--no-deps"]) os.remove(valid_wheel_name) install_odycy() try: import grc_odycy_joint_sm nlp = grc_odycy_joint_sm.load() except: nlp = spacy.blank("grc") TAG_MAP = { 'NOUN': 'Substantivo', 'VERB': 'Verbo', 'ADJ': 'Adjetivo', 'DET': 'Artigo/Det.', 'PRON': 'Pronome', 'ADV': 'Advérbio', 'ADP': 'Preposição', 'CCONJ': 'Conjunção', 'SCONJ': 'Conjunção Sub.', 'PART': 'Partícula', 'PROPN': 'Nome Próprio', 'PUNCT': 'Pontuação', 'AUX': 'Auxiliar/Cópula', 'NUM': 'Numeral' } def load_json(path): if os.path.exists(path): with open(path, 'r', encoding='utf-8') as f: return json.load(f) return {} INDEX_LEMAS = load_json('ddgp_index_lemas.json') INDEX_FORMAS = load_json('ddgp_index_formas_final.json') FORMA_TO_LEMA = load_json('ddgp_forma_to_lema.json') ENTRIES = load_json('ddgp3x_entry.json') ABREV = load_json('abrev.json') css_content = "" for f_css in ['style.css', 'style_map.css']: if os.path.exists(f_css): with open(f_css, 'r', encoding='utf-8') as f: css_content += f.read() + "\n" # --- 2. FUNÇÕES DE APOIO E ORDENAÇÃO --- def normalizar_grego(texto): if not texto: return "" texto = unicodedata.normalize('NFD', texto.lower()) texto = "".join(c for c in texto if not unicodedata.combining(c)) return unicodedata.normalize('NFC', texto).strip() def ordem_grega(lema): alfabeto_map = { 'α': 1, 'β': 2, 'γ': 3, 'δ': 4, 'ε': 5, 'ζ': 6, 'η': 7, 'θ': 8, 'ι': 9, 'κ': 10, 'λ': 11, 'μ': 12, 'ν': 13, 'ξ': 14, 'ο': 15, 'π': 16, 'ρ': 17, 'σ': 18, 'ς': 18, 'τ': 19, 'υ': 20, 'φ': 21, 'χ': 22, 'ψ': 23, 'ω': 24 } lema_limpo = normalizar_grego(lema) return [alfabeto_map.get(char, 99) for char in lema_limpo] def aplicar_abreviaturas_seguro(texto): if not texto: return "" sorted_abrevs = sorted(ABREV.keys(), key=len, reverse=True) for ab in sorted_abrevs: pattern = r'\b' + re.escape(ab) + r'(?=\s|[.,;:]|$)' info = ABREV[ab] desc = info.get('descricao', '') categoria = info.get('categoria', '') classe_css = "autor-sc" if categoria == 'autor' else "abrev" subst = f'{ab}' texto = re.sub(pattern, subst, texto) return texto def format_entry_html(entry_id): entry = ENTRIES.get(str(entry_id)) if not entry: return None gword = entry.get('gword', '') pdesc = entry.get('pdesc', '') pdesc = aplicar_abreviaturas_seguro(pdesc) pdesc = re.sub(r'〈(.*?)〉', r'〈\1〉', pdesc) return f"""
{gword}
{pdesc}
""" # --- 3. CONSULTA E ANÁLISE --- def consultar_ddgp(termo): if not termo: return "" # Translitera se for latim if any(ord(c) < 128 for c in termo if c.isalpha()): termo = latin_to_basic_grc(termo) termo_norm = normalizar_grego(termo) ids = [] # BUSCA ESTRITA: Tentamos apenas o termo exato ou variações numéricas (ex: logos, logos1) # Isso evita que a busca traga palavras que apenas "começam" com o termo. tentativas = [termo_norm] + [f"{termo_norm}{i}" for i in range(1, 4)] for b in tentativas: if b in INDEX_LEMAS: ids.append(INDEX_LEMAS[b]) if not ids: return "" html = "" for eid in sorted(set(ids)): res = format_entry_html(eid) if res: html += res return html def analisar_texto(texto): if not texto: return None, None, "0", "0", "0", "0", "0", "" doc = nlp(texto) dados = [] lemas_unicos_processados = set() verbetes_dict = {} for token in doc: l_orig = token.lemma_ l_norm = normalizar_grego(l_orig) pos_pt = TAG_MAP.get(token.pos_, token.pos_) morph_info = str(token.morph).replace("Case=", "").replace("Gender=", "").replace("Number=", "").replace("VerbForm=", "").replace("Person=", "").replace("Tense=", "").replace("Mood=", "").replace("Voice=", "") if not morph_info: morph_info = "-" # Busca no dicionário apenas uma vez por lema if token.pos_ not in ['PUNCT', 'SYM', 'SPACE'] and l_norm not in lemas_unicos_processados: res_html = consultar_ddgp(l_norm) if res_html: verbetes_dict[l_orig] = res_html lemas_unicos_processados.add(l_norm) dados.append({ 'Palavra': token.text, 'Lema': l_orig, 'Classe': pos_pt, 'Morfologia': morph_info }) # Cabeçalho com o aviso solicitado aviso_html = """
💡 Dica: Caso um lema não apareça automaticamente abaixo, utilize a aba "Busca direta no DDGP" para consultá-lo manualmente.
""" lexico_html = aviso_html for lema_ord in sorted(verbetes_dict.keys(), key=ordem_grega): lexico_html += verbetes_dict[lema_ord] df = pd.DataFrame(dados) tokens_df = df[~df['Classe'].isin(['Pontuação', 'PUNCT', 'SYM', 'SPACE'])] n_tokens = len(tokens_df) n_types = tokens_df['Palavra'].str.lower().nunique() n_lemas = tokens_df['Lema'].nunique() ttr = (n_types / n_tokens) if n_tokens > 0 else 0 ltr = (n_lemas / n_tokens) if n_tokens > 0 else 0 csv_path = "analise_filologica.csv" df.to_csv(csv_path, index=False) return (df.head(100), csv_path, str(n_tokens), str(n_types), str(n_lemas), f"{ltr:.2f}", f"{ttr:.2f}", lexico_html) # --- 4. INTERFACE --- with gr.Blocks(css=css_content, title="DDGP + OdyCy") as demo: with gr.Row(): with gr.Column(scale=1, min_width=100): gr.HTML("""
""") with gr.Column(scale=4): gr.Markdown("# Estação Filológica DDGP & OdyCy") gr.Markdown("## DDGP Plus: Análise lexical e consulta ao Dicionário Digital Grego-Português.") with gr.Tab("📝 Análise lexical"): txt = gr.Textbox(label="Texto em Grego Antigo", lines=6, placeholder="Insira o texto aqui sem aspas...Δειναὶ γὰρ αἱ γυναῖκες εὑρίσκειν τέχνας.") btn = gr.Button("🚀 Executar Análise", variant="primary") with gr.Row(): t1 = gr.Label(label="Tokens (Total)") t2 = gr.Label(label="Types (Formas Únicas)") t3 = gr.Label(label="Lemas (Entradas)") t4 = gr.Label(label="LTR (Lema-Token)") t5 = gr.Label(label="TTR (Type-Token)") with gr.Row(): with gr.Column(scale=2): out_t = gr.Dataframe(label="Formas") out_f = gr.File(label="Exportar CSV") with gr.Column(scale=1): gr.Markdown("### 📖 Léxico Contextual") out_l = gr.HTML() with gr.Tab("🔍 Busca direta no DDGP"): in_b = gr.Textbox(label="Busca direta no DDGP", placeholder="(ex. λόγος, logos)") btn_b = gr.Button("Consultar Base") out_b = gr.HTML() gr.Markdown(f""" --- **DDGP Plus** — Analisador Morfológico e Dicionário Digital de Grego–Português 2026 v.1 Baseado originalmente no Dicionário Grego-Português e diretamente no Dicionário Digital Grego–Português (DDGP e DGP - ver créditos em [hipatia.fclar.unesp.br](http://hipatia.fclar.unesp.br)) Projetos Abertos em Letras Clássicas Digitais. Responsável: **Anise D'Orange Ferreira**. *Desenvolvimento técnico e programação assistida por Gemini (Google AI).* Sob licença CC BY-NC-SA 4.0. """) btn.click(analisar_texto, inputs=txt, outputs=[out_t, out_f, t1, t2, t3, t4, t5, out_l], api_name="analisar") btn_b.click(consultar_ddgp, inputs=in_b, outputs=out_b, api_name="consultar") # No final do seu app.py, substitua demo.launch() por: # No final do bloco 'with gr.Blocks...' def carregar_e_analisar(request: gr.Request): params = request.query_params texto_da_url = params.get("text", "") return texto_da_url # Quando o Space carrega: # 1. Preenche o texto # 2. Se houver texto, dispara a função de análise imediatamente demo.load(carregar_e_analisar, None, txt).then( fn=analisar_texto, inputs=txt, outputs=[out_t, out_f, t1, t2, t3, t4, t5, out_l] ) demo.launch()