Spaces:

AniseF
/

ddgp-plus-morpho

Sleeping

App Files Files Community

ddgp-plus-morpho / app.py

AniseF

Update app.py

c3eef34 verified about 1 month ago

raw

history blame contribute delete

9.19 kB

	# app.py — DDGP Plus (Gradio)
	# WIC (Morph_Raw / UD) + DDGP
	# -- coding: utf-8 --

	import os
	import json
	import unicodedata
	import re

	import gradio as gr


	# ============================================================
	# STANZA / UD (Morph_Raw)
	# ============================================================

	import stanza

	ud_nlp = None
	UD_AVAILABLE = False


	def morph_ud_analyze(sentence: str):
	global ud_nlp, UD_AVAILABLE

	if not sentence or not sentence.strip():
	return None

	# inicializa o UD SOMENTE na primeira chamada
	if ud_nlp is None:
	try:
	stanza.download(
	"grc",
	processors="tokenize,pos,lemma,morph",
	verbose=False
	)

	ud_nlp = stanza.Pipeline(
	lang="grc",
	processors="tokenize,pos,lemma,morph",
	tokenize_no_ssplit=True,
	use_gpu=False
	)

	UD_AVAILABLE = True

	except Exception:
	UD_AVAILABLE = False
	return None

	# análise propriamente dita
	doc = ud_nlp(sentence)
	results = []

	for sent in doc.sentences:
	for w in sent.words:
	results.append({
	"token": w.text,
	"lema": w.lemma,
	"upos": w.upos,
	"feats": w.feats
	})

	return results



	# ============================================================
	# DDGP — UTILITÁRIOS
	# ============================================================

	def normalize(text):
	return unicodedata.normalize("NFC", (text or "")).strip()


	def simplify(text):
	s = normalize(text)
	s = unicodedata.normalize("NFD", s)
	s = "".join(ch for ch in s if not unicodedata.combining(ch))
	s = "".join(ch for ch in s if not ch.isdigit())
	s = s.replace(".", "").replace("-", "").replace("/", "").replace(" ", "")
	return s.lower()


	# ============================================================
	# DDGP — CARREGAMENTO DE DADOS
	# ============================================================

	# ============================================================
	# CAMINHOS (HF-safe)
	# ============================================================

	BASE_DIR = os.path.abspath(os.getcwd())

	DATA_DIR = os.path.join(BASE_DIR, "ddgp", "data")

	if not os.path.exists(DATA_DIR):
	raise RuntimeError(
	f"Diretório de dados do DDGP não encontrado: {DATA_DIR}\n"
	f"Conteúdo de {BASE_DIR}: {os.listdir(BASE_DIR)}"
	)


	def load_json(path):
	if not os.path.exists(path):
	raise FileNotFoundError(f"Arquivo não encontrado: {path}")
	with open(path, "r", encoding="utf-8") as f:
	return json.load(f)


	DDGP_ENTRY = load_json(os.path.join(DATA_DIR, "ddgp3x_entry.json"))
	DDGP_INDEX_LEMAS = load_json(os.path.join(DATA_DIR, "ddgp_index_lemas.json"))
	DDGP_INDEX_FORMAS = load_json(os.path.join(DATA_DIR, "ddgp_index_formas_final.json"))
	DDGP_FORMA_TO_LEMA = load_json(os.path.join(DATA_DIR, "ddgp_forma_to_lema.json"))


	# ============================================================
	# DDGP — FORMATAÇÃO
	# ============================================================

	def format_pdesc(pdesc: str) -> str:
	if not pdesc:
	return ""
	p = pdesc.replace("\r\n", "\n").replace("\r", "\n")
	p = re.sub(r"♦\s+", "\n\n♦ ", p)
	p = p.replace("\n", "<br/>")
	return p


	def find_entry_ids_for_lemma_candidate(cand: str):
	if not cand:
	return []
	base = simplify(cand)
	results = []
	seen = set()

	if base in DDGP_INDEX_LEMAS:
	eid = DDGP_INDEX_LEMAS[base]
	results.append(eid)
	seen.add(eid)

	for k, eid in DDGP_INDEX_LEMAS.items():
	k_simp = simplify(k)
	if k_simp.startswith(base) and eid not in seen:
	results.append(eid)
	seen.add(eid)

	return results


	# ============================================================
	# DDGP — FUNÇÃO DE LOOKUP (GRADIO)
	# ============================================================

	import unicodedata

	def strip_greek_diacritics(s: str) -> str:
	s = unicodedata.normalize("NFD", s)
	s = "".join(ch for ch in s if not unicodedata.combining(ch))
	return unicodedata.normalize("NFC", s)

	def ddgp_lookup(query: str) -> str:

	if not query or not query.strip():
	return "⚠️ Digite uma forma ou lema em grego."

	# normaliza (remove diacríticos)
	palavra = strip_greek_diacritics(query.strip())
	simp_form = simplify(palavra)

	results = []
	found_entries = []

	# 1) lookup direto por forma
	if simp_form in DDGP_INDEX_FORMAS:
	for i in DDGP_INDEX_FORMAS[simp_form][:10]:
	ent = DDGP_ENTRY.get(str(i))
	if ent:
	found_entries.append(ent)

	# 2) se achou por forma, mostra
	if found_entries:
	for ent in found_entries:
	results.append(
	f"### {ent.get('gword','')}\n{format_pdesc(ent.get('pdesc',''))}"
	)

	else:
	# 3) fallback: forma → lema
	lemma_candidates = []
	if simp_form in DDGP_FORMA_TO_LEMA:
	lemma_candidates.append(DDGP_FORMA_TO_LEMA[simp_form])

	for cand in lemma_candidates:
	for eid in find_entry_ids_for_lemma_candidate(cand):
	ent = DDGP_ENTRY.get(str(eid))
	if ent:
	results.append(
	f"### {ent.get('gword','')}\n{format_pdesc(ent.get('pdesc',''))}"
	)

	# 4) fallback FINAL: prefixo de lema (igual ao Streamlit)
	if not results:
	base = simp_form
	seen = set()

	for k, eid in DDGP_INDEX_LEMAS.items():
	if k.startswith(base):
	if eid not in seen:
	ent = DDGP_ENTRY.get(str(eid))
	if ent:
	results.append(
	f"### {ent.get('gword','')}\n{format_pdesc(ent.get('pdesc',''))}"
	)
	seen.add(eid)

	if not results:
	return "❌ Nenhuma entrada do DDGP encontrada."

	return "\n\n---\n\n".join(results)

	# ============================================================
	# WIC — FUNÇÃO GRADIO
	# ============================================================

	def wic_ud(sentence: str):
	if not sentence or not sentence.strip():
	return (
	"Cole uma frase curta em grego antigo.",
	None
	)



	results = morph_ud_analyze(sentence)

	if not results:
	return (
	"Não foi possível analisar a frase com o pipeline UD.",
	None
	)



	table = []
	for tok in results:
	table.append([
	tok["token"],
	tok["lema"],
	tok["upos"],
	tok["feats"]
	])

	return None, table


	# ============================================================
	# INTERFACE GRADIO
	# ============================================================
	with gr.Blocks() as demo:
	with gr.Blocks(
	css="""
	#ddgp-logo {
	max-width: 60px;
	height: auto;
	}
	"""
	) as demo:

	# LOGO + TÍTULO
	gr.HTML(
	"""
	<div style="display:flex; align-items:center; gap:16px;">
	<img id="ddgp-logo"
	src="https://raw.githubusercontent.com/aniseferreira/DDGP_Plus/main/ddgp/logo.png">
	<div>
	<h2>DDGP Plus</h2>
	<div>Análise morfológica (UD) + Dicionário Grego–Português</div>
	</div>
	</div>
	<hr/>
	"""
	)

	# ============================
	# ABA WIC
	# ============================
	with gr.Tab("🧩 Análise morfológica (WIC — UD)"):
	wic_in = gr.Textbox(
	label="Cole uma frase curta contendo o vocábulo",
	placeholder="σαφέστερον δʼ ἂν μάθοις οὕτω."
	)
	wic_btn = gr.Button("Analisar")
	wic_msg = gr.Markdown()
	wic_out = gr.Dataframe(
	headers=["Token", "Lema", "UPOS", "Feições"],
	interactive=False
	)

	wic_btn.click(
	wic_ud,
	inputs=wic_in,
	outputs=[wic_msg, wic_out]
	)

	# ============================
	# ABA DDGP
	# ============================
	with gr.Tab("📘 DDGP"):
	ddgp_in = gr.Textbox(
	label="""Digite o lema em grego politônico (ex.: λέγω).
	Nesta versão (HF), não há suporte a transliteração latina nem buscas parciais.""",

	placeholder="λέγω, πάθος, παθ"
	)
	ddgp_btn = gr.Button("Consultar")
	ddgp_out = gr.HTML()

	ddgp_btn.click(
	ddgp_lookup,
	inputs=ddgp_in,
	outputs=ddgp_out
	)

	# RODAPÉ
	gr.HTML(
	"""
	<hr/>
	<small>
	DDGP Plus — Projeto Letras Clássicas Digitais (FCLAr/UNESP).<br/>
	Conteúdo lexicográfico licenciado sob CC BY–NC–ND 4.0.
	</small>
	""",

	)

	demo.launch()