Spaces:

LiProject
/

LemmaLi

Running

App Files Files Community

Sarpyy commited on Feb 26

Commit

98ba9dc

verified ·

1 Parent(s): 2622988

Update app.py

Browse files

Files changed (1) hide show

app.py +31 -77

app.py CHANGED Viewed

@@ -2,8 +2,7 @@ import os
 import torch
 import pandas as pd
 import gradio as gr
-from collections import defaultdict
-from transformers import AutoTokenizer, AutoModelForTokenClassification
 # =========================================================================
 # 1. Sabitler ve Model Yükleme
@@ -16,9 +15,9 @@ HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V2"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
-    # Model ve Tokenizer'ı HF Hub'dan yükle
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
-    mdl = AutoModelForTokenClassification.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
 except Exception as e:
@@ -26,93 +25,48 @@ except Exception as e:
     exit(1)
 # =========================================================================
-# 2. Etiket (Lemma) Okuma Fonksiyonları
-# =========================================================================
-def build_id2label_from_config(cfg):
-    # Modelin config dosyasından id2label'ı güvenilir bir şekilde okur
-    n = getattr(cfg, "num_labels", None)
-    if n is None:
-        if isinstance(getattr(cfg, "id2label", None), dict): n = len(cfg.id2label)
-        elif isinstance(getattr(cfg, "label2id", None), dict): n = len(cfg.label2id)
-        else: raise ValueError("num_labels/id2label/label2id yok.")
-    labels = [f"LABEL_{i}" for i in range(n)]
-    id2label = getattr(cfg, "id2label", None)
-    if id2label:
-        if isinstance(id2label, dict):
-            for k,v in id2label.items():
-                try: i = int(k)
-                except:
-                    try: i = int(float(k))
-                    except: continue
-                if 0 <= i < n: labels[i] = str(v)
-        elif isinstance(id2label, (list,tuple)) and len(id2label)==n:
-            labels = [str(x) for x in id2label]
-    l2i = getattr(cfg, "label2id", None)
-    if isinstance(l2i, dict):
-        for lbl, idx_ in l2i.items():
-            try: i = int(idx_)
-            except:
-                try: i = int(float(idx_))
-                except: continue
-            if 0 <= i < n and labels[i].startswith("LABEL_"):
-                labels[i] = str(lbl)
-    for i,v in enumerate(labels):
-        if v.startswith("LABEL_"): labels[i] = str(i)
-    return labels
-ID2LABEL = build_id2label_from_config(mdl.config)
-# =========================================================================
-# 3. Inference ve Çıktı Formatı
 # =========================================================================
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
-    """Metni işler ve kelime bazlı kökleri içeren DataFrame döndürür."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
     if not sentences:
-        return pd.DataFrame(rows)
     for sent in sentences:
-        enc = tok(sent, return_tensors="pt", truncation=True, add_special_tokens=True).to(DEVICE)
-        logits = mdl(**enc).logits[0]
-        fast = tok(sent, return_offsets_mapping=True, add_special_tokens=True)
-        word_ids = fast.word_ids()
-        offsets  = fast["offset_mapping"]
-        idxs_by_word = defaultdict(list)
-        for i, wid in enumerate(word_ids):
-            if wid is not None:
-                idxs_by_word[wid].append(i)
-        for wid in sorted(idxs_by_word.keys()):
-            sub_idxs = idxs_by_word[wid]
-            start = offsets[sub_idxs[0]][0]
-            end   = offsets[sub_idxs[-1]][1]
-            surface = sent[start:end] if (start is not None and end is not None) else ""
-            mean_logits = logits[sub_idxs].mean(dim=0)
-            pid = int(mean_logits.argmax().item())
-            # Modelin tahmin ettiği kök (lemma)
-            lemma = ID2LABEL[pid] if pid < len(ID2LABEL) else str(pid)
-            rows.append({"Full_Sentence": sent, "Word": surface, "Lemma": lemma})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
     """Görünürlük için cümleler arasına ayraç satırları ekler."""
     rows, prev = [], None
     for _, r in df.iterrows():
         if prev is not None and r["Full_Sentence"] != prev:
@@ -133,13 +87,13 @@ def run_and_save(text):
     return df_view, out_path
 examples = [
-    "kedilerimizden biri çok hızlıca koştu",
-    "gözlükçüler dükkanlarını erkenden açtılar.",
     "Bana hikayenin sonunu anlattılar."
 ]
 # =========================================================================
-# 4. Gradio Arayüzü
 # =========================================================================
 theme = gr.themes.Soft(primary_hue="slate", neutral_hue="slate")

 import torch
 import pandas as pd
 import gradio as gr
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # =========================================================================
 # 1. Sabitler ve Model Yükleme
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
+    # Model ve Tokenizer'ı Seq2Seq (Encoder-Decoder) mantığına uygun yükle
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
+    mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
 except Exception as e:
     exit(1)
 # =========================================================================
+# 2. Inference ve Çıktı Formatı
 # =========================================================================
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
+    """Metni işler ve kelime-kök eşleşmesini içeren DataFrame döndürür."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
     if not sentences:
+        return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
+        # 1. Orijinal cümleyi modele ver
+        inputs = tok(sent, return_tensors="pt", truncation=True, max_length=512).to(DEVICE)
+        # 2. Köklerden oluşan yeni cümleyi üret (generate)
+        outputs = mdl.generate(**inputs, max_length=512)
+        # 3. Üretilen tokenları metne çevir
+        lemmatized_sent = tok.decode(outputs[0], skip_special_tokens=True)
+        # Kelimeleri boşluklardan bölerek eşleştir
+        orig_words = sent.split()
+        lemma_words = lemmatized_sent.split()
+        # Orijinal cümledeki kelime sayısıyla, üretilen kök say��sını eşleştiriyoruz
+        # (Eğer model fazla veya eksik kelime üretirse tablo bozulmasın diye max uzunluk alınıyor)
+        max_len = max(len(orig_words), len(lemma_words))
+        for i in range(max_len):
+            w = orig_words[i] if i < len(orig_words) else ""
+            l = lemma_words[i] if i < len(lemma_words) else ""
+            rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
     """Görünürlük için cümleler arasına ayraç satırları ekler."""
+    if df.empty:
+        return df
     rows, prev = [], None
     for _, r in df.iterrows():
         if prev is not None and r["Full_Sentence"] != prev:
     return df_view, out_path
 examples = [
+    "Kedilerimizden biri çok hızlıca koştu",
+    "Gözlükçüler dükkanlarını erkenden açtılar.",
     "Bana hikayenin sonunu anlattılar."
 ]
 # =========================================================================
+# 3. Gradio Arayüzü
 # =========================================================================
 theme = gr.themes.Soft(primary_hue="slate", neutral_hue="slate")