Spaces:

LiProject
/

LemmaLi

Sleeping

App Files Files Community

Sarpyy commited on Feb 26

Commit

6e06ac3

verified ·

1 Parent(s): 98ba9dc

Update app.py

Browse files

Files changed (1) hide show

app.py +34 -26

app.py CHANGED Viewed

@@ -1,4 +1,5 @@
 import os
 import torch
 import pandas as pd
 import gradio as gr
@@ -15,7 +16,7 @@ HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V2"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
-    # Model ve Tokenizer'ı Seq2Seq (Encoder-Decoder) mantığına uygun yükle
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
     mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
@@ -25,12 +26,34 @@ except Exception as e:
     exit(1)
 # =========================================================================
-# 2. Inference ve Çıktı Formatı
 # =========================================================================
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
-    """Metni işler ve kelime-kök eşleşmesini içeren DataFrame döndürür."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
@@ -38,26 +61,11 @@ def lemmatize_rows(multiline_text: str):
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
-        # 1. Orijinal cümleyi modele ver
-        inputs = tok(sent, return_tensors="pt", truncation=True, max_length=512).to(DEVICE)
-        # 2. Köklerden oluşan yeni cümleyi üret (generate)
-        outputs = mdl.generate(**inputs, max_length=512)
-        # 3. Üretilen tokenları metne çevir
-        lemmatized_sent = tok.decode(outputs[0], skip_special_tokens=True)
-        # Kelimeleri boşluklardan bölerek eşleştir
-        orig_words = sent.split()
-        lemma_words = lemmatized_sent.split()
-        # Orijinal cümledeki kelime sayısıyla, üretilen kök sayısını eşleştiriyoruz
-        # (Eğer model fazla veya eksik kelime üretirse tablo bozulmasın diye max uzunluk alınıyor)
-        max_len = max(len(orig_words), len(lemma_words))
-        for i in range(max_len):
-            w = orig_words[i] if i < len(orig_words) else ""
-            l = lemma_words[i] if i < len(lemma_words) else ""
             rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
@@ -87,8 +95,8 @@ def run_and_save(text):
     return df_view, out_path
 examples = [
-    "Kedilerimizden biri çok hızlıca koştu",
-    "Gözlükçüler dükkanlarını erkenden açtılar.",
     "Bana hikayenin sonunu anlattılar."
 ]
@@ -120,13 +128,13 @@ tbody tr:nth-child(2n) td { background: #122434 !important; }
 with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
     gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
-    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. Metni satır satır girin. Çıktı: **Full_Sentence, Word, Lemma**.")
     with gr.Row():
         with gr.Column(scale=3):
             inp = gr.Textbox(
                 lines=6,
-                placeholder="Örn:\nKedilerimizden biri hızlıca koştu.\nGözlükçüler dükkanlarını açtılar.",
                 show_label=False,
                 elem_id="input_text"
             )

 import os
+import re
 import torch
 import pandas as pd
 import gradio as gr
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
+    # Model ve Tokenizer'ı Seq2Seq mantığına uygun yükle
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
     mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
     exit(1)
 # =========================================================================
+# 2. Arka Plan İşlemleri (Kelime Kelime Analiz & Sayı Filtresi)
 # =========================================================================
+def get_lemma_for_word(word: str) -> str:
+    """Tek bir kelimeyi alır, sayıysa temizler, değilse modelden geçirip kökünü bulur."""
+    # Noktalamaları kelimenin başından ve sonundan temizle ki model daha iyi anlasın
+    clean_word = word.strip(".,!?();:\"")
+    if not clean_word:
+        return word # Sadece noktalama işaretinden oluşuyorsa kendisini döndür
+    # Sayı ve ek kontrolü (Örn: 2'şer -> 2, 10.5'ten -> 10.5, 1990'da -> 1990)
+    # Rakamla başlayıp kesme işareti veya harfle devam edenleri yakalar
+    num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
+    if num_match:
+        return num_match.group(1) # Eki at, sadece sayıyı döndür
+    # Kelimeyi modele gönder (sözcük sözcük işlem)
+    inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
+    outputs = mdl.generate(**inputs, max_length=128)
+    lemma = tok.decode(outputs[0], skip_special_tokens=True).strip()
+    # Model bazen boş dönebilir, o durumda orijinal temiz kelimeyi ver
+    return lemma if lemma else clean_word
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
+    """Metni cümlelere, cümleleri kelimelere böler. İlletişimi kelime kelime yapar."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
+        words = sent.split() # Cümleyi kelimelere böl
+        for w in words:
+            # Her bir kelime için özel fonksiyonumuzu çağırıyoruz
+            l = get_lemma_for_word(w)
             rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
     return df_view, out_path
 examples = [
+    "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar.",
+    "Kedilerimizden biri çok hızlıca koştu.",
     "Bana hikayenin sonunu anlattılar."
 ]
 with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
     gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
+    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. Metni satır satır girin. İşlem yüksek hassasiyet için kelime kelime yapılır.")
     with gr.Row():
         with gr.Column(scale=3):
             inp = gr.Textbox(
                 lines=6,
+                placeholder="Örn:\n15'te öğrenciler içeri alındılar.\nGözlükçüler dükkanlarını açtılar.",
                 show_label=False,
                 elem_id="input_text"
             )