Spaces:

LiProject
/

LemmaLi

Running

App Files Files Community

Sarpyy commited on Feb 26

Commit

c9014f4

verified ·

1 Parent(s): a3343be

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -37

app.py CHANGED Viewed

@@ -16,18 +16,36 @@ try:
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
     mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
 except Exception as e:
     print(f"Model veya Tokenizer yüklenirken kritik hata oluştu: {e}")
     exit(1)
 # =========================================================================
-# 2. Inference ve Akıllı Filtreleme
 # =========================================================================
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
-    """Cümleyi modele verir (karakter bozulmaz), sayıları özel regex ile yakalar."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
@@ -35,39 +53,15 @@ def lemmatize_rows(multiline_text: str):
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
-        # 1. Bütün cümleyi modele ver (Türkçe karakterlerin kusursuz çıkması için)
-        inputs = tok(sent, return_tensors="pt", truncation=True, max_length=512).to(DEVICE)
-        outputs = mdl.generate(**inputs, max_length=512)
-        lemmatized_sent = tok.decode(outputs[0], skip_special_tokens=True)
-        orig_words = sent.split()
-        lemma_words = lemmatized_sent.split()
-        max_len = max(len(orig_words), len(lemma_words))
-        for i in range(max_len):
-            w = orig_words[i] if i < len(orig_words) else ""
-            l_model = lemma_words[i] if i < len(lemma_words) else ""
-            clean_w = w.strip(".,!?();:\"")
-            # 2. Sayı filtresi (Regex)
-            # Rakamla başlayıp kesme işareti veya harfle devam edenleri yakalar
-            num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_w)
-            if num_match:
-                l = num_match.group(1) # Eğer sayıysa modeli ezip sadece sayıyı yazıyoruz
-            else:
-                l = l_model # Sayı değilse, Türkçe karakteri bozulmamış model çıktısını kullan
             rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
-    if df.empty:
-        return df
     rows, prev = [], None
     for _, r in df.iterrows():
         if prev is not None and r["Full_Sentence"] != prev:
@@ -82,15 +76,14 @@ def run_and_save(text):
     df_view = add_sentence_separators(df, char="-", repeat=10)
     out_path = "lemma_output.csv"
-    # >>> GÜNCELLENDİ: Excel'de Türkçe karakter bozulmaması için utf-8-sig kullanıldı
     df.to_csv(out_path, index=False, encoding="utf-8-sig")
     return df_view, out_path
 examples = [
-    "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar.",
     "Yolcular, zorlu yollarda yolculuk yaparken yoldan çıkmamaya özen gösterirler.",
-    "Bana hikayenin sonunu anlattılar."
 ]
 # =========================================================================
@@ -120,13 +113,13 @@ tbody tr:nth-child(2n) td { background: #122434 !important; }
 with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
     gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
-    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. İşlem cümle bazlı yapılır, sayılar (15'te vb.) akıllı filtreyle temizlenir.")
     with gr.Row():
         with gr.Column(scale=3):
             inp = gr.Textbox(
                 lines=6,
-                placeholder="Örn:\n15'te öğrenciler içeri alındılar.\nGözlükçüler dükkanlarını açtılar.",
                 show_label=False,
                 elem_id="input_text"
             )
@@ -141,7 +134,7 @@ with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=T
         elem_id="results_table"
     )
-    out_file = gr.File(label="Çıktı CSV (lemma_output.csv)")
     gr.Examples(examples=[[e] for e in examples], inputs=inp)

     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
     mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
 except Exception as e:
     print(f"Model veya Tokenizer yüklenirken kritik hata oluştu: {e}")
     exit(1)
 # =========================================================================
+# 2. Arka Plan İşlemleri (Kelime Kelime İşlem & Excel Düzeltmesi)
 # =========================================================================
+def get_lemma_for_word(word: str) -> str:
+    """Tek kelimeyi temizler, sayıysa sayıyı bırakır, değilse modele yollar."""
+    # Kelimenin başındaki ve sonundaki noktalama işaretlerini temizle
+    clean_word = word.strip(".,!?();:\"'’")
+    if not clean_word:
+        return word
+    # Sayı kontrolü (Örn: 15.30'da -> 15.30)
+    num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
+    if num_match:
+        return num_match.group(1)
+    # Modeli tekil kelime için çalıştır (Modelin doğasına en uygun yöntem)
+    inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
+    outputs = mdl.generate(**inputs, max_length=128)
+    lemma = tok.decode(outputs[0], skip_special_tokens=True).strip()
+    return lemma if lemma else clean_word
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
+        words = sent.split()
+        for w in words:
+            l = get_lemma_for_word(w)
             rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
+    if df.empty: return df
     rows, prev = [], None
     for _, r in df.iterrows():
         if prev is not None and r["Full_Sentence"] != prev:
     df_view = add_sentence_separators(df, char="-", repeat=10)
     out_path = "lemma_output.csv"
+    # EXCEL TÜRKÇE KARAKTER DÜZELTMESİ (utf-8-sig)
     df.to_csv(out_path, index=False, encoding="utf-8-sig")
     return df_view, out_path
 examples = [
     "Yolcular, zorlu yollarda yolculuk yaparken yoldan çıkmamaya özen gösterirler.",
+    "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar."
 ]
 # =========================================================================
 with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
     gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
+    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. İşlem modelin doğası gereği kelime kelime yapılır.")
     with gr.Row():
         with gr.Column(scale=3):
             inp = gr.Textbox(
                 lines=6,
+                placeholder="Örn:\nYolcular yollarda yürüdü.",
                 show_label=False,
                 elem_id="input_text"
             )
         elem_id="results_table"
     )
+    out_file = gr.File(label="Çıktı CSV")
     gr.Examples(examples=[[e] for e in examples], inputs=inp)