Spaces:

LiProject
/

LemmaLi

Sleeping

App Files Files Community

Sarpyy commited on Feb 26

Commit

a3343be

verified ·

1 Parent(s): 6e06ac3

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -38

app.py CHANGED Viewed

@@ -9,14 +9,10 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # 1. Sabitler ve Model Yükleme
 # =========================================================================
-# Hugging Face Hub'daki Lemmatization modelinizin ID'si
 HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V2"
-# GPU/CPU kontrolü
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
-    # Model ve Tokenizer'ı Seq2Seq mantığına uygun yükle
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
     mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
@@ -26,34 +22,12 @@ except Exception as e:
     exit(1)
 # =========================================================================
-# 2. Arka Plan İşlemleri (Kelime Kelime Analiz & Sayı Filtresi)
 # =========================================================================
-def get_lemma_for_word(word: str) -> str:
-    """Tek bir kelimeyi alır, sayıysa temizler, değilse modelden geçirip kökünü bulur."""
-    # Noktalamaları kelimenin başından ve sonundan temizle ki model daha iyi anlasın
-    clean_word = word.strip(".,!?();:\"")
-    if not clean_word:
-        return word # Sadece noktalama işaretinden oluşuyorsa kendisini döndür
-    # Sayı ve ek kontrolü (Örn: 2'şer -> 2, 10.5'ten -> 10.5, 1990'da -> 1990)
-    # Rakamla başlayıp kesme işareti veya harfle devam edenleri yakalar
-    num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
-    if num_match:
-        return num_match.group(1) # Eki at, sadece sayıyı döndür
-    # Kelimeyi modele gönder (sözcük sözcük işlem)
-    inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
-    outputs = mdl.generate(**inputs, max_length=128)
-    lemma = tok.decode(outputs[0], skip_special_tokens=True).strip()
-    # Model bazen boş dönebilir, o durumda orijinal temiz kelimeyi ver
-    return lemma if lemma else clean_word
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
-    """Metni cümlelere, cümleleri kelimelere böler. İlletişimi kelime kelime yapar."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
@@ -61,17 +35,36 @@ def lemmatize_rows(multiline_text: str):
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
-        words = sent.split() # Cümleyi kelimelere böl
-        for w in words:
-            # Her bir kelime için özel fonksiyonumuzu çağırıyoruz
-            l = get_lemma_for_word(w)
             rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
-    """Görünürlük için cümleler arasına ayraç satırları ekler."""
     if df.empty:
         return df
@@ -85,18 +78,18 @@ def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10)
     return pd.DataFrame(rows)
 def run_and_save(text):
-    """Ana çalıştırma fonksiyonu, tabloyu ve indirilebilir CSV'yi hazırlar."""
     df = lemmatize_rows(text)
     df_view = add_sentence_separators(df, char="-", repeat=10)
     out_path = "lemma_output.csv"
-    df.to_csv(out_path, index=False)
     return df_view, out_path
 examples = [
     "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar.",
-    "Kedilerimizden biri çok hızlıca koştu.",
     "Bana hikayenin sonunu anlattılar."
 ]
@@ -106,7 +99,6 @@ examples = [
 theme = gr.themes.Soft(primary_hue="slate", neutral_hue="slate")
 custom_css = """
-/* Sayfa ve temel renkler */
 .gradio-container { background: #000000 !important; color: #FFE8DB !important; font-family: Inter, ui-sans-serif, system-ui, -apple-system, Segoe UI, Roboto, "Helvetica Neue", Arial, sans-serif; }
 .prose h1, .prose h2, .prose h3, .prose p, label { color: #FFE8DB !important; }
 .gr-box, .gr-panel, .border, .container { background: #0b0b0b !important; border: 1.5px solid #739EC9 !important; border-radius: 14px !important; }
@@ -128,7 +120,7 @@ tbody tr:nth-child(2n) td { background: #122434 !important; }
 with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
     gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
-    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. Metni satır satır girin. İşlem yüksek hassasiyet için kelime kelime yapılır.")
     with gr.Row():
         with gr.Column(scale=3):

 # 1. Sabitler ve Model Yükleme
 # =========================================================================
 HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V2"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
     mdl = AutoModelForSeq2SeqLM.from_pretrained(HF_MODEL_ID).to(DEVICE).eval()
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
     exit(1)
 # =========================================================================
+# 2. Inference ve Akıllı Filtreleme
 # =========================================================================
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
+    """Cümleyi modele verir (karakter bozulmaz), sayıları özel regex ile yakalar."""
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
+        # 1. Bütün cümleyi modele ver (Türkçe karakterlerin kusursuz çıkması için)
+        inputs = tok(sent, return_tensors="pt", truncation=True, max_length=512).to(DEVICE)
+        outputs = mdl.generate(**inputs, max_length=512)
+        lemmatized_sent = tok.decode(outputs[0], skip_special_tokens=True)
+        orig_words = sent.split()
+        lemma_words = lemmatized_sent.split()
+        max_len = max(len(orig_words), len(lemma_words))
+        for i in range(max_len):
+            w = orig_words[i] if i < len(orig_words) else ""
+            l_model = lemma_words[i] if i < len(lemma_words) else ""
+            clean_w = w.strip(".,!?();:\"")
+            # 2. Sayı filtresi (Regex)
+            # Rakamla başlayıp kesme işareti veya harfle devam edenleri yakalar
+            num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_w)
+            if num_match:
+                l = num_match.group(1) # Eğer sayıysa modeli ezip sadece sayıyı yazıyoruz
+            else:
+                l = l_model # Sayı değilse, Türkçe karakteri bozulmamış model çıktısını kullan
             rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
     if df.empty:
         return df
     return pd.DataFrame(rows)
 def run_and_save(text):
     df = lemmatize_rows(text)
     df_view = add_sentence_separators(df, char="-", repeat=10)
     out_path = "lemma_output.csv"
+    # >>> GÜNCELLENDİ: Excel'de Türkçe karakter bozulmaması için utf-8-sig kullanıldı
+    df.to_csv(out_path, index=False, encoding="utf-8-sig")
     return df_view, out_path
 examples = [
     "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar.",
+    "Yolcular, zorlu yollarda yolculuk yaparken yoldan çıkmamaya özen gösterirler.",
     "Bana hikayenin sonunu anlattılar."
 ]
 theme = gr.themes.Soft(primary_hue="slate", neutral_hue="slate")
 custom_css = """
 .gradio-container { background: #000000 !important; color: #FFE8DB !important; font-family: Inter, ui-sans-serif, system-ui, -apple-system, Segoe UI, Roboto, "Helvetica Neue", Arial, sans-serif; }
 .prose h1, .prose h2, .prose h3, .prose p, label { color: #FFE8DB !important; }
 .gr-box, .gr-panel, .border, .container { background: #0b0b0b !important; border: 1.5px solid #739EC9 !important; border-radius: 14px !important; }
 with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
     gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
+    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. İşlem cümle bazlı yapılır, sayılar (15'te vb.) akıllı filtreyle temizlenir.")
     with gr.Row():
         with gr.Column(scale=3):