Spaces:

LiProject
/

LemmaLi

Sleeping

App Files Files Community

Sarpyy commited on Apr 1

Commit

01d5577

verified ·

1 Parent(s): 2048c61

Update app.py

Browse files

Files changed (1) hide show

app.py +16 -23

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V3"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-CONFIDENCE_THRESHOLD = 0.85 # Güven skoru eşiği
 try:
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
@@ -25,20 +25,20 @@ except Exception as e:
 # 2. Arka Plan İşlemleri
 # =========================================================================
-def get_lemma_for_word(word: str):
     """
     Tek kelimeyi temizler, modelden geçirir.
-    Güven skoru 0.85 altındaysa orijinal (temizlenmiş) kelimeyi döndürür.
     """
     clean_word = word.strip(".,!?();:\"'’")
     if not clean_word:
-        return word, 1.0
     # Eğer kelime sadece sayı veya sayı+ek ise direkt döndür
     num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
     if num_match:
-        return num_match.group(1), 1.0
     inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
@@ -58,21 +58,16 @@ def get_lemma_for_word(word: str):
     )
     # Tüm dizinin (kelimenin) ortak olasılığını hesapla
-    # Log-olasılıkların toplamının üstel fonksiyonu (e^x) dizi olasılığını verir
     seq_log_prob = transition_scores[0].sum().item()
     confidence_score = torch.exp(torch.tensor(seq_log_prob)).item()
     lemma = tok.decode(sequences[0], skip_special_tokens=True).strip()
-    # Eğer üretilen kök boşsa, orijinali kullan
-    if not lemma:
-        return clean_word, confidence_score
-    # Eşik değeri kontrolü (0.85 altındaysa orijinali bırak)
-    if confidence_score < CONFIDENCE_THRESHOLD:
-        return clean_word, confidence_score
-    return lemma, confidence_score
 @torch.inference_mode()
@@ -81,17 +76,16 @@ def lemmatize_rows(multiline_text: str):
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
     if not sentences:
-        return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma", "Confidence"])
     for sent in sentences:
         words = sent.split()
         for w in words:
-            l, conf = get_lemma_for_word(w)
             rows.append({
                 "Full_Sentence": sent,
                 "Word": w,
-                "Lemma": l,
-                "Confidence": round(conf, 4) # Skoru 4 ondalık basamağa yuvarla
             })
     return pd.DataFrame(rows)
@@ -110,8 +104,7 @@ def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10)
             rows.append({
                 "Full_Sentence": sep,
                 "Word": sep,
-                "Lemma": sep,
-                "Confidence": "" # Ayırıcı satır için boş bırak
             })
         rows.append(r.to_dict())
         prev = r["Full_Sentence"]
@@ -212,8 +205,8 @@ with gr.Blocks(title="Türkçe Lemmatizer") as demo:
     gr.HTML(f"""
         <div class="info-box">
             <b>Model:</b> {HF_MODEL_ID}<br>
-            <b>Güven Eşiği (Confidence Threshold):</b> %85. Eğer modelin bulduğu kök için güven skoru 0.85'in altındaysa orijinal kelime bırakılır.<br>
-            <b>Çalışma mantığı:</b> Metin satır satır, her satır da kelime kelime işlenir.
         </div>
     """)
@@ -237,7 +230,7 @@ with gr.Blocks(title="Türkçe Lemmatizer") as demo:
             clr = gr.Button("Temizle", variant="secondary")
     out_tbl = gr.Dataframe(
-        headers=["Full_Sentence", "Word", "Lemma", "Confidence"], # Confidence sütunu eklendi
         label="Sonuç Önizleme",
         interactive=False,
         wrap=True,

 HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V3"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+CONFIDENCE_THRESHOLD = 0.85 # Güven skoru eşiği (Arka planda çalışır)
 try:
     tok = AutoTokenizer.from_pretrained(HF_MODEL_ID, use_fast=True)
 # 2. Arka Plan İşlemleri
 # =========================================================================
+def get_lemma_for_word(word: str) -> str:
     """
     Tek kelimeyi temizler, modelden geçirir.
+    Arka planda güven skoru hesaplanır, 0.85 altındaysa orijinal (temizlenmiş) kelime döndürülür.
     """
     clean_word = word.strip(".,!?();:\"'’")
     if not clean_word:
+        return word
     # Eğer kelime sadece sayı veya sayı+ek ise direkt döndür
     num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
     if num_match:
+        return num_match.group(1)
     inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
     )
     # Tüm dizinin (kelimenin) ortak olasılığını hesapla
     seq_log_prob = transition_scores[0].sum().item()
     confidence_score = torch.exp(torch.tensor(seq_log_prob)).item()
     lemma = tok.decode(sequences[0], skip_special_tokens=True).strip()
+    # Üretilen kök boşsa veya arka plandaki güven skoru %85'in altındaysa orijinali kullan
+    if not lemma or confidence_score < CONFIDENCE_THRESHOLD:
+        return clean_word
+    return lemma
 @torch.inference_mode()
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
     if not sentences:
+        return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
     for sent in sentences:
         words = sent.split()
         for w in words:
+            l = get_lemma_for_word(w)
             rows.append({
                 "Full_Sentence": sent,
                 "Word": w,
+                "Lemma": l
             })
     return pd.DataFrame(rows)
             rows.append({
                 "Full_Sentence": sep,
                 "Word": sep,
+                "Lemma": sep
             })
         rows.append(r.to_dict())
         prev = r["Full_Sentence"]
     gr.HTML(f"""
         <div class="info-box">
             <b>Model:</b> {HF_MODEL_ID}<br>
+            <b>Çalışma mantığı:</b> Metin satır satır, her satır da kelime kelime işlenir.
+            <i>(Not: Modelin ürettiği kökün güven skoru 0.85 altındaysa arka planda otomatik olarak iptal edilir ve kelime olduğu gibi bırakılır.)</i>
         </div>
     """)
             clr = gr.Button("Temizle", variant="secondary")
     out_tbl = gr.Dataframe(
+        headers=["Full_Sentence", "Word", "Lemma"],
         label="Sonuç Önizleme",
         interactive=False,
         wrap=True,