Spaces:

LiProject
/

LemmaLi

Sleeping

App Files Files Community

Sarpyy commited on 7 days ago

Commit

e9de5fb

verified ·

1 Parent(s): 9120242

Update app.py

Browse files

Files changed (1) hide show

app.py +144 -52

app.py CHANGED Viewed

@@ -9,7 +9,7 @@ from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 # 1. Sabitler ve Model Yükleme
 # =========================================================================
-HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V2"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
@@ -18,37 +18,36 @@ try:
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
 except Exception as e:
     print(f"Model veya Tokenizer yüklenirken kritik hata oluştu: {e}")
-    exit(1)
 # =========================================================================
-# 2. Arka Plan İşlemleri (Kelime Kelime İşlem & Excel Düzeltmesi)
 # =========================================================================
 def get_lemma_for_word(word: str) -> str:
     """Tek kelimeyi temizler, sayıysa sayıyı bırakır, değilse modele yollar."""
-    # Kelimenin başındaki ve sonundaki noktalama işaretlerini temizle
     clean_word = word.strip(".,!?();:\"'’")
     if not clean_word:
         return word
-    # Sayı kontrolü (Örn: 15.30'da -> 15.30)
     num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
     if num_match:
         return num_match.group(1)
-    # Modeli tekil kelime için çalıştır (Modelin doğasına en uygun yöntem)
     inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
     outputs = mdl.generate(**inputs, max_length=128)
     lemma = tok.decode(outputs[0], skip_special_tokens=True).strip()
     return lemma if lemma else clean_word
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
     if not sentences:
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
@@ -56,91 +55,184 @@ def lemmatize_rows(multiline_text: str):
         words = sent.split()
         for w in words:
             l = get_lemma_for_word(w)
-            rows.append({"Full_Sentence": sent, "Word": w, "Lemma": l})
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
-    if df.empty: return df
-    rows, prev = [], None
     for _, r in df.iterrows():
         if prev is not None and r["Full_Sentence"] != prev:
             sep = char * repeat
-            rows.append({"Full_Sentence": sep, "Word": sep, "Lemma": sep})
         rows.append(r.to_dict())
         prev = r["Full_Sentence"]
     return pd.DataFrame(rows)
 def run_and_save(text):
     df = lemmatize_rows(text)
     df_view = add_sentence_separators(df, char="-", repeat=10)
-    out_path = "lemma_output.csv"
-    # EXCEL TÜRKÇE KARAKTER DÜZELTMESİ (utf-8-sig)
-    df.to_csv(out_path, index=False, encoding="utf-8-sig")
     return df_view, out_path
 examples = [
     "Yolcular, zorlu yollarda yolculuk yaparken yoldan çıkmamaya özen gösterirler.",
-    "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar."
 ]
 # =========================================================================
 # 3. Gradio Arayüzü
 # =========================================================================
-theme = gr.themes.Soft(primary_hue="slate", neutral_hue="slate")
 custom_css = """
-.gradio-container { background: #000000 !important; color: #FFE8DB !important; font-family: Inter, ui-sans-serif, system-ui, -apple-system, Segoe UI, Roboto, "Helvetica Neue", Arial, sans-serif; }
-.prose h1, .prose h2, .prose h3, .prose p, label { color: #FFE8DB !important; }
-.gr-box, .gr-panel, .border, .container { background: #0b0b0b !important; border: 1.5px solid #739EC9 !important; border-radius: 14px !important; }
-textarea, input, .gr-textbox, .gr-file, .gr-form input, .gr-form textarea { background: #0f1a26 !important; color: #FFE8DB !important; border: 2px solid #5682B1 !important; border-radius: 12px !important; }
-button { transition: background 0.15s ease, filter 0.15s ease, box-shadow 0.15s ease; }
-button.primary, .btn-primary { background: #FFE8DB !important; color: #000000 !important; }
-button.primary:hover, .btn-primary:hover { filter: brightness(0.92); }
-button.secondary, .btn-secondary { background: rgba(86,130,177,0.15) !important; color: #FFE8DB !important; }
-button.secondary:hover, .btn-secondary:hover { background: rgba(86,130,177,0.38) !important; border-color: #5682B1 !important; }
-table { border-collapse: separate !important; border-spacing: 0 !important; }
-th { background: #5682B1 !important; color: #FFE8DB !important; }
-td { background: #0f1a26 !important; color: #FFE8DB !important; }
-tbody tr:nth-child(2n) td { background: #122434 !important; }
-#results_table { max-height: 360px !important; overflow: auto !important; }
-#results_table table { table-layout: fixed !important; width: 100% !important; }
-#results_table th, #results_table td { white-space: normal !important; word-break: break-word !important; }
-#input_text textarea { min-height: 150px !important; }
 """
-with gr.Blocks(title="TR Lemmatizer", theme=theme, css=custom_css, fill_height=True) as demo:
-    gr.Markdown("# 🇹🇷 Türkçe Lemmatization (Kök Bulma)")
-    gr.Markdown(f"Model: `{HF_MODEL_ID.split('/')[-1]}`. İşlem modelin doğası gereği kelime kelime yapılır. Bilgilendirme: Kullanmakta olduğunuz web arayüzündeki (Gradio) sistemsel bir kısıtlama sebebiyle Türkçe karakterlerde bozulmalar görülebilir. Ana yapay zeka modelimizin altyapısında herhangi bir Türkçe karakter sorunu bulunmamaktadır; Eğitilmiş modelimizde ascii hatası bulunmamaktadır.")
     with gr.Row():
         with gr.Column(scale=3):
             inp = gr.Textbox(
-                lines=6,
-                placeholder="Örn:\nYolcular yollarda yürüdü.",
-                show_label=False,
                 elem_id="input_text"
             )
         with gr.Column(scale=1):
-            btn = gr.Button("Kökleri Bul ve CSV indir", variant="primary", elem_id="run_btn")
-            clr = gr.Button("Temizle", variant="secondary", elem_id="clear_btn")
     out_tbl = gr.Dataframe(
-        headers=["Full_Sentence","Word","Lemma"],
-        label="Önizleme",
         interactive=False,
         elem_id="results_table"
     )
-    out_file = gr.File(label="Çıktı CSV")
-    gr.Examples(examples=[[e] for e in examples], inputs=inp)
-    btn.click(run_and_save, inputs=inp, outputs=[out_tbl, out_file])
-    inp.submit(run_and_save, inputs=inp, outputs=[out_tbl, out_file])
-    clr.click(lambda: ("", None, None), outputs=[inp, out_tbl, out_file])
 if __name__ == "__main__":
-    demo.launch(debug=True)

 # 1. Sabitler ve Model Yükleme
 # =========================================================================
+HF_MODEL_ID = "LiProject/BERT-Turkish-Lemmatization-V3"
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 try:
     print(f"Model yükleme başarılı: {HF_MODEL_ID} ({DEVICE} üzerinde)")
 except Exception as e:
     print(f"Model veya Tokenizer yüklenirken kritik hata oluştu: {e}")
+    raise SystemExit(1)
 # =========================================================================
+# 2. Arka Plan İşlemleri
 # =========================================================================
 def get_lemma_for_word(word: str) -> str:
     """Tek kelimeyi temizler, sayıysa sayıyı bırakır, değilse modele yollar."""
     clean_word = word.strip(".,!?();:\"'’")
     if not clean_word:
         return word
+    # Sayı kontrolü
     num_match = re.match(r"^(\d+(?:[.,]\d+)?)(?:['’.]?[a-zA-ZğüşıöçĞÜŞİÖÇ]*)$", clean_word)
     if num_match:
         return num_match.group(1)
     inputs = tok(clean_word, return_tensors="pt", truncation=True, max_length=128).to(DEVICE)
     outputs = mdl.generate(**inputs, max_length=128)
     lemma = tok.decode(outputs[0], skip_special_tokens=True).strip()
     return lemma if lemma else clean_word
 @torch.inference_mode()
 def lemmatize_rows(multiline_text: str):
     rows = []
     sentences = [s.strip() for s in multiline_text.splitlines() if s.strip()]
     if not sentences:
         return pd.DataFrame(columns=["Full_Sentence", "Word", "Lemma"])
         words = sent.split()
         for w in words:
             l = get_lemma_for_word(w)
+            rows.append({
+                "Full_Sentence": sent,
+                "Word": w,
+                "Lemma": l
+            })
     return pd.DataFrame(rows)
 def add_sentence_separators(df: pd.DataFrame, char: str = "-", repeat: int = 10) -> pd.DataFrame:
+    if df.empty:
+        return df
+    rows = []
+    prev = None
     for _, r in df.iterrows():
         if prev is not None and r["Full_Sentence"] != prev:
             sep = char * repeat
+            rows.append({
+                "Full_Sentence": sep,
+                "Word": sep,
+                "Lemma": sep
+            })
         rows.append(r.to_dict())
         prev = r["Full_Sentence"]
     return pd.DataFrame(rows)
 def run_and_save(text):
     df = lemmatize_rows(text)
     df_view = add_sentence_separators(df, char="-", repeat=10)
+    out_path = "lemma_output.csv"
+    df.to_csv(out_path, index=False, encoding="utf-8-sig")
     return df_view, out_path
 examples = [
     "Yolcular, zorlu yollarda yolculuk yaparken yoldan çıkmamaya özen gösterirler.",
+    "Öğrenciler 2'şerli gruplar halinde 15.30'da içeri alındılar.",
+    "Benimki seninkinden daha güzelmiş, dedi usulca."
 ]
 # =========================================================================
 # 3. Gradio Arayüzü
 # =========================================================================
+theme = gr.themes.Soft(
+    primary_hue="blue",
+    secondary_hue="slate",
+    neutral_hue="slate"
+)
 custom_css = """
+.gradio-container {
+    max-width: 1100px !important;
+    margin: 0 auto !important;
+    padding-top: 20px !important;
+}
+#input_text textarea {
+    min-height: 190px !important;
+    font-size: 15px !important;
+    line-height: 1.5 !important;
+}
+#results_table {
+    max-height: 420px !important;
+    overflow: auto !important;
+}
+#results_table table {
+    table-layout: fixed !important;
+    width: 100% !important;
+}
+#results_table th, #results_table td {
+    white-space: normal !important;
+    word-break: break-word !important;
+}
+.main-title {
+    text-align: center;
+    margin-bottom: 4px;
+}
+.sub-text {
+    text-align: center;
+    opacity: 0.9;
+    margin-bottom: 18px;
+}
+.info-box {
+    border: 1px solid #cbd5e1;
+    border-radius: 14px;
+    padding: 14px 16px;
+    margin-top: 12px;
+    margin-bottom: 16px;
+    background: rgba(148,163,184,0.08);
+}
+footer {
+    visibility: hidden !important;
+}
 """
+with gr.Blocks(
+    title="Türkçe Lemmatizer",
+    theme=theme,
+    css=custom_css
+) as demo:
+    gr.HTML("""
+        <div class="main-title">
+            <h1>Türkçe Lemmatization Aracı</h1>
+        </div>
+        <div class="sub-text">
+            Türkçe cümleleri kelime kelime işleyerek köklerini çıkarır ve CSV olarak indirmenizi sağlar.
+        </div>
+    """)
+    gr.HTML(f"""
+        <div class="info-box">
+            <b>Model:</b> {HF_MODEL_ID}<br>
+            <b>Çalışma mantığı:</b> Metin satır satır, her satır da kelime kelime işlenir.<br>
+            <b>Not:</b> Arayüzde nadiren Türkçe karakter görüntüleme farkları olabilir; model mantığında Türkçe desteği korunur.
+        </div>
+    """)
     with gr.Row():
         with gr.Column(scale=3):
             inp = gr.Textbox(
+                label="Metin Girişi",
+                placeholder="Buraya bir veya birden fazla Türkçe cümle yazın...",
+                lines=8,
                 elem_id="input_text"
             )
+            gr.Examples(
+                examples=[[e] for e in examples],
+                inputs=inp,
+                label="Örnek girdiler"
+            )
         with gr.Column(scale=1):
+            btn = gr.Button("Kökleri Bul", variant="primary")
+            clr = gr.Button("Temizle", variant="secondary")
     out_tbl = gr.Dataframe(
+        headers=["Full_Sentence", "Word", "Lemma"],
+        label="Sonuç Önizleme",
         interactive=False,
+        wrap=True,
         elem_id="results_table"
     )
+    out_file = gr.File(label="CSV Çıktısı")
+    btn.click(
+        fn=run_and_save,
+        inputs=inp,
+        outputs=[out_tbl, out_file]
+    )
+    inp.submit(
+        fn=run_and_save,
+        inputs=inp,
+        outputs=[out_tbl, out_file]
+    )
+    clr.click(
+        fn=lambda: ("", None, None),
+        inputs=None,
+        outputs=[inp, out_tbl, out_file]
+    )
 if __name__ == "__main__":
+    demo.launch()