Spaces:

userdotcs
/

Dizgec-Text-Corrector

Paused

App Files Files Community

userdotcs commited on Dec 17, 2025

Commit

69d604f

verified ·

1 Parent(s): 7e34946

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -12

app.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import torch
 import gradio as gr
 import spaces
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftModel
@@ -8,14 +9,12 @@ from peft import PeftModel
 base_model_name = "unsloth/gpt-oss-20b"
 adapter_model_name = "userdotcs/gpt-oss-20b-turkish-correction-adapter"
-print("Model yükleniyor (MXFP4 formatı algılandı)...")
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
-# Hata almamak için kuantizasyon parametrelerini manuel geçmiyoruz,
-# model zaten kuantize olduğu için sadece cihazı ve tipi belirtiyoruz.
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
-    torch_dtype=torch.bfloat16, # MXFP4 modeller genelde bfloat16 ile daha iyi çalışır
     device_map="auto"
 )
@@ -39,22 +38,33 @@ def fix_text(input_text):
     with torch.no_grad():
         outputs = model.generate(
             input_ids=inputs,
-            max_new_tokens=512,
-            do_sample=False, # Daha tutarlı düzeltmeler için numune almayı kapattık
             pad_token_id=tokenizer.eos_token_id
         )
-    # Input token sayısını alıp sadece yeni kısmı kesiyoruz
     input_length = inputs.shape[1]
-    response = tokenizer.decode(outputs[0][input_length:], skip_special_tokens=True)
-    return response.strip()
 # Arayüz
 demo = gr.Interface(
     fn=fix_text,
-    inputs=gr.Textbox(label="Girdi", lines=3),
-    outputs=gr.Textbox(label="Sonuç", lines=3),
-    title="Türkçe Yazım Düzeltme"
 )
 if __name__ == "__main__":

 import torch
 import gradio as gr
 import spaces
+import re # Metin temizleme için eklendi
 from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftModel
 base_model_name = "unsloth/gpt-oss-20b"
 adapter_model_name = "userdotcs/gpt-oss-20b-turkish-correction-adapter"
+print("Model yükleniyor...")
 tokenizer = AutoTokenizer.from_pretrained(base_model_name)
 base_model = AutoModelForCausalLM.from_pretrained(
     base_model_name,
+    torch_dtype=torch.bfloat16,
     device_map="auto"
 )
     with torch.no_grad():
         outputs = model.generate(
             input_ids=inputs,
+            max_new_tokens=1024, # Biraz artırdık çünkü düşünme kısmı token tüketir
+            do_sample=False,
             pad_token_id=tokenizer.eos_token_id
         )
+    # Yanıtı decode et
     input_length = inputs.shape[1]
+    full_response = tokenizer.decode(outputs[0][input_length:], skip_special_tokens=True)
+    # --- Düşünme Kısmını Temizleme ---
+    # 1. Yaygın düşünme etiketlerini (thought, reasoning vb.) temizle
+    clean_response = re.sub(r'<(thought|reasoning)>.*?</\1>', '', full_response, flags=re.DOTALL)
+    # 2. Eğer model etiket kullanmadan sadece bir boşluk veya özel karakterle ayırıyorsa
+    # bazen düşünme kısmı metnin en başında kalabilir.
+    # Genellikle asıl yanıt en son kısımdır.
+    if "### Response" in clean_response:
+        clean_response = clean_response.split("### Response")[-1]
+    return clean_response.strip()
 # Arayüz
 demo = gr.Interface(
     fn=fix_text,
+    inputs=gr.Textbox(label="Input", lines=3),
+    outputs=gr.Textbox(label="Output", lines=3),
+    title="gpt-oss-20b Turkish correction"
 )
 if __name__ == "__main__":