smart-moderator

Sleeping

App Files Files Community

nixaut-codelabs commited on Aug 21

Commit

b57189b

verified ·

1 Parent(s): a3753b6

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -8

app.py CHANGED Viewed

@@ -11,7 +11,7 @@ LOCAL_DIR = os.path.join(os.getcwd(), "local_model")
 # CPU optimizasyonları
 os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
-os.environ.setdefault("OMP_NUM_THREADS", str(os.cpu_count() or 2))
 os.environ.setdefault("MKL_NUM_THREADS", os.environ["OMP_NUM_THREADS"])
 os.environ.setdefault("OMP_PROC_BIND", "TRUE")
@@ -40,6 +40,38 @@ def ensure_local_model(repo_id: str, local_dir: str, tries: int = 3, sleep_s: fl
 model_path = ensure_local_model(MODEL_REPO, LOCAL_DIR)
 tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
 model = AutoModelForCausalLM.from_pretrained(
     model_path,
     local_files_only=True,
@@ -59,19 +91,25 @@ MODERATION_SYSTEM_PROMPT = (
 )
 def build_prompt(message, max_ctx_tokens=128):
     messages = [
-        {"role": "system", "content": MODERATION_SYSTEM_PROMPT},
-        {"role": "user", "content": message}
     ]
     # Doğru chat template kullanımı
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True
     )
-    # Token sınırını aşarsa kısalt
-    while len(tokenizer(text, add_special_tokens=False).input_ids) > max_ctx_tokens and len(messages) > 2:
-        messages.pop(1)
         text = tokenizer.apply_chat_template(
             messages,
             tokenize=False,
@@ -134,7 +172,7 @@ def respond_stream(message, history, max_tokens, temperature, top_p):
 demo = gr.ChatInterface(
     respond_stream,
-    chatbot=False,
     additional_inputs=[
         gr.Slider(minimum=1, maximum=4, value=1, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.1, label="Temperature"),
@@ -150,4 +188,4 @@ if __name__ == "__main__":
             **tokenizer(["Hi"], return_tensors="pt").to(model.device),
             max_new_tokens=1, do_sample=False, use_cache=True
         )
-    demo.queue(max_size=32).launch()

 # CPU optimizasyonları
 os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
+os.environ.setdefault("OMP_NUM_THREADS", str(os.cpu_count() or 1))
 os.environ.setdefault("MKL_NUM_THREADS", os.environ["OMP_NUM_THREADS"])
 os.environ.setdefault("OMP_PROC_BIND", "TRUE")
 model_path = ensure_local_model(MODEL_REPO, LOCAL_DIR)
 tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=True)
+### DEĞİŞİKLİK BURADA BAŞLIYOR ###
+# Gemma modelleri için sohbet şablonunu manuel olarak ayarlıyoruz.
+# Bu, eski transformers versiyonlarında veya ortam sorunlarında hatayı önler.
+gemma_chat_template = (
+    "{% if messages[0]['role'] == 'system' %}"
+        "{% raise_exception('System messages are not supported by this model!') %}"
+    "{% endif %}"
+    "{% for message in messages %}"
+        "{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}"
+            "{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}"
+        "{% endif %}"
+        "{% if message['role'] == 'user' %}"
+            "{{ '<start_of_turn>user\\n' + message['content'] | trim + '<end_of_turn>\\n' }}"
+        "{% elif message['role'] == 'assistant' %}"
+            "{{ '<start_of_turn>model\\n' + message['content'] | trim + '<end_of_turn>\\n' }}"
+        "{% endif %}"
+    "{% endfor %}"
+    "{% if add_generation_prompt %}"
+        "{{ '<start_of_turn>model\\n' }}"
+    "{% endif %}"
+)
+# Not: Modelin kendi tokenizer_config.json dosyasında sistem mesajları desteklenmediği belirtiliyor.
+# Bu yüzden yukarıdaki şablonda sistem mesajı gelirse hata vermesi sağlanmıştır.
+# build_prompt fonksiyonunu da buna göre güncelleyeceğiz.
+if tokenizer.chat_template is None:
+    print("Chat template manuel olarak ayarlanıyor.")
+    tokenizer.chat_template = gemma_chat_template
+### DEĞİŞİKLİK BURADA BİTİYOR ###
 model = AutoModelForCausalLM.from_pretrained(
     model_path,
     local_files_only=True,
 )
 def build_prompt(message, max_ctx_tokens=128):
+    # ### DEĞİŞİKLİK 2: Sistem mesajı artık desteklenmiyor ###
+    # Sistem mesajını ilk kullanıcı mesajının bir parçası haline getiriyoruz.
+    # Bu, Gemma'nın talimat takip etme (instruction-tuned) yapısına daha uygundur.
+    full_user_message = f"{MODERATION_SYSTEM_PROMPT}\n\nUser input: '{message}'"
     messages = [
+        {"role": "user", "content": full_user_message}
     ]
     # Doğru chat template kullanımı
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
         add_generation_prompt=True
     )
+    # Token sınırını aşarsa kısalt (Bu senaryoda pek olası değil ama iyi bir pratik)
+    while len(tokenizer(text, add_special_tokens=False).input_ids) > max_ctx_tokens and len(full_user_message) > 100:
+        full_user_message = full_user_message[:len(full_user_message)-50] # Mesajı sondan kısalt
+        messages[0]['content'] = full_user_message
         text = tokenizer.apply_chat_template(
             messages,
             tokenize=False,
 demo = gr.ChatInterface(
     respond_stream,
+    chatbot=False, # Bu parametre ChatInterface'de bulunmuyor, chatbot'u gizlemek için temayı kullanabilirsiniz.
     additional_inputs=[
         gr.Slider(minimum=1, maximum=4, value=1, step=1, label="Max new tokens"),
         gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.1, label="Temperature"),
             **tokenizer(["Hi"], return_tensors="pt").to(model.device),
             max_new_tokens=1, do_sample=False, use_cache=True
         )
+    demo.queue(max_size=32).launch()