smart-moderator

Sleeping

App Files Files Community

nixaut-codelabs commited on Aug 21

Commit

6fe1066

verified ·

1 Parent(s): b14c8d8

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -33

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStream
 MODEL_REPO = "daniel-dona/gemma-3-270m-it"
 LOCAL_DIR = os.path.join(os.getcwd(), "local_model")
 os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
 os.environ.setdefault("OMP_NUM_THREADS", str(os.cpu_count() or 1))
 os.environ.setdefault("MKL_NUM_THREADS", os.environ["OMP_NUM_THREADS"])
@@ -47,37 +48,44 @@ model = AutoModelForCausalLM.from_pretrained(
 )
 model.eval()
-def build_prompt(message, history, system_message, max_ctx_tokens=1024):
-    msgs = [{"role": "system", "content": system_message}]
-    for u, a in history:
-        if u:
-            msgs.append({"role": "user", "content": u})
-        if a:
-            msgs.append({"role": "assistant", "content": a})
-    msgs.append({"role": "user", "content": message})
-    while True:
-        chat_template = """{% for m in messages %}
-        {{ m['role'] }}: {{ m['content'] }}
-        {% endfor %}
-        Assistant:"""
         text = tokenizer.apply_chat_template(
             msgs,
             chat_template=chat_template,
             tokenize=False,
             add_generation_prompt=True
         )
-        if len(tokenizer(text, add_special_tokens=False).input_ids) <= max_ctx_tokens:
-            return text
-        for i in range(1, len(msgs)):
-            if msgs[i]["role"] != "system":
-                del msgs[i:i+2]
-                break
-def respond_stream(message, history, system_message, max_tokens, temperature, top_p):
-    text = build_prompt(message, history, system_message)
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
     do_sample = bool(temperature and temperature > 0.0)
     gen_kwargs = dict(
@@ -93,10 +101,12 @@ def respond_stream(message, history, system_message, max_tokens, temperature, to
         streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True, skip_prompt=True)
     except TypeError:
         streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
     thread = threading.Thread(
         target=model.generate,
         kwargs={**inputs, **{k: v for k, v in gen_kwargs.items() if v is not None}, "streamer": streamer}
     )
     partial_text = ""
     token_count = 0
     start_time = None
@@ -108,22 +118,25 @@ def respond_stream(message, history, system_message, max_tokens, temperature, to
                     start_time = time.time()
                 partial_text += chunk
                 token_count += 1
-                yield partial_text
         finally:
             thread.join()
-    end_time = time.time() if start_time is not None else time.time()
-    duration = max(1e-6, end_time - start_time) if start_time else 0.0
-    tps = (token_count / duration) if duration > 0 else 0.0
-    yield partial_text + f"\n\n⚡ Hız: {tps:.2f} token/sn"
 demo = gr.ChatInterface(
     respond_stream,
     additional_inputs=[
-        gr.Textbox(value="You are a friendly Chatbot.", label="System message"),
-        gr.Slider(minimum=1, maximum=2048, value=256, step=1, label="Max new tokens"),
-        gr.Slider(minimum=0.0, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p")
-    ]
 )
 if __name__ == "__main__":

 MODEL_REPO = "daniel-dona/gemma-3-270m-it"
 LOCAL_DIR = os.path.join(os.getcwd(), "local_model")
+# CPU optimizasyonları
 os.environ.setdefault("HF_HUB_ENABLE_HF_TRANSFER", "1")
 os.environ.setdefault("OMP_NUM_THREADS", str(os.cpu_count() or 1))
 os.environ.setdefault("MKL_NUM_THREADS", os.environ["OMP_NUM_THREADS"])
 )
 model.eval()
+# Çok dilli moderasyon system prompt
+MODERATION_SYSTEM_PROMPT = (
+    "You are a multilingual content moderation classifier. "
+    "You analyze the user's message in any language and decide if it is safe or unsafe. "
+    "Rules: If the message contains hate speech, harassment, sexual content involving minors, "
+    "extreme violence, self-harm encouragement, or other unsafe material, respond with exactly 'unsafe'. "
+    "If it is acceptable and safe, respond with exactly 'safe'. "
+    "Do not explain, do not add anything else, only output 'safe' or 'unsafe'."
+)
+def build_prompt(message, max_ctx_tokens=512):
+    msgs = [
+        {"role": "system", "content": MODERATION_SYSTEM_PROMPT},
+        {"role": "user", "content": message}
+    ]
+    chat_template = """{% for m in messages %}
+{{ m['role'] }}: {{ m['content'] }}
+{% endfor %}
+Assistant:"""
+    text = tokenizer.apply_chat_template(
+        msgs,
+        chat_template=chat_template,
+        tokenize=False,
+        add_generation_prompt=True
+    )
+    # Token sınırını aşarsa kısalt
+    while len(tokenizer(text, add_special_tokens=False).input_ids) > max_ctx_tokens and len(msgs) > 2:
+        msgs.pop(1)
         text = tokenizer.apply_chat_template(
             msgs,
             chat_template=chat_template,
             tokenize=False,
             add_generation_prompt=True
         )
+    return text
+def respond_stream(message, history, max_tokens, temperature, top_p):
+    text = build_prompt(message)
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
     do_sample = bool(temperature and temperature > 0.0)
     gen_kwargs = dict(
         streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True, skip_prompt=True)
     except TypeError:
         streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)
     thread = threading.Thread(
         target=model.generate,
         kwargs={**inputs, **{k: v for k, v in gen_kwargs.items() if v is not None}, "streamer": streamer}
     )
     partial_text = ""
     token_count = 0
     start_time = None
                     start_time = time.time()
                 partial_text += chunk
                 token_count += 1
+                yield partial_text.strip()
         finally:
             thread.join()
+    end_time = time.time() if start_time else time.time()
+    duration = max(1e-6, end_time - start_time)
+    tps = token_count / duration if duration > 0 else 0.0
+    yield partial_text.strip() + f"\n\n⚡ Speed: {tps:.2f} token/s"
 demo = gr.ChatInterface(
     respond_stream,
+    chatbot=False,
     additional_inputs=[
+        gr.Slider(minimum=1, maximum=16, value=4, step=1, label="Max new tokens"),
+        gr.Slider(minimum=0.0, maximum=1.0, value=0.0, step=0.1, label="Temperature"),
         gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p")
+    ],
+    title="Multilingual Moderation Classifier",
+    description="Enter any text in any language. The model will output only 'safe' or 'unsafe'."
 )
 if __name__ == "__main__":