Spaces:

Maverick2708
/

toxicity-detection

Sleeping

Maverick2708 commited on May 29, 2025

Commit

f6cc98e

verified ·

1 Parent(s): c1d4944

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,26 +1,29 @@
-from transformers import AutoTokenizer, AutoModelForSequenceClassification, TextClassificationPipeline
-# Model ID hợp lệ
-model_id = "trituenhantaoio/bert-base-vietnamese-uncased"
-# Tải tokenizer và model
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForSequenceClassification.from_pretrained(model_id)
-# Tạo pipeline
-pipe = TextClassificationPipeline(model=model, tokenizer=tokenizer, return_all_scores=True)
-# Danh sách bình luận để kiểm tra
-comments = [
-    "Bạn thật sự ngu ngốc và kém cỏi.",
-    "Hôm nay là một ngày đẹp trời.",
-    "Cái này tệ kinh khủng, không ai muốn dùng đâu!"
-]
-# In kết quả
-for comment in comments:
-    results = pipe(comment)
-    print(f"Comment: {comment}")
-    for label in results[0]:
-        print(f"  {label['label']}: {label['score']:.4f}")
-    print("------")

+import gradio as gr
+from transformers import AutoTokenizer, T5ForConditionalGeneration
+import torch
+# Dùng đúng tokenizer gốc: t5-small
+tokenizer = AutoTokenizer.from_pretrained("t5-small")
+model = T5ForConditionalGeneration.from_pretrained("naot97/vietnamese-toxicity-detection_3")
+def detect_toxic(text):
+    prompt = f"toxic classification: {text}"
+    inputs = tokenizer(prompt, return_tensors="pt", truncation=True)
+    with torch.no_grad():
+        outputs = model.generate(
+            input_ids=inputs["input_ids"],
+            attention_mask=inputs["attention_mask"],
+            max_length=10
+        )
+        decoded = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return f"Toxicity: {decoded}"
+gr.Interface(
+    fn=detect_toxic,
+    inputs="text",
+    outputs="text",
+    title="Vietnamese Toxicity Detector",
+    description="Dựa trên mô hình T5 phát hiện độc hại tiếng Việt"
+).launch()