Spaces:

Tin113
/

text_error_correction

Sleeping

App Files Files Community

Tin113 commited on Jun 26, 2025

Commit

030b185

verified ·

1 Parent(s): eaae444

Create app.py

Browse files

Files changed (1) hide show

app.py +133 -0

app.py ADDED Viewed

	@@ -0,0 +1,133 @@

+# Nội dung file app.py
+import gradio as gr
+import torch
+from transformers import (
+    AutoTokenizer,
+    AutoModelForSeq2SeqLM,
+    T5Tokenizer,
+    T5ForConditionalGeneration
+)
+import re
+# --- THAY ĐỔI CÁC THÔNG TIN SAU CHO ĐÚNG VỚI REPO CỦA BẠN ---
+BART_MODEL_REPO = "Tin113/bart_model"
+VIT5_MODEL_REPO = "Tin113/vit5_model"
+# -------------------------------------------------------------
+# Chọn thiết bị (GPU nếu có)
+DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
+print(f"Bắt đầu tải model lên thiết bị: {DEVICE}...")
+# Hàm tải model, với cơ chế thử lại để tránh lỗi tải tạm thời
+def load_model(model_class, tokenizer_class, repo_id):
+    try:
+        tokenizer = tokenizer_class.from_pretrained(repo_id)
+        model = model_class.from_pretrained(repo_id).to(DEVICE)
+        model.eval()
+        print(f"Tải thành công model: {repo_id}")
+        return model, tokenizer
+    except Exception as e:
+        print(f"Lỗi khi tải model {repo_id}: {e}")
+        # Trả về None nếu có lỗi để xử lý ở giao diện
+        return None, None
+# Tải các model
+model_bart, tokenizer_bart = load_model(AutoModelForSeq2SeqLM, AutoTokenizer, BART_MODEL_REPO)
+model_vit5, tokenizer_vit5 = load_model(T5ForConditionalGeneration, T5Tokenizer, VIT5_MODEL_REPO)
+# Hàm clean text, lấy từ notebook của bạn
+def clean_text(text):
+    if not isinstance(text, str):
+        return ""
+    return re.sub(r'\s+', ' ', text).strip()
+# Hàm xử lý việc sửa lỗi
+def correct_grammar(sentence, model_choice):
+    if not sentence.strip():
+        return "Vui lòng nhập một câu."
+    model = None
+    tokenizer = None
+    prefix = ""
+    if model_choice == "BARTpho-syllable":
+        if model_bart and tokenizer_bart:
+            model = model_bart
+            tokenizer = tokenizer_bart
+            prefix = "Fix: "
+        else:
+            return "Lỗi: Model BART không khả dụng. Vui lòng thử lại sau."
+    elif model_choice == "ViT5-base":
+        if model_vit5 and tokenizer_vit5:
+            model = model_vit5
+            tokenizer = tokenizer_vit5
+            prefix = "sửa lỗi: "
+        else:
+            return "Lỗi: Model ViT5 không khả dụng. Vui lòng thử lại sau."
+    input_text = prefix + sentence
+    input_ids = tokenizer(
+        input_text,
+        return_tensors="pt",
+        max_length=256,
+        truncation=True,
+        padding=True
+    ).input_ids.to(DEVICE)
+    with torch.no_grad():
+        outputs = model.generate(
+            input_ids,
+            max_length=256 + 20,
+            num_beams=2,
+            early_stopping=True,
+            repetition_penalty=1.05,
+            no_repeat_ngram_size=2
+        )
+    corrected_sentence = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    return clean_text(corrected_sentence)
+# Ví dụ cho giao diện Gradio
+examples = [
+    ["chương trỉnhnh được páht sóng vào lúc 19h", "ViT5-base"],
+    ["công nghề thônngg tin đáng phát chiển rất nhanh", "ViT5-base"],
+    ["Học hok tốt thì kho mak đc điểm cao.", "BARTpho-syllable"],
+    ["dù rất mệt nhưng anh ấy vẫn cố hoàn thành công việc", "BARTpho-syllable"],
+]
+# Mô tả cho ứng dụng
+description = """
+Đây là ứng dụng demo cho việc sửa lỗi ngữ pháp tiếng Việt (Vietnamese Grammatical Error Correction).
+Ứng dụng sử dụng hai model đã được fine-tune:
+1.  **BARTpho-syllable**: Dựa trên kiến trúc BART, được tối ưu cho tiếng Việt ở cấp độ âm tiết.
+2.  **ViT5-base**: Dựa trên kiến trúc T5, một model mạnh mẽ cho các tác vụ Text-to-Text.
+**Cách sử dụng:**
+1.  Nhập câu tiếng Việt có lỗi vào ô bên dưới.
+2.  Chọn một trong hai model để thực hiện sửa lỗi.
+3.  Nhấn "Submit" và xem kết quả.
+"""
+# Tạo giao diện Gradio
+demo = gr.Interface(
+    fn=correct_grammar,
+    inputs=[
+        gr.Textbox(lines=5, label="Nhập câu tiếng Việt bị lỗi"),
+        gr.Radio(
+            choices=["BARTpho-syllable", "ViT5-base"],
+            value="ViT5-base", # Model mặc định
+            label="Chọn Model"
+        )
+    ],
+    outputs=gr.Textbox(label="Câu đã được sửa"),
+    title="Sửa lỗi Ngữ pháp Tiếng Việt",
+    description=description,
+    examples=examples
+)
+# Chạy ứng dụng
+if __name__ == "__main__":
+    demo.launch()