| import gradio as gr
|
| from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
|
|
|
|
|
| model_name = "RickyGM15/vit5-gec"
|
| tokenizer = AutoTokenizer.from_pretrained(model_name)
|
| model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
|
|
|
| def correct_text(input_text):
|
| if not input_text.strip():
|
| return ""
|
|
|
| inputs = tokenizer(
|
| input_text,
|
| return_tensors="pt",
|
| truncation=True,
|
| padding=True,
|
| max_length=128
|
| )
|
|
|
| outputs = model.generate(
|
| **inputs,
|
| max_length=128,
|
| num_beams=5,
|
| repetition_penalty=1.2,
|
| no_repeat_ngram_size=2,
|
| length_penalty=0.9,
|
| early_stopping=True
|
| )
|
|
|
| corrected = tokenizer.decode(outputs[0], skip_special_tokens=True)
|
| return corrected
|
|
|
|
|
| demo = gr.Interface(
|
| fn=correct_text,
|
| inputs=gr.Textbox(lines=3, placeholder="Nhập câu cần sửa lỗi chính tả..."),
|
| outputs="text",
|
| title="📝 ViT5 - Chỉnh sửa lỗi chính tả tiếng Việt",
|
| description="Dựa trên mô hình ViT5 huấn luyện riêng.",
|
| examples=[
|
| ["A ko bik gì hết"],
|
| ["Toi dang di hoc trua"],
|
| ["Mai e đi học về"],
|
| ]
|
| )
|
|
|
| demo.launch() |