🛡️ Mô hình BiLSTM nhận diện Thông tin Cá nhân (PII) Tiếng Việt

Đây là kiến trúc mạng nơ-ron hồi quy hai chiều (Bi-directional Long Short-Term Memory - BiLSTM) được huấn luyện cho bài toán nhận diện thực thể (Named Entity Recognition - NER) nhằm trích xuất các Thông tin cá nhân (PII) trong văn bản tiếng Việt.

Mô hình này đóng vai trò là mô hình cơ sở (Baseline Model) trong dự án nghiên cứu so sánh hiệu năng giữa 4 kiến trúc học sâu (BiLSTM, BiLSTM-CRF, PhoBERT, và XLM-R) cho tác vụ ẩn danh hóa thông tin cá nhân. Dự án được thực hiện bởi Tăng Hoàng Phúc (Sinh viên chuyên ngành Trí tuệ Nhân tạo - Đại học CNTT, ĐHQG TP.HCM).

📊 Thông tin mô hình

Kiến trúc: BiLSTM (Custom PyTorch Model)
Ngôn ngữ: Tiếng Việt
Tác vụ: Token Classification (NER)
Số lượng nhãn: Phân loại và nhận diện 54 nhãn PII khác nhau (Tên người, CCCD, Email, Số điện thoại, Địa chỉ...).

⚙️ Lưu ý sử dụng (Inference)

Vì đây là mô hình được xây dựng thủ công (Custom Architecture) bằng PyTorch chứ không thuộc chuẩn transformers của Hugging Face, khung test tự động (Hosted Inference API) sẽ không hoạt động.

Repository này được sử dụng để lưu trữ file từ điển (vocab/config) và trọng số (.pth). Để xem demo kết quả chạy của mô hình này, vui lòng tham khảo mã nguồn Inference trong file Notebook/Colab của dự án.

🚀 Ví dụ đầu vào

"Căn cước công dân của Nguyễn Văn A là 079201123456, số điện thoại 0972836728, địa chỉ 123 đường Lê Lợi, Quận 1."

Downloads last month: 3