Spaces:
Sleeping
Sleeping
| title: AI4citizen2.0 | |
| emoji: 🚀 | |
| colorFrom: blue | |
| colorTo: green | |
| sdk: gradio | |
| app_file: app.py | |
| pinned: false | |
| sdk_version: 6.14.0 | |
| # 🏛️ AI HÀNH CHÍNH CÔNG | |
| ## Hệ thống tư vấn thủ tục hành chính công thông minh | |
| [](https://huggingface.co/spaces/) | |
| --- | |
| ## Mục đích sử dụng | |
| Chạy train model AI, ML, LLM cho hệ thống tư vấn thủ tục hành chính công | |
| --- | |
| ## 🚀 Deploy trên Hugging Face Spaces | |
| ### Cách deploy | |
| 1. Tạo Space mới trên [Hugging Face Spaces](https://huggingface.co/spaces) | |
| 2. Chọn **Gradio** làm SDK | |
| 3. Chọn **CPU** hoặc **GPU** (khuyến nghị CPU basic/upgrade) | |
| 4. Upload các file: | |
| - `app.py` (đổi tên từ `main.py` thành `app.py`) | |
| - `requirements.txt` | |
| - `README.md` | |
| ### Thiết lập Secrets trên Hugging Face Spaces | |
| Trước khi chạy, cần thiết lập `PINECONE_API_KEY` trong Secrets: | |
| 1. Vào Settings của Space | |
| 2. Chọn **Repository secrets** | |
| 3. Thêm secret mới: | |
| - Name: `PINECONE_API_KEY` | |
| - Value: API key của bạn (lấy tại https://app.pinecone.io/keys) | |
| --- | |
| ## Thông tin về cấu hình, thư viện | |
| - **Model LLM**: Qwen/Qwen2.5-3B-Instruct | |
| - **4-bit Quantization**: Giảm bộ nhớ mà vẫn giữ độ chính xác | |
| - **Embeddings Model**: keepitreal/vietnamese-sbert (768 dimensions) | |
| - **Vector Store**: Pinecone (Dense Search) + BM25 (Sparse Search) | |
| - Index name: ai-hanh-chinh-rag | |
| - Metric: cosine | |
| - Serverless on AWS us-east-1 | |
| - Cần thiết lập `PINECONE_API_KEY` environment variable | |
| - **Voice AI**: Whisper (base) + Edge-TTS | |
| - **Temperature**: 0.1 - 0.7 (tự điều chỉnh theo độ phức tạp câu hỏi) | |
| - **Max Tokens**: 1024 cho câu trả lời | |
| --- | |
| ## Chạy local (nếu cần) | |
| ```bash | |
| pip install -r requirements.txt | |
| python3 main.py | |
| ``` | |
| ### Thiết lập Pinecone API Key (Local) | |
| ```bash | |
| # Linux/Mac | |
| export PINECONE_API_KEY='your-api-key-here' | |
| # Windows CMD | |
| set PINECONE_API_KEY=your-api-key-here | |
| # Windows PowerShell | |
| $env:PINECONE_API_KEY='your-api-key-here' | |
| ``` | |
| Lấy API key tại: https://app.pinecone.io/keys | |
| --- | |
| ## Các tham số và vị trí folder data | |
| ### Folder data | |
| - `./data/` - Thư mục chứa dữ liệu (tự động tạo) | |
| - `./models/` - Thư mục chứa models (tự động tạo) | |
| - `./audio_output/` - Thư mục chứa file âm thanh đầu ra (tự động tạo) | |
| --- | |
| ## Mô tả các chức năng chính | |
| ### 1. Hybrid RAG System | |
| - **Dense Search**: Pinecone + Vietnamese SBERT embeddings | |
| - **Sparse Search**: BM25 keyword matching | |
| - **Query Expansion**: Mở rộng câu hỏi với từ đồng nghĩa | |
| - **Re-ranking**: Sắp xếp kết quả theo độ liên quan | |
| - **Pinecone Integration**: Embeddings được lưu trữ trên Pinecone cloud database | |
| ### 2. Phân loại tình huống (50+ situations) | |
| - Ensemble Classifier (Random Forest + Logistic Regression) | |
| - Phân loại chính xác tình huống người dùng | |
| - Áp dụng TF-IDF vectorization | |
| ### 3. Voice AI | |
| - **Speech-to-Text**: OpenAI Whisper model base cho tiếng Việt | |
| - **Text-to-Speech**: Microsoft Edge-TTS với giọng HoaiMy | |
| - Hỗ trợ người lớn tuổi không biết gõ phím | |
| ### 4. 3 AI Personas | |
| - 👩💼 **Chị Thuong** - Thân thiện, gần gũi, dùng từ ngữ bình dân | |
| - 👨💼 **Anh Chuyen** - Chuyên nghiệp, ngắn gọn, súc tích | |
| - 👩🏫 **Cô Chi Tiet** - Chi tiết, từng bước, cẩn thận | |
| ### 5. Context Memory | |
| - Nhớ lịch sử chat (tối đa 10 lượt) | |
| - Hiểu ngữ cảnh từ các câu hỏi trước | |
| - Câu trả lời phù hợp với ngữ cảnh | |
| ### 6. Chain of Thought | |
| - Multi-step reasoning prompts | |
| - Phân tích từng bước trước khi trả lời | |
| --- | |
| ## Danh sách thủ tục hành chính (37+ procedures) | |
| ### Nhân sự (6) | |
| - KHAI_SINH - Đăng ký khai sinh | |
| - KHAI_SINH_QUA_HAN - Khai sinh quá hạn | |
| - KHAI_TU - Đăng ký khai tử | |
| - KET_HON - Đăng ký kết hôn | |
| - LY_HON - Ly hôn thuận tình | |
| - KET_HON_NGOAI - Kết hôn người nước ngoài | |
| ### CCCD - Hộ khẩu (8) | |
| - CCCD_CAP - Cấp CCCD lần đầu | |
| - CCCD_DOI - Đổi CCCD | |
| - CCCD_CAP_LAI - Cấp lại CCCD khi mất | |
| - HO_KHAU_TACH - Tách sổ hộ khẩu | |
| - HO_KHAU_NHAP - Nhập sổ hộ khẩu | |
| - TAM_TRU - Đăng ký tạm trú | |
| - TRU_SO - Đăng ký trú quán | |
| - TAM_VANG - Đăng ký tạm vắng | |
| ### Bằng lái (7) | |
| - BANG_LAI_A1 - Cấp đổi bằng lái A1 | |
| - BANG_LAI_A1_CAP_MOI - Cấp mới bằng lái A1 | |
| - BANG_LAI_A2 - Cấp bằng lái A2 | |
| - BANG_LAI_B1 - Cấp bằng lái B1 | |
| - BANG_LAI_B2 - Cấp bằng lái B2 | |
| - BANG_LAI_DOI - Đổi bằng lái | |
| - BANG_LAI_CAP_LAI - Cấp lại bằng lái | |
| ### Và nhiều thủ tục khác... | |
| --- | |
| ## Cấu trúc source code | |
| ``` | |
| AIHanhChinh/ | |
| ├── main.py # File chính (đổi thành app.py khi deploy lên HF Spaces) | |
| ├── requirements.txt # Danh sách thư viện | |
| ├── README.md # Hướng dẫn sử dụng | |
| ├── data/ # Thư mục data (tự động tạo) | |
| ├── models/ # Thư mục models (tự động tạo) | |
| └── audio_output/ # Thư mục audio (tự động tạo) | |
| ``` | |
| --- | |
| ## Lưu ý quan trọng | |
| - Code được viết để chạy không cần tương tác trực tiếp | |
| - Có thể thực thi từ đầu đến cuối mà không cần sự can thiệp | |
| - Tự động tải datasets từ HuggingFace Hub | |
| - Tự động tạo các thư mục cần thiết | |
| --- | |
| ## Ví dụ câu hỏi | |
| - ✅ "Làm bằng lái xe máy cần giấy tờ gì?" | |
| - ✅ "Khai sinh quá hạn phải làm sao?" | |
| - ✅ "Đổi CCCD ở đâu và bao nhiêu tiền?" | |
| - ✅ "Tách hộ khẩu mất bao lâu?" | |
| - ✅ "Đăng ký xe ô tô mới cần những gì?" | |
| --- | |
| ## Ghi chú | |
| - Ứng dụng sử dụng Qwen 2.5 3B - Model open-source hiểu tiếng Việt tốt | |
| - Voice AI sử dụng Whisper (OpenAI) và Edge-TTS (Microsoft) | |
| - Hệ thống RAG kết hợp Dense và Sparse search để tối ưu độ chính xác | |
| - Context Memory giúp AI nhớ ngữ cảnh hội thoại | |
| - Dynamic Temperature tự điều chỉnh độ sáng tạo dựa trên độ phức tạp câu hỏi |