Spaces:
Sleeping
Sleeping
| title: RAG Model Evaluation System | |
| emoji: 📊 | |
| colorFrom: blue | |
| colorTo: green | |
| sdk: docker | |
| app_port: 7860 | |
| pinned: false | |
| license: mit | |
| # Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật | |
| Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau: | |
| ## Các Mô Hình Được Đánh Giá | |
| 1. **RAG** - Retrieval-Augmented Generation system | |
| 2. **GPT** - GPT-based model | |
| 3. **lexcentra** - LEXcentra AI | |
| 4. **ailuat** - AI Luật | |
| 5. **law&press** - Law&Press AI | |
| ## Tính Năng | |
| - 📋 Khảo sát với 10 câu hỏi pháp lý thực tế | |
| - ⭐ Đánh giá từng model theo thang điểm 1-5 sao | |
| - 📊 Giao diện Bootstrap đẹp mắt, responsive | |
| - 💾 Lưu trữ kết quả vote vào CSV | |
| ## Cách Sử Dụng | |
| 1. Truy cập ứng dụng qua URL Hugging Face Spaces | |
| 2. Đọc câu hỏi và câu trả lời từ 5 models | |
| 3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5) | |
| 4. Chuyển sang câu hỏi tiếp theo bằng tabs | |
| 5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi | |
| ## Phân Tích Kết Quả | |
| Sau khi thu thập đủ votes, sử dụng script `cacul.py` để phân tích: | |
| ```bash | |
| python cacul.py | |
| ``` | |
| Kết quả phân tích bao gồm: | |
| - **Win Rate (%)**: Tỷ lệ điểm trên tổng điểm tối đa | |
| - **Elo Score**: Điểm Elo theo Bradley-Terry Model | |
| - **Pairwise Comparison**: So sánh từng cặp model | |
| - **Average Score**: Điểm trung bình | |
| - **Total Score**: Tổng điểm | |
| ## Công Nghệ | |
| - **Backend**: Flask (Python) | |
| - **Frontend**: Bootstrap 5 + FontAwesome | |
| - **Data Processing**: Pandas, NumPy | |
| - **Deployment**: Docker on Hugging Face Spaces | |
| ## Lưu Ý | |
| - Dữ liệu votes được lưu vào `votes_results.csv` | |
| - Mỗi lần submit sẽ append thêm dữ liệu mới | |
| - Kết quả phân tích được lưu vào `model_comparison_results.csv` | |
| ## License | |
| MIT License |