Spaces:
Sleeping
Sleeping
File size: 1,934 Bytes
8248295 a871ecb 8248295 a871ecb | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 | ---
title: RAG Model Evaluation System
emoji: 📊
colorFrom: blue
colorTo: green
sdk: docker
app_port: 7860
pinned: false
license: mit
---
# Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật
Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau:
## Các Mô Hình Được Đánh Giá
1. **RAG** - Retrieval-Augmented Generation system
2. **GPT** - GPT-based model
3. **lexcentra** - LEXcentra AI
4. **ailuat** - AI Luật
5. **law&press** - Law&Press AI
## Tính Năng
- 📋 Khảo sát với 10 câu hỏi pháp lý thực tế
- ⭐ Đánh giá từng model theo thang điểm 1-5 sao
- 📊 Giao diện Bootstrap đẹp mắt, responsive
- 💾 Lưu trữ kết quả vote vào CSV
## Cách Sử Dụng
1. Truy cập ứng dụng qua URL Hugging Face Spaces
2. Đọc câu hỏi và câu trả lời từ 5 models
3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5)
4. Chuyển sang câu hỏi tiếp theo bằng tabs
5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi
## Phân Tích Kết Quả
Sau khi thu thập đủ votes, sử dụng script `cacul.py` để phân tích:
```bash
python cacul.py
```
Kết quả phân tích bao gồm:
- **Win Rate (%)**: Tỷ lệ điểm trên tổng điểm tối đa
- **Elo Score**: Điểm Elo theo Bradley-Terry Model
- **Pairwise Comparison**: So sánh từng cặp model
- **Average Score**: Điểm trung bình
- **Total Score**: Tổng điểm
## Công Nghệ
- **Backend**: Flask (Python)
- **Frontend**: Bootstrap 5 + FontAwesome
- **Data Processing**: Pandas, NumPy
- **Deployment**: Docker on Hugging Face Spaces
## Lưu Ý
- Dữ liệu votes được lưu vào `votes_results.csv`
- Mỗi lần submit sẽ append thêm dữ liệu mới
- Kết quả phân tích được lưu vào `model_comparison_results.csv`
## License
MIT License |