Maluong's picture
Update README.md
a871ecb verified
---
title: RAG Model Evaluation System
emoji: 📊
colorFrom: blue
colorTo: green
sdk: docker
app_port: 7860
pinned: false
license: mit
---
# Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật
Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau:
## Các Mô Hình Được Đánh Giá
1. **RAG** - Retrieval-Augmented Generation system
2. **GPT** - GPT-based model
3. **lexcentra** - LEXcentra AI
4. **ailuat** - AI Luật
5. **law&press** - Law&Press AI
## Tính Năng
- 📋 Khảo sát với 10 câu hỏi pháp lý thực tế
- ⭐ Đánh giá từng model theo thang điểm 1-5 sao
- 📊 Giao diện Bootstrap đẹp mắt, responsive
- 💾 Lưu trữ kết quả vote vào CSV
## Cách Sử Dụng
1. Truy cập ứng dụng qua URL Hugging Face Spaces
2. Đọc câu hỏi và câu trả lời từ 5 models
3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5)
4. Chuyển sang câu hỏi tiếp theo bằng tabs
5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi
## Phân Tích Kết Quả
Sau khi thu thập đủ votes, sử dụng script `cacul.py` để phân tích:
```bash
python cacul.py
```
Kết quả phân tích bao gồm:
- **Win Rate (%)**: Tỷ lệ điểm trên tổng điểm tối đa
- **Elo Score**: Điểm Elo theo Bradley-Terry Model
- **Pairwise Comparison**: So sánh từng cặp model
- **Average Score**: Điểm trung bình
- **Total Score**: Tổng điểm
## Công Nghệ
- **Backend**: Flask (Python)
- **Frontend**: Bootstrap 5 + FontAwesome
- **Data Processing**: Pandas, NumPy
- **Deployment**: Docker on Hugging Face Spaces
## Lưu Ý
- Dữ liệu votes được lưu vào `votes_results.csv`
- Mỗi lần submit sẽ append thêm dữ liệu mới
- Kết quả phân tích được lưu vào `model_comparison_results.csv`
## License
MIT License