Spaces:

Maluong
/

rag-model-evaluation

Sleeping

File size: 1,934 Bytes

---
title: RAG Model Evaluation System
emoji: 📊
colorFrom: blue
colorTo: green
sdk: docker
app_port: 7860
pinned: false
license: mit
---

# Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật

Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau:

## Các Mô Hình Được Đánh Giá

1. **RAG** - Retrieval-Augmented Generation system
2. **GPT** - GPT-based model
3. **lexcentra** - LEXcentra AI
4. **ailuat** - AI Luật
5. **law&press** - Law&Press AI

## Tính Năng

- 📋 Khảo sát với 10 câu hỏi pháp lý thực tế
- ⭐ Đánh giá từng model theo thang điểm 1-5 sao
- 📊 Giao diện Bootstrap đẹp mắt, responsive
- 💾 Lưu trữ kết quả vote vào CSV

## Cách Sử Dụng

1. Truy cập ứng dụng qua URL Hugging Face Spaces
2. Đọc câu hỏi và câu trả lời từ 5 models
3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5)
4. Chuyển sang câu hỏi tiếp theo bằng tabs
5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi

## Phân Tích Kết Quả

Sau khi thu thập đủ votes, sử dụng script `cacul.py` để phân tích:

```bash
python cacul.py
```

Kết quả phân tích bao gồm:
- **Win Rate (%)**: Tỷ lệ điểm trên tổng điểm tối đa
- **Elo Score**: Điểm Elo theo Bradley-Terry Model
- **Pairwise Comparison**: So sánh từng cặp model
- **Average Score**: Điểm trung bình
- **Total Score**: Tổng điểm

## Công Nghệ

- **Backend**: Flask (Python)
- **Frontend**: Bootstrap 5 + FontAwesome
- **Data Processing**: Pandas, NumPy
- **Deployment**: Docker on Hugging Face Spaces

## Lưu Ý

- Dữ liệu votes được lưu vào `votes_results.csv`
- Mỗi lần submit sẽ append thêm dữ liệu mới
- Kết quả phân tích được lưu vào `model_comparison_results.csv`

## License

MIT License