Spaces:
Sleeping
Sleeping
metadata
title: RAG Model Evaluation System
emoji: 📊
colorFrom: blue
colorTo: green
sdk: docker
app_port: 7860
pinned: false
license: mit
Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật
Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau:
Các Mô Hình Được Đánh Giá
- RAG - Retrieval-Augmented Generation system
- GPT - GPT-based model
- lexcentra - LEXcentra AI
- ailuat - AI Luật
- law&press - Law&Press AI
Tính Năng
- 📋 Khảo sát với 10 câu hỏi pháp lý thực tế
- ⭐ Đánh giá từng model theo thang điểm 1-5 sao
- 📊 Giao diện Bootstrap đẹp mắt, responsive
- 💾 Lưu trữ kết quả vote vào CSV
Cách Sử Dụng
- Truy cập ứng dụng qua URL Hugging Face Spaces
- Đọc câu hỏi và câu trả lời từ 5 models
- Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5)
- Chuyển sang câu hỏi tiếp theo bằng tabs
- Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi
Phân Tích Kết Quả
Sau khi thu thập đủ votes, sử dụng script cacul.py để phân tích:
python cacul.py
Kết quả phân tích bao gồm:
- Win Rate (%): Tỷ lệ điểm trên tổng điểm tối đa
- Elo Score: Điểm Elo theo Bradley-Terry Model
- Pairwise Comparison: So sánh từng cặp model
- Average Score: Điểm trung bình
- Total Score: Tổng điểm
Công Nghệ
- Backend: Flask (Python)
- Frontend: Bootstrap 5 + FontAwesome
- Data Processing: Pandas, NumPy
- Deployment: Docker on Hugging Face Spaces
Lưu Ý
- Dữ liệu votes được lưu vào
votes_results.csv - Mỗi lần submit sẽ append thêm dữ liệu mới
- Kết quả phân tích được lưu vào
model_comparison_results.csv
License
MIT License