--- title: RAG Model Evaluation System emoji: 📊 colorFrom: blue colorTo: green sdk: docker app_port: 7860 pinned: false license: mit --- # Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau: ## Các Mô Hình Được Đánh Giá 1. **RAG** - Retrieval-Augmented Generation system 2. **GPT** - GPT-based model 3. **lexcentra** - LEXcentra AI 4. **ailuat** - AI Luật 5. **law&press** - Law&Press AI ## Tính Năng - 📋 Khảo sát với 10 câu hỏi pháp lý thực tế - ⭐ Đánh giá từng model theo thang điểm 1-5 sao - 📊 Giao diện Bootstrap đẹp mắt, responsive - 💾 Lưu trữ kết quả vote vào CSV ## Cách Sử Dụng 1. Truy cập ứng dụng qua URL Hugging Face Spaces 2. Đọc câu hỏi và câu trả lời từ 5 models 3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5) 4. Chuyển sang câu hỏi tiếp theo bằng tabs 5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi ## Phân Tích Kết Quả Sau khi thu thập đủ votes, sử dụng script `cacul.py` để phân tích: ```bash python cacul.py ``` Kết quả phân tích bao gồm: - **Win Rate (%)**: Tỷ lệ điểm trên tổng điểm tối đa - **Elo Score**: Điểm Elo theo Bradley-Terry Model - **Pairwise Comparison**: So sánh từng cặp model - **Average Score**: Điểm trung bình - **Total Score**: Tổng điểm ## Công Nghệ - **Backend**: Flask (Python) - **Frontend**: Bootstrap 5 + FontAwesome - **Data Processing**: Pandas, NumPy - **Deployment**: Docker on Hugging Face Spaces ## Lưu Ý - Dữ liệu votes được lưu vào `votes_results.csv` - Mỗi lần submit sẽ append thêm dữ liệu mới - Kết quả phân tích được lưu vào `model_comparison_results.csv` ## License MIT License