Maluong's picture
Update README.md
a871ecb verified
metadata
title: RAG Model Evaluation System
emoji: 📊
colorFrom: blue
colorTo: green
sdk: docker
app_port: 7860
pinned: false
license: mit

Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật

Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau:

Các Mô Hình Được Đánh Giá

  1. RAG - Retrieval-Augmented Generation system
  2. GPT - GPT-based model
  3. lexcentra - LEXcentra AI
  4. ailuat - AI Luật
  5. law&press - Law&Press AI

Tính Năng

  • 📋 Khảo sát với 10 câu hỏi pháp lý thực tế
  • ⭐ Đánh giá từng model theo thang điểm 1-5 sao
  • 📊 Giao diện Bootstrap đẹp mắt, responsive
  • 💾 Lưu trữ kết quả vote vào CSV

Cách Sử Dụng

  1. Truy cập ứng dụng qua URL Hugging Face Spaces
  2. Đọc câu hỏi và câu trả lời từ 5 models
  3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5)
  4. Chuyển sang câu hỏi tiếp theo bằng tabs
  5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi

Phân Tích Kết Quả

Sau khi thu thập đủ votes, sử dụng script cacul.py để phân tích:

python cacul.py

Kết quả phân tích bao gồm:

  • Win Rate (%): Tỷ lệ điểm trên tổng điểm tối đa
  • Elo Score: Điểm Elo theo Bradley-Terry Model
  • Pairwise Comparison: So sánh từng cặp model
  • Average Score: Điểm trung bình
  • Total Score: Tổng điểm

Công Nghệ

  • Backend: Flask (Python)
  • Frontend: Bootstrap 5 + FontAwesome
  • Data Processing: Pandas, NumPy
  • Deployment: Docker on Hugging Face Spaces

Lưu Ý

  • Dữ liệu votes được lưu vào votes_results.csv
  • Mỗi lần submit sẽ append thêm dữ liệu mới
  • Kết quả phân tích được lưu vào model_comparison_results.csv

License

MIT License