Spaces:

Maluong
/

rag-model-evaluation

Sleeping

App Files Files Community

rag-model-evaluation / README.md

Maluong

Update README.md

a871ecb verified 2 months ago

preview code

raw

history blame contribute delete

1.93 kB

	---
	title: RAG Model Evaluation System
	emoji: 📊
	colorFrom: blue
	colorTo: green
	sdk: docker
	app_port: 7860
	pinned: false
	license: mit
	---

	# Hệ Thống Đánh Giá Các Mô Hình AI Pháp Luật

	Ứng dụng khảo sát để đánh giá và so sánh chất lượng câu trả lời của 5 mô hình AI pháp luật khác nhau:

	## Các Mô Hình Được Đánh Giá

	1. RAG - Retrieval-Augmented Generation system
	2. GPT - GPT-based model
	3. lexcentra - LEXcentra AI
	4. ailuat - AI Luật
	5. law&press - Law&Press AI

	## Tính Năng

	- 📋 Khảo sát với 10 câu hỏi pháp lý thực tế
	- ⭐ Đánh giá từng model theo thang điểm 1-5 sao
	- 📊 Giao diện Bootstrap đẹp mắt, responsive
	- 💾 Lưu trữ kết quả vote vào CSV

	## Cách Sử Dụng

	1. Truy cập ứng dụng qua URL Hugging Face Spaces
	2. Đọc câu hỏi và câu trả lời từ 5 models
	3. Đánh giá mỗi câu trả lời bằng hệ thống sao (1-5)
	4. Chuyển sang câu hỏi tiếp theo bằng tabs
	5. Gửi phiếu đánh giá khi hoàn thành tất cả câu hỏi

	## Phân Tích Kết Quả

	Sau khi thu thập đủ votes, sử dụng script `cacul.py` để phân tích:

	```bash
	python cacul.py
	```

	Kết quả phân tích bao gồm:
	- Win Rate (%): Tỷ lệ điểm trên tổng điểm tối đa
	- Elo Score: Điểm Elo theo Bradley-Terry Model
	- Pairwise Comparison: So sánh từng cặp model
	- Average Score: Điểm trung bình
	- Total Score: Tổng điểm

	## Công Nghệ

	- Backend: Flask (Python)
	- Frontend: Bootstrap 5 + FontAwesome
	- Data Processing: Pandas, NumPy
	- Deployment: Docker on Hugging Face Spaces

	## Lưu Ý

	- Dữ liệu votes được lưu vào `votes_results.csv`
	- Mỗi lần submit sẽ append thêm dữ liệu mới
	- Kết quả phân tích được lưu vào `model_comparison_results.csv`

	## License

	MIT License