Spaces:

developer-lunark
/

kaidol-thinking-experiment

Sleeping

kaidol-thinking-experiment / README.md

Update README.md for Docker build with Python 3.11

70be64c verified 28 days ago

1.12 kB

	---
	title: KAIdol Thinking Experiment
	emoji: 🎤
	colorFrom: purple
	colorTo: pink
	sdk: docker
	pinned: false
	license: apache-2.0
	tags:
	- roleplay
	- korean
	- llm-evaluation
	- a-b-testing
	---

	# KAIdol A/B Test Arena

	K-pop 아이돌 롤플레이 챗봇 모델 A/B 비교 평가 플랫폼

	## Features

	- A/B Arena: 두 모델의 응답을 나란히 비교
	- Blind Mode: 모델명 숨기고 순수 품질 평가
	- ELO Ranking: 투표 기반 모델 순위
	- 5 Characters: 강율, 서이안, 이지후, 차도하, 최민

	## Models (19개 소형 Student 모델)

	### DPO v5 (7-14B)
	- qwen2.5-7b/14b-dpo-v5
	- exaone-7.8b-dpo-v5
	- qwen3-8b-dpo-v5
	- solar-10.7b-dpo-v5

	### SFT Thinking (7-14B)
	- qwen2.5-7b/14b-thinking
	- exaone-7.8b-thinking

	### Phase 7 Kimi Students
	- qwen2.5-7b/14b-kimi
	- exaone-7.8b-kimi

	### V7 Students
	- qwen2.5-7b/14b-v7
	- exaone-7.8b-v7
	- qwen3-8b-v7
	- varco-8b-v7

	## Usage

	1. 캐릭터와 시나리오 선택
	2. 메시지 입력 또는 랜덤 시나리오 사용
	3. 두 모델의 응답 비교
	4. 투표로 더 나은 응답 선택

	## Tech Stack

	- Gradio 4.x
	- Python 3.11