Spaces:

alex4cip
/

simple-chat

Sleeping

alex4cip Claude commited on Oct 30

Commit

82b9256

1 Parent(s): bfd0656

docs: Update README for 13-model multi-model chatbot system

Documentation Updates:
- Update title to "Multi-Model Korean LLM Chatbot"
- Add 13 model listing (10 Public + 3 Gated)
- Highlight 3 new Korean models (EXAONE 7.8B/2.4B, Llama-3 Open-Ko)
- Update sdk_version to 5.49.1

New Sections:
- Model selection guide (speed vs quality vs ecosystem)
- Lazy loading system documentation
- Cache management explanation
- Gated model access instructions
- Local setup with .env file configuration

Updated Information:
- Dependencies: gradio 5.49.1, transformers 4.57.1, torch 2.9.0
- Performance metrics for 13-model system
- Hardware requirements and recommendations
- Space URL update to catchitplay/simple-chatbot-gradio

Technical Details:
- Document check_model_cached() function
- Explain lazy loading implementation
- Add HF_TOKEN setup instructions
- Include model download size and time estimates

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (1) hide show

README.md +170 -92

README.md CHANGED Viewed

@@ -1,38 +1,64 @@
 ---
-title: Llama-2-Ko Chatbot
 emoji: 🤖
 colorFrom: blue
 colorTo: purple
 sdk: gradio
-sdk_version: 5.9.1
 app_file: app.py
 pinned: false
 license: mit
 ---
-# 🤖 Llama-2-Ko 7B Chatbot (Flexible Hardware)
-한국어에 최적화된 Llama-2-Ko 7B 모델을 사용한 대화형 챗봇입니다. **ZeroGPU**와 **CPU Upgrade** 하드웨어를 모두 지원합니다.
 ## ✨ 주요 특징
-- **🇰🇷 한글 대화 최적화**: Llama-2-Ko 7B 모델 사용
-- **⚡ 유연한 하드웨어 지원**: ZeroGPU/CPU Upgrade 자동 감지
-- **🔄 자동 전환**: 하드웨어 변경 시 코드 수정 불필요
-- **💰 비용 효율적**: 상황에 맞는 하드웨어 선택 가능
-## 🎯 모델 정보
-- **모델**: `beomi/llama-2-ko-7b`
-- **크기**: ~14GB
-- **특징**: 한글 대화에 특화된 Llama 2 기반 모델
 ## 🚀 하드웨어 옵션
 ### Option 1: ZeroGPU (추천)
 **장점**:
-- ⚡ 빠른 응답 (3-5초)
 - 💰 저렴한 비용 ($9/month)
 - 🔋 자동 GPU 할당/해제
@@ -50,7 +76,7 @@ license: mit
 - 🔧 간단한 설정
 **제약**:
-- 🐢 느린 응답 (30초~1분)
 - 💵 상대적으로 비싼 비용
 **비용**: $0.03/hour (월 약 $22)
@@ -79,8 +105,8 @@ license: mit
 | 항목 | ZeroGPU | CPU Upgrade |
 |------|---------|-------------|
-| **첫 응답** | 10-15초 | 1-2분 |
-| **이후 응답** | 3-5초 | 30초~1분 |
 | **일일 한도** | 25분 | 무제한 |
 | **월 비용** | $9 | $22 |
 | **GPU** | H200 (70GB) | 없음 |
@@ -101,29 +127,45 @@ except ImportError:
 # 조건부 decorator 적용
 if ZEROGPU_AVAILABLE:
     @spaces.GPU(duration=120)
-    def generate_response(message, history):
-        return generate_response_impl(message, history)
 else:
-    def generate_response(message, history):
-        return generate_response_impl(message, history)
 ```
-### 동적 UI 생성
-- ZeroGPU 모드: GPU 가속 안내
-- CPU Upgrade 모드: CPU 제약 안내
-- 하드웨어 정보 자동 표시
 ## 📝 사용 방법
 ### 1. Space 접속
-https://huggingface.co/spaces/alex4cip/simple-chat
-### 2. 하드웨어 확인
-- UI 상단에 현재 하드웨어 표시
-- "ZeroGPU" 또는 "CPU Upgrade"
 ### 3. 대화 시작
@@ -133,102 +175,135 @@ https://huggingface.co/spaces/alex4cip/simple-chat
 한국의 수도는 ��디인가요?
 ```
-## 💡 최적화 팁
-### ZeroGPU 모드
-1. **짧은 대화**: 긴 대화는 GPU 시간 소모
-2. **효율적 프롬프트**: 명확하고 간결한 질문
-3. **일일 한도 관리**: 25분 내 사용
-### CPU Upgrade 모드
-1. **인내심**: 응답 대기 시간 길어짐
-2. **배치 질문**: 여러 질문 동시에
-3. **장시간 사용**: 24시간 무제한
-## 🔗 하드웨어 전환 시나리오
-### 시나리오 1: 빠른 데모 (ZeroGPU)
-- 짧은 시간 내 많은 사람에게 시연
-- 빠른 응답으로 좋은 인상
-- 일일 한도 내 충분히 사용
-### 시나리오 2: 장시간 개발 (CPU Upgrade)
-- 지속적인 테스트 필요
-- 일일 한도 걱정 없음
-- 느린 속도 감수
-### 시나리오 3: 혼합 사용
-- 평상시: CPU Upgrade
-- 데모 시: ZeroGPU로 전환
-- 코드 수정 불필요 (자동 감지)
-## ⚠️ 제한사항
-### 공통
-- **모델 크기**: 14GB (로딩 시간 필요)
-- **컨텍스트**: 최근 3턴만 유지
-- **한글 특화**: 영어 입력 시 품질 낮음
-### ZeroGPU 전용
-- **일일 한도**: 25분 (PRO 구독)
-- **대기열**: 사용자 많을 경우 대기
-- **PRO 필요**: $9/month 구독 필요
-### CPU Upgrade 전용
-- **느린 속도**: 30초~1분 응답
-- **비용**: 시간당 $0.03 ($22/month)
-- **성능**: GPU 대비 10배 이상 느림
 ## 📦 로컬 실행
 ```bash
 # 저장소 클론
-git clone <repository-url>
 cd simple-chatbot-gradio
 # 의존성 설치
 pip install -r requirements.txt
-# HF 토큰 설정
-export HF_TOKEN=your_hugging_face_token
-# 실행 (GPU 권장)
 python app.py
 ```
-**참고**: 로컬은 CPU 모드로 실행됨 (매우 느림)
 ## 🛠️ 기술 스택
-- **프레임워크**: Gradio 5.x
-- **ML 라이브러리**: Transformers, PyTorch
 - **GPU 인프라**: Hugging Face ZeroGPU (선택적)
 - **언어**: Python 3.10+
 ## 📚 Dependencies
 ```txt
-gradio==5.9.1
-transformers==4.46.0
-torch==2.1.0
-safetensors==0.4.5
-accelerate==0.26.1
-spaces  # ZeroGPU support (optional)
 ```
 ## 🔗 관련 리소스
-- [Llama-2-Ko Model Card](https://huggingface.co/beomi/llama-2-ko-7b)
 - [ZeroGPU Documentation](https://huggingface.co/docs/hub/spaces-zerogpu)
 - [Gradio Documentation](https://www.gradio.app/docs)
 - [HF Spaces Pricing](https://huggingface.co/pricing)
 ## 📄 라이선스
@@ -241,4 +316,7 @@ MIT License
 ---
-**💡 TIP**: 빠른 데모가 필요하면 ZeroGPU, 장시간 사용이 필요하면 CPU Upgrade를 선택하세요!

 ---
+title: Multi-Model Korean LLM Chatbot
 emoji: 🤖
 colorFrom: blue
 colorTo: purple
 sdk: gradio
+sdk_version: 5.49.1
 app_file: app.py
 pinned: false
 license: mit
 ---
+# 🤖 Multi-Model Korean LLM Chatbot
+13개의 다양한 한국어 LLM 모델을 선택하여 대화할 수 있는 멀티모델 챗봇입니다. **ZeroGPU**와 **CPU Upgrade** 하드웨어를 모두 지원합니다.
 ## ✨ 주요 특징
+- **🎯 13개 모델 선택**: 다양한 크기와 특성의 LLM 모델 지원
+- **🇰🇷 한글 최적화**: 한국어 성능이 우수한 모델들로 구성
+- **⚡ 유연한 하드웨어**: ZeroGPU/CPU Upgrade 자동 감지
+- **💾 캐시 시스템**: 모델 재다운로드 방지, 빠른 로딩
+- **🔄 Lazy Loading**: 선택한 모델만 로드하여 리소스 절약
+## 🎯 지원 모델 (13개)
+### 🌟 추천 한국어 모델
+| 모델 | 크기 | 특징 | 상태 |
+|------|------|------|------|
+| **EXAONE 3.5 7.8B** | 7.3GB | ⭐ 파라미터 대비 최고 효율 | Public |
+| **EXAONE 3.5 2.4B** | 2.2GB | ⚡ 초경량, 빠른 응답 | Public |
+| **Llama-3 Open-Ko 8B** | 7.5GB | 🔥 Llama 3 생태계 | Public |
+### 📚 전체 모델 목록
+#### Public 모델 (10개)
+1. LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
+2. LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct
+3. beomi/Llama-3-Open-Ko-8B
+4. Qwen/Qwen2.5-7B-Instruct
+5. Qwen/Qwen2.5-14B-Instruct
+6. 01-ai/Yi-1.5-9B-Chat
+7. 01-ai/Yi-1.5-34B-Chat
+8. mistralai/Mistral-7B-Instruct-v0.3
+9. upstage/SOLAR-10.7B-Instruct-v1.0
+10. EleutherAI/polyglot-ko-5.8b
+#### Gated 모델 (3개) 🔒
+11. meta-llama/Llama-3.1-8B-Instruct
+12. meta-llama/Llama-3.1-70B-Instruct
+13. CohereForAI/aya-23-8B
+> **참고**: Gated 모델은 Hugging Face에서 별도 승인 필요
 ## 🚀 하드웨어 옵션
 ### Option 1: ZeroGPU (추천)
 **장점**:
+- ⚡ 빠른 응답 (3-10초)
 - 💰 저렴한 비용 ($9/month)
 - 🔋 자동 GPU 할당/해제
 - 🔧 간단한 설정
 **제약**:
+- 🐢 느린 응답 (15초~2분)
 - 💵 상대적으로 비싼 비용
 **비용**: $0.03/hour (월 약 $22)
 | 항목 | ZeroGPU | CPU Upgrade |
 |------|---------|-------------|
+| **첫 응답** | 10-20초 | 1-3분 |
+| **이후 응답** | 3-10초 | 15초~2분 |
 | **일일 한도** | 25분 | 무제한 |
 | **월 비용** | $9 | $22 |
 | **GPU** | H200 (70GB) | 없음 |
 # 조건부 decorator 적용
 if ZEROGPU_AVAILABLE:
     @spaces.GPU(duration=120)
+    def generate_response(messages):
+        return generate_response_impl(messages)
 else:
+    def generate_response(messages):
+        return generate_response_impl(messages)
 ```
+### Lazy Loading 시스템
+- 선택한 모델만 메모리에 로드
+- 모델 전환 시 이전 모델 자동 언로드
+- 캐시 확인으로 재다운로드 방지
+- 디스크에서 빠른 로딩 (캐시된 경우)
+### 캐시 관리
+```python
+def check_model_cached(model_name):
+    """Check if model is already downloaded in HF cache"""
+    from huggingface_hub import scan_cache_dir
+    cache_info = scan_cache_dir()
+    for repo in cache_info.repos:
+        if repo.repo_id == model_name:
+            return True
+    return False
+```
 ## 📝 사용 방법
 ### 1. Space 접속
+https://huggingface.co/spaces/catchitplay/simple-chatbot-gradio
+### 2. 모델 선택
+- 드롭다운에서 원하는 모델 선택
+- 캐시 상태 확인 (💾 캐시됨 / 📥 다운로드 필요)
+- 첫 사용 시 모델 다운로드 (2-14GB, 5-20분)
 ### 3. 대화 시작
 한국의 수도는 ��디인가요?
 ```
+## 💡 모델 선택 가이드
+### 빠른 응답이 필요한 경우
+- **EXAONE 3.5 2.4B** ⚡ (2.2GB) - 가장 빠름
+- **Mistral 7B** (7GB) - 경량 모델
+### 품질 중시
+- **EXAONE 3.5 7.8B** ⭐ (7.3GB) - 효율성 최고
+- **Qwen2.5 14B** (14GB) - 다국어 강점
+- **SOLAR 10.7B** (10GB) - 한국어 특화
+### 최고 성능 (느림)
+- **Llama 3.1 70B** 🔒 (70GB) - 최고 품질
+- **Yi 1.5 34B** (34GB) - 긴 문맥
+### Llama 생태계
+- **Llama-3 Open-Ko 8B** 🔥 (7.5GB)
+- **Llama 3.1 8B** 🔒 (8GB)
 ## 📦 로컬 실행
+### 설치
 ```bash
 # 저장소 클론
+git clone https://github.com/catchitplay/simple-chatbot-gradio.git
 cd simple-chatbot-gradio
+# 가상환경 생성 (권장)
+python -m venv venv
+source venv/bin/activate  # Windows: venv\Scripts\activate
 # 의존성 설치
 pip install -r requirements.txt
+```
+### .env 파일 설정
+```bash
+# .env 파일 생성
+echo "HF_TOKEN=your_hugging_face_token" > .env
+```
+**HF_TOKEN 발급 방법**:
+1. https://huggingface.co/settings/tokens 접속
+2. "New token" 클릭
+3. "Read" 권한 선택
+4. 생성된 토큰 복사
+### 실행
+```bash
 python app.py
 ```
+브라우저에서 http://localhost:7860 접속
+**참고**:
+- 로컬은 CPU/GPU 자동 감지
+- GPU 권장 (CUDA 필요)
+- 첫 실행 시 모델 다운로드 (시간 소요)
 ## 🛠️ 기술 스택
+- **프레임워크**: Gradio 5.49.1
+- **ML 라이브러리**: Transformers 4.57.1, PyTorch 2.9.0
 - **GPU 인프라**: Hugging Face ZeroGPU (선택적)
 - **언어**: Python 3.10+
 ## 📚 Dependencies
 ```txt
+gradio==5.49.1
+transformers==4.57.1
+torch==2.9.0
+safetensors==0.6.2
+sentencepiece==0.2.0
+protobuf==4.25.1
+python-dotenv==1.0.0
 ```
+## 🔒 Gated 모델 사용법
+### 1. 모델 승인 요청
+각 Gated 모델 페이지에서 "Request Access" 클릭:
+- https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct
+- https://huggingface.co/meta-llama/Llama-3.1-70B-Instruct
+- https://huggingface.co/CohereForAI/aya-23-8B
+### 2. HF_TOKEN 설정
+승인 후 HF_TOKEN을 .env 파일에 설정 (위 참조)
+### 3. Space Secrets 설정 (HF Spaces)
+Space Settings → Repository secrets:
+- Name: `HF_TOKEN`
+- Value: `your_token_here`
+## ⚠️ 제한사항
+### 공통
+- **모델 크기**: 2-70GB (로딩 시간 필요)
+- **컨텍스트**: 대화 히스토리 유지
+- **메모리**: 큰 모델은 GPU/고용량 RAM 필요
+### ZeroGPU 전용
+- **일일 한도**: 25분 (PRO 구독)
+- **대기열**: 사용자 많을 경우 대기
+- **PRO 필요**: $9/month 구독 필요
+### CPU Upgrade 전용
+- **느린 속도**: GPU 대비 10-30배 느림
+- **비용**: 시간당 $0.03 ($22/month)
+- **메모리 제약**: 32GB RAM (대형 모델 제약)
 ## 🔗 관련 리소스
+### 모델 카드
+- [EXAONE 3.5](https://huggingface.co/LGAI-EXAONE)
+- [Llama 3 Open-Ko](https://huggingface.co/beomi/Llama-3-Open-Ko-8B)
+- [Qwen2.5](https://huggingface.co/Qwen)
+- [SOLAR](https://huggingface.co/upstage/SOLAR-10.7B-Instruct-v1.0)
+### 문서
 - [ZeroGPU Documentation](https://huggingface.co/docs/hub/spaces-zerogpu)
 - [Gradio Documentation](https://www.gradio.app/docs)
+- [HF Spaces Config](https://huggingface.co/docs/hub/spaces-config-reference)
 - [HF Spaces Pricing](https://huggingface.co/pricing)
 ## 📄 라이선스
 ---
+**💡 TIP**:
+- 빠른 테스트: EXAONE 2.4B ⚡
+- 균형잡힌 성능: EXAONE 7.8B ⭐
+- 최고 품질: Llama 3.1 70B 🔒 (느림)