Spaces:

alex4cip
/

simple-chat

Sleeping

App Files Files Community

simple-chat / README.md

alex4cip

feat: Add flexible PyTorch installation for local vs HF Spaces

51c066f about 1 month ago

preview code

raw

history blame

8.43 kB

metadata

title: Multi-Model Korean LLM Chatbot
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: false
license: mit

🤖 Multi-Model Korean LLM Chatbot

13개의 다양한 한국어 LLM 모델을 선택하여 대화할 수 있는 멀티모델 챗봇입니다. ZeroGPU와 CPU Upgrade 하드웨어를 모두 지원합니다.

✨ 주요 특징

🎯 13개 모델 선택: 다양한 크기와 특성의 LLM 모델 지원
🇰🇷 한글 최적화: 한국어 성능이 우수한 모델들로 구성
⚡ 유연한 하드웨어: ZeroGPU/CPU Upgrade 자동 감지
💾 캐시 시스템: 모델 재다운로드 방지, 빠른 로딩
🔄 Lazy Loading: 선택한 모델만 로드하여 리소스 절약

🎯 지원 모델 (13개)

🌟 추천 한국어 모델

모델	크기	특징	상태
EXAONE 3.5 7.8B	7.3GB	⭐ 파라미터 대비 최고 효율	Public
EXAONE 3.5 2.4B	2.2GB	⚡ 초경량, 빠른 응답	Public
Llama-3 Open-Ko 8B	7.5GB	🔥 Llama 3 생태계	Public

📚 전체 모델 목록

Public 모델 (10개)

LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct
beomi/Llama-3-Open-Ko-8B
Qwen/Qwen2.5-7B-Instruct
Qwen/Qwen2.5-14B-Instruct
01-ai/Yi-1.5-9B-Chat
01-ai/Yi-1.5-34B-Chat
mistralai/Mistral-7B-Instruct-v0.3
upstage/SOLAR-10.7B-Instruct-v1.0
EleutherAI/polyglot-ko-5.8b

Gated 모델 (3개) 🔒

meta-llama/Llama-3.1-8B-Instruct
meta-llama/Llama-3.1-70B-Instruct
CohereForAI/aya-23-8B

참고: Gated 모델은 Hugging Face에서 별도 승인 필요

🚀 하드웨어 옵션

Option 1: ZeroGPU (추천)

장점:

⚡ 빠른 응답 (3-10초)
💰 저렴한 비용 ($9/month)
🔋 자동 GPU 할당/해제

제약:

하루 25분 무료 사용 (PRO 구독 필요)
대기열 가능 (사용자 많을 경우)

비용: $9/month (PRO 구독)

Option 2: CPU Upgrade

장점:

⏰ 무제한 사용
📊 예측 가능한 성능
🔧 간단한 설정

제약:

🐢 느린 응답 (15초~2분)
💵 상대적으로 비싼 비용

비용: $0.03/hour (월 약 $22)

⚙️ 하드웨어 설정 방법

ZeroGPU로 변경

Space Settings → Hardware
ZeroGPU 선택
Confirm
빌드 완료 대기 (1-2분)

→ UI에 "ZeroGPU" 표시 확인

CPU Upgrade로 변경

Space Settings → Hardware
CPU Upgrade (8 vCPU / 32 GB) 선택
Confirm
빌드 완료 대기 (1-2분)

→ UI에 "CPU Upgrade" 표시 확인

📊 성능 비교

항목	ZeroGPU	CPU Upgrade
첫 응답	10-20초	1-3분
이후 응답	3-10초	15초~2분
일일 한도	25분	무제한
월 비용	$9	$22
GPU	H200 (70GB)	없음
RAM	-	32GB

🔧 기술 구조

자동 하드웨어 감지

# ZeroGPU 사용 가능 여부 자동 감지
try:
    import spaces
    ZEROGPU_AVAILABLE = True
except ImportError:
    ZEROGPU_AVAILABLE = False

# 조건부 decorator 적용
if ZEROGPU_AVAILABLE:
    @spaces.GPU(duration=120)
    def generate_response(messages):
        return generate_response_impl(messages)
else:
    def generate_response(messages):
        return generate_response_impl(messages)

Lazy Loading 시스템

선택한 모델만 메모리에 로드
모델 전환 시 이전 모델 자동 언로드
캐시 확인으로 재다운로드 방지
디스크에서 빠른 로딩 (캐시된 경우)

캐시 관리

def check_model_cached(model_name):
    """Check if model is already downloaded in HF cache"""
    from huggingface_hub import scan_cache_dir
    cache_info = scan_cache_dir()

    for repo in cache_info.repos:
        if repo.repo_id == model_name:
            return True
    return False

📝 사용 방법

1. Space 접속

https://huggingface.co/spaces/catchitplay/simple-chatbot-gradio

2. 모델 선택

드롭다운에서 원하는 모델 선택
캐시 상태 확인 (💾 캐시됨 / 📥 다운로드 필요)
첫 사용 시 모델 다운로드 (2-14GB, 5-20분)

3. 대화 시작

안녕하세요
인공지능에 대해 설명해주세요
한국의 수도는 어디인가요?

💡 모델 선택 가이드

빠른 응답이 필요한 경우

EXAONE 3.5 2.4B ⚡ (2.2GB) - 가장 빠름
Mistral 7B (7GB) - 경량 모델

품질 중시

EXAONE 3.5 7.8B ⭐ (7.3GB) - 효율성 최고
Qwen2.5 14B (14GB) - 다국어 강점
SOLAR 10.7B (10GB) - 한국어 특화

최고 성능 (느림)

Llama 3.1 70B 🔒 (70GB) - 최고 품질
Yi 1.5 34B (34GB) - 긴 문맥

Llama 생태계

Llama-3 Open-Ko 8B 🔥 (7.5GB)
Llama 3.1 8B 🔒 (8GB)

📦 로컬 실행

설치

# 저장소 클론
git clone https://github.com/catchitplay/simple-chatbot-gradio.git
cd simple-chatbot-gradio

# 가상환경 생성 (권장)
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# 의존성 설치 (3가지 방법)

방법 1: 로컬 전용 requirements (권장)

pip install -r requirements-local.txt
# 최신 PyTorch 버전 사용 (ZeroGPU 제약 없음)

방법 2: 자동 환경 감지 설치

python setup.py
# 환경을 자동 감지하고 적절한 버전 설치

방법 3: HF Spaces용 requirements

pip install -r requirements.txt
# PyTorch 2.2.0 (ZeroGPU 호환)

.env 파일 설정

# .env 파일 생성
echo "HF_TOKEN=your_hugging_face_token" > .env

HF_TOKEN 발급 방법:

https://huggingface.co/settings/tokens 접속
"New token" 클릭
"Read" 권한 선택
생성된 토큰 복사

실행

python app.py

브라우저에서 http://localhost:7860 접속

참고:

로컬은 CPU/GPU 자동 감지
GPU 권장 (CUDA 필요)
첫 실행 시 모델 다운로드 (시간 소요)

🛠️ 기술 스택

프레임워크: Gradio 5.49.1
ML 라이브러리: Transformers 4.57.1, PyTorch 2.2.0 (ZeroGPU 호환)
GPU 인프라: Hugging Face ZeroGPU (선택적)
언어: Python 3.10+

📚 Dependencies

gradio==5.49.1
transformers==4.57.1
torch==2.2.0  # ZeroGPU compatible (supports 2.0.0-2.2.0)
safetensors==0.6.2
accelerate==0.26.1
sentencepiece==0.2.0
protobuf==4.25.1
huggingface-hub>=0.19.0
python-dotenv==1.0.0
spaces  # ZeroGPU support

🔒 Gated 모델 사용법

1. 모델 승인 요청

각 Gated 모델 페이지에서 "Request Access" 클릭:

2. HF_TOKEN 설정

승인 후 HF_TOKEN을 .env 파일에 설정 (위 참조)

3. Space Secrets 설정 (HF Spaces)

Space Settings → Repository secrets:

Name: HF_TOKEN
Value: your_token_here

⚠️ 제한사항

공통

모델 크기: 2-70GB (로딩 시간 필요)
컨텍스트: 대화 히스토리 유지
메모리: 큰 모델은 GPU/고용량 RAM 필요

ZeroGPU 전용

일일 한도: 25분 (PRO 구독)
대기열: 사용자 많을 경우 대기
PRO 필요: $9/month 구독 필요

CPU Upgrade 전용

느린 속도: GPU 대비 10-30배 느림
비용: 시간당 $0.03 ($22/month)
메모리 제약: 32GB RAM (대형 모델 제약)

🔗 관련 리소스

모델 카드

문서

📄 라이선스

MIT License

🙋‍♂️ 문의

이슈나 질문이 있으시면 GitHub Issues를 통해 문의해주세요.

💡 TIP:

빠른 테스트: EXAONE 2.4B ⚡
균형잡힌 성능: EXAONE 7.8B ⭐
최고 품질: Llama 3.1 70B 🔒 (느림)