Spaces:

alex4cip
/

simple-chat

Sleeping

App Files Files Community

simple-chat / README.md

alex4cip

feat: Add systemd service for automatic startup on Linux

1a8caac about 2 months ago

preview code

raw

history blame

12.2 kB

metadata

title: Multi-Model Korean LLM Chatbot
emoji: 🤖
colorFrom: blue
colorTo: purple
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: false
license: mit

🤖 Multi-Model Korean LLM Chatbot

13개의 다양한 한국어 LLM 모델을 선택하여 대화할 수 있는 멀티모델 챗봇입니다. ZeroGPU와 CPU Upgrade 하드웨어를 모두 지원합니다.

✨ 주요 특징

🎯 13개 모델 선택: 다양한 크기와 특성의 LLM 모델 지원
🇰🇷 한글 최적화: 한국어 성능이 우수한 모델들로 구성
⚡ 유연한 하드웨어: ZeroGPU/CPU Upgrade 자동 감지
💾 캐시 시스템: 모델 재다운로드 방지, 빠른 로딩
🔄 Lazy Loading: 선택한 모델만 로드하여 리소스 절약

🎯 지원 모델 (13개)

🌟 추천 한국어 모델

모델	크기	특징	상태
EXAONE 3.5 7.8B	7.3GB	⭐ 파라미터 대비 최고 효율	Public
EXAONE 3.5 2.4B	2.2GB	⚡ 초경량, 빠른 응답	Public
Llama-3 Open-Ko 8B	7.5GB	🔥 Llama 3 생태계	Public

📚 전체 모델 목록

Public 모델 (10개)

LGAI-EXAONE/EXAONE-3.5-7.8B-Instruct
LGAI-EXAONE/EXAONE-3.5-2.4B-Instruct
beomi/Llama-3-Open-Ko-8B
Qwen/Qwen2.5-7B-Instruct
Qwen/Qwen2.5-14B-Instruct
01-ai/Yi-1.5-9B-Chat
01-ai/Yi-1.5-34B-Chat
mistralai/Mistral-7B-Instruct-v0.3
upstage/SOLAR-10.7B-Instruct-v1.0
EleutherAI/polyglot-ko-5.8b

Gated 모델 (3개) 🔒

meta-llama/Llama-3.1-8B-Instruct
meta-llama/Llama-3.1-70B-Instruct
CohereForAI/aya-23-8B

참고: Gated 모델은 Hugging Face에서 별도 승인 필요

🚀 하드웨어 옵션

Option 1: ZeroGPU (추천)

장점:

⚡ 빠른 응답 (3-10초)
💰 저렴한 비용 ($9/month)
🔋 자동 GPU 할당/해제

제약:

하루 25분 무료 사용 (PRO 구독 필요)
대기열 가능 (사용자 많을 경우)

비용: $9/month (PRO 구독)

Option 2: CPU Upgrade

장점:

⏰ 무제한 사용
📊 예측 가능한 성능
🔧 간단한 설정

제약:

🐢 느린 응답 (15초~2분)
💵 상대적으로 비싼 비용

비용: $0.03/hour (월 약 $22)

⚙️ 하드웨어 설정 방법

ZeroGPU로 변경

Space Settings → Hardware
ZeroGPU 선택
Confirm
빌드 완료 대기 (1-2분)

→ UI에 "ZeroGPU" 표시 확인

CPU Upgrade로 변경

Space Settings → Hardware
CPU Upgrade (8 vCPU / 32 GB) 선택
Confirm
빌드 완료 대기 (1-2분)

→ UI에 "CPU Upgrade" 표시 확인

📊 성능 비교

항목	ZeroGPU	CPU Upgrade
첫 응답	10-20초	1-3분
이후 응답	3-10초	15초~2분
일일 한도	25분	무제한
월 비용	$9	$22
GPU	H200 (70GB)	없음
RAM	-	32GB

🔧 기술 구조

자동 하드웨어 감지

# ZeroGPU 사용 가능 여부 자동 감지
try:
    import spaces
    ZEROGPU_AVAILABLE = True
except ImportError:
    ZEROGPU_AVAILABLE = False

# 조건부 decorator 적용
if ZEROGPU_AVAILABLE:
    @spaces.GPU(duration=120)
    def generate_response(messages):
        return generate_response_impl(messages)
else:
    def generate_response(messages):
        return generate_response_impl(messages)

Lazy Loading 시스템

선택한 모델만 메모리에 로드
모델 전환 시 이전 모델 자동 언로드
캐시 확인으로 재다운로드 방지
디스크에서 빠른 로딩 (캐시된 경우)

캐시 관리

def check_model_cached(model_name):
    """Check if model is already downloaded in HF cache"""
    from huggingface_hub import scan_cache_dir
    cache_info = scan_cache_dir()

    for repo in cache_info.repos:
        if repo.repo_id == model_name:
            return True
    return False

📝 사용 방법

1. Space 접속

https://huggingface.co/spaces/catchitplay/simple-chatbot-gradio

2. 모델 선택

드롭다운에서 원하는 모델 선택
캐시 상태 확인 (💾 캐시됨 / 📥 다운로드 필요)
첫 사용 시 모델 다운로드 (2-14GB, 5-20분)

3. 대화 시작

안녕하세요
인공지능에 대해 설명해주세요
한국의 수도는 어디인가요?

💡 모델 선택 가이드

빠른 응답이 필요한 경우

EXAONE 3.5 2.4B ⚡ (2.2GB) - 가장 빠름
Mistral 7B (7GB) - 경량 모델

품질 중시

EXAONE 3.5 7.8B ⭐ (7.3GB) - 효율성 최고
Qwen2.5 14B (14GB) - 다국어 강점
SOLAR 10.7B (10GB) - 한국어 특화

최고 성능 (느림)

Llama 3.1 70B 🔒 (70GB) - 최고 품질
Yi 1.5 34B (34GB) - 긴 문맥

Llama 생태계

Llama-3 Open-Ko 8B 🔥 (7.5GB)
Llama 3.1 8B 🔒 (8GB)

📦 로컬 실행

설치

# 저장소 클론
git clone https://github.com/catchitplay/simple-chatbot-gradio.git
cd simple-chatbot-gradio

# 가상환경 생성 (권장)
python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

# 의존성 설치 (3가지 방법)

방법 1: 로컬 전용 requirements (권장)

pip install -r requirements-local.txt
# 최신 PyTorch 버전 사용 (ZeroGPU 제약 없음)

방법 2: 자동 환경 감지 설치

python setup.py
# 환경을 자동 감지하고 적절한 버전 설치

방법 3: HF Spaces용 requirements

pip install -r requirements.txt
# PyTorch 2.2.0 (ZeroGPU 호환)

.env 파일 설정

# .env 파일 생성
echo "HF_TOKEN=your_hugging_face_token" > .env

HF_TOKEN 발급 방법:

https://huggingface.co/settings/tokens 접속
"New token" 클릭
"Read" 권한 선택
생성된 토큰 복사

실행

python app.py

브라우저에서 http://0.0.0.0:7860 접속 (또는 http://localhost:7860)

참고:

로컬은 CPU/GPU 자동 감지
GPU 권장 (CUDA 필요)
첫 실행 시 모델 다운로드 (시간 소요)

리눅스 시스템 서비스로 설치 (자동 시작)

서버 부팅 시 챗봇을 자동으로 실행하려면 systemd 서비스로 설치할 수 있습니다.

1. 설치 스크립트 실행

# 프로젝트 디렉토리에서 실행
sudo ./install-service.sh

설치 스크립트가 자동으로:

현재 사용자와 디렉토리 경로를 감지
systemd 서비스 파일을 /etc/systemd/system/chatbot.service에 설치
로그 파일 생성 (/var/log/chatbot.log, /var/log/chatbot-error.log)
부팅 시 자동 시작 활성화
서비스 즉시 시작 여부 확인

2. 서비스 관리 명령어

# 서비스 시작
sudo systemctl start chatbot

# 서비스 중지
sudo systemctl stop chatbot

# 서비스 재시작
sudo systemctl restart chatbot

# 서비스 상태 확인
sudo systemctl status chatbot

# 실시간 로그 보기
sudo journalctl -u chatbot -f

# 애플리케이션 로그 보기
tail -f /var/log/chatbot.log

# 에러 로그 보기
tail -f /var/log/chatbot-error.log

# 부팅 시 자동 시작 활성화
sudo systemctl enable chatbot

# 부팅 시 자동 시작 비활성화
sudo systemctl disable chatbot

3. 서비스 삭제

서비스를 완전히 제거하려면:

# 서비스 중지 및 비활성화
sudo systemctl stop chatbot
sudo systemctl disable chatbot

# 서비스 파일 삭제
sudo rm /etc/systemd/system/chatbot.service

# systemd 데몬 재로드
sudo systemctl daemon-reload

# 로그 파일 삭제 (선택사항)
sudo rm /var/log/chatbot.log /var/log/chatbot-error.log

4. 주의사항

가상환경 필수: 서비스 설치 전에 venv 디렉토리가 존재해야 합니다
포트 충돌: 기존 프로세스가 7860 포트를 사용 중이면 서비스가 시작되지 않습니다
권한: 설치 스크립트는 반드시 sudo로 실행해야 합니다
재시작: 앱 코드 변경 후에는 sudo systemctl restart chatbot 실행 필요
로그 확인: 문제 발생 시 로그 파일을 먼저 확인하세요

5. 수동 서비스 설정 (고급)

자동 설치 스크립트 대신 수동으로 설정하려면:

# 1. chatbot.service 파일 편집
sudo nano /etc/systemd/system/chatbot.service

# 2. 다음 내용 입력 (경로와 사용자명 수정 필요)
[Unit]
Description=Multi-Model Chatbot Gradio Service
After=network.target

[Service]
Type=simple
User=YOUR_USERNAME
WorkingDirectory=/path/to/simple-chatbot-gradio
Environment="PATH=/path/to/simple-chatbot-gradio/venv/bin:/usr/bin:/bin"
ExecStart=/path/to/simple-chatbot-gradio/venv/bin/python app.py
Restart=on-failure
RestartSec=10
StandardOutput=append:/var/log/chatbot.log
StandardError=append:/var/log/chatbot-error.log

[Install]
WantedBy=multi-user.target

# 3. 로그 파일 생성
sudo touch /var/log/chatbot.log /var/log/chatbot-error.log
sudo chown YOUR_USERNAME:YOUR_USERNAME /var/log/chatbot.log /var/log/chatbot-error.log

# 4. systemd 데몬 재로드 및 서비스 활성화
sudo systemctl daemon-reload
sudo systemctl enable chatbot
sudo systemctl start chatbot

6. 트러블슈팅

서비스가 시작되지 않는 경우:

# 서비스 상태 확인
sudo systemctl status chatbot

# 에러 로그 확인
sudo journalctl -u chatbot -n 50

# 수동 실행으로 에러 확인
cd /path/to/simple-chatbot-gradio
source venv/bin/activate
python app.py

포트가 이미 사용 중인 경우:

# 포트 7860을 사용하는 프로세스 확인
sudo lsof -i :7860

# 프로세스 종료 (PID 확인 후)
sudo kill -9 <PID>

가상환경 경로 문제:

# 가상환경 재생성
python -m venv venv
source venv/bin/activate
pip install -r requirements-local.txt

🛠️ 기술 스택

프레임워크: Gradio 5.49.1
ML 라이브러리: Transformers 4.57.1, PyTorch 2.2.0 (ZeroGPU 호환)
GPU 인프라: Hugging Face ZeroGPU (선택적)
언어: Python 3.10+

📚 Dependencies

gradio==5.49.1
transformers==4.57.1
torch==2.2.0  # ZeroGPU compatible (supports 2.0.0-2.2.0)
safetensors==0.6.2
accelerate==0.26.1
sentencepiece==0.2.0
protobuf==4.25.1
huggingface-hub>=0.19.0
python-dotenv==1.0.0
spaces  # ZeroGPU support

🔒 Gated 모델 사용법

1. 모델 승인 요청

각 Gated 모델 페이지에서 "Request Access" 클릭:

2. HF_TOKEN 설정

승인 후 HF_TOKEN을 .env 파일에 설정 (위 참조)

3. Space Secrets 설정 (HF Spaces)

Space Settings → Repository secrets:

Name: HF_TOKEN
Value: your_token_here

⚠️ 제한사항

공통

모델 크기: 2-70GB (로딩 시간 필요)
컨텍스트: 대화 히스토리 유지
메모리: 큰 모델은 GPU/고용량 RAM 필요

ZeroGPU 전용

일일 한도: 25분 (PRO 구독)
대기열: 사용자 많을 경우 대기
PRO 필요: $9/month 구독 필요

CPU Upgrade 전용

느린 속도: GPU 대비 10-30배 느림
비용: 시간당 $0.03 ($22/month)
메모리 제약: 32GB RAM (대형 모델 제약)

🔗 관련 리소스

모델 카드

문서

📄 라이선스

MIT License

🙋‍♂️ 문의

이슈나 질문이 있으시면 GitHub Issues를 통해 문의해주세요.

💡 TIP:

빠른 테스트: EXAONE 2.4B ⚡
균형잡힌 성능: EXAONE 7.8B ⭐
최고 품질: Llama 3.1 70B 🔒 (느림)