bl_0to1_v1-merged - 데이터 분석 특화 한국어 모델 (Merged 버전)
📊 모델 소개
bl_0to1_v1-merged는 unsloth/gpt-oss-20b를 기반으로 데이터 분석 및 MLOps 태스크에 특화되도록 파인튜닝된 한국어 모델입니다.
이 버전은 LoRA 어댑터가 베이스 모델에 병합(merge)된 전체 모델입니다. 별도의 어댑터 로딩 없이 바로 사용할 수 있습니다.
LoRA 어댑터 버전: lee-monster/bl_0to1_v1
🎯 주요 특징
- 모델명: bl_0to1_v1-merged
- 베이스 모델: unsloth/gpt-oss-20b (20B 파라미터)
- 훈련 방법: LoRA (Low-Rank Adaptation) → Merged
- 특화 분야: 데이터 분석, MLOps 컨설팅
- 학습 데이터:
- KOREAson/YiSang-HighQuality
- 자체 생성 데이터 (Custom Generated Dataset)
- 언어: 한국어 (Korean)
- 라이선스: Apache 2.0
🚀 사용 방법
Merged 모델 로드 (권장)
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch
# Merged 모델 직접 로드 (어댑터 불필요)
model = AutoModelForCausalLM.from_pretrained(
"lee-monster/bl_0to1_v1-full",
torch_dtype=torch.float16,
device_map="auto",
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("lee-monster/bl_0to1_v1-full")
4bit 양자화 로드 (메모리 절약)
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch
# 4bit 양자화 설정
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4",
bnb_4bit_compute_dtype=torch.float16,
bnb_4bit_use_double_quant=True,
)
model = AutoModelForCausalLM.from_pretrained(
"lee-monster/bl_0to1_v1-full",
quantization_config=bnb_config,
device_map="auto",
trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("lee-monster/bl_0to1_v1-full")
사용 예시
messages = [
{"role": "system", "content": "당신은 시니어 데이터 분석가입니다."},
{"role": "user", "content": "리뷰데이터를 활용한 텍스트 분석을 통한 경쟁사 대비 차별성을 도출하려면 어떻게 분석해야해?"}
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt",
return_dict=True
).to(model.device)
with torch.no_grad():
outputs = model.generate(
**inputs,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.9,
pad_token_id=tokenizer.eos_token_id
)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
📊 훈련 정보
- 베이스 모델: unsloth/gpt-oss-20b-unsloth-bnb-4bit
- 훈련 스텝: 30 steps
- LoRA Rank: 8
- LoRA Alpha: 16
- 타겟 모듈: q_proj, k_proj, v_proj, o_proj, gate_proj, up_proj, down_proj
- 학습 데이터:
- KOREAson/YiSang-HighQuality (283k samples)
- 자체 생성 데이터 (Custom Generated Dataset)
🎓 활용 분야
이 모델은 다음 분야에서 우수한 성능을 보입니다:
📊 데이터 분석 (Data Analysis)
- 통계적 분석 및 해석
- 데이터 시각화 전략 수립
- A/B 테스트 설계 및 분석
- 예측 모델링 및 머신러닝 파이프라인 구축
🔧 MLOps 컨설팅
- ML 파이프라인 설계 및 최적화
- 모델 배포 전략 수립
- 모니터링 및 성능 관리
- CI/CD 파이프라인 구축
🧮 수학적 문제 해결
- 복잡한 수학 문제 분석
- 알고리즘적 사고 지원
- 논리적 추론 및 증명
💼 비즈니스 인사이트
- 데이터 기반 의사결정 지원
- KPI 분석 및 해석
- 비즈니스 메트릭 최적화
💻 시스템 요구사항
| 로드 방식 | GPU 메모리 | 비고 |
|---|---|---|
| FP16 전체 | ~40GB | A100 권장 |
| 4bit 양자화 | ~12GB | RTX 3080Ti 이상 |
| 8bit 양자화 | ~20GB | RTX 4090 이상 |
- 시스템 RAM: 최소 32GB
- Python: 3.8+
- 주요 라이브러리: transformers, torch, bitsandbytes (4bit 사용시)
⚠️ 주의사항
- 데이터 분석 특화: 이 모델은 데이터 분석 및 MLOps 태스크에 최적화되어 있습니다.
- 한국어 중심: 한국어 외의 언어에서는 성능이 제한적일 수 있습니다.
- 검증 필요: 생성된 분석 결과는 항상 검토하고 검증이 필요합니다.
- 윤리적 사용: 데이터 프라이버시와 윤리를 준수하여 사용해주세요.
🔗 관련 링크
- LoRA 어댑터 버전: lee-monster/bl_0to1_v1
- 베이스 모델: unsloth/gpt-oss-20b
- 학습 데이터: KOREAson/YiSang-HighQuality
📜 라이선스
이 모델은 Apache 2.0 라이선스로 배포됩니다.
📝 데이터셋 정보
- 주요 데이터셋: KOREAson/YiSang-HighQuality (283k samples)
- 추가 데이터: 자체 생성한 데이터 분석 및 MLOps 관련 데이터
- 데이터 형식: Instruction-Response 쌍
🙏 Acknowledgements
- OpenAI gpt-oss
- Unsloth
- KOREAson/YiSang-HighQuality
- Downloads last month
- 31