YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
sk-a.x-4.0-light-8bit
모델 설명
이 모델은 SK Telecom의 A.X-4.0-Light를 8-bit로 양자화한 버전입니다.
모델 정보
- 베이스 모델: skt/A.X-4.0-Light
- 양자화: 8-bit (BitsAndBytesConfig)
- 모델 크기: ~13.5GB
- 메모리 절약: 원본 대비 약 50% 감소
사용법
기본 사용
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch
# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("kimssai/sk-a.x-4.0-light-8bit")
# 양자화 설정
quantization_config = BitsAndBytesConfig(
load_in_8bit=True,
llm_int8_threshold=6.0,
llm_int8_has_fp16_weight=False
)
# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
"kimssai/sk-a.x-4.0-light-8bit",
quantization_config=quantization_config,
device_map="auto",
torch_dtype=torch.float16,
trust_remote_code=True
)
# 텍스트 생성
prompt = "안녕하세요!"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)
LoRA 어댑터와 함께 사용
from peft import PeftModel
# LoRA 어댑터 로드
model = PeftModel.from_pretrained(model, "path/to/lora/adapter")
양자화 설정
- llm_int8_threshold: 6.0
- llm_int8_has_fp16_weight: False
- skip_modules: ["lm_head", "embed_tokens"]
시스템 요구사항
- GPU 메모리: 최소 14GB
- Python: 3.8+
- PyTorch: 2.0+
- Transformers: 4.35+
- BitsAndBytesConfig: 0.41+
라이선스
베이스 모델의 라이선스를 따릅니다.
주의사항
- 이 모델은 8-bit 양자화되어 있어 원본 모델과 약간의 성능 차이가 있을 수 있습니다.
- GPU 환경에서의 사용을 권장합니다.
- Downloads last month
- 3
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support