YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

sk-a.x-4.0-light-8bit

모델 설명

이 모델은 SK Telecom의 A.X-4.0-Light를 8-bit로 양자화한 버전입니다.

모델 정보

  • 베이스 모델: skt/A.X-4.0-Light
  • 양자화: 8-bit (BitsAndBytesConfig)
  • 모델 크기: ~13.5GB
  • 메모리 절약: 원본 대비 약 50% 감소

사용법

기본 사용

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

# 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained("kimssai/sk-a.x-4.0-light-8bit")

# 양자화 설정
quantization_config = BitsAndBytesConfig(
    load_in_8bit=True,
    llm_int8_threshold=6.0,
    llm_int8_has_fp16_weight=False
)

# 모델 로드
model = AutoModelForCausalLM.from_pretrained(
    "kimssai/sk-a.x-4.0-light-8bit",
    quantization_config=quantization_config,
    device_map="auto",
    torch_dtype=torch.float16,
    trust_remote_code=True
)

# 텍스트 생성
prompt = "안녕하세요!"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100)
response = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(response)

LoRA 어댑터와 함께 사용

from peft import PeftModel

# LoRA 어댑터 로드
model = PeftModel.from_pretrained(model, "path/to/lora/adapter")

양자화 설정

  • llm_int8_threshold: 6.0
  • llm_int8_has_fp16_weight: False
  • skip_modules: ["lm_head", "embed_tokens"]

시스템 요구사항

  • GPU 메모리: 최소 14GB
  • Python: 3.8+
  • PyTorch: 2.0+
  • Transformers: 4.35+
  • BitsAndBytesConfig: 0.41+

라이선스

베이스 모델의 라이선스를 따릅니다.

주의사항

  • 이 모델은 8-bit 양자화되어 있어 원본 모델과 약간의 성능 차이가 있을 수 있습니다.
  • GPU 환경에서의 사용을 권장합니다.
Downloads last month
3
Safetensors
Model size
7B params
Tensor type
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support