LLaMA2-70B-GPTQ-4bit-32g

본 모델은 Meta의 LLaMA2-70B 모델을 기반으로 GPTQ 방식으로 4bit 양자화된 버전입니다.

Quantization (GPTQ)

  • Base Model: LLaMA2-70B
  • Quantization Type: GPTQ 4bit
  • Group Size: 32
  • Bits: 4bit (int4)
  • Activation Ordering: Enabled
  • Quantization Format: AutoGPTQ compatible
  • 지원 프레임워크: vLLM, SGLang

특징

  • 대규모 언어 모델의 성능을 대부분 유지하면서, 실행 속도와 메모리 효율을 크게 개선
  • 양자화로 인한 정확도 손실은 제한적이며, 추론 시간 및 배포 용이성 향상
  • 연구/실험 및 대화형 시스템에 적합
Downloads last month
1
Safetensors
Model size
69B params
Tensor type
I32
·
BF16
·
F16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support