BrianPark0525 commited on
Commit
17a9459
·
verified ·
1 Parent(s): 0a9eff3

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -8
README.md CHANGED
@@ -1,9 +1,30 @@
1
  ---
2
- license: cc-by-sa-4.0
3
- datasets:
4
- - beomi/KoAlpaca-v1.1a
5
- language:
6
- - ko
7
- - en
8
- pipeline_tag: text-generation
9
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
  ---
2
+ license: apache-2.0
3
+ ---
4
+
5
+ # LLaMA2-70B-Marlin-4bit
6
+
7
+ `DSAiLab/llama2-70b-marlin-4bit`는 Meta의 **LLaMA2-70B** 모델을 기반으로, **GPTQ 양자화**와 **Marlin 커널**을 결합하여 최적화된 4bit 버전입니다.
8
+
9
+ Marlin 커널은 빠른 추론과 적은 메모리 사용량을 목표로 설계된 고성능 디코딩 커널입니다.
10
+
11
+ ## Quantization (GPTQ + Marlin)
12
+
13
+ * **Base Model:** LLaMA2-70B
14
+ * **Quantization Type:** GPTQ 4bit
15
+ * **Kernel:** Marlin (CUDA 최적화)
16
+ * **Group Size:** 128
17
+ * **Activation Ordering:** Enabled
18
+ * **Format:** GPTQ with Marlin kernel
19
+ * **지원 환경:**
20
+
21
+ * `AutoGPTQ` (Marlin backend)
22
+ * `vLLM`
23
+
24
+ ## 특징
25
+
26
+ * **고속 추론:** Marlin 커널을 활용해 일반 GPTQ보다 낮은 latency와 빠른 디코딩 속도 제공
27
+ * **메모리 최적화:** 동일한 70B 모델을 더 적은 VRAM으로 실행 가능
28
+ * **추론 성능:** 정확도 손실 최소화, 특히 대규모 텍스트 생성 및 RAG용도에 적합
29
+ * **권장 VRAM:** 최소 2×A100 80GB 또는 1×H100 환경
30
+