Update README.md
Browse files
README.md
CHANGED
|
@@ -15,8 +15,7 @@ Marlin 커널은 빠른 추론과 적은 메모리 사용량을 목표로 설계
|
|
| 15 |
* **Group Size:** 128
|
| 16 |
* **Activation Ordering:** Enabled
|
| 17 |
* **Format:** GPTQ with Marlin kernel
|
| 18 |
-
* **
|
| 19 |
-
* **지원 프레임워크:** ExLlama, vLLM, SGLang
|
| 20 |
|
| 21 |
## 특징
|
| 22 |
* **고속 추론:** Marlin 커널을 활용해 일반 GPTQ보다 낮은 latency와 빠른 디코딩 속도 제공
|
|
|
|
| 15 |
* **Group Size:** 128
|
| 16 |
* **Activation Ordering:** Enabled
|
| 17 |
* **Format:** GPTQ with Marlin kernel
|
| 18 |
+
* **지원 프레임워크:** vLLM, SGLang
|
|
|
|
| 19 |
|
| 20 |
## 특징
|
| 21 |
* **고속 추론:** Marlin 커널을 활용해 일반 GPTQ보다 낮은 latency와 빠른 디코딩 속도 제공
|