feat: add Gemma 4 E2B Q4_0 preset (Metal-friendly 4-bit variant)
Browse files- src/kpaa/llm/presets.py +13 -1
src/kpaa/llm/presets.py
CHANGED
|
@@ -31,13 +31,25 @@ PRESETS: list[ModelPreset] = [
|
|
| 31 |
ModelPreset(
|
| 32 |
id="gemma-4-e2b",
|
| 33 |
label="Gemma 4 E2B (기본·균형)",
|
| 34 |
-
short="2B 유효 ·
|
| 35 |
llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
|
| 36 |
llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
|
| 37 |
hf_repo="google/gemma-4-E2B-it",
|
| 38 |
family="gemma",
|
| 39 |
is_default=True,
|
| 40 |
),
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 41 |
ModelPreset(
|
| 42 |
id="qwen2.5-1.5b",
|
| 43 |
label="Qwen2.5 1.5B Instruct (가장 빠름)",
|
|
|
|
| 31 |
ModelPreset(
|
| 32 |
id="gemma-4-e2b",
|
| 33 |
label="Gemma 4 E2B (기본·균형)",
|
| 34 |
+
short="2B 유효 · Q4_K_M (K-quant 균형형) · 한국어 안정",
|
| 35 |
llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
|
| 36 |
llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
|
| 37 |
hf_repo="google/gemma-4-E2B-it",
|
| 38 |
family="gemma",
|
| 39 |
is_default=True,
|
| 40 |
),
|
| 41 |
+
ModelPreset(
|
| 42 |
+
# Q4_K_M(K-quant 균형형) 과 같은 4-bit 그룹이지만 RTN(round-to-nearest)
|
| 43 |
+
# 방식의 *전통* Q4_0. Apple Silicon Metal 커널이 Q4_0 에 최적화돼 있어
|
| 44 |
+
# 같은 가중치라도 *조금 더 빠르고* 메모리 ↓. 품질은 Q4_K_M 대비 약간 낮음.
|
| 45 |
+
id="gemma-4-e2b-q4_0",
|
| 46 |
+
label="Gemma 4 E2B Q4_0 (4-bit·빠름)",
|
| 47 |
+
short="2B 유효 · 전통 Q4_0 · Metal 가속 잘 받음 · 품질 살짝 ↓",
|
| 48 |
+
llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
|
| 49 |
+
llama_cpp_file="google_gemma-4-E2B-it-Q4_0.gguf",
|
| 50 |
+
hf_repo="google/gemma-4-E2B-it",
|
| 51 |
+
family="gemma",
|
| 52 |
+
),
|
| 53 |
ModelPreset(
|
| 54 |
id="qwen2.5-1.5b",
|
| 55 |
label="Qwen2.5 1.5B Instruct (가장 빠름)",
|