Spaces:

scvcoder
/

kpaa

Paused

scvcoder commited on May 2

Commit

2b7fc6c

verified ·

1 Parent(s): 686f69a

feat: add Gemma 4 E2B Q4_0 preset (Metal-friendly 4-bit variant)

Files changed (1) hide show

src/kpaa/llm/presets.py CHANGED Viewed

@@ -31,13 +31,25 @@ PRESETS: list[ModelPreset] = [
     ModelPreset(
         id="gemma-4-e2b",
         label="Gemma 4 E2B (기본·균형)",
-        short="2B 유효 · 한국어 자연스러움 · 인용 포맷 안정",
         llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
         llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
         hf_repo="google/gemma-4-E2B-it",
         family="gemma",
         is_default=True,
     ),
     ModelPreset(
         id="qwen2.5-1.5b",
         label="Qwen2.5 1.5B Instruct (가장 빠름)",

     ModelPreset(
         id="gemma-4-e2b",
         label="Gemma 4 E2B (기본·균형)",
+        short="2B 유효 · Q4_K_M (K-quant 균형형) · 한국어 안정",
         llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
         llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
         hf_repo="google/gemma-4-E2B-it",
         family="gemma",
         is_default=True,
     ),
+    ModelPreset(
+        # Q4_K_M(K-quant 균형형) 과 같은 4-bit 그룹이지만 RTN(round-to-nearest)
+        # 방식의 *전통* Q4_0. Apple Silicon Metal 커널이 Q4_0 에 최적화돼 있어
+        # 같은 가중치라도 *조금 더 빠르고* 메모리 ↓. 품질은 Q4_K_M 대비 약간 낮음.
+        id="gemma-4-e2b-q4_0",
+        label="Gemma 4 E2B Q4_0 (4-bit·빠름)",
+        short="2B 유효 · 전통 Q4_0 · Metal 가속 잘 받음 · 품질 살짝 ↓",
+        llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
+        llama_cpp_file="google_gemma-4-E2B-it-Q4_0.gguf",
+        hf_repo="google/gemma-4-E2B-it",
+        family="gemma",
+    ),
     ModelPreset(
         id="qwen2.5-1.5b",
         label="Qwen2.5 1.5B Instruct (가장 빠름)",