scvcoder commited on
Commit
2b7fc6c
·
verified ·
1 Parent(s): 686f69a

feat: add Gemma 4 E2B Q4_0 preset (Metal-friendly 4-bit variant)

Browse files
Files changed (1) hide show
  1. src/kpaa/llm/presets.py +13 -1
src/kpaa/llm/presets.py CHANGED
@@ -31,13 +31,25 @@ PRESETS: list[ModelPreset] = [
31
  ModelPreset(
32
  id="gemma-4-e2b",
33
  label="Gemma 4 E2B (기본·균형)",
34
- short="2B 유효 · 한국어 자연스러움 · 인용 포맷 안정",
35
  llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
36
  llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
37
  hf_repo="google/gemma-4-E2B-it",
38
  family="gemma",
39
  is_default=True,
40
  ),
 
 
 
 
 
 
 
 
 
 
 
 
41
  ModelPreset(
42
  id="qwen2.5-1.5b",
43
  label="Qwen2.5 1.5B Instruct (가장 빠름)",
 
31
  ModelPreset(
32
  id="gemma-4-e2b",
33
  label="Gemma 4 E2B (기본·균형)",
34
+ short="2B 유효 · Q4_K_M (K-quant 균형형) · 한국어 안정",
35
  llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
36
  llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
37
  hf_repo="google/gemma-4-E2B-it",
38
  family="gemma",
39
  is_default=True,
40
  ),
41
+ ModelPreset(
42
+ # Q4_K_M(K-quant 균형형) 과 같은 4-bit 그룹이지만 RTN(round-to-nearest)
43
+ # 방식의 *전통* Q4_0. Apple Silicon Metal 커널이 Q4_0 에 최적화돼 있어
44
+ # 같은 가중치라도 *조금 더 빠르고* 메모리 ↓. 품질은 Q4_K_M 대비 약간 낮음.
45
+ id="gemma-4-e2b-q4_0",
46
+ label="Gemma 4 E2B Q4_0 (4-bit·빠름)",
47
+ short="2B 유효 · 전통 Q4_0 · Metal 가속 잘 받음 · 품질 살짝 ↓",
48
+ llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
49
+ llama_cpp_file="google_gemma-4-E2B-it-Q4_0.gguf",
50
+ hf_repo="google/gemma-4-E2B-it",
51
+ family="gemma",
52
+ ),
53
  ModelPreset(
54
  id="qwen2.5-1.5b",
55
  label="Qwen2.5 1.5B Instruct (가장 빠름)",