scvcoder commited on
Commit
d8d25fa
·
verified ·
1 Parent(s): 8c5041d

feat: swap bartowski Q4_0 → unsloth UD-Q4_K_XL, set as default

Browse files

Unsloth Dynamic Quants 2.0 keeps important layers at higher precision
while quantizing others to 4-bit — best quality among ~4-bit GGUFs at similar size.
- Drop gemma-4-e2b-q4_0 (bartowski Q4_0)
- Add gemma-4-e2b-unsloth (UD-Q4_K_XL) as new default
- Keep gemma-4-e2b (bartowski Q4_K_M) as alternative

Files changed (1) hide show
  1. src/kpaa/llm/presets.py +12 -12
src/kpaa/llm/presets.py CHANGED
@@ -29,24 +29,24 @@ class ModelPreset:
29
  # Q4_K_M 양자화 기준. 모두 instruct/chat 변형.
30
  PRESETS: list[ModelPreset] = [
31
  ModelPreset(
32
- id="gemma-4-e2b",
33
- label="Gemma 4 E2B (기본·균형)",
34
- short="2B 유효 · Q4_K_M (K-quant 균형형) · 한국어 안정",
35
- llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
36
- llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
 
 
 
37
  hf_repo="google/gemma-4-E2B-it",
38
  family="gemma",
39
  is_default=True,
40
  ),
41
  ModelPreset(
42
- # Q4_K_M(K-quant 균형형) 과 같은 4-bit 그룹이지만 RTN(round-to-nearest)
43
- # 방식의 *전통* Q4_0. Apple Silicon Metal 커널이 Q4_0 에 최적화돼 있어
44
- # 같은 가중치라도 *조금 빠르고* 메모리 ↓. 품질은 Q4_K_M 대비 약간 낮음.
45
- id="gemma-4-e2b-q4_0",
46
- label="Gemma 4 E2B Q4_0 (4-bit·빠름)",
47
- short="2B 유효 · 전통 Q4_0 · Metal 가속 잘 받음 · 품질 살짝 ↓",
48
  llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
49
- llama_cpp_file="google_gemma-4-E2B-it-Q4_0.gguf",
50
  hf_repo="google/gemma-4-E2B-it",
51
  family="gemma",
52
  ),
 
29
  # Q4_K_M 양자화 기준. 모두 instruct/chat 변형.
30
  PRESETS: list[ModelPreset] = [
31
  ModelPreset(
32
+ # Unsloth Dynamic Quants 2.0 (UD-Q4_K_XL) — 평균 ~4-bit 이지만 층별로
33
+ # 중요한 부분은 더 높은 정밀도로 보존해 동일 4-bit 그룹 중 품질 최상.
34
+ # bartowski Q4_K_M 보다 답변 자연스러움 , 파일 크기는 비슷 (~1.7GB).
35
+ id="gemma-4-e2b-unsloth",
36
+ label="Gemma 4 E2B Unsloth UD-Q4 (기본·고품질 4-bit)",
37
+ short="2B · Unsloth Dynamic Quants 2.0 · 4-bit 중 최상 품질",
38
+ llama_cpp_repo="unsloth/gemma-4-E2B-it-GGUF",
39
+ llama_cpp_file="gemma-4-E2B-it-UD-Q4_K_XL.gguf",
40
  hf_repo="google/gemma-4-E2B-it",
41
  family="gemma",
42
  is_default=True,
43
  ),
44
  ModelPreset(
45
+ id="gemma-4-e2b",
46
+ label="Gemma 4 E2B (bartowski Q4_K_M)",
47
+ short="2B 유효 · Q4_K_M (K-quant 균형형) · 한국어 안정",
 
 
 
48
  llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
49
+ llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
50
  hf_repo="google/gemma-4-E2B-it",
51
  family="gemma",
52
  ),