feat: drop bartowski Q4_K_M Gemma preset (duplicate of unsloth on ZeroGPU)
Browse files- src/kpaa/llm/presets.py +2 -10
src/kpaa/llm/presets.py
CHANGED
|
@@ -31,7 +31,8 @@ PRESETS: list[ModelPreset] = [
|
|
| 31 |
ModelPreset(
|
| 32 |
# Unsloth Dynamic Quants 2.0 (UD-Q4_K_XL) — 평균 ~4-bit 이지만 층별로
|
| 33 |
# 중요한 부분은 더 높은 정밀도로 보존해 동일 4-bit 그룹 중 품질 최상.
|
| 34 |
-
#
|
|
|
|
| 35 |
id="gemma-4-e2b-unsloth",
|
| 36 |
label="Gemma 4 E2B Unsloth UD-Q4 (기본·고품질 4-bit)",
|
| 37 |
short="2B · Unsloth Dynamic Quants 2.0 · 4-bit 중 최상 품질",
|
|
@@ -41,15 +42,6 @@ PRESETS: list[ModelPreset] = [
|
|
| 41 |
family="gemma",
|
| 42 |
is_default=True,
|
| 43 |
),
|
| 44 |
-
ModelPreset(
|
| 45 |
-
id="gemma-4-e2b",
|
| 46 |
-
label="Gemma 4 E2B (bartowski Q4_K_M)",
|
| 47 |
-
short="2B 유효 · Q4_K_M (K-quant 균형형) · 한국어 안정",
|
| 48 |
-
llama_cpp_repo="bartowski/google_gemma-4-E2B-it-GGUF",
|
| 49 |
-
llama_cpp_file="google_gemma-4-E2B-it-Q4_K_M.gguf",
|
| 50 |
-
hf_repo="google/gemma-4-E2B-it",
|
| 51 |
-
family="gemma",
|
| 52 |
-
),
|
| 53 |
ModelPreset(
|
| 54 |
id="qwen2.5-3b",
|
| 55 |
label="Qwen2.5 3B Instruct (빠름·안정)",
|
|
|
|
| 31 |
ModelPreset(
|
| 32 |
# Unsloth Dynamic Quants 2.0 (UD-Q4_K_XL) — 평균 ~4-bit 이지만 층별로
|
| 33 |
# 중요한 부분은 더 높은 정밀도로 보존해 동일 4-bit 그룹 중 품질 최상.
|
| 34 |
+
# 로컬(llama-cpp-python) 은 이 GGUF 를, HF Space(ZeroGPU) 는 hf_repo 의
|
| 35 |
+
# google/gemma-4-E2B-it BF16 transformers 가중치를 로드.
|
| 36 |
id="gemma-4-e2b-unsloth",
|
| 37 |
label="Gemma 4 E2B Unsloth UD-Q4 (기본·고품질 4-bit)",
|
| 38 |
short="2B · Unsloth Dynamic Quants 2.0 · 4-bit 중 최상 품질",
|
|
|
|
| 42 |
family="gemma",
|
| 43 |
is_default=True,
|
| 44 |
),
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 45 |
ModelPreset(
|
| 46 |
id="qwen2.5-3b",
|
| 47 |
label="Qwen2.5 3B Instruct (빠름·안정)",
|