Spaces:

scvcoder
/

kpaa

Paused

App Files Files Community

scvcoder commited on May 2

Commit

b8a2767

verified ·

1 Parent(s): e183c0c

feat: switch to Unsloth UD Q2/Q3/Q4 lineup; drop Qwen presets

Browse files

Files changed (1) hide show

src/kpaa/llm/presets.py +26 -22

src/kpaa/llm/presets.py CHANGED Viewed

@@ -21,21 +21,21 @@ class ModelPreset:
     llama_cpp_repo: str     # GGUF repo
     llama_cpp_file: str     # GGUF 파일명
     hf_repo: str            # transformers repo (ZeroGPU 용; 없으면 llama_cpp 와 동일 모델군 사용)
-    family: str             # "gemma" | "qwen2.5" | "qwen3"
     is_default: bool = False
-# 후보 목록 — 답변 속도 빠른 순서 (대략).
-# Q4_K_M 양자화 기준. 모두 instruct/chat 변형.
 PRESETS: list[ModelPreset] = [
     ModelPreset(
         # Unsloth Dynamic Quants 2.0 (UD-Q4_K_XL) — 평균 ~4-bit 이지만 층별로
         # 중요한 부분은 더 높은 정밀도로 보존해 동일 4-bit 그룹 중 품질 최상.
-        # 로컬(llama-cpp-python) 은 이 GGUF 를, HF Space(ZeroGPU) 는 hf_repo 의
-        # google/gemma-4-E2B-it BF16 transformers 가중치를 로드.
-        id="gemma-4-e2b-unsloth",
-        label="Gemma 4 E2B Unsloth UD-Q4 (기본·고품질 4-bit)",
-        short="2B · Unsloth Dynamic Quants 2.0 · 4-bit 중 최상 품질",
         llama_cpp_repo="unsloth/gemma-4-E2B-it-GGUF",
         llama_cpp_file="gemma-4-E2B-it-UD-Q4_K_XL.gguf",
         hf_repo="google/gemma-4-E2B-it",
@@ -43,22 +43,26 @@ PRESETS: list[ModelPreset] = [
         is_default=True,
     ),
     ModelPreset(
-        id="qwen2.5-3b",
-        label="Qwen2.5 3B Instruct (빠름·안정)",
-        short="3B · Gemma 4 E2B 보다 약간 빠름 · 한국어 품질 양호",
-        llama_cpp_repo="bartowski/Qwen2.5-3B-Instruct-GGUF",
-        llama_cpp_file="Qwen2.5-3B-Instruct-Q4_K_M.gguf",
-        hf_repo="Qwen/Qwen2.5-3B-Instruct",
-        family="qwen2.5",
     ),
     ModelPreset(
-        id="qwen3-4b-instruct-2507",
-        label="Qwen3 4B Instruct 2507 (큰 모델·non-thinking)",
-        short="4B · 더 정확하나 더 느림 · thinking off 변형",
-        llama_cpp_repo="bartowski/Qwen_Qwen3-4B-Instruct-2507-GGUF",
-        llama_cpp_file="Qwen_Qwen3-4B-Instruct-2507-Q4_K_M.gguf",
-        hf_repo="Qwen/Qwen3-4B-Instruct-2507",
-        family="qwen3",
     ),
 ]

     llama_cpp_repo: str     # GGUF repo
     llama_cpp_file: str     # GGUF 파일명
     hf_repo: str            # transformers repo (ZeroGPU 용; 없으면 llama_cpp 와 동일 모델군 사용)
+    family: str             # "gemma"
     is_default: bool = False
+# 후보 목록 — Unsloth Dynamic Quants 시리즈로 양자화 비트수만 다르게 비교용.
+# 모두 같은 가중치(google/gemma-4-E2B-it) 의 GGUF 변환본. HF Space(ZeroGPU)
+# 에서는 어떤 프리셋을 골라도 hf_repo 의 BF16 transformers 가중치를 로드하므로
+# 동일한 답변 — 양자화별 차이는 *로컬(llama-cpp-python)* 에서만 체감됨.
 PRESETS: list[ModelPreset] = [
     ModelPreset(
         # Unsloth Dynamic Quants 2.0 (UD-Q4_K_XL) — 평균 ~4-bit 이지만 층별로
         # 중요한 부분은 더 높은 정밀도로 보존해 동일 4-bit 그룹 중 품질 최상.
+        id="gemma-4-e2b-unsloth-q4",
+        label="Gemma 4 E2B UD-Q4 (기본·균형)",
+        short="2B · ~1.7GB · 4-bit Dynamic · 권장 (속도·품질 균형)",
         llama_cpp_repo="unsloth/gemma-4-E2B-it-GGUF",
         llama_cpp_file="gemma-4-E2B-it-UD-Q4_K_XL.gguf",
         hf_repo="google/gemma-4-E2B-it",
         is_default=True,
     ),
     ModelPreset(
+        # UD-Q3_K_XL — 3-bit Dynamic. 더 작은 RAM/디스크 + 더 빠른 토큰 속도,
+        # 답변 품질 약간 ↓ (한국어 비문 살짝 증가). 노트북 RAM 부족 환경 권장.
+        id="gemma-4-e2b-unsloth-q3",
+        label="Gemma 4 E2B UD-Q3 (3-bit·빠름)",
+        short="2B · ~1.3GB · 3-bit Dynamic · 메모리 ↓ 속도 ↑ 품질 살짝 ↓",
+        llama_cpp_repo="unsloth/gemma-4-E2B-it-GGUF",
+        llama_cpp_file="gemma-4-E2B-it-UD-Q3_K_XL.gguf",
+        hf_repo="google/gemma-4-E2B-it",
+        family="gemma",
     ),
     ModelPreset(
+        # UD-Q2_K_XL — 2-bit Dynamic. 가장 작고 빠르나 품질 손실 뚜렷.
+        # 저사양 환경 실험·벤치마킹용. 일반 답변 품질은 권장 안 함.
+        id="gemma-4-e2b-unsloth-q2",
+        label="Gemma 4 E2B UD-Q2 (2-bit·실험)",
+        short="2B · ~1.0GB · 2-bit Dynamic · 가장 빠르나 품질 저하 뚜렷",
+        llama_cpp_repo="unsloth/gemma-4-E2B-it-GGUF",
+        llama_cpp_file="gemma-4-E2B-it-UD-Q2_K_XL.gguf",
+        hf_repo="google/gemma-4-E2B-it",
+        family="gemma",
     ),
 ]