docs: update model card with GGUF formats, benchmarks, usage examples

Browse files

Files changed (1) hide show

README.md +98 -35

README.md CHANGED Viewed

@@ -10,6 +10,8 @@ tags:
   - stock-analysis
   - reasoning
   - dpo
 base_model: Qwen/Qwen2.5-7B-Instruct
 pipeline_tag: text-generation
 ---
@@ -25,51 +27,92 @@ VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화
 | 항목 | 내용 |
 |------|------|
 | **Base Model** | Qwen/Qwen2.5-7B-Instruct |
-| **Training Stage** | SFT + DPO v4 |
 | **Parameters** | 7.6B |
 | **Context Length** | 8,192 tokens |
-| **Precision** | BFloat16 |
 | **License** | Apache 2.0 |
 ## Training Pipeline
 ```
 Qwen2.5-7B-Instruct
         ↓
    SFT (930K samples)
-   - 한국 주식 뉴스 분석
-   - 리서치 리포트 생성
-   - Reasoning Trace 학습
         ↓
-   DPO v4 (7,681 pairs)
    - 중국어/영어 leak 교정
    - 한국어 출력 강화
    - 형식 준수 향상
         ↓
-     VELA v1.0
 ```
 ## Capabilities
 - **뉴스 영향 분석**: 주식 관련 뉴스의 시장 영향도 예측
-- **리서치 리포트 생성**: 구조화된 투자 분석 보고서 작성
-- **Reasoning Trace**: 단계별 분석 사고과정 생성
 - **다중 소스 종합**: 뉴스, 시세, 수급 데이터 통합 분석
 ## Usage
-### Transformers
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 model = AutoModelForCausalLM.from_pretrained(
-    "intrect/vela",
     torch_dtype=torch.bfloat16,
     device_map="auto"
 )
-tokenizer = AutoTokenizer.from_pretrained("intrect/vela")
 messages = [
     {"role": "system", "content": "당신은 한국 주식 전문 애널리스트입니다."},
@@ -88,46 +131,66 @@ outputs = model.generate(
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
-### vLLM (Recommended for Production)
 ```python
 from vllm import LLM, SamplingParams
-llm = LLM(model="intrect/vela", dtype="bfloat16")
 params = SamplingParams(temperature=0.7, max_tokens=1024)
 prompts = ["삼성전자 HBM 시장 전망을 분석해주세요."]
 outputs = llm.generate(prompts, params)
 ```
-### MLX (Apple Silicon)
-MLX 변환 모델은 별도 저장소에서 제공 예정입니다.
 ## Output Format
-VELA는 다음과 같은 구조화된 출력을 생성합니다:
 ```markdown
 ## Executive Summary
 [2-3문장 핵심 요약]
 ## Key Metrics
 | 지표 | 수치 |
 |------|------|
-| 현재가 | ₩XX,XXX |
-| PER | XX.X |
-| ...  | ... |
 ## 시장 동향 분석
-[상세 분석]
 ## 리스크 요인
-- 리스크 1
-- 리스크 2
 ## 투자 의견
-[종합 의견]
 ```
 ## Training Data
@@ -139,13 +202,11 @@ VELA는 다음과 같은 구조화된 출력을 생성합니다:
 | Reasoning Traces | 5K | 사고과정 학습 |
 | DPO Pairs | 7.7K | 선호도 정렬 |
-## DPO v4 Improvements
-DPO v4는 다음 문제들을 해결합니다:
-- ✅ **중국어 leak 제거**: 중국어 문자 출력 방지
 - ✅ **영어 leak 감소**: 불필요한 영어 사용 최소화
-- ✅ **형식 준수**: 지정된 출력 형식 엄격 준수
 - ✅ **한국어 품질**: 자연스러운 한국어 표현
 ## Limitations
@@ -153,6 +214,7 @@ DPO v4는 다음 문제들을 해결합니다:
 - 실시간 시세 데이터 접근 불가 (외부 API 필요)
 - 투자 조언이 아닌 정보 제공 목적
 - 8K 컨텍스트 제한으로 긴 문서 처리 한계
 ## Citation
@@ -162,7 +224,7 @@ DPO v4는 다음 문제들을 해결합니다:
   author={intrect},
   year={2026},
   publisher={Hugging Face},
-  url={https://huggingface.co/intrect/vela}
 }
 ```
@@ -170,8 +232,9 @@ DPO v4는 다음 문제들을 해결합니다:
 | 버전 | 날짜 | 변경사항 |
 |------|------|----------|
-| v1.0 (DPO v4) | 2026-01-28 | DPO v4 병합, 중국어/영어 leak 해결 |
-| v0.9 (SFT) | 2026-01-15 | SFT 베이스 모델 공개 |
 ---

   - stock-analysis
   - reasoning
   - dpo
+  - gguf
+  - llama-cpp
 base_model: Qwen/Qwen2.5-7B-Instruct
 pipeline_tag: text-generation
 ---
 | 항목 | 내용 |
 |------|------|
 | **Base Model** | Qwen/Qwen2.5-7B-Instruct |
+| **Training** | SFT (930K) + DPO (7,681 pairs) |
 | **Parameters** | 7.6B |
 | **Context Length** | 8,192 tokens |
 | **License** | Apache 2.0 |
+### Available Formats
+| Format | File | Size | Use Case |
+|--------|------|------|----------|
+| **BF16** (safetensors) | `model.safetensors` | 15 GB | Full precision, GPU inference |
+| **GGUF Q8_0** | `vela-q8_0.gguf` | 7.6 GB | High quality quantized, GPU/CPU |
+| **GGUF Q4_K_M** | `vela-q4_k_m.gguf` | 4.4 GB | Fast & lightweight, GPU/CPU |
 ## Training Pipeline
 ```
 Qwen2.5-7B-Instruct
         ↓
    SFT (930K samples)
+   - 한국 주식 뉴스 분석 (412K)
+   - 리서치 리포트 생성 (50K)
+   - Reasoning Trace 학습 (5K)
         ↓
+   DPO (7,681 pairs)
    - 중국어/영어 leak 교정
    - 한국어 출력 강화
    - 형식 준수 향상
         ↓
+      VELA
 ```
 ## Capabilities
 - **뉴스 영향 분석**: 주식 관련 뉴스의 시장 영향도 예측
+- **리서치 리포트 생성**: 구조화된 투자 분석 보고서 (7개 섹션)
+- **Reasoning Trace**: 단계별 분석 사고과정 (JSON 형식)
 - **다중 소스 종합**: 뉴스, 시세, 수급 데이터 통합 분석
+## Quantization Benchmark
+RTX 3060 12GB, llama-cpp-python, n_gpu_layers=-1, n_ctx=4096
+| Format | Speed (tok/s) | Chinese Leak | Quality |
+|--------|--------------|--------------|---------|
+| **Q4_K_M** | **36 tok/s** | 0/5 CLEAN | Reasoning Trace + Report OK |
+| **Q8_0** | 25 tok/s | 0/5 CLEAN | Reasoning Trace + Report OK |
+> Stress test: 5회 연속 (Synthesis + 3K Reasoning Trace 교대) - 양쪽 모두 Chinese leak 제로
 ## Usage
+### llama-cpp-python (Recommended for GGUF)
+```python
+from llama_cpp import Llama
+model = Llama(
+    model_path="vela-q4_k_m.gguf",  # or vela-q8_0.gguf
+    n_ctx=4096,
+    n_gpu_layers=-1,    # Full GPU offload
+    chat_format="chatml",
+)
+response = model.create_chat_completion(
+    messages=[
+        {"role": "system", "content": "당신은 한국 주식 전문 애널리스트입니다."},
+        {"role": "user", "content": "삼성전자 HBM 사업 전망을 분석해주세요."},
+    ],
+    max_tokens=1024,
+    temperature=0.7,
+)
+print(response["choices"][0]["message"]["content"])
+```
+### Transformers (BF16)
 ```python
 from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 model = AutoModelForCausalLM.from_pretrained(
+    "intrect/VELA",
     torch_dtype=torch.bfloat16,
     device_map="auto"
 )
+tokenizer = AutoTokenizer.from_pretrained("intrect/VELA")
 messages = [
     {"role": "system", "content": "당신은 한국 주식 전문 애널리스트입니다."},
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
+### vLLM
 ```python
 from vllm import LLM, SamplingParams
+llm = LLM(model="intrect/VELA", dtype="bfloat16")
 params = SamplingParams(temperature=0.7, max_tokens=1024)
 prompts = ["삼성전자 HBM 시장 전망을 분석해주세요."]
 outputs = llm.generate(prompts, params)
 ```
+### Ollama
+```bash
+# Modelfile
+FROM ./vela-q4_k_m.gguf
+TEMPLATE """<|im_start|>system
+{{ .System }}<|im_end|>
+<|im_start|>user
+{{ .Prompt }}<|im_end|>
+<|im_start|>assistant
+"""
+PARAMETER temperature 0.7
+PARAMETER num_ctx 4096
+```
 ## Output Format
+VELA는 두 가지 출력 모드를 지원합니다:
+### 1. Reasoning Trace (분석 과정)
+```json
+{
+  "step": 1,
+  "thought": "삼성전자 HBM3E 12단 양산 관련 뉴스 확인. 추가 수주 현황과 시장 점유율 파악 필요.",
+  "action": "search",
+  "query": "삼성전자 HBM3E 12단 수주 시장점유율",
+  "confidence": 0.45
+}
+```
+### 2. Synthesis Report (최종 리포트)
 ```markdown
+# EOD 리포트: 삼성전자 (005930.KS)
 ## Executive Summary
 [2-3문장 핵심 요약]
 ## Key Metrics
 | 지표 | 수치 |
 |------|------|
 ## 시장 동향 분석
+## 수급 분석
+## 뉴스 영향 분석
 ## 리스크 요인
 ## 투자 의견
 ```
 ## Training Data
 | Reasoning Traces | 5K | 사고과정 학습 |
 | DPO Pairs | 7.7K | 선호도 정렬 |
+## DPO Improvements
+- ✅ **중국어 leak 제거**: Stress test 10/10 CLEAN
 - ✅ **영어 leak 감소**: 불필요한 영어 사용 최소화
+- ✅ **형식 준수**: Reasoning Trace JSON + 7-section Report
 - ✅ **한국어 품질**: 자연스러운 한국어 표현
 ## Limitations
 - 실시간 시세 데이터 접근 불가 (외부 API 필요)
 - 투자 조언이 아닌 정보 제공 목적
 - 8K 컨텍스트 제한으로 긴 문서 처리 한계
+- 할루시네이션 수치 가능 (수치 데이터는 외부 검증 필요)
 ## Citation
   author={intrect},
   year={2026},
   publisher={Hugging Face},
+  url={https://huggingface.co/intrect/VELA}
 }
 ```
 | 버전 | 날짜 | 변경사항 |
 |------|------|----------|
+| v1.1 | 2026-02-12 | GGUF 양자화 모델 추가 (Q4_K_M, Q8_0), 벤치마크 |
+| v1.0 | 2026-01-28 | DPO 병합, 중국어/영어 leak 해결 |
+| v0.9 | 2026-01-15 | SFT 베이스 모델 공개 |
 ---