intrect commited on
Commit
2448e8a
·
verified ·
1 Parent(s): f650ef7

docs: update model card with GGUF formats, benchmarks, usage examples

Browse files
Files changed (1) hide show
  1. README.md +98 -35
README.md CHANGED
@@ -10,6 +10,8 @@ tags:
10
  - stock-analysis
11
  - reasoning
12
  - dpo
 
 
13
  base_model: Qwen/Qwen2.5-7B-Instruct
14
  pipeline_tag: text-generation
15
  ---
@@ -25,51 +27,92 @@ VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화
25
  | 항목 | 내용 |
26
  |------|------|
27
  | **Base Model** | Qwen/Qwen2.5-7B-Instruct |
28
- | **Training Stage** | SFT + DPO v4 |
29
  | **Parameters** | 7.6B |
30
  | **Context Length** | 8,192 tokens |
31
- | **Precision** | BFloat16 |
32
  | **License** | Apache 2.0 |
33
 
 
 
 
 
 
 
 
 
34
  ## Training Pipeline
35
 
36
  ```
37
  Qwen2.5-7B-Instruct
38
 
39
  SFT (930K samples)
40
- - 한국 주식 뉴스 분석
41
- - 리서치 리포트 생성
42
- - Reasoning Trace 학습
43
 
44
- DPO v4 (7,681 pairs)
45
  - 중국어/영어 leak 교정
46
  - 한국어 출력 강화
47
  - 형식 준수 향상
48
 
49
- VELA v1.0
50
  ```
51
 
52
  ## Capabilities
53
 
54
  - **뉴스 영향 분석**: 주식 관련 뉴스의 시장 영향도 예측
55
- - **리서치 리포트 생성**: 구조화된 투자 분석 보고서 작성
56
- - **Reasoning Trace**: 단계별 분석 사고과정 생성
57
  - **다중 소스 종합**: 뉴스, 시세, 수급 데이터 통합 분석
58
 
 
 
 
 
 
 
 
 
 
 
 
59
  ## Usage
60
 
61
- ### Transformers
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
62
 
63
  ```python
64
  from transformers import AutoModelForCausalLM, AutoTokenizer
65
  import torch
66
 
67
  model = AutoModelForCausalLM.from_pretrained(
68
- "intrect/vela",
69
  torch_dtype=torch.bfloat16,
70
  device_map="auto"
71
  )
72
- tokenizer = AutoTokenizer.from_pretrained("intrect/vela")
73
 
74
  messages = [
75
  {"role": "system", "content": "당신은 한국 주식 전문 애널리스트입니다."},
@@ -88,46 +131,66 @@ outputs = model.generate(
88
  print(tokenizer.decode(outputs[0], skip_special_tokens=True))
89
  ```
90
 
91
- ### vLLM (Recommended for Production)
92
 
93
  ```python
94
  from vllm import LLM, SamplingParams
95
 
96
- llm = LLM(model="intrect/vela", dtype="bfloat16")
97
  params = SamplingParams(temperature=0.7, max_tokens=1024)
98
 
99
  prompts = ["삼성전자 HBM 시장 전망을 분석해주세요."]
100
  outputs = llm.generate(prompts, params)
101
  ```
102
 
103
- ### MLX (Apple Silicon)
104
-
105
- MLX 변환 모델은 별도 저장소에서 제공 예정입니다.
 
 
 
 
 
 
 
 
 
 
 
106
 
107
  ## Output Format
108
 
109
- VELA는 다음과 같은 구조화된 출력 생성합니다:
 
 
 
 
 
 
 
 
 
 
 
 
 
 
110
 
111
  ```markdown
 
 
112
  ## Executive Summary
113
  [2-3문장 핵심 요약]
114
 
115
  ## Key Metrics
116
  | 지표 | 수치 |
117
  |------|------|
118
- | 현재가 | ₩XX,XXX |
119
- | PER | XX.X |
120
- | ... | ... |
121
 
122
  ## 시장 동향 분석
123
- [상세 분석]
124
-
125
  ## 리스크 요인
126
- - 리스크 1
127
- - 리스크 2
128
-
129
  ## 투자 의견
130
- [종합 의견]
131
  ```
132
 
133
  ## Training Data
@@ -139,13 +202,11 @@ VELA는 다음과 같은 구조화된 출력을 생성합니다:
139
  | Reasoning Traces | 5K | 사고과정 학습 |
140
  | DPO Pairs | 7.7K | 선호도 정렬 |
141
 
142
- ## DPO v4 Improvements
143
-
144
- DPO v4는 다음 문제들을 해결합니다:
145
 
146
- - ✅ **중국어 leak 제거**: 중국어 문자 출력 방지
147
  - ✅ **영어 leak 감소**: 불필요한 영어 사용 최소화
148
- - ✅ **형식 준수**: 지정된 출력 형식 엄격 준수
149
  - ✅ **한국어 품질**: 자연스러운 한국어 표현
150
 
151
  ## Limitations
@@ -153,6 +214,7 @@ DPO v4는 다음 문제들을 해결합니다:
153
  - 실시간 시세 데이터 접근 불가 (외부 API 필요)
154
  - 투자 조언이 아닌 정보 제공 목적
155
  - 8K 컨텍스트 제한으로 긴 문서 처리 한계
 
156
 
157
  ## Citation
158
 
@@ -162,7 +224,7 @@ DPO v4는 다음 문제들을 해결합니다:
162
  author={intrect},
163
  year={2026},
164
  publisher={Hugging Face},
165
- url={https://huggingface.co/intrect/vela}
166
  }
167
  ```
168
 
@@ -170,8 +232,9 @@ DPO v4는 다음 문제들을 해결합니다:
170
 
171
  | 버전 | 날짜 | 변경사항 |
172
  |------|------|----------|
173
- | v1.0 (DPO v4) | 2026-01-28 | DPO v4 병합, 중국어/영어 leak 해결 |
174
- | v0.9 (SFT) | 2026-01-15 | SFT 베이스 모델 공개 |
 
175
 
176
  ---
177
 
 
10
  - stock-analysis
11
  - reasoning
12
  - dpo
13
+ - gguf
14
+ - llama-cpp
15
  base_model: Qwen/Qwen2.5-7B-Instruct
16
  pipeline_tag: text-generation
17
  ---
 
27
  | 항목 | 내용 |
28
  |------|------|
29
  | **Base Model** | Qwen/Qwen2.5-7B-Instruct |
30
+ | **Training** | SFT (930K) + DPO (7,681 pairs) |
31
  | **Parameters** | 7.6B |
32
  | **Context Length** | 8,192 tokens |
 
33
  | **License** | Apache 2.0 |
34
 
35
+ ### Available Formats
36
+
37
+ | Format | File | Size | Use Case |
38
+ |--------|------|------|----------|
39
+ | **BF16** (safetensors) | `model.safetensors` | 15 GB | Full precision, GPU inference |
40
+ | **GGUF Q8_0** | `vela-q8_0.gguf` | 7.6 GB | High quality quantized, GPU/CPU |
41
+ | **GGUF Q4_K_M** | `vela-q4_k_m.gguf` | 4.4 GB | Fast & lightweight, GPU/CPU |
42
+
43
  ## Training Pipeline
44
 
45
  ```
46
  Qwen2.5-7B-Instruct
47
 
48
  SFT (930K samples)
49
+ - 한국 주식 뉴스 분석 (412K)
50
+ - 리서치 리포트 생성 (50K)
51
+ - Reasoning Trace 학습 (5K)
52
 
53
+ DPO (7,681 pairs)
54
  - 중국어/영어 leak 교정
55
  - 한국어 출력 강화
56
  - 형식 준수 향상
57
 
58
+ VELA
59
  ```
60
 
61
  ## Capabilities
62
 
63
  - **뉴스 영향 분석**: 주식 관련 뉴스의 시장 영향도 예측
64
+ - **리서치 리포트 생성**: 구조화된 투자 분석 보고서 (7개 섹션)
65
+ - **Reasoning Trace**: 단계별 분석 사고과정 (JSON 형식)
66
  - **다중 소스 종합**: 뉴스, 시세, 수급 데이터 통합 분석
67
 
68
+ ## Quantization Benchmark
69
+
70
+ RTX 3060 12GB, llama-cpp-python, n_gpu_layers=-1, n_ctx=4096
71
+
72
+ | Format | Speed (tok/s) | Chinese Leak | Quality |
73
+ |--------|--------------|--------------|---------|
74
+ | **Q4_K_M** | **36 tok/s** | 0/5 CLEAN | Reasoning Trace + Report OK |
75
+ | **Q8_0** | 25 tok/s | 0/5 CLEAN | Reasoning Trace + Report OK |
76
+
77
+ > Stress test: 5회 연속 (Synthesis + 3K Reasoning Trace 교대) - 양쪽 모두 Chinese leak 제로
78
+
79
  ## Usage
80
 
81
+ ### llama-cpp-python (Recommended for GGUF)
82
+
83
+ ```python
84
+ from llama_cpp import Llama
85
+
86
+ model = Llama(
87
+ model_path="vela-q4_k_m.gguf", # or vela-q8_0.gguf
88
+ n_ctx=4096,
89
+ n_gpu_layers=-1, # Full GPU offload
90
+ chat_format="chatml",
91
+ )
92
+
93
+ response = model.create_chat_completion(
94
+ messages=[
95
+ {"role": "system", "content": "당신은 한국 주식 전문 애널리스트입니다."},
96
+ {"role": "user", "content": "삼성전자 HBM 사업 전망을 분석해주세요."},
97
+ ],
98
+ max_tokens=1024,
99
+ temperature=0.7,
100
+ )
101
+ print(response["choices"][0]["message"]["content"])
102
+ ```
103
+
104
+ ### Transformers (BF16)
105
 
106
  ```python
107
  from transformers import AutoModelForCausalLM, AutoTokenizer
108
  import torch
109
 
110
  model = AutoModelForCausalLM.from_pretrained(
111
+ "intrect/VELA",
112
  torch_dtype=torch.bfloat16,
113
  device_map="auto"
114
  )
115
+ tokenizer = AutoTokenizer.from_pretrained("intrect/VELA")
116
 
117
  messages = [
118
  {"role": "system", "content": "당신은 한국 주식 전문 애널리스트입니다."},
 
131
  print(tokenizer.decode(outputs[0], skip_special_tokens=True))
132
  ```
133
 
134
+ ### vLLM
135
 
136
  ```python
137
  from vllm import LLM, SamplingParams
138
 
139
+ llm = LLM(model="intrect/VELA", dtype="bfloat16")
140
  params = SamplingParams(temperature=0.7, max_tokens=1024)
141
 
142
  prompts = ["삼성전자 HBM 시장 전망을 분석해주세요."]
143
  outputs = llm.generate(prompts, params)
144
  ```
145
 
146
+ ### Ollama
147
+
148
+ ```bash
149
+ # Modelfile
150
+ FROM ./vela-q4_k_m.gguf
151
+ TEMPLATE """<|im_start|>system
152
+ {{ .System }}<|im_end|>
153
+ <|im_start|>user
154
+ {{ .Prompt }}<|im_end|>
155
+ <|im_start|>assistant
156
+ """
157
+ PARAMETER temperature 0.7
158
+ PARAMETER num_ctx 4096
159
+ ```
160
 
161
  ## Output Format
162
 
163
+ VELA는 가지 출력 모드를 지원합니다:
164
+
165
+ ### 1. Reasoning Trace (분석 과정)
166
+
167
+ ```json
168
+ {
169
+ "step": 1,
170
+ "thought": "삼성전자 HBM3E 12단 양산 관련 뉴스 확인. 추가 수주 현황과 시장 점유율 파악 필요.",
171
+ "action": "search",
172
+ "query": "삼성전자 HBM3E 12단 수주 시장점유율",
173
+ "confidence": 0.45
174
+ }
175
+ ```
176
+
177
+ ### 2. Synthesis Report (최종 리포트)
178
 
179
  ```markdown
180
+ # EOD 리포트: 삼성전자 (005930.KS)
181
+
182
  ## Executive Summary
183
  [2-3문장 핵심 요약]
184
 
185
  ## Key Metrics
186
  | 지표 | 수치 |
187
  |------|------|
 
 
 
188
 
189
  ## 시장 동향 분석
190
+ ## 수급 분석
191
+ ## 뉴스 영향 분석
192
  ## 리스크 요인
 
 
 
193
  ## 투자 의견
 
194
  ```
195
 
196
  ## Training Data
 
202
  | Reasoning Traces | 5K | 사고과정 학습 |
203
  | DPO Pairs | 7.7K | 선호도 정렬 |
204
 
205
+ ## DPO Improvements
 
 
206
 
207
+ - ✅ **중국어 leak 제거**: Stress test 10/10 CLEAN
208
  - ✅ **영어 leak 감소**: 불필요한 영어 사용 최소화
209
+ - ✅ **형식 준수**: Reasoning Trace JSON + 7-section Report
210
  - ✅ **한국어 품질**: 자연스러운 한국어 표현
211
 
212
  ## Limitations
 
214
  - 실시간 시세 데이터 접근 불가 (외부 API 필요)
215
  - 투자 조언이 아닌 정보 제공 목적
216
  - 8K 컨텍스트 제한으로 긴 문서 처리 한계
217
+ - 할루시네이션 수치 가능 (수치 데이터는 외부 검증 필요)
218
 
219
  ## Citation
220
 
 
224
  author={intrect},
225
  year={2026},
226
  publisher={Hugging Face},
227
+ url={https://huggingface.co/intrect/VELA}
228
  }
229
  ```
230
 
 
232
 
233
  | 버전 | 날짜 | 변경사항 |
234
  |------|------|----------|
235
+ | v1.1 | 2026-02-12 | GGUF 양자화 모델 추가 (Q4_K_M, Q8_0), 벤치마크 |
236
+ | v1.0 | 2026-01-28 | DPO 병합, 중국어/영어 leak 해결 |
237
+ | v0.9 | 2026-01-15 | SFT 베이스 모델 공개 |
238
 
239
  ---
240