intrect commited on
Commit
a8a5cbd
·
verified ·
1 Parent(s): ffbdde5

docs: update README to v1.3 (DPO v6)

Browse files
Files changed (1) hide show
  1. README.md +18 -76
README.md CHANGED
@@ -23,23 +23,12 @@ pipeline_tag: text-generation
23
  [![Hugging Face Model](https://img.shields.io/badge/%F0%9F%A4%97%20Model-intrect%2FVELA-yellow)](https://huggingface.co/intrect/VELA)
24
  [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Demo-Spaces-blue)](https://huggingface.co/spaces/intrect/vela-demo)
25
 
26
- ## Version History
27
-
28
- | Version | Date | Changes |
29
- |---------|------|---------|
30
- | **v1.2** | **2026-02-16** | **SFT v3 (58K) Gap Fill 12카테고리, Markdown RT, 벤치마크 추가** |
31
- | v1.1 | 2026-02-12 | GGUF 양자화 모델 추가 (Q4_K_M, Q8_0) |
32
- | v1.0 | 2026-01-28 | DPO 병합, 중국어/영어 leak 해결 |
33
- | v0.9 | 2026-01-15 | SFT 베이스 모델 공개 |
34
-
35
  **한국 주식시장 전문 AI 애널리스트**
36
 
37
  VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화된 7B 파라미터 언어 모델입니다.
38
  KOSPI/KOSDAQ 2,135개 종목에 대한 뉴스 영향 분석, 증권사 리포트 해석,
39
  Reasoning Trace 기반 구조화된 투자 분석을 수행합니다.
40
 
41
- 지속적인 개발과 학습으로 개선해나가고 있습니다. 사용상의 이
42
-
43
  > **58K+ SFT 샘플**과 **26K+ DPO 페어**로 학습하여,
44
  > 한국어 금융 도메인에서 정확하고 구조화된 분석을 제공합니다.
45
  >
@@ -63,68 +52,10 @@ Reasoning Trace 기반 구조화된 투자 분석을 수행합니다.
63
 
64
  | Format | File | Size | Use Case |
65
  |--------|------|------|----------|
66
- | **BF16** (safetensors) | `model.safetensors` | 15 GB | Full precision, GPU inference |
67
- | **GGUF Q8_0** | `vela-q8_0.gguf` | 7.6 GB | High quality quantized, GPU/CPU |
68
- | **GGUF Q4_K_M** | `vela-q4_k_m.gguf` | 4.4 GB | Fast & lightweight, GPU/CPU |
69
-
70
- > MLX 4-bit 양자화 모델도 별도 제공 예정 (Apple Silicon 최적화)
71
-
72
- ### Recommended Inference Settings
73
-
74
- VELA의 `generation_config.json`은 llama-cpp-python 서버와 동일한 샘플링 파라미터를 사용합니다.
75
- 모든 백엔드에서 동일한 출력 품질을 보장하기 위해 아래 설정을 권장합니다:
76
-
77
- | Parameter | Value | Note |
78
- |-----------|-------|------|
79
- | `temperature` | 0.7 | 창의성-일관성 균형점 |
80
- | `top_k` | 40 | 상위 40개 토큰 후보 (llama.cpp default) |
81
- | `top_p` | 0.95 | 누적 확률 95% 이내 토큰 사용 |
82
- | `repetition_penalty` | 1.0 | **비활성화** (후처리로 반복 제어) |
83
- | `max_tokens` | 1024-2048 | 분석 복잡도에 따라 조절 |
84
-
85
- > **주의사항**:
86
- > - `repetition_penalty ≥ 1.2`는 **사용 금지** — Qwen 7B 기반 모델에서 중국어 text leak 및 환각(hallucination)을 유발합니다
87
- > - `top_k < 20` 또는 `top_p < 0.8`은 출력 다양성을 과도하게 제한하여 confidence 고정(50%) 현상을 발생시킵니다
88
- > - 반복 제어는 `repetition_penalty` 대신 **후처리 파이프라인**으로 처리하는 것이 안정적입니다
89
-
90
- #### Backend별 설정 가이드
91
-
92
- **llama-cpp-python / Ollama** — 별도 설정 불필요 (기본값이 권장값과 동일):
93
- ```python
94
- model.create_chat_completion(
95
- messages=messages,
96
- max_tokens=1024,
97
- temperature=0.7,
98
- # top_k, top_p, repeat_penalty는 서버 기본값 사용
99
- )
100
- ```
101
-
102
- **HuggingFace Transformers** — `generation_config.json`이 자동 로드됨. 명시적 파라미터 최소화:
103
- ```python
104
- outputs = model.generate(
105
- **inputs,
106
- max_new_tokens=1024,
107
- temperature=0.7,
108
- do_sample=True,
109
- # top_k, top_p, repetition_penalty는 generation_config.json에서 로드
110
- )
111
- ```
112
-
113
- **vLLM** — 명시적 설정 권장:
114
- ```python
115
- params = SamplingParams(
116
- temperature=0.7,
117
- top_k=40,
118
- top_p=0.95,
119
- repetition_penalty=1.0,
120
- max_tokens=1024,
121
- )
122
- ```
123
 
124
- **MLX** 기본값 사용:
125
- ```python
126
- generate(model, tokenizer, prompt=prompt, max_tokens=1024, temp=0.7)
127
- ```
128
 
129
  ---
130
 
@@ -197,7 +128,7 @@ Qwen/Qwen2.5-7B-Instruct
197
  └── Reasoning Trace 정렬 566 (2.1%)
198
  |
199
  v
200
- VELA v1.2
201
  ```
202
 
203
  ---
@@ -264,8 +195,7 @@ RTX 3060 12GB, llama-cpp-python, `n_gpu_layers=-1`, `n_ctx=4096`
264
 
265
  | Format | Speed | Chinese Leak | Quality |
266
  |--------|-------|--------------|---------|
267
- | **Q4_K_M** | **36 tok/s** | 0/5 CLEAN | RT + Report OK |
268
- | **Q8_0** | 25 tok/s | 0/5 CLEAN | RT + Report OK |
269
 
270
  > Stress test 5회: Synthesis + 3K Reasoning Trace 교대 — 양쪽 모두 **Chinese leak 제로**
271
 
@@ -303,7 +233,7 @@ MLX 4-bit vs PyTorch CPU:
303
  from llama_cpp import Llama
304
 
305
  model = Llama(
306
- model_path="vela-q4_k_m.gguf", # or vela-q8_0.gguf
307
  n_ctx=4096,
308
  n_gpu_layers=-1,
309
  chat_format="chatml",
@@ -598,4 +528,16 @@ VELA는 단독 LLM으로도 동작하지만, 에이전트 시스템과 결합하
598
 
599
  ---
600
 
 
 
 
 
 
 
 
 
 
 
 
 
601
  **Disclaimer**: 이 모델의 출력은 투자 조언이 아닙니다. 모든 투자 결정은 본인의 판단과 책임 하에 이루어져야 합니다.
 
23
  [![Hugging Face Model](https://img.shields.io/badge/%F0%9F%A4%97%20Model-intrect%2FVELA-yellow)](https://huggingface.co/intrect/VELA)
24
  [![Hugging Face Spaces](https://img.shields.io/badge/%F0%9F%A4%97%20Demo-Spaces-blue)](https://huggingface.co/spaces/intrect/vela-demo)
25
 
 
 
 
 
 
 
 
 
 
26
  **한국 주식시장 전문 AI 애널리스트**
27
 
28
  VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화된 7B 파라미터 언어 모델입니다.
29
  KOSPI/KOSDAQ 2,135개 종목에 대한 뉴스 영향 분석, 증권사 리포트 해석,
30
  Reasoning Trace 기반 구조화된 투자 분석을 수행합니다.
31
 
 
 
32
  > **58K+ SFT 샘플**과 **26K+ DPO 페어**로 학습하여,
33
  > 한국어 금융 도메인에서 정확하고 구조화된 분석을 제공합니다.
34
  >
 
52
 
53
  | Format | File | Size | Use Case |
54
  |--------|------|------|----------|
55
+ | **BF16** (safetensors) | `model-*.safetensors` | 14.5 GB | Full precision, GPU inference |
56
+ | **GGUF Q4_K_M** | `vela-dpo-v6-q4_k_m.gguf` | 4.4 GB | Fast & lightweight, GPU/CPU |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
57
 
58
+ > MLX 4-bit 양자화 모델은 별도 레포에제공 예정 (Apple Silicon 최적화)
 
 
 
59
 
60
  ---
61
 
 
128
  └── Reasoning Trace 정렬 566 (2.1%)
129
  |
130
  v
131
+ VELA v1.3
132
  ```
133
 
134
  ---
 
195
 
196
  | Format | Speed | Chinese Leak | Quality |
197
  |--------|-------|--------------|---------|
198
+ | **Q4_K_M (v6)** | **36 tok/s** | 0/5 CLEAN | RT + Report OK |
 
199
 
200
  > Stress test 5회: Synthesis + 3K Reasoning Trace 교대 — 양쪽 모두 **Chinese leak 제로**
201
 
 
233
  from llama_cpp import Llama
234
 
235
  model = Llama(
236
+ model_path="vela-dpo-v6-q4_k_m.gguf",
237
  n_ctx=4096,
238
  n_gpu_layers=-1,
239
  chat_format="chatml",
 
528
 
529
  ---
530
 
531
+ ## Version History
532
+
533
+ | Version | Date | Changes |
534
+ |---------|------|---------|
535
+ | **v1.3** | **2026-03-31** | **DPO v6 모델 업데이트 (Unsloth 학습, SFT v6 + DPO v6 merged)** |
536
+ | v1.2 | 2026-02-16 | SFT v3 (58K) Gap Fill 12카테고리, Markdown RT, 벤치마크 추가 |
537
+ | v1.1 | 2026-02-12 | GGUF 양자화 모델 추가 (Q4_K_M, Q8_0) |
538
+ | v1.0 | 2026-01-28 | DPO 병합, 중국어/영어 leak 해결 |
539
+ | v0.9 | 2026-01-15 | SFT 베이스 모델 공개 |
540
+
541
+ ---
542
+
543
  **Disclaimer**: 이 모델의 출력은 투자 조언이 아닙니다. 모든 투자 결정은 본인의 판단과 책임 하에 이루어져야 합니다.