intrect commited on
Commit
d35ad96
·
verified ·
1 Parent(s): ecb3e2c

docs: update training data distribution with accurate numbers (SFT 36,713 + DPO 24,779)

Browse files
Files changed (1) hide show
  1. README.md +48 -19
README.md CHANGED
@@ -21,15 +21,17 @@ pipeline_tag: text-generation
21
  **한국 주식시장 전문 AI 애널리스트**
22
 
23
  VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화된 7B 파라미터 언어 모델입니다.
 
24
 
25
  ## Model Details
26
 
27
  | 항목 | 내용 |
28
  |------|------|
29
  | **Base Model** | Qwen/Qwen2.5-7B-Instruct |
30
- | **Training** | SFT (930K) + DPO (7,681 pairs) |
31
  | **Parameters** | 7.6B |
32
  | **Context Length** | 8,192 tokens |
 
33
  | **License** | Apache 2.0 |
34
 
35
  ### Available Formats
@@ -45,22 +47,58 @@ VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화
45
  ```
46
  Qwen2.5-7B-Instruct
47
 
48
- SFT (930K samples)
49
- - 한국 주식 뉴스 분석 (412K)
50
- - 리서치 리포트 생성 (50K)
51
- - Reasoning Trace 학습 (5K)
 
 
 
52
 
53
- DPO (7,681 pairs)
54
- - 중국어/영어 leak 교정
55
- - 국어 출력
56
- - 형식 준수 향상
 
 
57
 
58
  VELA
59
  ```
60
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
61
  ## Capabilities
62
 
63
  - **뉴스 영향 분석**: 주식 관련 뉴스의 시장 영향도 예측
 
64
  - **리서치 리포트 생성**: 구조화된 투자 분석 보고서 (7개 섹션)
65
  - **Reasoning Trace**: 단계별 분석 사고과정 (JSON 형식)
66
  - **다중 소스 종합**: 뉴스, 시세, 수급 데이터 통합 분석
@@ -193,15 +231,6 @@ VELA는 두 가지 출력 모드를 지원합니다:
193
  ## 투자 의견
194
  ```
195
 
196
- ## Training Data
197
-
198
- | 데이터셋 | 샘플 수 | 용도 |
199
- |----------|---------|------|
200
- | 한국 주식 뉴스 | 412K | SFT 기반 데이터 |
201
- | 리서치 리포트 | 50K | 분석 형식 학습 |
202
- | Reasoning Traces | 5K | 사고과정 학습 |
203
- | DPO Pairs | 7.7K | 선호도 정렬 |
204
-
205
  ## DPO Improvements
206
 
207
  - ✅ **중국어 leak 제거**: Stress test 10/10 CLEAN
@@ -232,7 +261,7 @@ VELA는 두 가지 출력 모드를 지원합니다:
232
 
233
  | 버전 | 날짜 | 변경사항 |
234
  |------|------|----------|
235
- | v1.1 | 2026-02-12 | GGUF 양자화 모델 추가 (Q4_K_M, Q8_0), 벤치마크 |
236
  | v1.0 | 2026-01-28 | DPO 병합, 중국어/영어 leak 해결 |
237
  | v0.9 | 2026-01-15 | SFT 베이스 모델 공개 |
238
 
 
21
  **한국 주식시장 전문 AI 애널리스트**
22
 
23
  VELA는 한국 주식시장 뉴스 분석 및 투자 리서치를 위해 특화된 7B 파라미터 언어 모델입니다.
24
+ 2,135개 종목에 대한 뉴스 영향 분석, 증권사 리포트 해석, Reasoning Trace 기반 구조화된 투자 분석을 수행합니다.
25
 
26
  ## Model Details
27
 
28
  | 항목 | 내용 |
29
  |------|------|
30
  | **Base Model** | Qwen/Qwen2.5-7B-Instruct |
31
+ | **Training** | SFT (36,713) + DPO (24,779 pairs) |
32
  | **Parameters** | 7.6B |
33
  | **Context Length** | 8,192 tokens |
34
+ | **Stock Coverage** | 2,135 종목 (KOSPI + KOSDAQ) |
35
  | **License** | Apache 2.0 |
36
 
37
  ### Available Formats
 
47
  ```
48
  Qwen2.5-7B-Instruct
49
 
50
+ SFT (36,713 samples)
51
+ - 뉴스 분류 분10,830
52
+ - 극단 시그널 분석 9,603
53
+ - 증권사 리포트 5,117
54
+ - 뉴스 영향 분석 4,839
55
+ - Tool Calling 1,965
56
+ - 기타 (비교분석, 실적, 리스크, 수급, 섹터, 매크로) 4,359
57
 
58
+ DPO (24,779 pairs)
59
+ - 중 제거 기본 페어 12,000
60
+ - 국어 leak 5,997
61
+ - VELA ChatML 정렬 5,000
62
+ - 중국어 leak 교정 v2 1,216
63
+ - Reasoning Trace 정렬 566
64
 
65
  VELA
66
  ```
67
 
68
+ ## Training Data Distribution
69
+
70
+ ### SFT (36,713 samples, 2,135 종목)
71
+
72
+ | Source | Samples | Ratio | Description |
73
+ |--------|---------|-------|-------------|
74
+ | **classified_news** | 10,830 | 29.5% | GPT-4o 분류된 뉴스 → Reasoning Trace 생성 |
75
+ | **extreme_signals** | 9,603 | 26.2% | 급등/급락 시그널 뉴스 분석 |
76
+ | **securities_report_gpt4o** | 5,117 | 13.9% | 증권사 리포트 GPT-4o 재구성 (네이버 종목분석 + 미래에셋) |
77
+ | **analysis_news** | 4,839 | 13.2% | 일반 뉴스 영향 분석 |
78
+ | **tool_calling** | 1,965 | 5.4% | Search/Price/Investor 도구 호출 학습 |
79
+ | **multi_stock_comparison** | 981 | 2.7% | 다중 종목 비교 분석 |
80
+ | **earnings_impact** | 971 | 2.6% | 실적 발표 영향 분석 |
81
+ | **risk_alert** | 948 | 2.6% | 리스크 경보 분석 |
82
+ | **supply_demand** | 492 | 1.3% | 수급 동향 분석 |
83
+ | **sector_theme** | 486 | 1.3% | 섹터/테마 분석 |
84
+ | **macro_impact** | 481 | 1.3% | 매크로 지표 영향 분석 |
85
+
86
+ > 평균 응답 길이: 2,337자 (Reasoning Trace JSON + 분석 리포트 포함)
87
+
88
+ ### DPO (24,779 pairs)
89
+
90
+ | Source | Pairs | Ratio | Description |
91
+ |--------|-------|-------|-------------|
92
+ | **dpo_dedup** | 12,000 | 48.4% | 중복 제거된 기본 DPO 페어 |
93
+ | **multilingual_aug** | 5,997 | 24.2% | 중국어/영어 leak 보강 (rejected에 leak 삽입) |
94
+ | **vela_chatml** | 5,000 | 20.2% | VELA 시스템 프롬프트 정렬 |
95
+ | **chinese_leak_v2** | 1,216 | 4.9% | 중국어 leak 집중 교정 |
96
+ | **reasoning_trace_2k** | 566 | 2.3% | Reasoning Trace 형식 정렬 |
97
+
98
  ## Capabilities
99
 
100
  - **뉴스 영향 분석**: 주식 관련 뉴스의 시장 영향도 예측
101
+ - **증권사 리포트 해석**: 애널리스트 리포트 기반 투자 분석
102
  - **리서치 리포트 생성**: 구조화된 투자 분석 보고서 (7개 섹션)
103
  - **Reasoning Trace**: 단계별 분석 사고과정 (JSON 형식)
104
  - **다중 소스 종합**: 뉴스, 시세, 수급 데이터 통합 분석
 
231
  ## 투자 의견
232
  ```
233
 
 
 
 
 
 
 
 
 
 
234
  ## DPO Improvements
235
 
236
  - ✅ **중국어 leak 제거**: Stress test 10/10 CLEAN
 
261
 
262
  | 버전 | 날짜 | 변경사항 |
263
  |------|------|----------|
264
+ | v1.1 | 2026-02-12 | GGUF 양자화 모델 추가 (Q4_K_M, Q8_0), 벤치마크, 학습 데이터 분포 공개 |
265
  | v1.0 | 2026-01-28 | DPO 병합, 중국어/영어 leak 해결 |
266
  | v0.9 | 2026-01-15 | SFT 베이스 모델 공개 |
267