Text Generation
Transformers
Safetensors
qwen3
conversational
text-generation-inference
rin2401 commited on
Commit
f227ac5
·
verified ·
1 Parent(s): e347455

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +8 -8
README.md CHANGED
@@ -156,7 +156,7 @@ special_tokens:
156
  1. Tạo Synthetic Syllabus (bao gồm cấp bậc (Tiểu học/THCS/THPT/) - Lớp - môn học - Chủ đề trong từng môn)
157
  2. Sử dụng Gemini 2.5 pro để sinh trước câu hỏi dựa trên 12 task của BTC dựa trên chủ đề, môn học của synthetic syllabus.
158
  3. Sau đó sinh Response dựa bằng (3-pro / 2.5-pro)
159
- 3. Bước cuối team sử dụng Gemini 2.5 Pro/Flash để tạo giả lập chuỗi tư duy (synthetic CoT) bằng cách: tạo câu hỏi -> sinh đáp án -> dựng lại biểu diễn reasoning/thinking theo phong cách mô hình Qwen. Điều này giúp mô hình tối ưu khả năng giải quyết bài toán học đường đúng logic và sát thực tế với model base hơn. Final dữ liệu ~4k8 sample.
160
 
161
  - Public data: Từ 2M dữ liệu của bộ dữ liệu Dolci-SFT, team lọc theo ngôn ngữ và task thì giữ lại ~5k sample chất lượng cao cho tiếng Việt
162
 
@@ -171,15 +171,15 @@ special_tokens:
171
  + Tự động: VMLU - Đánh giá trắc nghiệm
172
  + LLM as Jugde: Build 120 câu benchmark cho 12 task của BTC, sau đó dùng Gemini-3-Pro chấm điểm chất lượng response sinh ra, follow theo bài báo Arena và đưa ra 2 cách chấm:
173
 
174
- 1. So sánh (Thắng/Thua) 2 response của mô hình khác nhau (mục đích để chọn base model tốt nhất)
175
- 2. Rating response (điểm từ 1-10) trước, sau FT với ground_truth response (Mục đích để kiểm tra chất lượng trước và sau finetuning)
176
 
177
  - Exp chọn model:
178
 
179
  + Lựa chọn: Dựa trên các benchmark của team + report performance từ các mô hình team thử nghiệm tất cả và nhận thấy 3 model tốt nhất cho tiếng Việt, từ thấp đến cao đó là: Qwen3-4B-Thingking-2507, Qwen3-8B, Qwen-8B-VL-Thinking
180
- + Training Exp trên model 4B sau đó final apply cho 8B-VL và 8B
181
 
182
- - Training:
183
 
184
  + LoRA/FT: Mặc dù lượng dữ liệu nhỏ nhưng kết quả loss + eval cho thấy FT vẫn cho hiệu suất tốt hơn
185
  + Packing dữ liệu, Ligerkernel, Flex attention giảm mem và tăng tốc độ training để exp được nhiều
@@ -188,15 +188,15 @@ special_tokens:
188
 
189
  ## 3. Nộp bài
190
 
191
- + Mô hình tốt nhất của team training được là Qwen3-VL-8B với 74.87 điểm trên VMLU, nhưng 2 task Instruction Following và Function calling thì chất lượng không bằng Qwen3-8B (chỉ có 71.74 trên VMLU).
192
 
193
  => Sau khi tính AVG điểm thì Qwen3-8B đạt 74.03 và Qwen3-8B-VL đạt 73.43 nên team quyết định chọn Qwen3-8B làm final model
194
 
195
- + Trong quá trình inference test để hiểu hơn về mô hình, team nhận thấy Qwen3 hay mắc các lỗi về thêm các token tiếng Trung vào trong response dù đã prompt kĩ lưỡng
196
 
197
  => Thực hiện model pruning weight để khiến mô hình không sinh các token tiếng Trung
198
 
199
- + Finaly kết quả trước và sau training của Qwen3-8B:
200
 
201
  * VMLU: 69.0 -> 71.74
202
  * LLM Judge 12 task: 52 -> 72 (Gemini-2.5-Flash: 84 / Gemini-2.5-Pro: 90)
 
156
  1. Tạo Synthetic Syllabus (bao gồm cấp bậc (Tiểu học/THCS/THPT/) - Lớp - môn học - Chủ đề trong từng môn)
157
  2. Sử dụng Gemini 2.5 pro để sinh trước câu hỏi dựa trên 12 task của BTC dựa trên chủ đề, môn học của synthetic syllabus.
158
  3. Sau đó sinh Response dựa bằng (3-pro / 2.5-pro)
159
+ 4. Bước cuối team sử dụng Gemini 2.5 Pro/Flash để tạo giả lập chuỗi tư duy (synthetic CoT) bằng cách: tạo câu hỏi -> sinh đáp án -> dựng lại biểu diễn reasoning/thinking theo phong cách mô hình Qwen. Điều này giúp mô hình tối ưu khả năng giải quyết bài toán học đường đúng logic và sát thực tế với model base hơn. Final dữ liệu ~4k8 sample.
160
 
161
  - Public data: Từ 2M dữ liệu của bộ dữ liệu Dolci-SFT, team lọc theo ngôn ngữ và task thì giữ lại ~5k sample chất lượng cao cho tiếng Việt
162
 
 
171
  + Tự động: VMLU - Đánh giá trắc nghiệm
172
  + LLM as Jugde: Build 120 câu benchmark cho 12 task của BTC, sau đó dùng Gemini-3-Pro chấm điểm chất lượng response sinh ra, follow theo bài báo Arena và đưa ra 2 cách chấm:
173
 
174
+ + So sánh (Thắng/Thua) 2 response của mô hình khác nhau (mục đích để chọn base model tốt nhất)
175
+ + Rating response (điểm từ 1-10) trước, sau FT với ground_truth response (Mục đích để kiểm tra chất lượng trước và sau finetuning)
176
 
177
  - Exp chọn model:
178
 
179
  + Lựa chọn: Dựa trên các benchmark của team + report performance từ các mô hình team thử nghiệm tất cả và nhận thấy 3 model tốt nhất cho tiếng Việt, từ thấp đến cao đó là: Qwen3-4B-Thingking-2507, Qwen3-8B, Qwen-8B-VL-Thinking
180
+ + Training các thử nghiệm trên model Qwen3-4B sau đó final apply cho Qwen3-8B-VL và Qwen3-8B
181
 
182
+ - Training
183
 
184
  + LoRA/FT: Mặc dù lượng dữ liệu nhỏ nhưng kết quả loss + eval cho thấy FT vẫn cho hiệu suất tốt hơn
185
  + Packing dữ liệu, Ligerkernel, Flex attention giảm mem và tăng tốc độ training để exp được nhiều
 
188
 
189
  ## 3. Nộp bài
190
 
191
+ - Mô hình tốt nhất của team training được là Qwen3-VL-8B với 74.87 điểm trên VMLU, nhưng 2 task Instruction Following và Function calling thì chất lượng không bằng Qwen3-8B (chỉ có 71.74 trên VMLU).
192
 
193
  => Sau khi tính AVG điểm thì Qwen3-8B đạt 74.03 và Qwen3-8B-VL đạt 73.43 nên team quyết định chọn Qwen3-8B làm final model
194
 
195
+ - Trong quá trình inference test để hiểu hơn về mô hình, team nhận thấy Qwen3 hay mắc các lỗi về thêm các token tiếng Trung vào trong response dù đã prompt kĩ lưỡng
196
 
197
  => Thực hiện model pruning weight để khiến mô hình không sinh các token tiếng Trung
198
 
199
+ - Kết quả trước và sau training của Qwen3-8B:
200
 
201
  * VMLU: 69.0 -> 71.74
202
  * LLM Judge 12 task: 52 -> 72 (Gemini-2.5-Flash: 84 / Gemini-2.5-Pro: 90)