Update README.md
Browse files
README.md
CHANGED
|
@@ -1,10 +1,10 @@
|
|
| 1 |
-
---
|
| 2 |
-
library_name: transformers
|
| 3 |
-
base_model:
|
| 4 |
-
- Qwen/Qwen3-8B
|
| 5 |
-
datasets:
|
| 6 |
-
- allenai/Dolci-Think-SFT-7B
|
| 7 |
-
---
|
| 8 |
|
| 9 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
| 10 |
should probably proofread and complete it, then remove this comment. -->
|
|
@@ -189,12 +189,14 @@ special_tokens:
|
|
| 189 |
## 3. Nộp bài
|
| 190 |
|
| 191 |
+ Mô hình tốt nhất của team training được là Qwen3-VL-8B với 74.87 điểm trên VMLU, nhưng 2 task Instruction Following và Function calling thì chất lượng không bằng Qwen3-8B (chỉ có 71.74 trên VMLU).
|
| 192 |
-
|
|
|
|
| 193 |
|
| 194 |
+ Trong quá trình inference test để hiểu hơn về mô hình, team nhận thấy Qwen3 hay mắc các lỗi về thêm các token tiếng Trung vào trong response dù đã prompt kĩ lưỡng
|
| 195 |
-
|
|
|
|
| 196 |
|
| 197 |
+ Finaly kết quả trước và sau training của Qwen3-8B:
|
| 198 |
|
| 199 |
* VMLU: 69.0 -> 71.74
|
| 200 |
-
* LLM Judge 12 task: 52
|
|
|
|
| 1 |
+
---
|
| 2 |
+
library_name: transformers
|
| 3 |
+
base_model:
|
| 4 |
+
- Qwen/Qwen3-8B
|
| 5 |
+
datasets:
|
| 6 |
+
- allenai/Dolci-Think-SFT-7B
|
| 7 |
+
---
|
| 8 |
|
| 9 |
<!-- This model card has been generated automatically according to the information the Trainer had access to. You
|
| 10 |
should probably proofread and complete it, then remove this comment. -->
|
|
|
|
| 189 |
## 3. Nộp bài
|
| 190 |
|
| 191 |
+ Mô hình tốt nhất của team training được là Qwen3-VL-8B với 74.87 điểm trên VMLU, nhưng 2 task Instruction Following và Function calling thì chất lượng không bằng Qwen3-8B (chỉ có 71.74 trên VMLU).
|
| 192 |
+
|
| 193 |
+
=> Sau khi tính AVG điểm thì Qwen3-8B đạt 74.03 và Qwen3-8B-VL đạt 73.43 nên team quyết định chọn Qwen3-8B làm final model
|
| 194 |
|
| 195 |
+ Trong quá trình inference test để hiểu hơn về mô hình, team nhận thấy Qwen3 hay mắc các lỗi về thêm các token tiếng Trung vào trong response dù đã prompt kĩ lưỡng
|
| 196 |
+
|
| 197 |
+
=> Thực hiện model pruning weight để khiến mô hình không sinh các token tiếng Trung
|
| 198 |
|
| 199 |
+ Finaly kết quả trước và sau training của Qwen3-8B:
|
| 200 |
|
| 201 |
* VMLU: 69.0 -> 71.74
|
| 202 |
+
* LLM Judge 12 task: 52 -> 72 (Gemini-2.5-Flash: 84 / Gemini-2.5-Pro: 90)
|