Update README.md
Browse files
README.md
CHANGED
|
@@ -27,6 +27,16 @@ datasets:
|
|
| 27 |
|
| 28 |
## 2. Training & Evaluation
|
| 29 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 30 |
- Team xây dựng 2 bộ benchmark chính để đánh giá trong quá trình training:
|
| 31 |
|
| 32 |
+ Tự động: VMLU - Đánh giá trắc nghiệm
|
|
@@ -47,6 +57,7 @@ datasets:
|
|
| 47 |
+ Optimize lr: 2e-5 - 2e-6
|
| 48 |
+ Total exp ~40-50exp
|
| 49 |
|
|
|
|
| 50 |
## 3. Nộp bài
|
| 51 |
|
| 52 |
- Mô hình tốt nhất của team training được là Qwen3-VL-8B với 74.87 điểm trên VMLU, nhưng 2 task Instruction Following và Function calling thì chất lượng không bằng Qwen3-8B (chỉ có 71.74 trên VMLU).
|
|
|
|
| 27 |
|
| 28 |
## 2. Training & Evaluation
|
| 29 |
|
| 30 |
+
| Model | VMLU |
|
| 31 |
+
| :--- | :--- |
|
| 32 |
+
| Qwen3-4B-Thinking-2507 | 70.00 |
|
| 33 |
+
| Qwen3-8B-Thinking | 69.00 |
|
| 34 |
+
| Qwen3-VL-8B-Thinking | 74.10 |
|
| 35 |
+
| **Unicorn-4B-R3** | 70.59 |
|
| 36 |
+
| **Unicorn-R3** | 71.74 |
|
| 37 |
+
| **Unicorn-VL-R3** | **74.87** |
|
| 38 |
+
|
| 39 |
+
|
| 40 |
- Team xây dựng 2 bộ benchmark chính để đánh giá trong quá trình training:
|
| 41 |
|
| 42 |
+ Tự động: VMLU - Đánh giá trắc nghiệm
|
|
|
|
| 57 |
+ Optimize lr: 2e-5 - 2e-6
|
| 58 |
+ Total exp ~40-50exp
|
| 59 |
|
| 60 |
+
|
| 61 |
## 3. Nộp bài
|
| 62 |
|
| 63 |
- Mô hình tốt nhất của team training được là Qwen3-VL-8B với 74.87 điểm trên VMLU, nhưng 2 task Instruction Following và Function calling thì chất lượng không bằng Qwen3-8B (chỉ có 71.74 trên VMLU).
|