Update README.md
Browse files
README.md
CHANGED
|
@@ -168,6 +168,15 @@ special_tokens:
|
|
| 168 |
|
| 169 |
## 2. Training & Evaluation
|
| 170 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 171 |
- Team xây dựng 2 bộ benchmark chính để đánh giá trong quá trình training:
|
| 172 |
|
| 173 |
+ Tự động: VMLU - Đánh giá trắc nghiệm
|
|
|
|
| 168 |
|
| 169 |
## 2. Training & Evaluation
|
| 170 |
|
| 171 |
+
| Model | VMLU |
|
| 172 |
+
| :--- | :--- |
|
| 173 |
+
| Qwen3-4B-Thinking-2507 | 70.00 |
|
| 174 |
+
| Qwen3-8B-Thinking | 69.00 |
|
| 175 |
+
| Qwen3-VL-8B-Thinking | 74.10 |
|
| 176 |
+
| **Unicorn-4B-R3** | 70.59 |
|
| 177 |
+
| **Unicorn-R3** | 71.74 |
|
| 178 |
+
| **Unicorn-VL-R3** | **74.87** |
|
| 179 |
+
|
| 180 |
- Team xây dựng 2 bộ benchmark chính để đánh giá trong quá trình training:
|
| 181 |
|
| 182 |
+ Tự động: VMLU - Đánh giá trắc nghiệm
|