Update README.md
Browse files
README.md
CHANGED
|
@@ -25,8 +25,8 @@ A-Vision — Visual-Language модель, адаптированная под
|
|
| 25 |
* **Данные.** Собрали собственный русскоязычный мультимодальный корпус: ~200k изображений объявлений и ≈1M пар «вопрос–ответ», дополненный тщательно локализованными наборами (вместо «сырого» машинного перевода).Также перевели несколько OS-датасетов.
|
| 26 |
* **Адаптация LLM.** Заменили токенизатор на русскоязычный; провели **freeze→unfreeze** LLM-части модели на большом корпусе русскоязычного текста.
|
| 27 |
* **Мультимодальное SFT.** Дообучили модель на собранном датасете «изображение+вопрос → ответ».
|
| 28 |
-
* **RL-этап.**
|
| 29 |
-
* **Результат.** Рост качества на русскоязычных и доменных тестах (Авито-метрика генерации описаний +
|
| 30 |
|
| 31 |
| Метрика | Qwen2.5-VL-7B-Instruct | **A-Vision** |
|
| 32 |
| :--------------- | :--------------------: | :----------: |
|
|
@@ -41,7 +41,7 @@ A-Vision — Visual-Language модель, адаптированная под
|
|
| 41 |
| DocVQA_EN | 94.7458 | **94.9702** |
|
| 42 |
|
| 43 |
|
| 44 |
-
В токенизаторе A-vision плотность токенизации выше, чем у Qwen2.5-VL-7B-Instruct поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. Кроме того, размер самой модели сократился до 7.4B при 8.3B у Qwen2.5-VL-7B-Instruct. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 50% в сравнении с исходной Qwen2.5-VL-7B-Instruct.
|
| 45 |
|
| 46 |
## Где используем в продукте
|
| 47 |
|
|
@@ -115,7 +115,6 @@ response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
|
|
| 115 |
print(response)
|
| 116 |
```
|
| 117 |
|
| 118 |
-
> Примечание:
|
| 119 |
> * Для лучшей производительности имеет смысл подбирать `min_pixels/max_pixels`.
|
| 120 |
|
| 121 |
---
|
|
|
|
| 25 |
* **Данные.** Собрали собственный русскоязычный мультимодальный корпус: ~200k изображений объявлений и ≈1M пар «вопрос–ответ», дополненный тщательно локализованными наборами (вместо «сырого» машинного перевода).Также перевели несколько OS-датасетов.
|
| 26 |
* **Адаптация LLM.** Заменили токенизатор на русскоязычный; провели **freeze→unfreeze** LLM-части модели на большом корпусе русскоязычного текста.
|
| 27 |
* **Мультимодальное SFT.** Дообучили модель на собранном датасете «изображение+вопрос → ответ».
|
| 28 |
+
* **RL-этап.** Провели DPO, которое позволило добиться от модели безопасных ответов.
|
| 29 |
+
* **Результат.** Ускорение модели на 50% на русских данных. Рост качества на русскоязычных и доменных тестах (Авито-метрика генерации описаний +6%, MMMU_RU +1%, RealWorldQA_RU +1%) при сохранении универсальных VLM-навыков; небольшая просадка на части англоязычных бенчмарков ожидаема из-за фокуса на русском.
|
| 30 |
|
| 31 |
| Метрика | Qwen2.5-VL-7B-Instruct | **A-Vision** |
|
| 32 |
| :--------------- | :--------------------: | :----------: |
|
|
|
|
| 41 |
| DocVQA_EN | 94.7458 | **94.9702** |
|
| 42 |
|
| 43 |
|
| 44 |
+
В токенизаторе A-vision плотность токенизации выше, чем у Qwen2.5-VL-7B-Instruct, поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. Кроме того, размер самой модели сократился до 7.4B, при 8.3B у Qwen2.5-VL-7B-Instruct. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 50% в сравнении с исходной Qwen2.5-VL-7B-Instruct.
|
| 45 |
|
| 46 |
## Где используем в продукте
|
| 47 |
|
|
|
|
| 115 |
print(response)
|
| 116 |
```
|
| 117 |
|
|
|
|
| 118 |
> * Для лучшей производительности имеет смысл подбирать `min_pixels/max_pixels`.
|
| 119 |
|
| 120 |
---
|