AvitoTech
/

avision

@@ -25,8 +25,8 @@ A-Vision — Visual-Language модель, адаптированная под
 * **Данные.** Собрали собственный русскоязычный мультимодальный корпус: ~200k изображений объявлений и ≈1M пар «вопрос–ответ», дополненный тщательно локализованными наборами (вместо «сырого» машинного перевода).Также перевели несколько OS-датасетов.
 * **Адаптация LLM.** Заменили токенизатор на русскоязычный; провели **freeze→unfreeze** LLM-части модели на большом корпусе русскоязычного текста.
 * **Мультимодальное SFT.** Дообучили модель на собранном датасете «изображение+вопрос → ответ».
-* **RL-этап.** Проверили DPO, которое позволило добиться от модели безопасных ответов.
-* **Результат.** Рост качества на русскоязычных и доменных тестах (Авито-метрика генерации описаний +5.6%, MMMU_RU +2.6%, RealWorldQA_RU +1.9%) при сохранении универсальных VLM-навыков; небольшая просадка на части англоязычных бенчмарков ожидаема из-за фокуса на русском.
 | Метрика          | Qwen2.5-VL-7B-Instruct | **A-Vision** |
 | :--------------- | :--------------------: | :----------: |
@@ -41,7 +41,7 @@ A-Vision — Visual-Language модель, адаптированная под
 | DocVQA_EN        |         94.7458        |  **94.9702** |
-В токенизаторе A-vision плотность токенизации выше, чем у Qwen2.5-VL-7B-Instruct поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. Кроме того, размер самой модели сократился до 7.4B при 8.3B у Qwen2.5-VL-7B-Instruct. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 50% в сравнении с исходной Qwen2.5-VL-7B-Instruct.
 ## Где используем в продукте
@@ -115,7 +115,6 @@ response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
 print(response)
 ```
-> Примечание:
 > * Для лучшей производительности имеет смысл подбирать `min_pixels/max_pixels`.
 ---

 * **Данные.** Собрали собственный русскоязычный мультимодальный корпус: ~200k изображений объявлений и ≈1M пар «вопрос–ответ», дополненный тщательно локализованными наборами (вместо «сырого» машинного перевода).Также перевели несколько OS-датасетов.
 * **Адаптация LLM.** Заменили токенизатор на русскоязычный; провели **freeze→unfreeze** LLM-части модели на большом корпусе русскоязычного текста.
 * **Мультимодальное SFT.** Дообучили модель на собранном датасете «изображение+вопрос → ответ».
+* **RL-этап.** Провели DPO, которое позволило добиться от модели безопасных ответов.
+* **Результат.** Ускорение модели на 50% на русских данных. Рост качества на русскоязычных и доменных тестах (Авито-метрика генерации описаний +6%, MMMU_RU +1%, RealWorldQA_RU +1%) при сохранении универсальных VLM-навыков; небольшая просадка на части англоязычных бенчмарков ожидаема из-за фокуса на русском.
 | Метрика          | Qwen2.5-VL-7B-Instruct | **A-Vision** |
 | :--------------- | :--------------------: | :----------: |
 | DocVQA_EN        |         94.7458        |  **94.9702** |
+В токенизаторе A-vision плотность токенизации выше, чем у Qwen2.5-VL-7B-Instruct, поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. Кроме того, размер самой модели сократился до 7.4B, при 8.3B у Qwen2.5-VL-7B-Instruct. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 50% в сравнении с исходной Qwen2.5-VL-7B-Instruct.
 ## Где используем в продукте
 print(response)
 ```
 > * Для лучшей производительности имеет смысл подбирать `min_pixels/max_pixels`.
 ---