AvitoTech1 commited on
Commit
c7e8040
·
verified ·
1 Parent(s): 31b411c

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +3 -4
README.md CHANGED
@@ -25,8 +25,8 @@ A-Vision — Visual-Language модель, адаптированная под
25
  * **Данные.** Собрали собственный русскоязычный мультимодальный корпус: ~200k изображений объявлений и ≈1M пар «вопрос–ответ», дополненный тщательно локализованными наборами (вместо «сырого» машинного перевода).Также перевели несколько OS-датасетов.
26
  * **Адаптация LLM.** Заменили токенизатор на русскоязычный; провели **freeze→unfreeze** LLM-части модели на большом корпусе русскоязычного текста.
27
  * **Мультимодальное SFT.** Дообучили модель на собранном датасете «изображение+вопрос → ответ».
28
- * **RL-этап.** Проверили DPO, которое позволило добиться от модели безопасных ответов.
29
- * **Результат.** Рост качества на русскоязычных и доменных тестах (Авито-метрика генерации описаний +5.6%, MMMU_RU +2.6%, RealWorldQA_RU +1.9%) при сохранении универсальных VLM-навыков; небольшая просадка на части англоязычных бенчмарков ожидаема из-за фокуса на русском.
30
 
31
  | Метрика | Qwen2.5-VL-7B-Instruct | **A-Vision** |
32
  | :--------------- | :--------------------: | :----------: |
@@ -41,7 +41,7 @@ A-Vision — Visual-Language модель, адаптированная под
41
  | DocVQA_EN | 94.7458 | **94.9702** |
42
 
43
 
44
- В токенизаторе A-vision плотность токенизации выше, чем у Qwen2.5-VL-7B-Instruct поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. Кроме того, размер самой модели сократился до 7.4B при 8.3B у Qwen2.5-VL-7B-Instruct. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 50% в сравнении с исходной Qwen2.5-VL-7B-Instruct.
45
 
46
  ## Где используем в продукте
47
 
@@ -115,7 +115,6 @@ response = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
115
  print(response)
116
  ```
117
 
118
- > Примечание:
119
  > * Для лучшей производительности имеет смысл подбирать `min_pixels/max_pixels`.
120
 
121
  ---
 
25
  * **Данные.** Собрали собственный русскоязычный мультимодальный корпус: ~200k изображений объявлений и ≈1M пар «вопрос–ответ», дополненный тщательно локализованными наборами (вместо «сырого» машинного перевода).Также перевели несколько OS-датасетов.
26
  * **Адаптация LLM.** Заменили токенизатор на русскоязычный; провели **freeze→unfreeze** LLM-части модели на большом корпусе русскоязычного текста.
27
  * **Мультимодальное SFT.** Дообучили модель на собранном датасете «изображение+вопрос → ответ».
28
+ * **RL-этап.** Провели DPO, которое позволило добиться от модели безопасных ответов.
29
+ * **Результат.** Ускорение модели на 50% на русских данных. Рост качества на русскоязычных и доменных тестах (Авито-метрика генерации описаний +6%, MMMU_RU +1%, RealWorldQA_RU +1%) при сохранении универсальных VLM-навыков; небольшая просадка на части англоязычных бенчмарков ожидаема из-за фокуса на русском.
30
 
31
  | Метрика | Qwen2.5-VL-7B-Instruct | **A-Vision** |
32
  | :--------------- | :--------------------: | :----------: |
 
41
  | DocVQA_EN | 94.7458 | **94.9702** |
42
 
43
 
44
+ В токенизаторе A-vision плотность токенизации выше, чем у Qwen2.5-VL-7B-Instruct, поэтому число токенов в контексте и при генерации стало меньше для одинаковых примеров. Кроме того, размер самой модели сократился до 7.4B, при 8.3B у Qwen2.5-VL-7B-Instruct. За счет этого одинаковые русскоязычные примеры адаптированной моделью обрабатываются быстрее в среднем на 50% в сравнении с исходной Qwen2.5-VL-7B-Instruct.
45
 
46
  ## Где используем в продукте
47
 
 
115
  print(response)
116
  ```
117
 
 
118
  > * Для лучшей производительности имеет смысл подбирать `min_pixels/max_pixels`.
119
 
120
  ---