Ilia Tambovtsev commited on
Commit
ed2fa15
·
1 Parent(s): 310511f

doc: add lower-resolution markdown report

Browse files
docs/reports/img/lower_resolution/low_dpi_image.png ADDED
docs/reports/img/lower_resolution/orig_slide_plot.png ADDED
docs/reports/lower_resolution_research.md ADDED
@@ -0,0 +1,145 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # Как модель описывает изображения плохого качества
2
+
3
+ ## dpi
4
+
5
+ Завысим dpi - увеличим нагрузку на LLM. Мы хотим подавать изображения в Vision Transformer. Он принимает изображения в виде base64-строки. Ее длина зависит от размера изображения. dpi - параметр масштаба изображения. Больше dpi - длиннее base64-строка.
6
+
7
+ ## Эксперимент
8
+ [Ссылка на ноутбук](/notebooks/weird-slides/lowering_img_quality.ipynb)
9
+
10
+ Выбрал 4 слайда и конвертировал в изображение с `dpi=[72, 48, 36, 24, 16]`. Использовал промпт:
11
+
12
+ ```
13
+ Представь, что я ничего не вижу.
14
+ Я пришлю тебе слайд из презентации, а ты опиши его.
15
+ Передай мне содержимое слайда в мельчайших подробностях.
16
+ ```
17
+
18
+
19
+ ## Результаты
20
+
21
+ ### Выводы
22
+ Можно не увеличивать dpi.
23
+ С dpi=72 проблем не было.
24
+
25
+ ### Наблюдения
26
+
27
+ \*\* гал - галлюцинация
28
+
29
+ - dpi=72: Без ошибок
30
+ - dpi=48: 1 гал на мелком тексте
31
+ - dpi=36: Много гал.
32
+ - Ошибочно считывает числа
33
+ - Выдумывает содержимое таблицы
34
+ - Теряет существующие поля таблицы
35
+ - dpi=24: Много гал
36
+ - видит только заголовки и структуру
37
+ - различает большие картинки
38
+ - dpi=16: тут ничего не видно, гпт выдает краткую галлюцинацию
39
+
40
+ #### ГПТ не умеет оценивать качество изображений
41
+ | dpi=16 | original |
42
+ | :----------------------------------------------: | :---------------------------------------------------: |
43
+ | ![lower](img/lower_resolution/low_dpi_image.png) | ![original](img/lower_resolution/orig_slide_plot.png) |
44
+
45
+ **Описание слайда с dpi=16:**
46
+ ```
47
+ Слайд состоит из двух основных частей: графика и текстового блока.
48
+
49
+ ### Левая часть (график):
50
+ - **Заголовок:** "Потрясения последних лет уже кардинально изменили мир и повлияют на
51
+ энергетические рынки будущего".
52
+ - **Подзаголовок:** "Мировые цены на газ". # <- в оригинале не про газ
53
+ - **График:** Линии показывают изменения цен на газ с 2000 по 2022 год.
54
+ - **Черная линия:** Цена на газ в США. # <- в оригинале индексы
55
+ - **Оранжевая линия:** Цена на газ в Европе.
56
+ - **Ключевые события на графике:** # <- Есть совпадения, но большая часть мимо
57
+ - 2008: Финансовый кризис.
58
+ - 2011: Арабская весна.
59
+ - 2014: Кризис на Украине.
60
+ - 2020: Пандемия COVID-19.
61
+ - 2022: Конфликт в Украине.
62
+
63
+ ### Правая часть (текстовый блок):
64
+ - **Заголовок:** "Мир, в котором мы живем".
65
+ - **Список с иконками:**
66
+ 1. **Иконка глобуса:** Глобальные потрясения влияют на энергетические рынки.
67
+ 2. **Иконка графика:** Цены на энергоносители нестабильны.
68
+ 3. **Иконка завода:** Изменения в производстве и потреблении энергии.
69
+ 4. **Иконка руки с монетой:** Экономические последствия для стран и компаний.
70
+
71
+ Фон слайда светлый, текст и графики выполнены в черных и оранжевых тонах.
72
+ ```
73
+
74
+
75
+ **Просил не анализировать слайды плохого качества:** `Если на слайде есть текст, но ты не можешь его различить, напиши об этом. Не пытайся восстановить содержимое.`
76
+ ГПТ выдал меньше текста. Где-то говорил "сопровождаемые текстовыми пояснениями". Но насчет заголовков галюцинировал.
77
+ ```
78
+ На слайде представлена информация о влиянии климатических изменений на энергетические
79
+ рынки.
80
+
81
+ ### Левая часть слайда:
82
+ - **Загол��вок:** Говорит о последствиях климатических изменений за последние десятилетия.
83
+ - **График:**
84
+ - Две линии: одна черная, другая оранжевая.
85
+ - Ось X: временная шкала с 2000 по 2022 год.
86
+ - Ось Y: вероятно, отражает какой-то количественный показатель.
87
+ - На графике отмечены несколько пиков и спадов, сопровождаемые текстовыми пояснениями.
88
+
89
+ - **Текстовые блоки над графиком:**
90
+ - Описывают различные периоды и события, влияющие на изменения на графике.
91
+
92
+ ### Правая часть слайда:
93
+ - **Заголовок:** "Мир, в котором мы живем".
94
+ - **Список:** Несколько пунктов, каждый из которых сопровождается иконкой. Пункты
95
+ описывают различные аспекты текущей ситуации в мире, связанные с климатом и энергетикой.
96
+
97
+ Цветовая гамма слайда включает черный, белый и оранжевый цвета.
98
+
99
+ ```
100
+
101
+
102
+
103
+ **Попросил оценить качество слайда с dpi=16.** ГПТ сгаллюцинировал позитивную оценку.
104
+ ```
105
+ Представь что ты жюри по оценке презентаций. Будь объективен в своих оценках.
106
+ Оцени качество слайда.
107
+ Используй следующие критерии:
108
+ - Разборчивость текста
109
+ - Качество изображений
110
+ - Читаемость графиков
111
+
112
+ Каждому пункту поставь оценку от 1 до 5 и дай комментарий.
113
+ ```
114
+
115
+ ГПТ раздал оценки 4-5 и позитивные комментарии - "Текст на слайде разборчивый":
116
+ ```
117
+ ### Оценка слайда:
118
+
119
+ #### Разборчивость текста: 4/5
120
+ - **Комментарий:** Текст на слайде в целом разборчивый, но мелкий шрифт в некоторых местах
121
+ может затруднить чтение, особенно на графике и в боковой панели.
122
+
123
+ #### Качество изображений: 5/5
124
+ - **Комментарий:** Изображения и графики четкие и хорошо видны. Цветовая схема помогает
125
+ выделить ключевые элементы.
126
+
127
+ #### Читаемость графиков: 4/5
128
+ - **Комментарий:** График хорошо структурирован и понятен, но мелкие подписи и детали
129
+ могут быть трудны для восприятия на расстоянии. Улучшение читаемости можно достичь
130
+ увеличением шрифта или упрощением деталей.
131
+ ### Оценка слайда:
132
+
133
+ #### Разборчивость текста: 4/5
134
+ - **Комментарий:** Текст на слайде в целом разборчивый, но мелкий шрифт в некоторых местах
135
+ может затруднить чтение, особенно на графике и в боковой панели.
136
+
137
+ #### Качество изображений: 5/5
138
+ - **Комментарий:** Изображения и графики четкие и хорошо видны. Цветовая схема помогает
139
+ выделить ключевые элементы.
140
+
141
+ #### Читаемость графиков: 4/5
142
+ - **Комментарий:** График хорошо структурирован и понятен, но мелкие подписи и детали
143
+ могут быть трудны для восприятия на расстоянии. Улучшение читаемости можно достичь
144
+ увеличением шрифта или упрощением деталей.
145
+ ```