YarKo69 commited on
Commit
a883f4d
·
verified ·
1 Parent(s): e37dd9b

Pushing retriever model

Browse files

Model trained on custom dataset (Article for Reinforcement Learning)

Files changed (1) hide show
  1. README.md +1173 -0
README.md ADDED
@@ -0,0 +1,1173 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ base_model: intfloat/multilingual-e5-small
3
+ library_name: sentence-transformers
4
+ pipeline_tag: sentence-similarity
5
+ tags:
6
+ - sentence-transformers
7
+ - sentence-similarity
8
+ - feature-extraction
9
+ - generated_from_trainer
10
+ - dataset_size:935
11
+ - loss:MultipleNegativesRankingLoss
12
+ widget:
13
+ - source_sentence: 'query: A.1.2. Матрица Фишера
14
+
15
+ Оптимизация при помощи натурального градиента предлагает использовать другую метрику,
16
+ которая учтёт
17
+
18
+ структуру нашего функционала:
19
+
20
+
21
+
22
+
23
+
24
+
25
+
26
+ f(φ) ≈f(φ0) + ⟨∇φf(φ)|φ=φ0
27
+
28
+ ,φ −φ0⟩→ min
29
+
30
+ φ
31
+
32
+ KL(q(x|φ0) ∥q(x|φ)) ≤α
33
+
34
+ Как решать такую задачу условной оптимизации? Еслиφ≈φ0, достаточно аппроксимировать
35
+ дивергенцию
36
+
37
+ KL(q(x|φ0) ∥q(x|φ)) при помощи разложения в ряд Тейлора до второго члена. До второго
38
+ /emdash.cyr потому что
39
+
40
+ первое ноль.
41
+
42
+ Утверждение 93:
43
+
44
+ ∇φKL(q(x|φ0) ∥q(x|φ))|φ=φ0
45
+
46
+ = 0
47
+
48
+ Доказательство. KL-дивергенция в точкеφ= φ0 равна 0 как дивергенция между одинаковыми
49
+ распре-
50
+
51
+ делениями, следовательно как функция отφона достигает в этой точке глобального
52
+ минимума⇒градиент
53
+
54
+ равен нулю. ■
55
+
56
+ Определение 128: Для распределенияq(x|φ) матрицей Фишера(Fisher matrix) называется
57
+
58
+ Fq(φ) := −Eq(x|φ)∇2
59
+
60
+ φlog q(x|φ)
61
+
62
+ Теорема 93: Матрица Фишера есть гессианKL-дивергенции:
63
+
64
+ ∇2
65
+
66
+ φKL(q(x|φ0) ∥q(x|φ))
67
+
68
+ ⏐⏐⏐
69
+
70
+ φ=φ0
71
+
72
+ = Fq(φ0)
73
+
74
+ Доказательство.
75
+
76
+ ∇2
77
+
78
+ φKL(q(x|φ0) ∥q(x|φ))
79
+
80
+ ⏐⏐⏐
81
+
82
+ φ=φ0
83
+
84
+ = ∇2
85
+
86
+ φ
87
+
88
+ [
89
+
90
+ const(φ) −Eq(x|φ0) log q(x|φ)
91
+
92
+ ]⏐⏐⏐'
93
+ sentences:
94
+ - 'passage: ства оптимальных стратегий. Для доказательства нам понадобится факт,
95
+ который мы технически докажем в
96
+
97
+ рамках повествования чуть позже: для данного MDPQ∗/emdash.cyr единственная функцияS×A→
98
+ R, удовлетворя-
99
+
100
+ ющая уравнениям оптимальности Беллмана.
101
+
102
+ Теорема 15 /emdash.cyr Критерий оптимальности Беллмана: πоптимальна тогда и только
103
+ тогда, когда∀s,a: π(a|s) >0
104
+
105
+ верно:
106
+
107
+ a∈Argmax
108
+
109
+ a
110
+
111
+ Qπ(s,a)
112
+
113
+ Необходимость. Пустьπ/emdash.cyr оптимальна. Тогда её оценочные функции совпадают
114
+ сV∗,Q∗, для которых
115
+
116
+ выполнено уравнение (3.15):
117
+
118
+ Vπ(s) = V∗(s) = max
119
+
120
+ a
121
+
122
+ Q∗(s,a) = max
123
+
124
+ a
125
+
126
+ Qπ(s,a)
127
+
128
+ С другой стороны из связи VQ (3.6) верноVπ(s) = Eπ(a|s)Qπ(s,a); получаем
129
+
130
+ Eπ(a|s)Qπ(s,a) = max
131
+
132
+ a
133
+
134
+ Qπ(s,a),
135
+
136
+ из чего вытекает доказываемое. ■
137
+
138
+ Достаточность. Пусть условие выполнено. Тогда для любой парыs,a:
139
+
140
+ Qπ(s,a) = {связь QQ (3.7)}= r(s,a) + γEs′Eπ(a′|s′)Qπ(s′,a′) = r(s,a) + γEs′max
141
+
142
+ a′
143
+
144
+ Qπ(s′,a′)
145
+
146
+ Из единственности решения этого уравнения следуетQπ(s,a) = Q∗(s,a), и, следовательно,π
147
+ оптимальна.
148
+
149
+ ■'
150
+ - 'passage: A.1.2. Матрица Фишера
151
+
152
+ Оптимизация при помощи натурального градиента предлагает использовать другую метрику,
153
+ которая учтёт
154
+
155
+ структуру нашего функционала:
156
+
157
+
158
+
159
+
160
+
161
+
162
+
163
+ f(φ) ≈f(φ0) + ⟨∇φf(φ)|φ=φ0
164
+
165
+ ,φ −φ0⟩→ min
166
+
167
+ φ
168
+
169
+ KL(q(x|φ0) ∥q(x|φ)) ≤α
170
+
171
+ Как решать такую задачу условной оптимизации? Еслиφ≈φ0, достаточно аппроксимировать
172
+ дивергенцию
173
+
174
+ KL(q(x|φ0) ∥q(x|φ)) при помощи разложения в ряд Тейлора до второго члена. До второго
175
+ /emdash.cyr потому что
176
+
177
+ первое ноль.
178
+
179
+ Утверждение 93:
180
+
181
+ ∇φKL(q(x|φ0) ∥q(x|φ))|φ=φ0
182
+
183
+ = 0
184
+
185
+ Доказательство. KL-дивергенция в точкеφ= φ0 равна 0 как дивергенция между одинаковыми
186
+ распре-
187
+
188
+ делениями, следовательно как функция отφона достигает в этой точке глобального
189
+ минимума⇒градиент
190
+
191
+ равен нулю. ■
192
+
193
+ Определение 128: Для распределенияq(x|φ) матрицей Фишера(Fisher matrix) называется
194
+
195
+ Fq(φ) := −Eq(x|φ)∇2
196
+
197
+ φlog q(x|φ)
198
+
199
+ Теорема 93: Матрица Фишера есть гессианKL-дивергенции:
200
+
201
+ ∇2
202
+
203
+ φKL(q(x|φ0) ∥q(x|φ))
204
+
205
+ ⏐⏐⏐
206
+
207
+ φ=φ0
208
+
209
+ = Fq(φ0)
210
+
211
+ Доказательство.
212
+
213
+ ∇2
214
+
215
+ φKL(q(x|φ0) ∥q(x|φ))
216
+
217
+ ⏐⏐⏐
218
+
219
+ φ=φ0
220
+
221
+ = ∇2
222
+
223
+ φ
224
+
225
+ [
226
+
227
+ const(φ) −Eq(x|φ0) log q(x|φ)
228
+
229
+ ]⏐⏐⏐'
230
+ - 'passage: 4.3.5 Distributional Value Iteration . . . . . . . . . . . . . . . .
231
+ . . . . . . . . . . . . . . . . . . 108
232
+
233
+ 4.3.6 Категориальная аппроксимация Z-функций . . . . . . . . . . . . . . . . .
234
+ . . . . . . . . . 110
235
+
236
+ 4.3.7 Categorical DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . .
237
+ . . . . . . . . . . . . 111
238
+
239
+ 4.3.8 Квантильная аппроксимация Z-функций . . . . . . . . . . . . . . . . . .
240
+ . . . . . . . . . 114
241
+
242
+ 4.3.9 Quantile Regression DQN . . . . . . . . . . . . . . . . . . . . . . . .
243
+ . . . . . . . . . . . . 115
244
+
245
+ 4.3.10 Implicit Quantile Networks . . . . . . . . . . . . . . . . . . . . . .
246
+ . . . . . . . . . . . . . 117
247
+
248
+ 4.3.11 Rainbow DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
249
+ . . . . . . . . . . . . 118
250
+
251
+ 5 Policy Gradient подход 120
252
+
253
+ 5.1 Policy Gradient Theorem . . . . . . . . . . . . . . . . . . . . . . . . .
254
+ . . . . . . . . . . . . . . . 120
255
+
256
+ 5.1.1 Вывод первым способом . . . . . . . . . . . . . . . . . . . . . . . . .
257
+ . . . . . . . . . . . 120'
258
+ - source_sentence: 'query: 7.1.4. Upper Confidence Bound (UCB)
259
+
260
+ Попробуем поискать хорошую эвристику исследования среди алгоритмов следующего
261
+ вида: на очередном
262
+
263
+ шагеkбудем выбирать действие по следующей формуле:
264
+
265
+ ak := argmax
266
+
267
+ a
268
+
269
+ [Qk(a) + Uk(a)] , (7.2)
270
+
271
+ гдеUk(a) /emdash.cyr некоторая положительная добавка, имеющая смыслбонуса за исследования(exploration
272
+ bonus).
273
+
274
+ То, что добавка должна быть положительна, следует из принципаоптимизма перед неопределённостью
275
+
276
+ (optimism in the face of uncertainty).
277
+
278
+ Пример 99: Представьте, что вы идёте мимо пещеры, в которую вы никогда не заходили,
279
+ и ваша оценка Q-
280
+
281
+ функции для действия /guillemotleft.cyrзайти в пещеру/guillemotright.cyr ниже,
282
+ чем оценка других действий. Если алгоритм исследования
283
+
284
+ таков, что ваше значение Q-функции занижается, то может возникнуть ситуация, что
285
+ вы никогда не зайдёте в
286
+
287
+ пещеру и не узнаете, что там. Если бы вы были уверены в идеальности ваших оценок,
288
+ вы бы имели гарантии'
289
+ sentences:
290
+ - 'passage: 7.1.4. Upper Confidence Bound (UCB)
291
+
292
+ Попробуем поискать хорошую эвристику исследования среди алгоритмов следующего
293
+ вида: на очередном
294
+
295
+ шагеkбудем выбирать действие по следующей формуле:
296
+
297
+ ak := argmax
298
+
299
+ a
300
+
301
+ [Qk(a) + Uk(a)] , (7.2)
302
+
303
+ гдеUk(a) /emdash.cyr некоторая положительная добавка, имеющая смыслбонуса за исследования(exploration
304
+ bonus).
305
+
306
+ То, что добавка должна быть положительна, следует из принципаоптимизма перед неопределённостью
307
+
308
+ (optimism in the face of uncertainty).
309
+
310
+ Пример 99: Представьте, что вы идёте мимо пещеры, в которую вы никогда не заходили,
311
+ и ваша оценка Q-
312
+
313
+ функции для действия /guillemotleft.cyrзайти в пещеру/guillemotright.cyr ниже,
314
+ чем оценка других действий. Если алгоритм исследования
315
+
316
+ таков, что ваше значение Q-функции занижается, то может возникнуть ситуация, что
317
+ вы никогда не зайдёте в
318
+
319
+ пещеру и не узнаете, что там. Если бы вы были уверены в идеальности ваших оценок,
320
+ вы бы имели гарантии'
321
+ - 'passage: пед. В качестве такого /guillemotleft.cyrсамоката/guillemotright.cyr
322
+ можно взять /guillemotleft.cyrобратный велосипед/guillemotright.cyr (/guillemotleft.cyrThe
323
+ Backwards Bicycle/guillemotright.cyr): велосипед,
324
+
325
+ в котором поворот руля влево отклоняет колесо вправо, и наоборот. Подробнее про
326
+ этот эксперимент можно
327
+
328
+ посмотреть в этом видео. Интересно, что обе стратегии /emdash.cyr и для езды на
329
+ велосипеде, и для езды на /guillemotleft.cyrобрат-
330
+
331
+ ном велосипеде/guillemotright.cyr /emdash.cyr восстанавливаются после некоторой
332
+ тренировки (причём как-то подозрительно резко, с
333
+
334
+ каким-то /guillemotleft.cyrфазовым переходом/guillemotright.cyr) и в конечном
335
+ счёте уживаются вместе.
336
+
337
+ 1.2.4. On-policy vs Off-policy
338
+
339
+ В model-free алгоритмах сбор данных становится важной составной частью: определяя
340
+ политику взаимодей-
341
+
342
+ ствия со средой (behavior policy), мы влияем на то, для каких состоянийs,a мы
343
+ получим сэмплs′из функции'
344
+ - 'passage: ошибочно. При этом, чем больше неопределённость в их значениях, тем
345
+ больше должно быть завышение.
346
+
347
+ Строить добавку нужно из соображений, вытекающих из формы регрета (7.1). Добавка
348
+ должна быть ма-
349
+
350
+ ленькая, если данное действие было выбрано уже много раз, и наша неопределённость
351
+ в знаниях о среднем
352
+
353
+ значенииQ(a) достаточно точные, или же если нам кажется, что регрет для этого
354
+ действия близок к нулю.
355
+
356
+ Идея upper confidence bounds(UCB) алгоритмов следующая: давайте выборомUk(a) прогарантируем,
357
+
358
+ что
359
+
360
+ Q(a) ≤Qk(a) + Uk(a)
361
+
362
+ с очень высокой вероятностью, близкой к единице, то есть, другими словами, построимдоверительный
363
+ ин-
364
+
365
+ тервал(confidenceinterval)ивозьмёмеговерхнююграницу.ТакойUk(a) будетобратнопропорционаленnk(a),
366
+
367
+ ведь граница будет сжиматься к эмпирическому среднему. Жадный выборargmax
368
+
369
+ a
370
+
371
+ Qk(a), интуитивно, будет
372
+
373
+ выбираться часто; его счётчик будет увеличиваться, и exploration bonus для него
374
+ будет уменьшаться; тогда'
375
+ - source_sentence: 'query: нужно как-то найти совершенно новую область в пространстве
376
+ стратегий.
377
+
378
+ Другие проблемы куда более характерны именно для RL. Допустим, агент совершает
379
+ какое-то действие,
380
+
381
+ которое запускает в среде некоторый процесс. Процесс протекает сам по себе без
382
+ какого-либо дальнейшего вме-
383
+
384
+ шательства агента и завершается через много шагов, приводя к награде. Это проблемаотложенного
385
+ сигнала
386
+
387
+ (delayed reward) /emdash.cyr среда даёт фидбэк агенту спустя какое-то (вообще
388
+ говоря, неограниченно длительное) время.
389
+
390
+ 18'
391
+ sentences:
392
+ - 'passage: ственно, мы могли бы сделать это для Q-функции или добавить policy improvement
393
+ после, например, каждого
394
+
395
+ шага в среде, получив табличный алгоритм обучения стратегии. Позже в разделе 3.5.7
396
+ мы рассмотрим форму-
397
+
398
+ лировку теоремы о сходимости таких алгоритмов для ещё более общей ситуации.
399
+
400
+ Очевидно, TD(λ) обновление не эквивалентно никакимN-шаговым temporal difference
401
+ формулам: в нём
402
+
403
+ замешана как Монте-Карло оценка, то есть замешана вся дальнейшая награда (весь
404
+ будущий сигнал), так и
405
+
406
+ приближения V-функции во всех промежуточных состояний (при любомλ ∈(0,1)). Гиперпараметрλтакже
407
+
408
+ не имеет смысла времени, и поэтому на практике его легче подбирать.
409
+
410
+ Полезность TD(λ) в том, чтоλ непрерывно и позволяет более гладкую настройку /guillemotleft.cyrдлины
411
+ следа/guillemotright.cyr. На
412
+
413
+ практике алгоритмы будут чувстительны к выборуλв намного меньшей степени, чем
414
+ к выборуN. При
415
+
416
+ этом даже еслиλ <1, в оценку /guillemotleft.cyrпоступает/guillemotright.cyr информация
417
+ о далёкой награде, и использование TD(λ)'
418
+ - 'passage: нужно как-то найти совершенно новую область в пространстве стратегий.
419
+
420
+ Другие проблемы куда более характерны именно для RL. Допустим, агент совершает
421
+ какое-то действие,
422
+
423
+ которое запускает в среде некоторый процесс. Процесс протекает сам по себе без
424
+ какого-либо дальнейшего вме-
425
+
426
+ шательства агента и завершается через много шагов, приводя к награде. Это проблемаотложенного
427
+ сигнала
428
+
429
+ (delayed reward) /emdash.cyr среда даёт фидбэк агенту спустя какое-то (вообще
430
+ говоря, неограниченно длительное) время.
431
+
432
+ 18'
433
+ - 'passage: обманывает.
434
+
435
+ Естественно, подвох в том, что на практике мы не будем знать точное значение оценочных
436
+ функций, а значит,
437
+
438
+ и истинное значение Advantage. Решая вопрос оценки значения Advantage для данной
439
+ парыs,a, мы фактически
440
+
441
+ будем проводить credit assingment /emdash.cyr это одна и та же задача.
442
+
443
+ 3.2.2. Relative Performance Identity (RPI)
444
+
445
+ Мы сейчас докажем одну очень интересную лемму, которая не так часто нам будет
446
+ нужна в будущем, но
447
+
448
+ которая прям открывает глаза на мир. Для этого вспомним формулу reward shaping-а
449
+ (1.7) и заметим, что мы
450
+
451
+ можем выбрать в качестве потенциала V-функцию произвольной стратегииπ2:
452
+
453
+ Φ(s) := Vπ2(s)
454
+
455
+ Действительно, требований к потенциалу два: ограниченность (для V-функций это
456
+ выполняется в силу наших
457
+
458
+ ограничений на рассматриваемые MDP) и равенство нулю в терминальных состояниях
459
+ (для V-функций это
460
+
461
+ 50'
462
+ - source_sentence: 'query: Z∗(s,a)
463
+
464
+ c.d.f.
465
+
466
+ := Zπ∗
467
+
468
+ (s,a) (4.15)
469
+
470
+ Мы начинаем спотыкаться уже на этом моменте, и дальше будет только хуже.
471
+
472
+ Теорема 43: Определение (4.15) неоднозначно.
473
+
474
+ Доказательство. Рассмотрим MDP, где агент может выбрать действиеa=
475
+
476
+ = и получить нулевую награду с вероятностью 1, илиa= и получить +1
477
+
478
+ или -1 с вероятностями 0.5 (эпизод в обоих случаях заканчивается). Все страте-
479
+
480
+ гии будут оптимальными, хотя все Z-функции различны. ■
481
+
482
+ С уравнением оптимальности Беллмана дляZ∗тоже внезапно есть тонко��ти. Для любой
483
+ оптимальной стра-
484
+
485
+ тегииπ∗вследствие (4.10) верно, что
486
+
487
+ Q∗(s,a) = EZπ∗
488
+
489
+ (s,a),
490
+
491
+ и мы знаем, что, в частности, среди оптимальных есть стратегия
492
+
493
+ π∗(s) = argmax
494
+
495
+ a
496
+
497
+ Q∗(s,a) = argmax
498
+
499
+ a
500
+
501
+ EZπ∗
502
+
503
+ (s,a).
504
+
505
+ В принципе, можно взять (4.11) для этойπ∗(s) и использовать её вид.
506
+
507
+ Z∗(s,a)
508
+
509
+ c.d.f.
510
+
511
+ = r(s,a) + γZ∗(s′,π∗(s′)), s ′∼p(s′|s,a) (4.16)
512
+
513
+ Здесь справа мы для данныхs,a описываем следующий процесс генерации случайной
514
+ величины: генерируем
515
+
516
+ s′ из функции переходов, определяем однозначно9 a′ = argmax
517
+
518
+ a′'
519
+ sentences:
520
+ - 'passage: Z∗(s,a)
521
+
522
+ c.d.f.
523
+
524
+ := Zπ∗
525
+
526
+ (s,a) (4.15)
527
+
528
+ Мы начинаем спотыкаться уже на этом моменте, и дальше будет только хуже.
529
+
530
+ Теорема 43: Определение (4.15) неоднозначно.
531
+
532
+ Доказательство. Рассмотрим MDP, где агент может выбрать действиеa=
533
+
534
+ = и получить нулевую награду с вероятностью 1, илиa= и получить +1
535
+
536
+ или -1 с вероятностями 0.5 (эпизод в обоих случаях заканчивается). Все страте-
537
+
538
+ гии будут оптимальными, хотя все Z-функции различны. ■
539
+
540
+ С уравнением оптимальности Беллмана дляZ∗тоже внезапно есть тонкости. Для любой
541
+ оптимальной стра-
542
+
543
+ тегииπ∗вследствие (4.10) верно, что
544
+
545
+ Q∗(s,a) = EZπ∗
546
+
547
+ (s,a),
548
+
549
+ и мы знаем, что, в частности, среди оптимальных есть стратегия
550
+
551
+ π∗(s) = argmax
552
+
553
+ a
554
+
555
+ Q∗(s,a) = argmax
556
+
557
+ a
558
+
559
+ EZπ∗
560
+
561
+ (s,a).
562
+
563
+ В принципе, можно взять (4.11) для этойπ∗(s) и использовать её вид.
564
+
565
+ Z∗(s,a)
566
+
567
+ c.d.f.
568
+
569
+ = r(s,a) + γZ∗(s′,π∗(s′)), s ′∼p(s′|s,a) (4.16)
570
+
571
+ Здесь справа мы для данныхs,a описываем следующий процесс генерации случайной
572
+ величины: генерируем
573
+
574
+ s′ из функции переходов, определяем однозначно9 a′ = argmax
575
+
576
+ a′'
577
+ - 'passage: distributional reinforcement learning. InProceedings of the AAAI Conference
578
+ on Artificial Intelligence, volume 33,
579
+
580
+ pages 4504–4511.
581
+
582
+ [Mania et al., 2018] Mania, H., Guy, A., and Recht, B. (2018). Simple random search
583
+ provides a competitive approach
584
+
585
+ to reinforcement learning.arXiv preprint arXiv:1803.07055.
586
+
587
+ [Mnih et al., 2016] Mnih,V., Badia,A.P.,Mirza,M., Graves,A., Lillicrap,T.,Harley,T.,
588
+ Silver,D., andKavukcuoglu,
589
+
590
+ K. (2016). Asynchronous methods for deep reinforcement learning. InInternational
591
+ conference on machine learning,
592
+
593
+ pages 1928–1937.
594
+
595
+ [Mnih et al., 2013] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou,
596
+ I., Wierstra, D., and Riedmiller,
597
+
598
+ M. (2013). Playing atari with deep reinforcement learning.arXiv preprint arXiv:1312.5602.
599
+
600
+ [Munos et al., 2016] Munos, R., Stepleton, T., Harutyunyan, A., and Bellemare,
601
+ M. G. (2016). Safe and efficient
602
+
603
+ off-policy reinforcement learning.arXiv preprint arXiv:1606.02647.'
604
+ - 'passage: обучения меняются счётчики посещения. Это довольно типично, что внутренняя
605
+ мотивация нестационарна:
606
+
607
+ модуль внутренней мотивации принципиально есть часть обучающейся системы, и он
608
+ тоже постепенно /guillemotleft.cyrобу-
609
+
610
+ чается/guillemotright.cyr, следовательно, меняется. Для нас это значит, что нужно
611
+ будет использовать on-policy алгоритмы для
612
+
613
+ обучения на такой сигнал.
614
+
615
+ Эпизодичные бонусы, конечно же, можно считать модификацией функции награды, и
616
+ поэтому подобные
617
+
618
+ оракулы можно считать /guillemotleft.cyrручными эвристиками/guillemotright.cyr.
619
+ Агент в том числе по итогам обучения научится в ходе одного
620
+
621
+ эпизода /guillemotleft.cyrбегать по всему MDP/guillemotright.cyr. Это, однако,
622
+ вполне может быть полезно в каких-нибудь лабиринтах или
623
+
624
+ задачах, где агенту нужно что-то где-то найти в течение самой игры. Проблема эпизодичных
625
+ бонусов в том, что
626
+
627
+ они формально нарушают предположение о полной наблюдаемости пространства состояний:
628
+ функция награды'
629
+ - source_sentence: 'query: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) =
630
+ 0
631
+
632
+ Выделяем норму градиента логарифма правдоподобия:
633
+
634
+ −Ea∥∇θlog πθ(a|s)∥2
635
+
636
+ 2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2
637
+
638
+ 2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)
639
+
640
+ Осталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы
641
+ о бэйзлайне (формулы
642
+
643
+ (5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять
644
+ же, до тех пор, пока он
645
+
646
+ не зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор,
647
+ одинаковый для всехa;
648
+
649
+ поэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:
650
+
651
+ EamT (∇θlog πθ(a|s)) = Ea
652
+
653
+ d∑
654
+
655
+ i=0
656
+
657
+ mi∇θi log πθ(a|s) =
658
+
659
+ d∑
660
+
661
+ i=0
662
+
663
+ miEa∇θi log πθ(a|s)  
664
+
665
+ 0 по формуле (5.6)
666
+
667
+ = 0
668
+
669
+ Убирая это нулевое третье слагаемое из (5.15), получаем равенство между первыми
670
+ двумя:
671
+
672
+ bEa∥∇θlog πθ(a|s)∥2
673
+
674
+ 2 = Ea∥∇θlog πθ(a|s)∥2
675
+
676
+ 2Qπ(s,a)
677
+
678
+ Выражая из негоb, получаем доказываемое.
679
+
680
+ 130'
681
+ sentences:
682
+ - 'passage: с подмешанным эксплорейшном. Это различие было для нас принципиально:
683
+ оптимальны детерминированные
684
+
685
+ стратегии, а взаимодействовать со средой мы готовы лишь стохастичными стратегиями.
686
+ У этого /guillemotleft.cyrнесовпадения/guillemotright.cyr
687
+
688
+ есть следующий эффект.
689
+
690
+ Пример 59 /emdash.cyr Cliff World: Рассмотрим MDP с рисунка с детерминированной
691
+ функцией переходов, действиями
692
+
693
+ вверх-вниз-вправо-влево иγ <1; за попадание в лаву начисляется огромный штраф,
694
+ а эпизод прерывается.
695
+
696
+ За попадание в целевое состояние агент получает +1, и эпизод также завершается;
697
+ соответственно, задача
698
+
699
+ агента /emdash.cyr как можно быстрее добраться до цели, не угодив в лаву.
700
+
701
+ Q-learning, тем не менее, постепенно сойдётся к оптимальной стра-
702
+
703
+ тегии: кратчайшим маршрутом агент может добраться до терминаль-
704
+
705
+ ного состояния с положительной наградой. Однако даже после того,
706
+
707
+ как оптимальная стратегия уже выучилась, Q-learning продолжает
708
+
709
+ прыгать в лаву! Почему? Проходя прямо возле лавы, агент каждый'
710
+ - 'passage: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) = 0
711
+
712
+ Выделяем норму градиента логарифма правдоподобия:
713
+
714
+ −Ea∥∇θlog πθ(a|s)∥2
715
+
716
+ 2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2
717
+
718
+ 2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)
719
+
720
+ Осталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы
721
+ о бэйзлайне (формулы
722
+
723
+ (5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять
724
+ же, до тех пор, пока он
725
+
726
+ не зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор,
727
+ одинаковый для всехa;
728
+
729
+ поэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:
730
+
731
+ EamT (∇θlog πθ(a|s)) = Ea
732
+
733
+ d∑
734
+
735
+ i=0
736
+
737
+ mi∇θi log πθ(a|s) =
738
+
739
+ d∑
740
+
741
+ i=0
742
+
743
+ miEa∇θi log πθ(a|s)  
744
+
745
+ 0 по формуле (5.6)
746
+
747
+ = 0
748
+
749
+ Убирая это нулевое третье слагаемое из (5.15), получаем равенство между первыми
750
+ двумя:
751
+
752
+ bEa∥∇θlog πθ(a|s)∥2
753
+
754
+ 2 = Ea∥∇θlog πθ(a|s)∥2
755
+
756
+ 2Qπ(s,a)
757
+
758
+ Выражая из негоb, получаем доказываемое.
759
+
760
+ 130'
761
+ - 'passage: KL(p(T |π) ∥p(T |π∗)) →min
762
+
763
+ π
764
+
765
+ (8.3)
766
+
767
+ Теорема 86: Задача (8.3) эквивалентна задаче Maximum Entropy RL (6.7).
768
+
769
+ Доказательство. Распишем (8.3):
770
+
771
+ KL(p(T |π) ∥p(T |π∗)) = ET∼π
772
+
773
+ log p(T |π)
774
+
775
+   ∑
776
+
777
+ t≥0
778
+
779
+ log π(at |st) + logp(st+1 |st,at) − (8.4)
780
+
781
+ −ET∼π
782
+
783
+
784
+
785
+ t≥0
786
+
787
+ log p(st+1 |st,at) −rt −const(π)
788
+
789
+   
790
+
791
+ log p(T |π∗) из (8.2)
792
+
793
+ , (8.5)
794
+
795
+ гдеconst(π) /emdash.cyr нормировочная константа распределения (8.2). Убирая сокращающиеся
796
+ логарифмы вероят-
797
+
798
+ ностей переходов и домножая на минус единицу, получаем:
799
+
800
+ ET∼π
801
+
802
+
803
+
804
+ t≥0
805
+
806
+ [rt −log π(at |st)] →max
807
+
808
+ π
809
+
810
+ ,
811
+
812
+ что есть в точности Maximum Entropy RL. ■
813
+
814
+ 191'
815
+ ---
816
+
817
+ # SentenceTransformer based on intfloat/multilingual-e5-small
818
+
819
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
820
+
821
+ ## Model Details
822
+
823
+ ### Model Description
824
+ - **Model Type:** Sentence Transformer
825
+ - **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) <!-- at revision c007d7ef6fd86656326059b28395a7a03a7c5846 -->
826
+ - **Maximum Sequence Length:** 512 tokens
827
+ - **Output Dimensionality:** 384 dimensions
828
+ - **Similarity Function:** Cosine Similarity
829
+ <!-- - **Training Dataset:** Unknown -->
830
+ <!-- - **Language:** Unknown -->
831
+ <!-- - **License:** Unknown -->
832
+
833
+ ### Model Sources
834
+
835
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
836
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
837
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
838
+
839
+ ### Full Model Architecture
840
+
841
+ ```
842
+ SentenceTransformer(
843
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
844
+ (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
845
+ (2): Normalize()
846
+ )
847
+ ```
848
+
849
+ ## Usage
850
+
851
+ ### Direct Usage (Sentence Transformers)
852
+
853
+ First install the Sentence Transformers library:
854
+
855
+ ```bash
856
+ pip install -U sentence-transformers
857
+ ```
858
+
859
+ Then you can load this model and run inference.
860
+ ```python
861
+ from sentence_transformers import SentenceTransformer
862
+
863
+ # Download from the 🤗 Hub
864
+ model = SentenceTransformer("YarKo69/e5-base-retrievers")
865
+ # Run inference
866
+ sentences = [
867
+ 'query: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) = 0\nВыделяем норму градиента логарифма правдоподобия:\n−Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2\n2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)\nОсталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы о бэйзлайне (формулы\n(5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять же, до тех пор, пока он\nне зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор, одинаковый для всехa;\nпоэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:\nEamT (∇θlog πθ(a|s)) = Ea\nd∑\ni=0\nmi∇θi log πθ(a|s) =\nd∑\ni=0\nmiEa∇θi log πθ(a|s)\ued19 \ued18\ued17 \ued1a\n0 по формуле (5.6)\n= 0\nУбирая это нулевое третье слагаемо�� из (5.15), получаем равенство между первыми двумя:\nbEa∥∇θlog πθ(a|s)∥2\n2 = Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a)\nВыражая из негоb, получаем доказываемое.\n130',
868
+ 'passage: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) = 0\nВыделяем норму градиента логарифма правдоподобия:\n−Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2\n2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)\nОсталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы о бэйзлайне (формулы\n(5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять же, до тех пор, пока он\nне зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор, одинаковый для всехa;\nпоэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:\nEamT (∇θlog πθ(a|s)) = Ea\nd∑\ni=0\nmi∇θi log πθ(a|s) =\nd∑\ni=0\nmiEa∇θi log πθ(a|s)\ued19 \ued18\ued17 \ued1a\n0 по формуле (5.6)\n= 0\nУбирая это нулевое третье слагаемое из (5.15), получаем равенство между первыми двумя:\nbEa∥∇θlog πθ(a|s)∥2\n2 = Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a)\nВыражая из негоb, получаем доказываемое.\n130',
869
+ 'passage: с подмешанным эксплорейшном. Это различие было для нас принципиально: оптимальны детерминированные\nстратегии, а взаимодействовать со средой мы готовы лишь стохастичными стратегиями. У этого /guillemotleft.cyrнесовпадения/guillemotright.cyr\nесть следующий эффект.\nПример 59 /emdash.cyr Cliff World: Рассмотрим MDP с рисунка с детерминированной функцией переходов, действиями\nвверх-вниз-вправо-влево иγ <1; за попадание в лаву начисляется огромный штраф, а эпизод прерывается.\nЗа попадание в целевое состояние агент получает +1, и эпизод также завершается; соответственно, задача\nагента /emdash.cyr как можно быстрее добраться до цели, не угодив в лаву.\nQ-learning, тем не менее, постепенно сойдётся к оптимальной стра-\nтегии: кратчайшим маршрутом агент может добраться до терминаль-\nного состояния с положительной наградой. Однако даже после того,\nкак оптимальная стратегия уже выучилась, Q-learning продолжает\nпрыгать в лаву! Почему? Проходя прямо возле лавы, агент каждый',
870
+ ]
871
+ embeddings = model.encode(sentences)
872
+ print(embeddings.shape)
873
+ # [3, 384]
874
+
875
+ # Get the similarity scores for the embeddings
876
+ similarities = model.similarity(embeddings, embeddings)
877
+ print(similarities.shape)
878
+ # [3, 3]
879
+ ```
880
+
881
+ <!--
882
+ ### Direct Usage (Transformers)
883
+
884
+ <details><summary>Click to see the direct usage in Transformers</summary>
885
+
886
+ </details>
887
+ -->
888
+
889
+ <!--
890
+ ### Downstream Usage (Sentence Transformers)
891
+
892
+ You can finetune this model on your own dataset.
893
+
894
+ <details><summary>Click to expand</summary>
895
+
896
+ </details>
897
+ -->
898
+
899
+ <!--
900
+ ### Out-of-Scope Use
901
+
902
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
903
+ -->
904
+
905
+ <!--
906
+ ## Bias, Risks and Limitations
907
+
908
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
909
+ -->
910
+
911
+ <!--
912
+ ### Recommendations
913
+
914
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
915
+ -->
916
+
917
+ ## Training Details
918
+
919
+ ### Training Dataset
920
+
921
+ #### Unnamed Dataset
922
+
923
+ * Size: 935 training samples
924
+ * Columns: <code>anchor</code> and <code>positive</code>
925
+ * Approximate statistics based on the first 935 samples:
926
+ | | anchor | positive |
927
+ |:--------|:--------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
928
+ | type | string | string |
929
+ | details | <ul><li>min: 106 tokens</li><li>mean: 300.47 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 105 tokens</li><li>mean: 299.51 tokens</li><li>max: 512 tokens</li></ul> |
930
+ * Samples:
931
+ | anchor | positive |
932
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
933
+ | <code>query: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code> | <code>passage: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code> |
934
+ | <code>query: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стратегии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> | <code>passage: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стра��егии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> |
935
+ | <code>query: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code> | <code>passage: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code> |
936
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
937
+ ```json
938
+ {
939
+ "scale": 20.0,
940
+ "similarity_fct": "cos_sim"
941
+ }
942
+ ```
943
+
944
+ ### Evaluation Dataset
945
+
946
+ #### Unnamed Dataset
947
+
948
+ * Size: 400 evaluation samples
949
+ * Columns: <code>anchor</code> and <code>positive</code>
950
+ * Approximate statistics based on the first 400 samples:
951
+ | | anchor | positive |
952
+ |:--------|:--------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
953
+ | type | string | string |
954
+ | details | <ul><li>min: 125 tokens</li><li>mean: 297.33 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 124 tokens</li><li>mean: 296.36 tokens</li><li>max: 512 tokens</li></ul> |
955
+ * Samples:
956
+ | anchor | positive |
957
+ |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
958
+ | <code>query: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code> | <code>passage: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code> |
959
+ | <code>query: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стратегии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> | <code>passage: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стратегии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> |
960
+ | <code>query: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code> | <code>passage: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code> |
961
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
962
+ ```json
963
+ {
964
+ "scale": 20.0,
965
+ "similarity_fct": "cos_sim"
966
+ }
967
+ ```
968
+
969
+ ### Training Hyperparameters
970
+ #### Non-Default Hyperparameters
971
+
972
+ - `eval_strategy`: steps
973
+ - `per_device_train_batch_size`: 16
974
+ - `per_device_eval_batch_size`: 16
975
+ - `learning_rate`: 2e-05
976
+ - `num_train_epochs`: 6
977
+ - `warmup_ratio`: 0.1
978
+ - `fp16`: True
979
+ - `load_best_model_at_end`: True
980
+ - `batch_sampler`: no_duplicates
981
+
982
+ #### All Hyperparameters
983
+ <details><summary>Click to expand</summary>
984
+
985
+ - `overwrite_output_dir`: False
986
+ - `do_predict`: False
987
+ - `eval_strategy`: steps
988
+ - `prediction_loss_only`: True
989
+ - `per_device_train_batch_size`: 16
990
+ - `per_device_eval_batch_size`: 16
991
+ - `per_gpu_train_batch_size`: None
992
+ - `per_gpu_eval_batch_size`: None
993
+ - `gradient_accumulation_steps`: 1
994
+ - `eval_accumulation_steps`: None
995
+ - `torch_empty_cache_steps`: None
996
+ - `learning_rate`: 2e-05
997
+ - `weight_decay`: 0.0
998
+ - `adam_beta1`: 0.9
999
+ - `adam_beta2`: 0.999
1000
+ - `adam_epsilon`: 1e-08
1001
+ - `max_grad_norm`: 1.0
1002
+ - `num_train_epochs`: 6
1003
+ - `max_steps`: -1
1004
+ - `lr_scheduler_type`: linear
1005
+ - `lr_scheduler_kwargs`: {}
1006
+ - `warmup_ratio`: 0.1
1007
+ - `warmup_steps`: 0
1008
+ - `log_level`: passive
1009
+ - `log_level_replica`: warning
1010
+ - `log_on_each_node`: True
1011
+ - `logging_nan_inf_filter`: True
1012
+ - `save_safetensors`: True
1013
+ - `save_on_each_node`: False
1014
+ - `save_only_model`: False
1015
+ - `restore_callback_states_from_checkpoint`: False
1016
+ - `no_cuda`: False
1017
+ - `use_cpu`: False
1018
+ - `use_mps_device`: False
1019
+ - `seed`: 42
1020
+ - `data_seed`: None
1021
+ - `jit_mode_eval`: False
1022
+ - `use_ipex`: False
1023
+ - `bf16`: False
1024
+ - `fp16`: True
1025
+ - `fp16_opt_level`: O1
1026
+ - `half_precision_backend`: auto
1027
+ - `bf16_full_eval`: False
1028
+ - `fp16_full_eval`: False
1029
+ - `tf32`: None
1030
+ - `local_rank`: 0
1031
+ - `ddp_backend`: None
1032
+ - `tpu_num_cores`: None
1033
+ - `tpu_metrics_debug`: False
1034
+ - `debug`: []
1035
+ - `dataloader_drop_last`: False
1036
+ - `dataloader_num_workers`: 0
1037
+ - `dataloader_prefetch_factor`: None
1038
+ - `past_index`: -1
1039
+ - `disable_tqdm`: False
1040
+ - `remove_unused_columns`: True
1041
+ - `label_names`: None
1042
+ - `load_best_model_at_end`: True
1043
+ - `ignore_data_skip`: False
1044
+ - `fsdp`: []
1045
+ - `fsdp_min_num_params`: 0
1046
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
1047
+ - `fsdp_transformer_layer_cls_to_wrap`: None
1048
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
1049
+ - `deepspeed`: None
1050
+ - `label_smoothing_factor`: 0.0
1051
+ - `optim`: adamw_torch
1052
+ - `optim_args`: None
1053
+ - `adafactor`: False
1054
+ - `group_by_length`: False
1055
+ - `length_column_name`: length
1056
+ - `ddp_find_unused_parameters`: None
1057
+ - `ddp_bucket_cap_mb`: None
1058
+ - `ddp_broadcast_buffers`: False
1059
+ - `dataloader_pin_memory`: True
1060
+ - `dataloader_persistent_workers`: False
1061
+ - `skip_memory_metrics`: True
1062
+ - `use_legacy_prediction_loop`: False
1063
+ - `push_to_hub`: False
1064
+ - `resume_from_checkpoint`: None
1065
+ - `hub_model_id`: None
1066
+ - `hub_strategy`: every_save
1067
+ - `hub_private_repo`: None
1068
+ - `hub_always_push`: False
1069
+ - `gradient_checkpointing`: False
1070
+ - `gradient_checkpointing_kwargs`: None
1071
+ - `include_inputs_for_metrics`: False
1072
+ - `include_for_metrics`: []
1073
+ - `eval_do_concat_batches`: True
1074
+ - `fp16_backend`: auto
1075
+ - `push_to_hub_model_id`: None
1076
+ - `push_to_hub_organization`: None
1077
+ - `mp_parameters`:
1078
+ - `auto_find_batch_size`: False
1079
+ - `full_determinism`: False
1080
+ - `torchdynamo`: None
1081
+ - `ray_scope`: last
1082
+ - `ddp_timeout`: 1800
1083
+ - `torch_compile`: False
1084
+ - `torch_compile_backend`: None
1085
+ - `torch_compile_mode`: None
1086
+ - `dispatch_batches`: None
1087
+ - `split_batches`: None
1088
+ - `include_tokens_per_second`: False
1089
+ - `include_num_input_tokens_seen`: False
1090
+ - `neftune_noise_alpha`: None
1091
+ - `optim_target_modules`: None
1092
+ - `batch_eval_metrics`: False
1093
+ - `eval_on_start`: False
1094
+ - `use_liger_kernel`: False
1095
+ - `eval_use_gather_object`: False
1096
+ - `average_tokens_across_devices`: False
1097
+ - `prompts`: None
1098
+ - `batch_sampler`: no_duplicates
1099
+ - `multi_dataset_batch_sampler`: proportional
1100
+
1101
+ </details>
1102
+
1103
+ ### Training Logs
1104
+ | Epoch | Step | Training Loss | Validation Loss |
1105
+ |:----------:|:-------:|:-------------:|:---------------:|
1106
+ | 0.6780 | 40 | - | 0.0001 |
1107
+ | 1.3559 | 80 | - | 0.0001 |
1108
+ | 1.6949 | 100 | 0.1619 | - |
1109
+ | 2.0339 | 120 | - | 0.0001 |
1110
+ | 2.7119 | 160 | - | 0.0000 |
1111
+ | 3.3898 | 200 | 0.0 | 0.0000 |
1112
+ | 4.0678 | 240 | - | 0.0000 |
1113
+ | 4.7458 | 280 | - | 0.0000 |
1114
+ | 5.0847 | 300 | 0.0 | - |
1115
+ | **5.4237** | **320** | **-** | **0.0** |
1116
+
1117
+ * The bold row denotes the saved checkpoint.
1118
+
1119
+ ### Framework Versions
1120
+ - Python: 3.11.5
1121
+ - Sentence Transformers: 4.0.1
1122
+ - Transformers: 4.48.3
1123
+ - PyTorch: 2.6.0+cu126
1124
+ - Accelerate: 1.5.2
1125
+ - Datasets: 3.5.0
1126
+ - Tokenizers: 0.21.1
1127
+
1128
+ ## Citation
1129
+
1130
+ ### BibTeX
1131
+
1132
+ #### Sentence Transformers
1133
+ ```bibtex
1134
+ @inproceedings{reimers-2019-sentence-bert,
1135
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
1136
+ author = "Reimers, Nils and Gurevych, Iryna",
1137
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
1138
+ month = "11",
1139
+ year = "2019",
1140
+ publisher = "Association for Computational Linguistics",
1141
+ url = "https://arxiv.org/abs/1908.10084",
1142
+ }
1143
+ ```
1144
+
1145
+ #### MultipleNegativesRankingLoss
1146
+ ```bibtex
1147
+ @misc{henderson2017efficient,
1148
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
1149
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
1150
+ year={2017},
1151
+ eprint={1705.00652},
1152
+ archivePrefix={arXiv},
1153
+ primaryClass={cs.CL}
1154
+ }
1155
+ ```
1156
+
1157
+ <!--
1158
+ ## Glossary
1159
+
1160
+ *Clearly define terms in order to be accessible across audiences.*
1161
+ -->
1162
+
1163
+ <!--
1164
+ ## Model Card Authors
1165
+
1166
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
1167
+ -->
1168
+
1169
+ <!--
1170
+ ## Model Card Contact
1171
+
1172
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
1173
+ -->