YarKo69
/

e5-base-retrievers

+---
+base_model: intfloat/multilingual-e5-small
+library_name: sentence-transformers
+pipeline_tag: sentence-similarity
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- dataset_size:935
+- loss:MultipleNegativesRankingLoss
+widget:
+- source_sentence: 'query: A.1.2. Матрица Фишера
+    Оптимизация при помощи натурального градиента предлагает использовать другую метрику,
+    которая учтёт
+    структуру нашего функционала:
+    
+    
+    
+    f(φ) ≈f(φ0) + ⟨∇φf(φ)|φ=φ0
+    ,φ −φ0⟩→ min
+    φ
+    KL(q(x|φ0) ∥q(x|φ)) ≤α
+    Как решать такую задачу условной оптимизации? Еслиφ≈φ0, достаточно аппроксимировать
+    дивергенцию
+    KL(q(x|φ0) ∥q(x|φ)) при помощи разложения в ряд Тейлора до второго члена. До второго
+    /emdash.cyr потому что
+    первое ноль.
+    Утверждение 93:
+    ∇φKL(q(x|φ0) ∥q(x|φ))|φ=φ0
+    = 0
+    Доказательство. KL-дивергенция в точкеφ= φ0 равна 0 как дивергенция между одинаковыми
+    распре-
+    делениями, следовательно как функция отφона достигает в этой точке глобального
+    минимума⇒градиент
+    равен нулю. ■
+    Определение 128: Для распределенияq(x|φ) матрицей Фишера(Fisher matrix) называется
+    Fq(φ) := −Eq(x|φ)∇2
+    φlog q(x|φ)
+    Теорема 93: Матрица Фишера есть гессианKL-дивергенции:
+    ∇2
+    φKL(q(x|φ0) ∥q(x|φ))
+    ⏐⏐⏐
+    φ=φ0
+    = Fq(φ0)
+    Доказательство.
+    ∇2
+    φKL(q(x|φ0) ∥q(x|φ))
+    ⏐⏐⏐
+    φ=φ0
+    = ∇2
+    φ
+    [
+    const(φ) −Eq(x|φ0) log q(x|φ)
+    ]⏐⏐⏐'
+  sentences:
+  - 'passage: ства оптимальных стратегий. Для доказательства нам понадобится факт,
+    который мы технически докажем в
+    рамках повествования чуть позже: для данного MDPQ∗/emdash.cyr единственная функцияS×A→
+    R, удовлетворя-
+    ющая уравнениям оптимальности Беллмана.
+    Теорема 15 /emdash.cyr Критерий оптимальности Беллмана: πоптимальна тогда и только
+    тогда, когда∀s,a: π(a|s) >0
+    верно:
+    a∈Argmax
+    a
+    Qπ(s,a)
+    Необходимость. Пустьπ/emdash.cyr оптимальна. Тогда её оценочные функции совпадают
+    сV∗,Q∗, для которых
+    выполнено уравнение (3.15):
+    Vπ(s) = V∗(s) = max
+    a
+    Q∗(s,a) = max
+    a
+    Qπ(s,a)
+    С другой стороны из связи VQ (3.6) верноVπ(s) = Eπ(a|s)Qπ(s,a); получаем
+    Eπ(a|s)Qπ(s,a) = max
+    a
+    Qπ(s,a),
+    из чего вытекает доказываемое. ■
+    Достаточность. Пусть условие выполнено. Тогда для любой парыs,a:
+    Qπ(s,a) = {связь QQ (3.7)}= r(s,a) + γEs′Eπ(a′|s′)Qπ(s′,a′) = r(s,a) + γEs′max
+    a′
+    Qπ(s′,a′)
+    Из единственности решения этого уравнения следуетQπ(s,a) = Q∗(s,a), и, следовательно,π
+    оптимальна.
+    ■'
+  - 'passage: A.1.2. Матрица Фишера
+    Оптимизация при помощи натурального градиента предлагает использовать другую метрику,
+    которая учтёт
+    структуру нашего функционала:
+    
+    
+    
+    f(φ) ≈f(φ0) + ⟨∇φf(φ)|φ=φ0
+    ,φ −φ0⟩→ min
+    φ
+    KL(q(x|φ0) ∥q(x|φ)) ≤α
+    Как решать такую задачу условной оптимизации? Еслиφ≈φ0, достаточно аппроксимировать
+    дивергенцию
+    KL(q(x|φ0) ∥q(x|φ)) при помощи разложения в ряд Тейлора до второго члена. До второго
+    /emdash.cyr потому что
+    первое ноль.
+    Утверждение 93:
+    ∇φKL(q(x|φ0) ∥q(x|φ))|φ=φ0
+    = 0
+    Доказательство. KL-дивергенция в точкеφ= φ0 равна 0 как дивергенция между одинаковыми
+    распре-
+    делениями, следовательно как функция отφона достигает в этой точке глобального
+    минимума⇒градиент
+    равен нулю. ■
+    Определение 128: Для распределенияq(x|φ) матрицей Фишера(Fisher matrix) называется
+    Fq(φ) := −Eq(x|φ)∇2
+    φlog q(x|φ)
+    Теорема 93: Матрица Фишера есть гессианKL-дивергенции:
+    ∇2
+    φKL(q(x|φ0) ∥q(x|φ))
+    ⏐⏐⏐
+    φ=φ0
+    = Fq(φ0)
+    Доказательство.
+    ∇2
+    φKL(q(x|φ0) ∥q(x|φ))
+    ⏐⏐⏐
+    φ=φ0
+    = ∇2
+    φ
+    [
+    const(φ) −Eq(x|φ0) log q(x|φ)
+    ]⏐⏐⏐'
+  - 'passage: 4.3.5 Distributional Value Iteration . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . . . . . . . . 108
+    4.3.6 Категориальная аппроксимация Z-функций . . . . . . . . . . . . . . . . .
+    . . . . . . . . . 110
+    4.3.7 Categorical DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . . 111
+    4.3.8 Квантильная аппроксимация Z-функций . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . 114
+    4.3.9 Quantile Regression DQN . . . . . . . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . . 115
+    4.3.10 Implicit Quantile Networks . . . . . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . . . 117
+    4.3.11 Rainbow DQN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . . 118
+    5 Policy Gradient подход 120
+    5.1 Policy Gradient Theorem . . . . . . . . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . . . . . 120
+    5.1.1 Вывод первым способом . . . . . . . . . . . . . . . . . . . . . . . . .
+    . . . . . . . . . . . 120'
+- source_sentence: 'query: 7.1.4. Upper Conﬁdence Bound (UCB)
+    Попробуем поискать хорошую эвристику исследования среди алгоритмов следующего
+    вида: на очередном
+    шагеkбудем выбирать действие по следующей формуле:
+    ak := argmax
+    a
+    [Qk(a) + Uk(a)] , (7.2)
+    гдеUk(a) /emdash.cyr некоторая положительная добавка, имеющая смыслбонуса за исследования(exploration
+    bonus).
+    То, что добавка должна быть положительна, следует из принципаоптимизма перед неопределённостью
+    (optimism in the face of uncertainty).
+    Пример 99: Представьте, что вы идёте мимо пещеры, в которую вы никогда не заходили,
+    и ваша оценка Q-
+    функции для действия /guillemotleft.cyrзайти в пещеру/guillemotright.cyr ниже,
+    чем оценка других действий. Если алгоритм исследования
+    таков, что ваше значение Q-функции занижается, то может возникнуть ситуация, что
+    вы никогда не зайдёте в
+    пещеру и не узнаете, что там. Если бы вы были уверены в идеальности ваших оценок,
+    вы бы имели гарантии'
+  sentences:
+  - 'passage: 7.1.4. Upper Conﬁdence Bound (UCB)
+    Попробуем поискать хорошую эвристику исследования среди алгоритмов следующего
+    вида: на очередном
+    шагеkбудем выбирать действие по следующей формуле:
+    ak := argmax
+    a
+    [Qk(a) + Uk(a)] , (7.2)
+    гдеUk(a) /emdash.cyr некоторая положительная добавка, имеющая смыслбонуса за исследования(exploration
+    bonus).
+    То, что добавка должна быть положительна, следует из принципаоптимизма перед неопределённостью
+    (optimism in the face of uncertainty).
+    Пример 99: Представьте, что вы идёте мимо пещеры, в которую вы никогда не заходили,
+    и ваша оценка Q-
+    функции для действия /guillemotleft.cyrзайти в пещеру/guillemotright.cyr ниже,
+    чем оценка других действий. Если алгоритм исследования
+    таков, что ваше значение Q-функции занижается, то может возникнуть ситуация, что
+    вы никогда не зайдёте в
+    пещеру и не узнаете, что там. Если бы вы были уверены в идеальности ваших оценок,
+    вы бы имели гарантии'
+  - 'passage: пед. В качестве такого /guillemotleft.cyrсамоката/guillemotright.cyr
+    можно взять /guillemotleft.cyrобратный велосипед/guillemotright.cyr (/guillemotleft.cyrThe
+    Backwards Bicycle/guillemotright.cyr): велосипед,
+    в котором поворот руля влево отклоняет колесо вправо, и наоборот. Подробнее про
+    этот эксперимент можно
+    посмотреть в этом видео. Интересно, что обе стратегии /emdash.cyr и для езды на
+    велосипеде, и для езды на /guillemotleft.cyrобрат-
+    ном велосипеде/guillemotright.cyr /emdash.cyr восстанавливаются после некоторой
+    тренировки (причём как-то подозрительно резко, с
+    каким-то /guillemotleft.cyrфазовым переходом/guillemotright.cyr) и в конечном
+    счёте уживаются вместе.
+    1.2.4. On-policy vs Oﬀ-policy
+    В model-free алгоритмах сбор данных становится важной составной частью: определяя
+    политику взаимодей-
+    ствия со средой (behavior policy), мы влияем на то, для каких состоянийs,a мы
+    получим сэмплs′из функции'
+  - 'passage: ошибочно. При этом, чем больше неопределённость в их значениях, тем
+    больше должно быть завышение.
+    Строить добавку нужно из соображений, вытекающих из формы регрета (7.1). Добавка
+    должна быть ма-
+    ленькая, если данное действие было выбрано уже много раз, и наша неопределённость
+    в знаниях о среднем
+    значенииQ(a) достаточно точные, или же если нам кажется, что регрет для этого
+    действия близок к нулю.
+    Идея upper conﬁdence bounds(UCB) алгоритмов следующая: давайте выборомUk(a) прогарантируем,
+    что
+    Q(a) ≤Qk(a) + Uk(a)
+    с очень высокой вероятностью, близкой к единице, то есть, другими словами, построимдоверительный
+    ин-
+    тервал(conﬁdenceinterval)ивозьмёмеговерхнююграницу.ТакойUk(a) будетобратнопропорционаленnk(a),
+    ведь граница будет сжиматься к эмпирическому среднему. Жадный выборargmax
+    a
+    Qk(a), интуитивно, будет
+    выбираться часто; его счётчик будет увеличиваться, и exploration bonus для него
+    будет уменьшаться; тогда'
+- source_sentence: 'query: нужно как-то найти совершенно новую область в пространстве
+    стратегий.
+    Другие проблемы куда более характерны именно для RL. Допустим, агент совершает
+    какое-то действие,
+    которое запускает в среде некоторый процесс. Процесс протекает сам по себе без
+    какого-либо дальнейшего вме-
+    шательства агента и завершается через много шагов, приводя к награде. Это проблемаотложенного
+    сигнала
+    (delayed reward) /emdash.cyr среда даёт фидбэк агенту спустя какое-то (вообще
+    говоря, неограниченно длительное) время.
+    18'
+  sentences:
+  - 'passage: ственно, мы могли бы сделать это для Q-функции или добавить policy improvement
+    после, например, каждого
+    шага в среде, получив табличный алгоритм обучения стратегии. Позже в разделе 3.5.7
+    мы рассмотрим форму-
+    лировку теоремы о сходимости таких алгоритмов для ещё более общей ситуации.
+    Очевидно, TD(λ) обновление не эквивалентно никакимN-шаговым temporal diﬀerence
+    формулам: в нём
+    замешана как Монте-Карло оценка, то есть замешана вся дальнейшая награда (весь
+    будущий сигнал), так и
+    приближения V-функции во всех промежуточных состояний (при любомλ ∈(0,1)). Гиперпараметрλтакже
+    не имеет смысла времени, и поэтому на практике его легче подбирать.
+    Полезность TD(λ) в том, чтоλ непрерывно и позволяет более гладкую настройку /guillemotleft.cyrдлины
+    следа/guillemotright.cyr. На
+    практике алгоритмы будут чувстительны к выборуλв намного меньшей степени, чем
+    к выборуN. При
+    этом даже еслиλ <1, в оценку /guillemotleft.cyrпоступает/guillemotright.cyr информация
+    о далёкой награде, и использование TD(λ)'
+  - 'passage: нужно как-то найти совершенно новую область в пространстве стратегий.
+    Другие проблемы куда более характерны именно для RL. Допустим, агент совершает
+    какое-то действие,
+    которое запускает в среде некоторый процесс. Процесс протекает сам по себе без
+    какого-либо дальнейшего вме-
+    шательства агента и завершается через много шагов, приводя к награде. Это проблемаотложенного
+    сигнала
+    (delayed reward) /emdash.cyr среда даёт фидбэк агенту спустя какое-то (вообще
+    говоря, неограниченно длительное) время.
+    18'
+  - 'passage: обманывает.
+    Естественно, подвох в том, что на практике мы не будем знать точное значение оценочных
+    функций, а значит,
+    и истинное значение Advantage. Решая вопрос оценки значения Advantage для данной
+    парыs,a, мы фактически
+    будем проводить credit assingment /emdash.cyr это одна и та же задача.
+    3.2.2. Relative Performance Identity (RPI)
+    Мы сейчас докажем одну очень интересную лемму, которая не так часто нам будет
+    нужна в будущем, но
+    которая прям открывает глаза на мир. Для этого вспомним формулу reward shaping-а
+    (1.7) и заметим, что мы
+    можем выбрать в качестве потенциала V-функцию произвольной стратегииπ2:
+    Φ(s) := Vπ2(s)
+    Действительно, требований к потенциалу два: ограниченность (для V-функций это
+    выполняется в силу наших
+    ограничений на рассматриваемые MDP) и равенство нулю в терминальных состояниях
+    (для V-функций это
+    50'
+- source_sentence: 'query: Z∗(s,a)
+    c.d.f.
+    := Zπ∗
+    (s,a) (4.15)
+    Мы начинаем спотыкаться уже на этом моменте, и дальше будет только хуже.
+    Теорема 43: Определение (4.15) неоднозначно.
+    Доказательство. Рассмотрим MDP, где агент может выбрать действиеa=
+    = и получить нулевую награду с вероятностью 1, илиa= и получить +1
+    или -1 с вероятностями 0.5 (эпизод в обоих случаях заканчивается). Все страте-
+    гии будут оптимальными, хотя все Z-функции различны. ■
+    С уравнением оптимальности Беллмана дляZ∗тоже внезапно есть тонко��ти. Для любой
+    оптимальной стра-
+    тегииπ∗вследствие (4.10) верно, что
+    Q∗(s,a) = EZπ∗
+    (s,a),
+    и мы знаем, что, в частности, среди оптимальных есть стратегия
+    π∗(s) = argmax
+    a
+    Q∗(s,a) = argmax
+    a
+    EZπ∗
+    (s,a).
+    В принципе, можно взять (4.11) для этойπ∗(s) и использовать её вид.
+    Z∗(s,a)
+    c.d.f.
+    = r(s,a) + γZ∗(s′,π∗(s′)), s ′∼p(s′|s,a) (4.16)
+    Здесь справа мы для данныхs,a описываем следующий процесс генерации случайной
+    величины: генерируем
+    s′ из функции переходов, определяем однозначно9 a′ = argmax
+    a′'
+  sentences:
+  - 'passage: Z∗(s,a)
+    c.d.f.
+    := Zπ∗
+    (s,a) (4.15)
+    Мы начинаем спотыкаться уже на этом моменте, и дальше будет только хуже.
+    Теорема 43: Определение (4.15) неоднозначно.
+    Доказательство. Рассмотрим MDP, где агент может выбрать действиеa=
+    = и получить нулевую награду с вероятностью 1, илиa= и получить +1
+    или -1 с вероятностями 0.5 (эпизод в обоих случаях заканчивается). Все страте-
+    гии будут оптимальными, хотя все Z-функции различны. ■
+    С уравнением оптимальности Беллмана дляZ∗тоже внезапно есть тонкости. Для любой
+    оптимальной стра-
+    тегииπ∗вследствие (4.10) верно, что
+    Q∗(s,a) = EZπ∗
+    (s,a),
+    и мы знаем, что, в частности, среди оптимальных есть стратегия
+    π∗(s) = argmax
+    a
+    Q∗(s,a) = argmax
+    a
+    EZπ∗
+    (s,a).
+    В принципе, можно взять (4.11) для этойπ∗(s) и использовать её вид.
+    Z∗(s,a)
+    c.d.f.
+    = r(s,a) + γZ∗(s′,π∗(s′)), s ′∼p(s′|s,a) (4.16)
+    Здесь справа мы для данныхs,a описываем следующий процесс генерации случайной
+    величины: генерируем
+    s′ из функции переходов, определяем однозначно9 a′ = argmax
+    a′'
+  - 'passage: distributional reinforcement learning. InProceedings of the AAAI Conference
+    on Artiﬁcial Intelligence, volume 33,
+    pages 4504–4511.
+    [Mania et al., 2018] Mania, H., Guy, A., and Recht, B. (2018). Simple random search
+    provides a competitive approach
+    to reinforcement learning.arXiv preprint arXiv:1803.07055.
+    [Mnih et al., 2016] Mnih,V., Badia,A.P.,Mirza,M., Graves,A., Lillicrap,T.,Harley,T.,
+    Silver,D., andKavukcuoglu,
+    K. (2016). Asynchronous methods for deep reinforcement learning. InInternational
+    conference on machine learning,
+    pages 1928–1937.
+    [Mnih et al., 2013] Mnih, V., Kavukcuoglu, K., Silver, D., Graves, A., Antonoglou,
+    I., Wierstra, D., and Riedmiller,
+    M. (2013). Playing atari with deep reinforcement learning.arXiv preprint arXiv:1312.5602.
+    [Munos et al., 2016] Munos, R., Stepleton, T., Harutyunyan, A., and Bellemare,
+    M. G. (2016). Safe and eﬃcient
+    oﬀ-policy reinforcement learning.arXiv preprint arXiv:1606.02647.'
+  - 'passage: обучения меняются счётчики посещения. Это довольно типично, что внутренняя
+    мотивация нестационарна:
+    модуль внутренней мотивации принципиально есть часть обучающейся системы, и он
+    тоже постепенно /guillemotleft.cyrобу-
+    чается/guillemotright.cyr, следовательно, меняется. Для нас это значит, что нужно
+    будет использовать on-policy алгоритмы для
+    обучения на такой сигнал.
+    Эпизодичные бонусы, конечно же, можно считать модификацией функции награды, и
+    поэтому подобные
+    оракулы можно считать /guillemotleft.cyrручными эвристиками/guillemotright.cyr.
+    Агент в том числе по итогам обучения научится в ходе одного
+    эпизода /guillemotleft.cyrбегать по всему MDP/guillemotright.cyr. Это, однако,
+    вполне может быть полезно в каких-нибудь лабиринтах или
+    задачах, где агенту нужно что-то где-то найти в течение самой игры. Проблема эпизодичных
+    бонусов в том, что
+    они формально нарушают предположение о полной наблюдаемости пространства состояний:
+    функция награды'
+- source_sentence: 'query: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) =
+    0
+    Выделяем норму градиента логарифма правдоподобия:
+    −Ea∥∇θlog πθ(a|s)∥2
+    2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2
+    2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)
+    Осталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы
+    о бэйзлайне (формулы
+    (5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять
+    же, до тех пор, пока он
+    не зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор,
+    одинаковый для всехa;
+    поэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:
+    EamT (∇θlog πθ(a|s)) = Ea
+    d∑
+    i=0
+    mi∇θi log πθ(a|s) =
+    d∑
+    i=0
+    miEa∇θi log πθ(a|s)  
+    0 по формуле (5.6)
+    = 0
+    Убирая это нулевое третье слагаемое из (5.15), получаем равенство между первыми
+    двумя:
+    bEa∥∇θlog πθ(a|s)∥2
+    2 = Ea∥∇θlog πθ(a|s)∥2
+    2Qπ(s,a)
+    Выражая из негоb, получаем доказываемое.
+    130'
+  sentences:
+  - 'passage: с подмешанным эксплорейшном. Это различие было для нас принципиально:
+    оптимальны детерминированные
+    стратегии, а взаимодействовать со средой мы готовы лишь стохастичными стратегиями.
+    У этого /guillemotleft.cyrнесовпадения/guillemotright.cyr
+    есть следующий эффект.
+    Пример 59 /emdash.cyr Cliﬀ World: Рассмотрим MDP с рисунка с детерминированной
+    функцией переходов, действиями
+    вверх-вниз-вправо-влево иγ <1; за попадание в лаву начисляется огромный штраф,
+    а эпизод прерывается.
+    За попадание в целевое состояние агент получает +1, и эпизод также завершается;
+    соответственно, задача
+    агента /emdash.cyr как можно быстрее добраться до цели, не угодив в лаву.
+    Q-learning, тем не менее, постепенно сойдётся к оптимальной стра-
+    тегии: кратчайшим маршрутом агент может добраться до терминаль-
+    ного состояния с положительной наградой. Однако даже после того,
+    как оптимальная стратегия уже выучилась, Q-learning продолжает
+    прыгать в лаву! Почему? Проходя прямо возле лавы, агент каждый'
+  - 'passage: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) = 0
+    Выделяем норму градиента логарифма правдоподобия:
+    −Ea∥∇θlog πθ(a|s)∥2
+    2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2
+    2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)
+    Осталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы
+    о бэйзлайне (формулы
+    (5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять
+    же, до тех пор, пока он
+    не зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор,
+    одинаковый для всехa;
+    поэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:
+    EamT (∇θlog πθ(a|s)) = Ea
+    d∑
+    i=0
+    mi∇θi log πθ(a|s) =
+    d∑
+    i=0
+    miEa∇θi log πθ(a|s)  
+    0 по формуле (5.6)
+    = 0
+    Убирая это нулевое третье слагаемое из (5.15), получаем равенство между первыми
+    двумя:
+    bEa∥∇θlog πθ(a|s)∥2
+    2 = Ea∥∇θlog πθ(a|s)∥2
+    2Qπ(s,a)
+    Выражая из негоb, получаем доказываемое.
+    130'
+  - 'passage: KL(p(T |π) ∥p(T |π∗)) →min
+    π
+    (8.3)
+    Теорема 86: Задача (8.3) эквивалентна задаче Maximum Entropy RL (6.7).
+    Доказательство. Распишем (8.3):
+    KL(p(T |π) ∥p(T |π∗)) = ET∼π
+    log p(T |π)
+      ∑
+    t≥0
+    log π(at |st) + logp(st+1 |st,at) − (8.4)
+    −ET∼π
+    ∑
+    t≥0
+    log p(st+1 |st,at) −rt −const(π)
+      
+    log p(T |π∗) из (8.2)
+    , (8.5)
+    гдеconst(π) /emdash.cyr нормировочная константа распределения (8.2). Убирая сокращающиеся
+    логарифмы вероят-
+    ностей переходов и домножая на минус единицу, получаем:
+    ET∼π
+    ∑
+    t≥0
+    [rt −log π(at |st)] →max
+    π
+    ,
+    что есть в точности Maximum Entropy RL. ■
+    191'
+---
+# SentenceTransformer based on intfloat/multilingual-e5-small
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small). It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [intfloat/multilingual-e5-small](https://huggingface.co/intfloat/multilingual-e5-small) <!-- at revision c007d7ef6fd86656326059b28395a7a03a7c5846 -->
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 384 dimensions
+- **Similarity Function:** Cosine Similarity
+<!-- - **Training Dataset:** Unknown -->
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
+  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("YarKo69/e5-base-retrievers")
+# Run inference
+sentences = [
+    'query: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) = 0\nВыделяем норму градиента логарифма правдоподобия:\n−Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2\n2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)\nОсталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы о бэйзлайне (формулы\n(5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять же, до тех пор, пока он\nне зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор, одинаковый для всехa;\nпоэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:\nEamT (∇θlog πθ(a|s)) = Ea\nd∑\ni=0\nmi∇θi log πθ(a|s) =\nd∑\ni=0\nmiEa∇θi log πθ(a|s)\ued19 \ued18\ued17 \ued1a\n0 по формуле (5.6)\n= 0\nУбирая это нулевое третье слагаемо�� из (5.15), получаем равенство между первыми двумя:\nbEa∥∇θlog πθ(a|s)∥2\n2 = Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a)\nВыражая из негоb, получаем доказываемое.\n130',
+    'passage: 2Ea(∇θlog πθ(a|s) (Qπ(s,a) −b) −m)T (−∇θlog πθ(a|s)) = 0\nВыделяем норму градиента логарифма правдоподобия:\n−Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a) + Ea∥∇θlog πθ(a|s)∥2\n2b+ EamT (∇θlog πθ(a|s)) = 0 (5.15)\nОсталось заметить, что третье слагаемое есть ноль. Это обобщение нашей теоремы о бэйзлайне (формулы\n(5.6)): условно, бэйзлайн может быть свой для каждой компоненты вектораθ, опять же, до тех пор, пока он\nне зависит от действий. В данном случаеm /emdash.cyr некоторый фиксированный вектор, одинаковый для всехa;\nпоэтому, еслиd/emdash.cyr размерность вектора параметровθ, то:\nEamT (∇θlog πθ(a|s)) = Ea\nd∑\ni=0\nmi∇θi log πθ(a|s) =\nd∑\ni=0\nmiEa∇θi log πθ(a|s)\ued19 \ued18\ued17 \ued1a\n0 по формуле (5.6)\n= 0\nУбирая это нулевое третье слагаемое из (5.15), получаем равенство между первыми двумя:\nbEa∥∇θlog πθ(a|s)∥2\n2 = Ea∥∇θlog πθ(a|s)∥2\n2Qπ(s,a)\nВыражая из негоb, получаем доказываемое.\n130',
+    'passage: с подмешанным эксплорейшном. Это различие было для нас принципиально: оптимальны детерминированные\nстратегии, а взаимодействовать со средой мы готовы лишь стохастичными стратегиями. У этого /guillemotleft.cyrнесовпадения/guillemotright.cyr\nесть следующий эффект.\nПример 59 /emdash.cyr Cliﬀ World: Рассмотрим MDP с рисунка с детерминированной функцией переходов, действиями\nвверх-вниз-вправо-влево иγ <1; за попадание в лаву начисляется огромный штраф, а эпизод прерывается.\nЗа попадание в целевое состояние агент получает +1, и эпизод также завершается; соответственно, задача\nагента /emdash.cyr как можно быстрее добраться до цели, не угодив в лаву.\nQ-learning, тем не менее, постепенно сойдётся к оптимальной стра-\nтегии: кратчайшим маршрутом агент может добраться до терминаль-\nного состояния с положительной наградой. Однако даже после того,\nкак оптимальная стратегия уже выучилась, Q-learning продолжает\nпрыгать в лаву! Почему? Проходя прямо возле лавы, агент каждый',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 384]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities.shape)
+# [3, 3]
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Dataset
+#### Unnamed Dataset
+* Size: 935 training samples
+* Columns: <code>anchor</code> and <code>positive</code>
+* Approximate statistics based on the first 935 samples:
+  |         | anchor                                                                                | positive                                                                              |
+  |:--------|:--------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
+  | type    | string                                                                                | string                                                                                |
+  | details | <ul><li>min: 106 tokens</li><li>mean: 300.47 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 105 tokens</li><li>mean: 299.51 tokens</li><li>max: 512 tokens</li></ul> |
+* Samples:
+  | anchor                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
+  |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>query: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code>                                              | <code>passage: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code>                                              |
+  | <code>query: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стратегии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> | <code>passage: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стра��егии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> |
+  | <code>query: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code>                                                                                                                                                                                                                                                                                                                                                                                                        | <code>passage: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code>                                                                                                                                                                                                                                                                                                                                                                                                        |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Evaluation Dataset
+#### Unnamed Dataset
+* Size: 400 evaluation samples
+* Columns: <code>anchor</code> and <code>positive</code>
+* Approximate statistics based on the first 400 samples:
+  |         | anchor                                                                                | positive                                                                              |
+  |:--------|:--------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
+  | type    | string                                                                                | string                                                                                |
+  | details | <ul><li>min: 125 tokens</li><li>mean: 297.33 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 124 tokens</li><li>mean: 296.36 tokens</li><li>max: 512 tokens</li></ul> |
+* Samples:
+  | anchor                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
+  |:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>query: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code>                                              | <code>passage: прошлом/guillemotright.cyr. Наша внутренняя мотивация тоже есть такая добавка, только теперь она должна оценивать новизну<br>посещаемых областей в среде.<br>Попробуем исходить из схожих соображений: будем награждать агента за посещения тех состояний, в кото-<br>рых он был редко. Мы можем это сделать двумя способами.<br>Определение 103: Пустьh(s): S→{ 0,1 ...N }/emdash.cyr некоторая хэш-функция состояний, называемаяораку-<br>лом(oracle), иn(i) /emdash.cyr счётчик, сколько раз за время всего обучения нам встретились состояния с хэшемi.<br>Тогда<br>rintr(s,a) := 1<br>n(h(s))<br>называетсянестационарнымисследовательским бонусом; награда<br>rintr(st,at) := I[∀t′<t : st ̸= st′],<br>то есть награждение +1, если мы попали в состояние, хэш для которогоh(st) не встречался до этого в<br>течение данного эпизода, называетсяэпизодичнымисследовательским бонусом.<br>Нестационарные исследовательские бонусы затухают с ходом обучения; в пределе мы, надеемся, посетим</code>                                              |
+  | <code>query: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стратегии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> | <code>passage: ]<br><br>=<br>{перегруппируем слагаемые}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(rt + γVπ1(st+1) −Vπ1(st)) =<br>{фокусExf(x) = ExExf(x)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(<br>rt + γEst+1Vπ1(st+1) −Vπ1(st)<br>)<br>=<br>{выделяем Q-функцию (3.5)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γt(Qπ1(st,at) −Vπ1(st))<br>{по определению (3.19)}= ET∼π2|s0=s<br>∑<br>t≥0<br>γtAπ1(st,at) ■<br>Мы смогли записать наш функционал как мат.ожидание по траекториям, сгенерированным одной полити-<br>кой, по оценочной функции другой стратегии. Фактически, мы можем награду заменить Advantage-функцией<br>произвольной другой стратегии, и это сдвинет оптимизируемый функционал на константу! Прикольно.<br>Конечно, это теоретическое утверждение, поскольку на практике узнать точно оценочную функцию какой-то<br>другой стратегии достаточно сложно (хотя ничто не мешает в качестве потенциала использовать произвольную<br>функцию, приближающую Vπ1(s)). Однако в этой /guillemotleft.cyrновой/guillemotright.cyr награде замешаны сигналы из будущего, награды,</code> |
+  | <code>query: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code>                                                                                                                                                                                                                                                                                                                                                                                                        | <code>passage: Теорема 55: Для произвольного распределенияπθ(a) с параметрамиθ, верно:<br>Ea∼πθ(a)∇θlog πθ(a) = 0 (5.6)<br>Доказательство.<br>Ea∼πθ(a)∇θlog πθ(a) = {производная логарифма}= Ea∼πθ(a)<br>∇θπθ(a)<br>πθ(a) =<br>=<br>∫<br>A<br>∇θπθ(a) da= ∇θ<br>∫<br>A<br>πθ(a) da= ∇θ1 = 0 ■<br>Следующееутверждениеформализуетэтоттезисотом,что/guillemotleft.cyrбудущееневлияетнапрошлое/guillemotright.cyr:выбордействий<br>в некоторый момент времени никак не влияет на те слагаемые из награды, которые были получены в прошлом.<br>Теорема 56 /emdash.cyr Принцип причинности (causality): При t> ˆt:<br>ET∼π∇θlog πθ(at |st)γˆtrˆt = 0<br>122</code>                                                                                                                                                                                                                                                                                                                                                                                                        |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 16
+- `per_device_eval_batch_size`: 16
+- `learning_rate`: 2e-05
+- `num_train_epochs`: 6
+- `warmup_ratio`: 0.1
+- `fp16`: True
+- `load_best_model_at_end`: True
+- `batch_sampler`: no_duplicates
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 16
+- `per_device_eval_batch_size`: 16
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 2e-05
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 6
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.1
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: False
+- `fp16`: True
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: False
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: True
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `dispatch_batches`: None
+- `split_batches`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+</details>
+### Training Logs
+| Epoch      | Step    | Training Loss | Validation Loss |
+|:----------:|:-------:|:-------------:|:---------------:|
+| 0.6780     | 40      | -             | 0.0001          |
+| 1.3559     | 80      | -             | 0.0001          |
+| 1.6949     | 100     | 0.1619        | -               |
+| 2.0339     | 120     | -             | 0.0001          |
+| 2.7119     | 160     | -             | 0.0000          |
+| 3.3898     | 200     | 0.0           | 0.0000          |
+| 4.0678     | 240     | -             | 0.0000          |
+| 4.7458     | 280     | -             | 0.0000          |
+| 5.0847     | 300     | 0.0           | -               |
+| **5.4237** | **320** | **-**         | **0.0**         |
+* The bold row denotes the saved checkpoint.
+### Framework Versions
+- Python: 3.11.5
+- Sentence Transformers: 4.0.1
+- Transformers: 4.48.3
+- PyTorch: 2.6.0+cu126
+- Accelerate: 1.5.2
+- Datasets: 3.5.0
+- Tokenizers: 0.21.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MultipleNegativesRankingLoss
+```bibtex
+@misc{henderson2017efficient,
+    title={Efficient Natural Language Response Suggestion for Smart Reply},
+    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
+    year={2017},
+    eprint={1705.00652},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->