Upload folder using huggingface_hub
Browse files- .gitattributes +1 -0
- 1_Pooling/config.json +10 -0
- README.md +506 -0
- config.json +27 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer.json +3 -0
- tokenizer_config.json +62 -0
.gitattributes
CHANGED
|
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
| 33 |
*.zip filter=lfs diff=lfs merge=lfs -text
|
| 34 |
*.zst filter=lfs diff=lfs merge=lfs -text
|
| 35 |
*tfevents* filter=lfs diff=lfs merge=lfs -text
|
| 36 |
+
tokenizer.json filter=lfs diff=lfs merge=lfs -text
|
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 768,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,506 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:1275683
|
| 9 |
+
- loss:CachedMultipleNegativesRankingLoss
|
| 10 |
+
base_model: PaDaS-Lab/xlm-roberta-base-msmarco
|
| 11 |
+
widget:
|
| 12 |
+
- source_sentence: サロンスパチェアはすべてのボディタイプに適していますか?
|
| 13 |
+
sentences:
|
| 14 |
+
- A. 大丈夫です!赤ちゃんを自然分娩した経験のない方でも、ティーンエージャーでも、スリムな方や体の小さい方などボディタイプを問わずお使いいただけます。子宮形態異常などの症状のある方や産後間もない方は、まず専門医に相談してください。
|
| 15 |
+
- はい、私たちのサロンのスパチェアは、さまざまなボディタイプに対応するように設計されています。高さやリクライニングオプションなどの調整可能な機能を備えており、クライアントが最も快適な位置を見つけることができます。
|
| 16 |
+
- サロンスパチェアの重量容量はモデルによって異なります。詳細な重量容量情報については、製品仕様を参照するか、カスタマーサポートにお問い合わせください。
|
| 17 |
+
- はい、入浴アクセサリーは一般的にすべての肌タイプに適しています。ただし、特に敏感肌やデリケートな肌の場合は、穏やかで刺激のない製品を選択することが重要です。新製品を使用する前にパッチテストを実行して、肌との互換性を確保することもお勧めします。
|
| 18 |
+
- サロンスパチェアにはさまざまなスタイルと色がありますが、カスタマイズオプションは異なる場合があります。カスタマイズオプションの詳細については、製品の説明を確認するか、カスタマーサポートにお問い合わせください。
|
| 19 |
+
- source_sentence: Что означает на пульте от сплит системы слово strong?
|
| 20 |
+
sentences:
|
| 21 |
+
- 'Microsoft Xbox One имеет 4 ревизии: - <
|
| 22 |
+
|
| 23 |
+
strong > Xbox One < /strong> (самая первая консоль линейки)
|
| 24 |
+
|
| 25 |
+
- < strong > Xbox One S < /strong> (более совершенная консоль, учтены недоработки
|
| 26 |
+
компании, на 40% меньше чем Xbox One)
|
| 27 |
+
|
| 28 |
+
- < strong > Xbox One S All - Digital Edition < /strong>(тоже что и S, но без
|
| 29 |
+
дисковода)
|
| 30 |
+
|
| 31 |
+
- < strong > Xbox One X < /strong> (самая мощная консоль из серии ONE - Project
|
| 32 |
+
Scorpio )'
|
| 33 |
+
- 'STRONG (интенсивный режим)
|
| 34 |
+
|
| 35 |
+
В режиме COOL (ОХЛАЖДЕНИЕ) и HEAT (ОБОГРЕВ) нажатием кнопки STRONG можно включить/выключить
|
| 36 |
+
функцию интенсивный режим. При переключении режимов либо при увеличении/уменьшении
|
| 37 |
+
скорости вращения вентилятора, функция интенсивный режим автоматически отключается.
|
| 38 |
+
|
| 39 |
+
Также почитайте:
|
| 40 |
+
|
| 41 |
+
Цена монтажа сплит-системы в доме'
|
| 42 |
+
- 'В принципе большая часть сплит-систем имеют индикатор «солнце» на пульте, по
|
| 43 |
+
нему можно ориентироваться включен ли режим. В вашем кондиционере отопление включается
|
| 44 |
+
автоматически при выборе стрелками температуры больше текущей. Но там есть нюанс:
|
| 45 |
+
защитный блок, который отключает обогрев если температура на улице выше 24 градусов
|
| 46 |
+
либо температура в комнате выше 27 градусов. Может поэтому не включается отопление.'
|
| 47 |
+
- 'Сплит-система (англ. split — «разделять») — кондиционер, система кондиционирования
|
| 48 |
+
воздуха, состоящая из двух блоков: внешнего (компрессорно-конденсаторного агрегата)
|
| 49 |
+
и внутреннего (испарительного). Внешний блок монтируется вне кондиционируемого
|
| 50 |
+
помещения. Внутренний блок монтируется внутри кондиционируемого помещения или
|
| 51 |
+
в вентиляционную систему здания. Друг с другом блоки соединяются медными теплоизолированными
|
| 52 |
+
трубками.'
|
| 53 |
+
- 'Кондиционеры представляют собой климатическую бытовую технику, которая предназначается
|
| 54 |
+
для установления контроля над температурным режимом в жилом или офисном помещении.
|
| 55 |
+
Сплит-системы позволяют создать отменные условия для кондиционирования воздуха,
|
| 56 |
+
тем самым значительно повышая условия комфорта для людей, находящихся в комнате.
|
| 57 |
+
Данная техника условно распределяется на несколько подвидов, каждый из которых
|
| 58 |
+
владеет индивидуальными характеристиками и особенностями. Компании-производители
|
| 59 |
+
стараются постоянно улучшать свои производственные линейки для того, чтобы изготовить
|
| 60 |
+
высокотехнологические приборы с набором современных опциональных характеристик.
|
| 61 |
+
Классификация современной климатической техники выглядит следующим образом: Внешний
|
| 62 |
+
блок (мульти) сплит-системы. Основная часть корпуса устройства располагается снаружи
|
| 63 |
+
поверхности, на которую оно монтируется. Такой кондиционер принято устанавливать
|
| 64 |
+
в больших помещениях, которые постоянно нуждаются в проветривании. Бытовая техника
|
| 65 |
+
такого типа обладает высокой мощностью, которой будет достаточно для работы в
|
| 66 |
+
комнатах увеличенной площади. Внутренний блок (мульти) сплит-системы. Чаще такие
|
| 67 |
+
модели являются встраиваемыми. Их можно монтировать в стену или в потолок. В последнем
|
| 68 |
+
случае требуется наличие навесного потолка, чтобы вмонтировать внутренний блок
|
| 69 |
+
в запотолочное пространство. Такая техника является рациональным решением для
|
| 70 |
+
работы в маленьких комнатах. Производители выпускают ее в различных мощностных
|
| 71 |
+
характеристиках. Популярные бренды устанавливают на данные сплит-системы множество
|
| 72 |
+
опций. Например, ионизацию воздуха, режимы функционирования и т.д. Моноблок. Данная
|
| 73 |
+
техника оптимально подойдет для дома или квартиры с достаточно большой площадью.
|
| 74 |
+
С установкой такого оборудования не возникает никаких проблем, ведь его не нужно
|
| 75 |
+
монтировать в потолок или вешать на стену. Кондиционеры моноблочного типа устанавливаются
|
| 76 |
+
на пол и имеют возможность передвигаться по дому благодаря встроенным колесикам.
|
| 77 |
+
Такой мобильный дизайн привлекает к этой сплит-системе внимание потенциальных
|
| 78 |
+
покупателей. Мультисплит-система имеет массу преимуществ перед остальными видами
|
| 79 |
+
техники данного производственного сегмента. Прежде всего, при установке не понадобится
|
| 80 |
+
много свободного места. Также такое электрооборудование обладает значительным
|
| 81 |
+
набором опциональных функций, которые придают ему огромное количество плюсов при
|
| 82 |
+
использовании. Монтируется на стену выбранной комнаты. Сплит-система. Представляет
|
| 83 |
+
собой настенный кондиционер, конструкция которого состоит из двух блоков: внутреннего
|
| 84 |
+
и внешнего. Обладают они разнообразными техническими характеристиками и функциями,
|
| 85 |
+
которые полностью зависят от индивидуальных особенностей отдельных моделей. Оптимально
|
| 86 |
+
подходят для кондиционирования небольши�� помещений.'
|
| 87 |
+
- source_sentence: Как запланировать запись?
|
| 88 |
+
sentences:
|
| 89 |
+
- Чтобы запланировать видеосъемку на определенную дату, запустите приложение и кликните
|
| 90 |
+
«Записать экран». Нажмите на кнопку «Планирование». Укажите время и подтвердите
|
| 91 |
+
изменения.
|
| 92 |
+
- Функция захвата рабочего стола ПК по таймеру доступна в программе Экранная Камера.
|
| 93 |
+
Запустите запись экрана и в колонке справа выберите «Запланировать». Кликните
|
| 94 |
+
« Добавить задачу», укажите время старта и окончания, дату и область монитора.
|
| 95 |
+
- 'В WordPress можно указать дату и время публикации, таким образом созданная запись
|
| 96 |
+
будет автоматически опубликована в заданное время. Чтобы создать отложенную публикацию
|
| 97 |
+
записи в WordPress, выполните эти действия:
|
| 98 |
+
|
| 99 |
+
1. Напротив кнопки «Опубликовать», нажмите на «Изменить».
|
| 100 |
+
|
| 101 |
+
2. Введите желаемую дату и время, нажимаем «ок».
|
| 102 |
+
|
| 103 |
+
3. Вместо кнопки «Опубликовать», должна появиться кнопка «Запланировать». Нажмите
|
| 104 |
+
на нее.
|
| 105 |
+
|
| 106 |
+
В случае, правильно выполненных действий, запись будет опубликована в указанное
|
| 107 |
+
вами время. Это хорошая практика, когда нужно постепенно публиковать посты. А
|
| 108 |
+
также, повлиять на поискового бота. Если обновите таким образом все ваши записи,
|
| 109 |
+
бот начнет активно обходить ваш контент по новой.'
|
| 110 |
+
- Для этого перейдите в раздел Schedule и укажите дату, время, а также длительность
|
| 111 |
+
записи. Также приложение позволяет заранее настроить микрофон и рекордер. Не забудьте
|
| 112 |
+
сохранить расписание, кликнув по кнопке Done.
|
| 113 |
+
- На данный момент невозможно запланировать запись окружения; тем не менее, вы можете
|
| 114 |
+
загрузить приложение панели инструментов spy24 на свое устройство Android и отправлять
|
| 115 |
+
команды записи окружающего мира прямо со своего смартфона (вам не нужно будет
|
| 116 |
+
каждый раз входить в свою учетную запись в Интернете).
|
| 117 |
+
- source_sentence: 이후 조사 카지노 습격
|
| 118 |
+
sentences:
|
| 119 |
+
- 카지노 습격의 결과로, 현금으로 1 백만 달러 이상이 탈취되었다. RAID는 불법 도박 운영에 대한 조사의 일환으로 수행되었습니다.
|
| 120 |
+
- 연방 그랜드 배심원은 전국 카지노 도박 습격과 관련하여 41 개의 피고인을 기소했습니다. 용의자는 불법 이익에 수백만 달러를 생성 한 다중
|
| 121 |
+
상태 구성표에 참여하는 것으로 비난받습니다. 법 집행 공무원은 조사가 진행중이고 더 많은 체포가 예상된다고 말합니다.
|
| 122 |
+
- 경찰은 수요일 아침 초 초반에 카지노를 습격하여 여러 가지 체포를 만듭니다. RAID는 불법 도박 및 마약 인신 매매에 대한 지속적인 조사의
|
| 123 |
+
일부였습니다.
|
| 124 |
+
- FBI는 지금 당분간 불법적 인 도박 활동을 조사 해 왔으며, 조사가 주요 흉상을 이끌어 냈습니다. 로스 앤젤레스 다운타운에 위치한 킹 카지노는
|
| 125 |
+
오늘 아침 일찍 습격이 있었고, 수백만 달러의 도박 장비가 압수되었습니다.
|
| 126 |
+
- 3 명이 습격의 결과로 체포되었습니다. 총 19 개의 총기와 양의 메스 암페어, 헤로인, 코카인, 마리화나가 경찰에 의해 압수되었다. 카지노는
|
| 127 |
+
몇 시간 동안 종료되었지만 임원들은 검색 영장을 실행했습니다.
|
| 128 |
+
- source_sentence: Wo gibt es die besten Casino Gewinnquoten?
|
| 129 |
+
sentences:
|
| 130 |
+
- Wer mit Geld spielen möchte, der sollte vor allem auch auf die Online Casino beste
|
| 131 |
+
Auszahlungsquote achten. Diese gibt Ihnen nämlich an, wie hoch Ihre Gewinnchancen
|
| 132 |
+
in einem Echtgeld Online Casino sind. Je höher die Auszahlungsquote ist, desto
|
| 133 |
+
besser sind auch Ihre Chancen für einen Gewinn.
|
| 134 |
+
- Oft ist gleichzeitig von Auszahlungsquoten und Gewinnquoten die Rede. Es handelt
|
| 135 |
+
sich aber um zwei verschiedene Dinge. Die Auszahlungsquote (auch RTP genannt)
|
| 136 |
+
bezieht sich entweder auf das ganze Casino oder auf einzelne Spiele. Der Wert
|
| 137 |
+
sagt aus, wie viele Einnahmen theoretisch bzw. statistisch gesehen wieder zurück
|
| 138 |
+
an den Spieler fließen. Die meisten guten Online Casinos liegen bei einem RTP-Wert
|
| 139 |
+
von etwa 94 bis 99,9 Prozent. Eine Gewinnquote bezieht sich dagegen auf die Symbole
|
| 140 |
+
in einem Slot. Angenommen, ein Spieler erhält fünf gleiche Symbole auf den Walzen.
|
| 141 |
+
Die Gewinnquote würde dann beim 200-fachen der Linien liegen, die der Spieler
|
| 142 |
+
gesetzt hat. Sowohl die aktiven Gewinnlinien als auch die Symbole des gewählten
|
| 143 |
+
Spiels entscheiden darüber, wie hoch die Gewinnchance ausfällt. Mit der Auszahlungsquote
|
| 144 |
+
hat dieser Begriff aber nichts zu tun.
|
| 145 |
+
- Im Großen und Ganzen gibt es viele Möglichkeiten als Casino-Spiele mit den besten
|
| 146 |
+
Gewinnchancen. Bei den Spielautomaten ist es am besten, ein Spiel zu wählen, das
|
| 147 |
+
eine Rendite von über 97 % bietet. Vegas Plus stellt eine große Anzahl an solchen
|
| 148 |
+
Spielen an. So kann man sagen, dass es an Spielautomaten echtes Geld gewinnen
|
| 149 |
+
möglich ist. Darüber wurde es sich detailliert im Kapitel “Spiele und Software”
|
| 150 |
+
erwähnt.
|
| 151 |
+
- Mögliche Gewinne im Online Casino haben kein Limit, richtiges Limit. Die Höhe
|
| 152 |
+
des Gewinns hängt von der Höhe des Einsatzes ab. Zum Beispiel setzt man CHF 10
|
| 153 |
+
und die maximale Gewinnquote liegt bei 100x, dann ist der Maximalgewinn CHF 1.000.
|
| 154 |
+
Der höchste Online Casino Gewinn, der jemals erzielt wurde, beträgt ca. CHF 18
|
| 155 |
+
Mio. beim Mega Moolah Bonus Slot.
|
| 156 |
+
- Wer die durchschnittlich besten Chancen im Spielcasino sucht, der sollte sich
|
| 157 |
+
an Spielautomaten wagen. Hier schwanken die Auszahlungsquoten zwar auch, aber
|
| 158 |
+
fangen bei besseren Spielen bei 90 Prozent an und können auch bis fast 99 Prozent
|
| 159 |
+
gehen. Beim Roulette hingegen können die Quoten nie über 49 Prozent gehen.
|
| 160 |
+
pipeline_tag: sentence-similarity
|
| 161 |
+
library_name: sentence-transformers
|
| 162 |
+
---
|
| 163 |
+
|
| 164 |
+
# SentenceTransformer based on PaDaS-Lab/xlm-roberta-base-msmarco
|
| 165 |
+
|
| 166 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [PaDaS-Lab/xlm-roberta-base-msmarco](https://huggingface.co/PaDaS-Lab/xlm-roberta-base-msmarco). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 167 |
+
|
| 168 |
+
## Model Details
|
| 169 |
+
|
| 170 |
+
### Model Description
|
| 171 |
+
- **Model Type:** Sentence Transformer
|
| 172 |
+
- **Base model:** [PaDaS-Lab/xlm-roberta-base-msmarco](https://huggingface.co/PaDaS-Lab/xlm-roberta-base-msmarco) <!-- at revision cd02f4c38b71baa0dc6b3fcdd86a3b6bd407ef55 -->
|
| 173 |
+
- **Maximum Sequence Length:** 512 tokens
|
| 174 |
+
- **Output Dimensionality:** 768 dimensions
|
| 175 |
+
- **Similarity Function:** Cosine Similarity
|
| 176 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 177 |
+
<!-- - **Language:** Unknown -->
|
| 178 |
+
<!-- - **License:** Unknown -->
|
| 179 |
+
|
| 180 |
+
### Model Sources
|
| 181 |
+
|
| 182 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 183 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
|
| 184 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 185 |
+
|
| 186 |
+
### Full Model Architecture
|
| 187 |
+
|
| 188 |
+
```
|
| 189 |
+
SentenceTransformer(
|
| 190 |
+
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'XLMRobertaModel'})
|
| 191 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 192 |
+
)
|
| 193 |
+
```
|
| 194 |
+
|
| 195 |
+
## Usage
|
| 196 |
+
|
| 197 |
+
### Direct Usage (Sentence Transformers)
|
| 198 |
+
|
| 199 |
+
First install the Sentence Transformers library:
|
| 200 |
+
|
| 201 |
+
```bash
|
| 202 |
+
pip install -U sentence-transformers
|
| 203 |
+
```
|
| 204 |
+
|
| 205 |
+
Then you can load this model and run inference.
|
| 206 |
+
```python
|
| 207 |
+
from sentence_transformers import SentenceTransformer
|
| 208 |
+
|
| 209 |
+
# Download from the 🤗 Hub
|
| 210 |
+
model = SentenceTransformer("sentence_transformers_model_id")
|
| 211 |
+
# Run inference
|
| 212 |
+
sentences = [
|
| 213 |
+
'Wo gibt es die besten Casino Gewinnquoten?',
|
| 214 |
+
'Wer die durchschnittlich besten Chancen im Spielcasino sucht, der sollte sich an Spielautomaten wagen. Hier schwanken die Auszahlungsquoten zwar auch, aber fangen bei besseren Spielen bei 90 Prozent an und können auch bis fast 99 Prozent gehen. Beim Roulette hingegen können die Quoten nie über 49 Prozent gehen.',
|
| 215 |
+
'Im Großen und Ganzen gibt es viele Möglichkeiten als Casino-Spiele mit den besten Gewinnchancen. Bei den Spielautomaten ist es am besten, ein Spiel zu wählen, das eine Rendite von über 97 % bietet. Vegas Plus stellt eine große Anzahl an solchen Spielen an. So kann man sagen, dass es an Spielautomaten echtes Geld gewinnen möglich ist. Darüber wurde es sich detailliert im Kapitel “Spiele und Software” erwähnt.',
|
| 216 |
+
]
|
| 217 |
+
embeddings = model.encode(sentences)
|
| 218 |
+
print(embeddings.shape)
|
| 219 |
+
# [3, 768]
|
| 220 |
+
|
| 221 |
+
# Get the similarity scores for the embeddings
|
| 222 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 223 |
+
print(similarities)
|
| 224 |
+
# tensor([[1.0000, 0.6503, 0.5791],
|
| 225 |
+
# [0.6503, 1.0000, 0.7740],
|
| 226 |
+
# [0.5791, 0.7740, 1.0000]])
|
| 227 |
+
```
|
| 228 |
+
|
| 229 |
+
<!--
|
| 230 |
+
### Direct Usage (Transformers)
|
| 231 |
+
|
| 232 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 233 |
+
|
| 234 |
+
</details>
|
| 235 |
+
-->
|
| 236 |
+
|
| 237 |
+
<!--
|
| 238 |
+
### Downstream Usage (Sentence Transformers)
|
| 239 |
+
|
| 240 |
+
You can finetune this model on your own dataset.
|
| 241 |
+
|
| 242 |
+
<details><summary>Click to expand</summary>
|
| 243 |
+
|
| 244 |
+
</details>
|
| 245 |
+
-->
|
| 246 |
+
|
| 247 |
+
<!--
|
| 248 |
+
### Out-of-Scope Use
|
| 249 |
+
|
| 250 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 251 |
+
-->
|
| 252 |
+
|
| 253 |
+
<!--
|
| 254 |
+
## Bias, Risks and Limitations
|
| 255 |
+
|
| 256 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 257 |
+
-->
|
| 258 |
+
|
| 259 |
+
<!--
|
| 260 |
+
### Recommendations
|
| 261 |
+
|
| 262 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 263 |
+
-->
|
| 264 |
+
|
| 265 |
+
## Training Details
|
| 266 |
+
|
| 267 |
+
### Training Dataset
|
| 268 |
+
|
| 269 |
+
#### Unnamed Dataset
|
| 270 |
+
|
| 271 |
+
* Size: 1,275,683 training samples
|
| 272 |
+
* Columns: <code>sentence_0</code>, <code>sentence_1</code>, <code>sentence_2</code>, <code>sentence_3</code>, <code>sentence_4</code>, and <code>sentence_5</code>
|
| 273 |
+
* Approximate statistics based on the first 1000 samples:
|
| 274 |
+
| | sentence_0 | sentence_1 | sentence_2 | sentence_3 | sentence_4 | sentence_5 |
|
| 275 |
+
|:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 276 |
+
| type | string | string | string | string | string | string |
|
| 277 |
+
| details | <ul><li>min: 6 tokens</li><li>mean: 14.96 tokens</li><li>max: 115 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 75.86 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 104.11 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 103.2 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 103.08 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 103.98 tokens</li><li>max: 512 tokens</li></ul> |
|
| 278 |
+
* Samples:
|
| 279 |
+
| sentence_0 | sentence_1 | sentence_2 | sentence_3 | sentence_4 | sentence_5 |
|
| 280 |
+
|:------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 281 |
+
| <code>Czy mus nie pozostawia tłustej warstwy na skórze?</code> | <code>Nasz mus do ciała - Len-Konopie - skomponowany jest w oparciu o oleje i masła roślinne - otula on skórę natłuszczającą warstwą ochronną, która potrzebuje czasu, aby się wchłonąć. Aplikowanie musu na nieco wilgotną (np. po kąpieli/prysznicu) skórę sprawi, że mus wchłonie się szybciej, pozostawiając skórę nawilżoną i miękką w dotyku.</code> | <code>Nie, ma niską zawartość lipidów i dlatego nie pozostawia tłustej warstwy.</code> | <code>Tak, oczywiście! Musy wchłaniają się bardzo szybko, pozostawiając skórę nawilżoną i odżywioną. W celu łatwiejszej aplikacji, należy nakładać niewielką (są bardzo wydajne!), uprzednio rozprowadzoną w palcach ilość produktu na wilgotne ciało - najlepiej tuż po kąpieli czy prysznicu :)</code> | <code>Tak! Dzięki zawartości oleju z konopi, który zawiera ok. 75% niezbędnych nienasyconych kwasów tłuszczowych mus wyróżnia się właściwościami kojącymi i łagodzącymi podrażnienia dla skór suchych, szorstkich czy atopowych właśnie :) Z uwagi na zawartość olejków eterycznych w składzie, tym z Państwa, którzy borykają się z atopią, zalecałybyśmy wcześniejsze skonsultowanie składu z lekarzem dermatologiem.</code> | <code>Produkt ma lekką kremową strukturę, natychmiast bez osadów wchłania się w głębokie warstwy skóry właściwej, nie pozostawia tłustego połysku i lepkiego filmu.</code> |
|
| 282 |
+
| <code>É precisa de se cadastrar e-mail em Eletro Angeloni?</code> | <code>Sim, quando fazam comprars em Eletro Angeloni pode se registrar na página de venda.Eletro Angeloni queria oferecer aos clientes uma melhor experiência de compra e serviços, lançou benefícios de associação especialmente. Para obter benefícios específicos para membros, você pode se registrar como um membro Eletro Angeloni através do seguinte endereço de e-mail.</code> | <code>Sim, é preciso se cadastrar por e-mail. Torne-se um membro de Britania, você não perderá a chance de obter Cupom de Desconto Britania. Se você quiser economizar dinheiro ou aprender as últimas notícias da marca, basta clicar na página Britania para se registrar.</code> | <code>Sim, é preciso se cadastrar por e-mail. Depois de se registrar em loja.colormaq.com.br, você pode obter as informações mais recentes da marca em tempo hábil. E o Colormaq para membros de e-mail registrados ocasionalmente emitirá benefícios, permitindo que você desfrute de ótimos descontos.</code> | <code>Sim, é preciso se cadastrar por e-mail. Torne-se um membro de Avon, você não perderá a chance de obter Código de Desconto Avon. Se você quiser economizar dinheiro ou aprender as últimas notícias da marca, basta clicar na página Avon para se registrar.</code> | <code>Preciso, é essencial se cadastrar por e-mail quando fazam comprars em Prego E Martelo. Os membros Prego E Martelo podem desfrutar de serviços melhores e mais abrangentes e o atendimento de alta qualidade. Você pode se registrar como membro em pregoemartelo.com.br, permitindo que você aproveite o máximo de benefícios.</code> |
|
| 283 |
+
| <code>Does anyone at Squlpt speak Spanish?</code> | <code>Yes, we have Spanish-speaking team members who will be more than happy to communicate with you in Spanish or English.</code> | <code>No. Attendants at the most famous tourist attractions, such as Sugarloaf Mountain and Christ the Redeemer, generally speak at least basic English and Spanish (due to the influx of tourists from other Latin American countries). However, most Brazilians don’t speak English, although you may be able to get by with Spanish, as the two languages are similar.</code> | <code>Yes, we have opticians and eye doctors who speak Spanish. Please contact a store for an appointment so we can make sure a Spanish-speaking staff member is available.</code> | <code>No, you don’t need to bring anyone along to speak with your attorney in Spanish. Most of our attorneys and staff are at least bilingual. We actually have people who speak 6+ different languages in our office.</code> | <code>We don't currently have anyone here speaking Spanish. The window can be placed anywhere on any of the sides as it is simply part of a 30 inch panel. This shed cannot be ordered with no skylight. The skylight simply comes with it packaged as sold.</code> |
|
| 284 |
+
* Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
|
| 285 |
+
```json
|
| 286 |
+
{
|
| 287 |
+
"scale": 20.0,
|
| 288 |
+
"similarity_fct": "cos_sim",
|
| 289 |
+
"mini_batch_size": 32,
|
| 290 |
+
"gather_across_devices": false
|
| 291 |
+
}
|
| 292 |
+
```
|
| 293 |
+
|
| 294 |
+
### Training Hyperparameters
|
| 295 |
+
#### Non-Default Hyperparameters
|
| 296 |
+
|
| 297 |
+
- `per_device_train_batch_size`: 128
|
| 298 |
+
- `per_device_eval_batch_size`: 128
|
| 299 |
+
- `num_train_epochs`: 1
|
| 300 |
+
- `fp16`: True
|
| 301 |
+
- `multi_dataset_batch_sampler`: round_robin
|
| 302 |
+
|
| 303 |
+
#### All Hyperparameters
|
| 304 |
+
<details><summary>Click to expand</summary>
|
| 305 |
+
|
| 306 |
+
- `overwrite_output_dir`: False
|
| 307 |
+
- `do_predict`: False
|
| 308 |
+
- `eval_strategy`: no
|
| 309 |
+
- `prediction_loss_only`: True
|
| 310 |
+
- `per_device_train_batch_size`: 128
|
| 311 |
+
- `per_device_eval_batch_size`: 128
|
| 312 |
+
- `per_gpu_train_batch_size`: None
|
| 313 |
+
- `per_gpu_eval_batch_size`: None
|
| 314 |
+
- `gradient_accumulation_steps`: 1
|
| 315 |
+
- `eval_accumulation_steps`: None
|
| 316 |
+
- `torch_empty_cache_steps`: None
|
| 317 |
+
- `learning_rate`: 5e-05
|
| 318 |
+
- `weight_decay`: 0.0
|
| 319 |
+
- `adam_beta1`: 0.9
|
| 320 |
+
- `adam_beta2`: 0.999
|
| 321 |
+
- `adam_epsilon`: 1e-08
|
| 322 |
+
- `max_grad_norm`: 1
|
| 323 |
+
- `num_train_epochs`: 1
|
| 324 |
+
- `max_steps`: -1
|
| 325 |
+
- `lr_scheduler_type`: linear
|
| 326 |
+
- `lr_scheduler_kwargs`: {}
|
| 327 |
+
- `warmup_ratio`: 0.0
|
| 328 |
+
- `warmup_steps`: 0
|
| 329 |
+
- `log_level`: passive
|
| 330 |
+
- `log_level_replica`: warning
|
| 331 |
+
- `log_on_each_node`: True
|
| 332 |
+
- `logging_nan_inf_filter`: True
|
| 333 |
+
- `save_safetensors`: True
|
| 334 |
+
- `save_on_each_node`: False
|
| 335 |
+
- `save_only_model`: False
|
| 336 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 337 |
+
- `no_cuda`: False
|
| 338 |
+
- `use_cpu`: False
|
| 339 |
+
- `use_mps_device`: False
|
| 340 |
+
- `seed`: 42
|
| 341 |
+
- `data_seed`: None
|
| 342 |
+
- `jit_mode_eval`: False
|
| 343 |
+
- `bf16`: False
|
| 344 |
+
- `fp16`: True
|
| 345 |
+
- `fp16_opt_level`: O1
|
| 346 |
+
- `half_precision_backend`: auto
|
| 347 |
+
- `bf16_full_eval`: False
|
| 348 |
+
- `fp16_full_eval`: False
|
| 349 |
+
- `tf32`: None
|
| 350 |
+
- `local_rank`: 0
|
| 351 |
+
- `ddp_backend`: None
|
| 352 |
+
- `tpu_num_cores`: None
|
| 353 |
+
- `tpu_metrics_debug`: False
|
| 354 |
+
- `debug`: []
|
| 355 |
+
- `dataloader_drop_last`: False
|
| 356 |
+
- `dataloader_num_workers`: 0
|
| 357 |
+
- `dataloader_prefetch_factor`: None
|
| 358 |
+
- `past_index`: -1
|
| 359 |
+
- `disable_tqdm`: False
|
| 360 |
+
- `remove_unused_columns`: True
|
| 361 |
+
- `label_names`: None
|
| 362 |
+
- `load_best_model_at_end`: False
|
| 363 |
+
- `ignore_data_skip`: False
|
| 364 |
+
- `fsdp`: []
|
| 365 |
+
- `fsdp_min_num_params`: 0
|
| 366 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 367 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 368 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 369 |
+
- `parallelism_config`: None
|
| 370 |
+
- `deepspeed`: None
|
| 371 |
+
- `label_smoothing_factor`: 0.0
|
| 372 |
+
- `optim`: adamw_torch_fused
|
| 373 |
+
- `optim_args`: None
|
| 374 |
+
- `adafactor`: False
|
| 375 |
+
- `group_by_length`: False
|
| 376 |
+
- `length_column_name`: length
|
| 377 |
+
- `project`: huggingface
|
| 378 |
+
- `trackio_space_id`: trackio
|
| 379 |
+
- `ddp_find_unused_parameters`: None
|
| 380 |
+
- `ddp_bucket_cap_mb`: None
|
| 381 |
+
- `ddp_broadcast_buffers`: False
|
| 382 |
+
- `dataloader_pin_memory`: True
|
| 383 |
+
- `dataloader_persistent_workers`: False
|
| 384 |
+
- `skip_memory_metrics`: True
|
| 385 |
+
- `use_legacy_prediction_loop`: False
|
| 386 |
+
- `push_to_hub`: False
|
| 387 |
+
- `resume_from_checkpoint`: None
|
| 388 |
+
- `hub_model_id`: None
|
| 389 |
+
- `hub_strategy`: every_save
|
| 390 |
+
- `hub_private_repo`: None
|
| 391 |
+
- `hub_always_push`: False
|
| 392 |
+
- `hub_revision`: None
|
| 393 |
+
- `gradient_checkpointing`: False
|
| 394 |
+
- `gradient_checkpointing_kwargs`: None
|
| 395 |
+
- `include_inputs_for_metrics`: False
|
| 396 |
+
- `include_for_metrics`: []
|
| 397 |
+
- `eval_do_concat_batches`: True
|
| 398 |
+
- `fp16_backend`: auto
|
| 399 |
+
- `push_to_hub_model_id`: None
|
| 400 |
+
- `push_to_hub_organization`: None
|
| 401 |
+
- `mp_parameters`:
|
| 402 |
+
- `auto_find_batch_size`: False
|
| 403 |
+
- `full_determinism`: False
|
| 404 |
+
- `torchdynamo`: None
|
| 405 |
+
- `ray_scope`: last
|
| 406 |
+
- `ddp_timeout`: 1800
|
| 407 |
+
- `torch_compile`: False
|
| 408 |
+
- `torch_compile_backend`: None
|
| 409 |
+
- `torch_compile_mode`: None
|
| 410 |
+
- `include_tokens_per_second`: False
|
| 411 |
+
- `include_num_input_tokens_seen`: no
|
| 412 |
+
- `neftune_noise_alpha`: None
|
| 413 |
+
- `optim_target_modules`: None
|
| 414 |
+
- `batch_eval_metrics`: False
|
| 415 |
+
- `eval_on_start`: False
|
| 416 |
+
- `use_liger_kernel`: False
|
| 417 |
+
- `liger_kernel_config`: None
|
| 418 |
+
- `eval_use_gather_object`: False
|
| 419 |
+
- `average_tokens_across_devices`: True
|
| 420 |
+
- `prompts`: None
|
| 421 |
+
- `batch_sampler`: batch_sampler
|
| 422 |
+
- `multi_dataset_batch_sampler`: round_robin
|
| 423 |
+
- `router_mapping`: {}
|
| 424 |
+
- `learning_rate_mapping`: {}
|
| 425 |
+
|
| 426 |
+
</details>
|
| 427 |
+
|
| 428 |
+
### Training Logs
|
| 429 |
+
| Epoch | Step | Training Loss |
|
| 430 |
+
|:------:|:----:|:-------------:|
|
| 431 |
+
| 0.0502 | 500 | 1.8861 |
|
| 432 |
+
| 0.1003 | 1000 | 0.895 |
|
| 433 |
+
| 0.1505 | 1500 | 0.8331 |
|
| 434 |
+
| 0.2007 | 2000 | 0.7999 |
|
| 435 |
+
| 0.2508 | 2500 | 0.7721 |
|
| 436 |
+
| 0.3010 | 3000 | 0.7555 |
|
| 437 |
+
| 0.3512 | 3500 | 0.7459 |
|
| 438 |
+
| 0.4013 | 4000 | 0.7334 |
|
| 439 |
+
| 0.4515 | 4500 | 0.7175 |
|
| 440 |
+
| 0.5017 | 5000 | 0.7186 |
|
| 441 |
+
| 0.5518 | 5500 | 0.7109 |
|
| 442 |
+
| 0.6020 | 6000 | 0.7 |
|
| 443 |
+
| 0.6522 | 6500 | 0.6953 |
|
| 444 |
+
| 0.7023 | 7000 | 0.6951 |
|
| 445 |
+
| 0.7525 | 7500 | 0.6878 |
|
| 446 |
+
| 0.8026 | 8000 | 0.6847 |
|
| 447 |
+
| 0.8528 | 8500 | 0.6793 |
|
| 448 |
+
| 0.9030 | 9000 | 0.684 |
|
| 449 |
+
| 0.9531 | 9500 | 0.6803 |
|
| 450 |
+
|
| 451 |
+
|
| 452 |
+
### Framework Versions
|
| 453 |
+
- Python: 3.10.4
|
| 454 |
+
- Sentence Transformers: 5.2.0
|
| 455 |
+
- Transformers: 4.57.3
|
| 456 |
+
- PyTorch: 2.9.1+cu128
|
| 457 |
+
- Accelerate: 1.12.0
|
| 458 |
+
- Datasets: 2.21.0
|
| 459 |
+
- Tokenizers: 0.22.1
|
| 460 |
+
|
| 461 |
+
## Citation
|
| 462 |
+
|
| 463 |
+
### BibTeX
|
| 464 |
+
|
| 465 |
+
#### Sentence Transformers
|
| 466 |
+
```bibtex
|
| 467 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 468 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 469 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 470 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 471 |
+
month = "11",
|
| 472 |
+
year = "2019",
|
| 473 |
+
publisher = "Association for Computational Linguistics",
|
| 474 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 475 |
+
}
|
| 476 |
+
```
|
| 477 |
+
|
| 478 |
+
#### CachedMultipleNegativesRankingLoss
|
| 479 |
+
```bibtex
|
| 480 |
+
@misc{gao2021scaling,
|
| 481 |
+
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
|
| 482 |
+
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
|
| 483 |
+
year={2021},
|
| 484 |
+
eprint={2101.06983},
|
| 485 |
+
archivePrefix={arXiv},
|
| 486 |
+
primaryClass={cs.LG}
|
| 487 |
+
}
|
| 488 |
+
```
|
| 489 |
+
|
| 490 |
+
<!--
|
| 491 |
+
## Glossary
|
| 492 |
+
|
| 493 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 494 |
+
-->
|
| 495 |
+
|
| 496 |
+
<!--
|
| 497 |
+
## Model Card Authors
|
| 498 |
+
|
| 499 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 500 |
+
-->
|
| 501 |
+
|
| 502 |
+
<!--
|
| 503 |
+
## Model Card Contact
|
| 504 |
+
|
| 505 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 506 |
+
-->
|
config.json
ADDED
|
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"XLMRobertaModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"dtype": "float32",
|
| 9 |
+
"eos_token_id": 2,
|
| 10 |
+
"hidden_act": "gelu",
|
| 11 |
+
"hidden_dropout_prob": 0.1,
|
| 12 |
+
"hidden_size": 768,
|
| 13 |
+
"initializer_range": 0.02,
|
| 14 |
+
"intermediate_size": 3072,
|
| 15 |
+
"layer_norm_eps": 1e-05,
|
| 16 |
+
"max_position_embeddings": 514,
|
| 17 |
+
"model_type": "xlm-roberta",
|
| 18 |
+
"num_attention_heads": 12,
|
| 19 |
+
"num_hidden_layers": 12,
|
| 20 |
+
"output_past": true,
|
| 21 |
+
"pad_token_id": 1,
|
| 22 |
+
"position_embedding_type": "absolute",
|
| 23 |
+
"transformers_version": "4.57.3",
|
| 24 |
+
"type_vocab_size": 1,
|
| 25 |
+
"use_cache": true,
|
| 26 |
+
"vocab_size": 250002
|
| 27 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "5.2.0",
|
| 4 |
+
"transformers": "4.57.3",
|
| 5 |
+
"pytorch": "2.9.1+cu128"
|
| 6 |
+
},
|
| 7 |
+
"prompts": {
|
| 8 |
+
"query": "",
|
| 9 |
+
"document": ""
|
| 10 |
+
},
|
| 11 |
+
"default_prompt_name": null,
|
| 12 |
+
"similarity_fn_name": "cosine",
|
| 13 |
+
"model_type": "SentenceTransformer"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:862266173b5289df50c88ee468f66465abf9eb42edb669d555163386ff5ddac3
|
| 3 |
+
size 1112197096
|
modules.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
}
|
| 14 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 512,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"cls_token": {
|
| 10 |
+
"content": "<s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"eos_token": {
|
| 17 |
+
"content": "</s>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"mask_token": {
|
| 24 |
+
"content": "<mask>",
|
| 25 |
+
"lstrip": true,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"pad_token": {
|
| 31 |
+
"content": "<pad>",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
},
|
| 37 |
+
"sep_token": {
|
| 38 |
+
"content": "</s>",
|
| 39 |
+
"lstrip": false,
|
| 40 |
+
"normalized": false,
|
| 41 |
+
"rstrip": false,
|
| 42 |
+
"single_word": false
|
| 43 |
+
},
|
| 44 |
+
"unk_token": {
|
| 45 |
+
"content": "<unk>",
|
| 46 |
+
"lstrip": false,
|
| 47 |
+
"normalized": false,
|
| 48 |
+
"rstrip": false,
|
| 49 |
+
"single_word": false
|
| 50 |
+
}
|
| 51 |
+
}
|
tokenizer.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
|
| 3 |
+
size 17082987
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,62 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"250001": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": true,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": false,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"max_length": 512,
|
| 51 |
+
"model_max_length": 512,
|
| 52 |
+
"pad_to_multiple_of": null,
|
| 53 |
+
"pad_token": "<pad>",
|
| 54 |
+
"pad_token_type_id": 0,
|
| 55 |
+
"padding_side": "right",
|
| 56 |
+
"sep_token": "</s>",
|
| 57 |
+
"stride": 0,
|
| 58 |
+
"tokenizer_class": "XLMRobertaTokenizerFast",
|
| 59 |
+
"truncation_side": "right",
|
| 60 |
+
"truncation_strategy": "longest_first",
|
| 61 |
+
"unk_token": "<unk>"
|
| 62 |
+
}
|