George2002 commited on Apr 17, 2025

Commit

b52bbba

verified ·

1 Parent(s): a8c211d

Upload model checkpoint

Browse files

Files changed (17) hide show

.gitattributes +1 -0
1_Pooling/config.json +10 -0
README.md +581 -0
config.json +27 -0
config_sentence_transformers.json +10 -0
model.safetensors +3 -0
modules.json +20 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +55 -0
trainer_state.json +682 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 1024,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,581 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- dataset_size:8194
+- loss:MultipleNegativesRankingLoss
+base_model: intfloat/multilingual-e5-large
+widget:
+- source_sentence: 'query: Что необходимо знать о распоряжении, касающемся ограничений
+    на денежные средства корпоративных клиентов?'
+  sentences:
+  - "passage: Проверить наличие ареста на счете, с которого необходимо произвести\
+    \ выдачу?\n\n\nНа счете НЕТ ареста\n\nПеред проведением операции сформировать\
+    \ выписку по счету банкрота за период, (историю операций по карточному счету)\
+    \ в котором должник может получить указанную в разрешении  ФУ сумму, убедится,\
+    \ что сумма не получена. \nТак как ФУ и банкрот по карточным счетам обслуживаются\
+    \ под банкротом в случае наличия расходной операции по счету, связаться с ФУ для\
+    \ уточнения - кому была выдана сумма. \nЕсли по каким то причинам банкрот не получил\
+    \ положенную ему по разрешению ФУ сумму в прошлом периоде, ее можно выдать одновременно\
+    \ при обращении в текущем месяце. \n\nПри обращении клиента в отделение, отличное\
+    \ от места заведения заявки на разблокировку, проверить:\n - Снятие ареста со\
+    \ счета\n - Историю операций по карточному  счёту (выписку по вкладному/текущему\
+    \ счету), на предмет отсутствия выдачи денежных средств, указанных в разрегении\
+    \ ФУ в других ДО.\nПри выполнении обоих условий осуществить расходную операцию\
+    \ по счёту."
+  - "passage: Выберите тип счет, с которого необходимо перевести денежные средства\n\
+    \nВкладной счет\n\nПод ролью \"Финансовый управляющий\" проводит частичную выдачу\
+    \ с выбранного счета.\n\nОформляет перевод (по России)/ перевода в пределах ПАО\
+    \ Сбербанк (ПДВ). \nПри оформлении перевода обязательно указать данные отправителя,\
+    \ что он является Финансовым управляющим. В назначении платежа указать, что денежные\
+    \ средства являются прожиточным минимумом банкрота."
+  - q2p
+- source_sentence: 'query: Что может делать доверенное лицо банка клиента, находящегося
+    на стадии «Реализация имущества»?'
+  sentences:
+  - 'passage: ВНИМАНИЕ !
+    С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству
+    о рождении Украины со штампом о гражданстве РФ.
+    Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально
+    заверенное удостоверение перевода на русский язык свидетельства о рождении Украины
+    со штампом о гражданстве РФ.
+    Типичные вопросы по Детской СберКарте и ответы на них
+    12. Услуга СМС-информирование по Детской СберКарте
+    Выберите интересующий вопрос'
+  - "passage: Описание функционала во вложении ниже.\n\nТипичные вопросы по отображению\
+    \ молодёжных карт в МП СБОЛ родителя и ответы на них:\n\n07. Что законный представитель\
+    \ увидит и сможет сделать в карте ребенка 14-17 лет ? \n\nСуществуют следующие\
+    \ возможности:"
+  - q2p
+- source_sentence: 'query: Что можно сделать с картой, если требуется ее перевыпуск
+    или закрытие?'
+  sentences:
+  - q2p
+  - "passage: Право распоряжения средствами на счете согласно требованиям ГК РФ (п.2\
+    \ ст. 26, п.1 ст.37)\n\n\n1. Суммы:\n- заработка, \n-стипендии, \n-пособия по\
+    \ безработице,\n-денежных средств в виде материальной поддержки (например, «Денежная\
+    \ компенсация питание, проезд»), \n-премий, присужденных за победу в олимпиадах,\
+    \ конкурсах и иных мероприятиях, в том числе спортивных, \n-сумм, перечисленных\
+    \ (за исключением перевода на счет банковской карты**) либо внесенных наличными\
+    \ самим несовершеннолетним,\n-причисленные проценты по вкладу,\n-сумм доходов\
+    \ от личной деятельности несовершеннолетнего в качестве «самозанятого», где источником\
+    \ дохода будет являться его творческий, физический труд, обучение (репетиторство),\
+    \ навыки, мастерство. (Порядок выдачи ДС со вклада/счета «самозанятого» НСШ от\
+    \ 14 до 18 лет во вложении).\n\n\nнесовершеннолетний распоряжается самостоятельно\
+    \ (не требуется разрешение органа опеки и попечительства и согласие законного\
+    \ представителя)"
+  - 'passage: Выберите интересующий вопрос
+    Как перевыпустить Детскую СберКарту ?
+    Законному представителю в МП СБОЛ нужно выбрать Детскую СберКарту в списке карт
+    →  Настройки → Перевыпустить.
+    Карта будет перевыпущена в дизайне, который предусмотрен для Детских СберКарт
+    в момент перевыпуска.
+    Стоимость перевыпуска составляет 150 рублей (согласно Тарифам Банка).'
+- source_sentence: 'query: Какие требования нужно соаблюдать, чтоубы получить выплаты
+    по наследству в случае долговой реструктуризации?'
+  sentences:
+  - 'passage: Выберите интересующий вопрос
+    1. Зачем подключают СМС-информирование для Детской СберКарты ?
+    Для того, чтобы Ребёнок получал переводы на карту на его номер телефона, коды
+    для подтверждения покупок в Интернете и уведомления по каждой операции по карте.
+    Если Законный представитель желает получать уведомления об операциях Ребёнка на
+    свой номер телефона, тогда ему необходимо подключить услугу "Совместные уведомления"
+    к Детской СберКарте.'
+  - 'passage: ВНИМАНИЕ !
+    С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству
+    о рождении Украины со штампом о гражданстве РФ.
+    Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально
+    заверенное удостоверение перевода на русский язык свидетельства о рождении Украины
+    со штампом о гражданстве РФ.
+    Типичные вопросы по Детской СберКарте и ответы на них
+    10. Закрытие Детской СберКарты
+    Выберите интересующий вопрос'
+  - q2p
+- source_sentence: 'query: в общем-то Какие бумаги нужно показать для получения перевода
+    клиенту-банкроту?'
+  sentences:
+  - "passage: ВНИМАНИЕ !\nС 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской\
+    \ СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.\n\
+    Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально\
+    \ заверенное удостоверение перевода на русский язык свидетельства о рождении Украины\
+    \ со штампом о гражданстве РФ.\n\n\n\n\n\nТипичные вопросы по Детской СберКарте\
+    \ и ответы на них\n\n02. Выдача Детской СберКарты\n\nПри выдаче Детской СберКарты\
+    \ всегда проверяйте правильность оформления документов, сверяйте данные, указанные\
+    \ в Заявлении на получение карты, с данными документа, удостоверяющего личность.\
+    \ \nВажно! Обращайте внимание на возраст ребёнка – он должен быть от 6 до 13 лет\
+    \ (включительно) на момент получения Детской СберКарты в офисе Банка.\n\nВыберите\
+    \ интересующий вопрос"
+  - q2p
+  - 'passage: С какой потребностью обратился клиент?
+    Открыть счет по заранее заполненному заявлению
+    Выберите кто предоставил заполненное заявление о присоединении'
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+---
+# SentenceTransformer based on intfloat/multilingual-e5-large
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 1024 dimensions
+- **Similarity Function:** Cosine Similarity
+<!-- - **Training Dataset:** Unknown -->
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("George2002/sledopyt_embedder")
+# Run inference
+sentences = [
+    'query: в общем-то Какие бумаги нужно показать для получения перевода клиенту-банкроту?',
+    'passage: ВНИМАНИЕ !\nС 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.\nДля получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.\n\n\n\n\n\nТипичные вопросы по Детской СберКарте и ответы на них\n\n02. Выдача Детской СберКарты\n\nПри выдаче Детской СберКарты всегда проверяйте правильность оформления документов, сверяйте данные, указанные в Заявлении на получение карты, с данными документа, удостоверяющего личность. \nВажно! Обращайте внимание на возраст ребёнка – он должен быть от 6 до 13 лет (включительно) на момент получения Детской СберКарты в офисе Банка.\n\nВыберите интересующий вопрос',
+    'q2p',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 1024]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities.shape)
+# [3, 3]
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Dataset
+#### Unnamed Dataset
+* Size: 8,194 training samples
+* Columns: <code>anchor</code>, <code>positive</code>, and <code>task_type</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                             | positive                                                                             | task_type                                                                      |
+  |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
+  | type    | string                                                                             | string                                                                               | string                                                                         |
+  | details | <ul><li>min: 11 tokens</li><li>mean: 22.23 tokens</li><li>max: 42 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 163.34 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 5.0 tokens</li><li>max: 5 tokens</li></ul> |
+* Samples:
+  | anchor                                                                                                       | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | task_type        |
+  |:-------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
+  | <code>query: Как долго рассматривается решение по операции ПЦП в Центре комплаенса Московского Банка?</code> | <code>passage: ВНИМАНИЕ !<br>С 23 октября 2023г. в МП СБОЛ станет доступным заказ Детской СберКарты по свидетельству о рождении Украины со штампом о гражданстве РФ.<br>Для получения Детской СберКарты в офисе банка необходимо будет предоставить нотариально заверенное удостоверение перевода на русский язык свидетельства о рождении Украины со штампом о гражданстве РФ.<br><br><br><br><br><br>Типичные вопросы по Детской СберКарте и ответы на них<br><br>16. Переводы по Детской СберКарте<br><br>Выберите интересующий вопрос</code> | <code>q2p</code> |
+  | <code>query: Гдеп осмотреть варианты офромления Дтеской СберКарты?</code>                                    | <code>passage: Узнайте у клиента, кем является его подопечный<br><br>Недееспособным<br><br>Попросите предоставить клиента соответсвующие документы. После того, как документы были предъявлены, проверьте их, прожмите галочку "Документы предъявлены" и нажмите продолжить.</code>                                                                                                                                                                                                                                                              | <code>q2p</code> |
+  | <code>query: Какие сведения необходимо заполнить при добавлении подопечного?</code>                          | <code>passage: Обслуживание клиента Банка с определенной степенью дееспособности<br>(несовершеннолетний, недееспособный, ограниченный в дееспособности)</code>                                                                                                                                                                                                                                                                                                                                                                                   | <code>q2p</code> |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Evaluation Dataset
+#### Unnamed Dataset
+* Size: 432 evaluation samples
+* Columns: <code>anchor</code>, <code>positive</code>, and <code>task_type</code>
+* Approximate statistics based on the first 432 samples:
+  |         | anchor                                                                             | positive                                                                             | task_type                                                                      |
+  |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------|
+  | type    | string                                                                             | string                                                                               | string                                                                         |
+  | details | <ul><li>min: 11 tokens</li><li>mean: 22.46 tokens</li><li>max: 38 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 148.38 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 5 tokens</li><li>mean: 5.0 tokens</li><li>max: 5 tokens</li></ul> |
+* Samples:
+  | anchor                                                                                                      | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | task_type        |
+  |:------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-----------------|
+  | <code>query: Кто имеет право подтвердить операцию при использовании второго указания?</code>                | <code>passage: Клиент желает выполнить расход <br><br>Если в разрешении ФУ указана сумма в размере 50 000 рублей денежные средства можно выдавать по КОПИИ разрешения ФУ/ по разрешению ФУ, подписанному электронной подписью, так как эти средства положены должнику по закону. <br>В случаях, когда в разрешении ФУ указана сумма, ПРЕВЫШАЮЩАЯ 50 000 рублей:<br> - выдачу копии разрешения ФУ <br> - разрешение ФУ, подписанного электронной подписью <br>необходимо проверить у ФУ по телефону (при наличии телефона ФУ в разрешении)/ требовать оригинал разрешения ФУ, предложить порядок предоставления оригинала разрешения на получение ДС в любое отделение банка с указанием отделения получения ДС банкротом (порядок описан в последнем абзаце шага).<br><br>Клиент желает выполнить расход <br><br>Если в разрешении ФУ указана сумма в размере 50 000 рублей денежные средства можно выдавать по КОПИИ разрешения ФУ/ по разрешению ФУ, подписанному электронной подписью, так как эти средства положены должнику по закону. <br>В случаях, когда в разрешении Ф...</code> | <code>q2p</code> |
+  | <code>query: Куда подаются заявления от вкладчиков по Федеральному закону от 23.12.2003 N 177-ФЗ?</code>    | <code>passage: У клиента ЕСТЬ/НЕТ документа подтверждающего наследственное право (далее - ДПНП) - свидетельства о праве на наследство/завещание в банке в его пользу до 01.03.2002 <br><br>Есть ДПНП <br><br>Клиент хочет получить выплату наследства на основании ДПНП?</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           | <code>q2p</code> |
+  | <code>query: В каких можно выпустить или перевыпустить карту без согласования с ПЦП Центр комплаенс?</code> | <code>passage: Выберите интересующий вопрос<br><br>2. Как закрыть Детскую СберКарту в МП СБОЛ ?<br><br>Детскую СберКарту можно закрыть в МП СБОЛ, если на ней нет средств.<br>Для этого Законному представителю нужно выбрать карту Ребёнка в списке карт, затем перейти  в пункт «Настройки» →  «Закрыть» → подтвердить операцию. Карта немедленно заблокируется, а счет закроется автоматический через 30 дней.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | <code>q2p</code> |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 64
+- `learning_rate`: 1e-05
+- `weight_decay`: 0.01
+- `num_train_epochs`: 10
+- `warmup_ratio`: 0.1
+- `load_best_model_at_end`: True
+- `push_to_hub`: True
+- `hub_model_id`: George2002/sledopyt_embedder
+- `hub_strategy`: end
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 64
+- `per_device_eval_batch_size`: 8
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 1e-05
+- `weight_decay`: 0.01
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 10
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.1
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: False
+- `fp16`: False
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: True
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: True
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `tp_size`: 0
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: True
+- `resume_from_checkpoint`: None
+- `hub_model_id`: George2002/sledopyt_embedder
+- `hub_strategy`: end
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: batch_sampler
+- `multi_dataset_batch_sampler`: proportional
+</details>
+### Training Logs
+| Epoch  | Step | Training Loss | Validation Loss |
+|:------:|:----:|:-------------:|:---------------:|
+| 0.1562 | 10   | 4.4544        | -               |
+| 0.3125 | 20   | 4.2972        | -               |
+| 0.3906 | 25   | -             | 2.1215          |
+| 0.4688 | 30   | 4.2058        | -               |
+| 0.625  | 40   | 4.1676        | -               |
+| 0.7812 | 50   | 4.1589        | 2.0754          |
+| 0.9375 | 60   | 4.1537        | -               |
+| 1.0938 | 70   | 4.1414        | -               |
+| 1.1719 | 75   | -             | 2.0523          |
+| 1.25   | 80   | 4.1134        | -               |
+| 1.4062 | 90   | 4.0985        | -               |
+| 1.5625 | 100  | 4.0703        | 2.0018          |
+| 1.7188 | 110  | 4.0612        | -               |
+| 1.875  | 120  | 4.0258        | -               |
+| 1.9531 | 125  | -             | 1.9405          |
+| 2.0312 | 130  | 3.9457        | -               |
+| 2.1875 | 140  | 3.8651        | -               |
+| 2.3438 | 150  | 3.7917        | 1.8741          |
+| 2.5    | 160  | 3.6884        | -               |
+| 2.6562 | 170  | 3.6679        | -               |
+| 2.7344 | 175  | -             | 1.7795          |
+| 2.8125 | 180  | 3.6507        | -               |
+| 2.9688 | 190  | 3.5815        | -               |
+| 3.125  | 200  | 3.3862        | 1.6903          |
+| 3.2812 | 210  | 3.3398        | -               |
+| 3.4375 | 220  | 3.23          | -               |
+| 3.5156 | 225  | -             | 1.6646          |
+| 3.5938 | 230  | 3.2616        | -               |
+| 3.75   | 240  | 3.1892        | -               |
+| 3.9062 | 250  | 3.1402        | 1.5480          |
+| 4.0625 | 260  | 3.0188        | -               |
+| 4.2188 | 270  | 2.8433        | -               |
+| 4.2969 | 275  | -             | 1.4929          |
+| 4.375  | 280  | 2.8547        | -               |
+| 4.5312 | 290  | 2.8257        | -               |
+| 4.6875 | 300  | 2.7926        | 1.4208          |
+| 4.8438 | 310  | 2.8348        | -               |
+| 5.0    | 320  | 2.7752        | -               |
+| 5.0781 | 325  | -             | 1.3631          |
+| 5.1562 | 330  | 2.5492        | -               |
+| 5.3125 | 340  | 2.5594        | -               |
+| 5.4688 | 350  | 2.5388        | 1.3001          |
+| 5.625  | 360  | 2.4945        | -               |
+| 5.7812 | 370  | 2.4622        | -               |
+| 5.8594 | 375  | -             | 1.2738          |
+| 5.9375 | 380  | 2.4739        | -               |
+| 6.0938 | 390  | 2.3813        | -               |
+| 6.25   | 400  | 2.25          | 1.2204          |
+| 6.4062 | 410  | 2.3371        | -               |
+| 6.5625 | 420  | 2.2495        | -               |
+| 6.6406 | 425  | -             | 1.1891          |
+| 6.7188 | 430  | 2.2528        | -               |
+| 6.875  | 440  | 2.2632        | -               |
+| 7.0312 | 450  | 2.1912        | 1.1430          |
+| 7.1875 | 460  | 2.0829        | -               |
+| 7.3438 | 470  | 2.0772        | -               |
+| 7.4219 | 475  | -             | 1.1309          |
+| 7.5    | 480  | 2.0683        | -               |
+| 7.6562 | 490  | 2.1433        | -               |
+| 7.8125 | 500  | 2.1272        | 1.1044          |
+| 7.9688 | 510  | 2.0564        | -               |
+| 8.125  | 520  | 1.9743        | -               |
+| 8.2031 | 525  | -             | 1.0847          |
+| 8.2812 | 530  | 1.9884        | -               |
+| 8.4375 | 540  | 1.9915        | -               |
+| 8.5938 | 550  | 2.007         | 1.0686          |
+| 8.75   | 560  | 1.9727        | -               |
+| 8.9062 | 570  | 1.9395        | -               |
+| 8.9844 | 575  | -             | 1.0611          |
+| 9.0625 | 580  | 1.9538        | -               |
+| 9.2188 | 590  | 1.9069        | -               |
+| 9.375  | 600  | 1.8768        | 1.0467          |
+| 9.5312 | 610  | 1.8875        | -               |
+| 9.6875 | 620  | 1.8867        | -               |
+| 9.7656 | 625  | -             | 1.0414          |
+| 9.8438 | 630  | 1.846         | -               |
+| 10.0   | 640  | 1.9162        | -               |
+### Framework Versions
+- Python: 3.10.12
+- Sentence Transformers: 4.1.0
+- Transformers: 4.51.3
+- PyTorch: 2.6.0+cu124
+- Accelerate: 1.6.0
+- Datasets: 3.5.0
+- Tokenizers: 0.21.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MultipleNegativesRankingLoss
+```bibtex
+@misc{henderson2017efficient,
+    title={Efficient Natural Language Response Suggestion for Smart Reply},
+    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
+    year={2017},
+    eprint={1705.00652},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "4.1.0",
+    "transformers": "4.51.3",
+    "pytorch": "2.6.0+cu124"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:358516f29596c6c760f9f3c442e45eadc26fc98964839988804b8a81b45eefa6
+size 2239607176

modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02043f33b1db5d5684fb36c7225c42ae622166920fe0be640e208606a161353a
+size 4471055801

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fda50d01b4b82d170549034a3d79ca4cede83797f15c39386fd679da9eb3b689
+size 14448

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a3d398f818cba2cb0b61bfc230814600fc426345ebbf7c084989d1a66ab37dec
+size 14448

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:00117dfb8ef1f1f0f18b1d53fc38a10050eba87db4c4ab1549ece2b07a734a2c
+size 1064

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
+size 17082987

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,682 @@

+{
+  "best_global_step": 625,
+  "best_metric": 1.0413788557052612,
+  "best_model_checkpoint": ".../training_output/checkpoint-600",
+  "epoch": 10.0,
+  "eval_steps": 25,
+  "global_step": 640,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.15625,
+      "grad_norm": 5.998435020446777,
+      "learning_rate": 1.40625e-06,
+      "loss": 4.4544,
+      "step": 10
+    },
+    {
+      "epoch": 0.3125,
+      "grad_norm": 2.767270088195801,
+      "learning_rate": 2.96875e-06,
+      "loss": 4.2972,
+      "step": 20
+    },
+    {
+      "epoch": 0.390625,
+      "eval_loss": 2.121493101119995,
+      "eval_runtime": 4.6524,
+      "eval_samples_per_second": 92.855,
+      "eval_steps_per_second": 5.803,
+      "step": 25
+    },
+    {
+      "epoch": 0.46875,
+      "grad_norm": 1.8981692790985107,
+      "learning_rate": 4.53125e-06,
+      "loss": 4.2058,
+      "step": 30
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 1.126503348350525,
+      "learning_rate": 6.093750000000001e-06,
+      "loss": 4.1676,
+      "step": 40
+    },
+    {
+      "epoch": 0.78125,
+      "grad_norm": 1.022411823272705,
+      "learning_rate": 7.656250000000001e-06,
+      "loss": 4.1589,
+      "step": 50
+    },
+    {
+      "epoch": 0.78125,
+      "eval_loss": 2.0753986835479736,
+      "eval_runtime": 4.6234,
+      "eval_samples_per_second": 93.439,
+      "eval_steps_per_second": 5.84,
+      "step": 50
+    },
+    {
+      "epoch": 0.9375,
+      "grad_norm": 1.0090315341949463,
+      "learning_rate": 9.21875e-06,
+      "loss": 4.1537,
+      "step": 60
+    },
+    {
+      "epoch": 1.09375,
+      "grad_norm": 1.3605090379714966,
+      "learning_rate": 9.913194444444446e-06,
+      "loss": 4.1414,
+      "step": 70
+    },
+    {
+      "epoch": 1.171875,
+      "eval_loss": 2.052276372909546,
+      "eval_runtime": 4.9117,
+      "eval_samples_per_second": 87.953,
+      "eval_steps_per_second": 5.497,
+      "step": 75
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 2.2447760105133057,
+      "learning_rate": 9.739583333333334e-06,
+      "loss": 4.1134,
+      "step": 80
+    },
+    {
+      "epoch": 1.40625,
+      "grad_norm": 3.2149338722229004,
+      "learning_rate": 9.565972222222222e-06,
+      "loss": 4.0985,
+      "step": 90
+    },
+    {
+      "epoch": 1.5625,
+      "grad_norm": 4.0335187911987305,
+      "learning_rate": 9.392361111111112e-06,
+      "loss": 4.0703,
+      "step": 100
+    },
+    {
+      "epoch": 1.5625,
+      "eval_loss": 2.0017964839935303,
+      "eval_runtime": 4.8851,
+      "eval_samples_per_second": 88.433,
+      "eval_steps_per_second": 5.527,
+      "step": 100
+    },
+    {
+      "epoch": 1.71875,
+      "grad_norm": 4.933378219604492,
+      "learning_rate": 9.21875e-06,
+      "loss": 4.0612,
+      "step": 110
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 5.589846134185791,
+      "learning_rate": 9.045138888888889e-06,
+      "loss": 4.0258,
+      "step": 120
+    },
+    {
+      "epoch": 1.953125,
+      "eval_loss": 1.940491795539856,
+      "eval_runtime": 4.949,
+      "eval_samples_per_second": 87.29,
+      "eval_steps_per_second": 5.456,
+      "step": 125
+    },
+    {
+      "epoch": 2.03125,
+      "grad_norm": 6.472458839416504,
+      "learning_rate": 8.871527777777779e-06,
+      "loss": 3.9457,
+      "step": 130
+    },
+    {
+      "epoch": 2.1875,
+      "grad_norm": 8.088825225830078,
+      "learning_rate": 8.697916666666667e-06,
+      "loss": 3.8651,
+      "step": 140
+    },
+    {
+      "epoch": 2.34375,
+      "grad_norm": 10.9951171875,
+      "learning_rate": 8.524305555555557e-06,
+      "loss": 3.7917,
+      "step": 150
+    },
+    {
+      "epoch": 2.34375,
+      "eval_loss": 1.874100685119629,
+      "eval_runtime": 4.6019,
+      "eval_samples_per_second": 93.874,
+      "eval_steps_per_second": 5.867,
+      "step": 150
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 12.075238227844238,
+      "learning_rate": 8.350694444444445e-06,
+      "loss": 3.6884,
+      "step": 160
+    },
+    {
+      "epoch": 2.65625,
+      "grad_norm": 13.287556648254395,
+      "learning_rate": 8.177083333333335e-06,
+      "loss": 3.6679,
+      "step": 170
+    },
+    {
+      "epoch": 2.734375,
+      "eval_loss": 1.779481291770935,
+      "eval_runtime": 5.5138,
+      "eval_samples_per_second": 78.348,
+      "eval_steps_per_second": 4.897,
+      "step": 175
+    },
+    {
+      "epoch": 2.8125,
+      "grad_norm": 13.939103126525879,
+      "learning_rate": 8.003472222222223e-06,
+      "loss": 3.6507,
+      "step": 180
+    },
+    {
+      "epoch": 2.96875,
+      "grad_norm": 14.256585121154785,
+      "learning_rate": 7.829861111111112e-06,
+      "loss": 3.5815,
+      "step": 190
+    },
+    {
+      "epoch": 3.125,
+      "grad_norm": 16.98706817626953,
+      "learning_rate": 7.656250000000001e-06,
+      "loss": 3.3862,
+      "step": 200
+    },
+    {
+      "epoch": 3.125,
+      "eval_loss": 1.6903235912322998,
+      "eval_runtime": 4.8218,
+      "eval_samples_per_second": 89.592,
+      "eval_steps_per_second": 5.6,
+      "step": 200
+    },
+    {
+      "epoch": 3.28125,
+      "grad_norm": 19.495948791503906,
+      "learning_rate": 7.482638888888889e-06,
+      "loss": 3.3398,
+      "step": 210
+    },
+    {
+      "epoch": 3.4375,
+      "grad_norm": 18.759845733642578,
+      "learning_rate": 7.309027777777779e-06,
+      "loss": 3.23,
+      "step": 220
+    },
+    {
+      "epoch": 3.515625,
+      "eval_loss": 1.664551854133606,
+      "eval_runtime": 5.0578,
+      "eval_samples_per_second": 85.413,
+      "eval_steps_per_second": 5.338,
+      "step": 225
+    },
+    {
+      "epoch": 3.59375,
+      "grad_norm": 19.621652603149414,
+      "learning_rate": 7.135416666666667e-06,
+      "loss": 3.2616,
+      "step": 230
+    },
+    {
+      "epoch": 3.75,
+      "grad_norm": 20.33112335205078,
+      "learning_rate": 6.961805555555556e-06,
+      "loss": 3.1892,
+      "step": 240
+    },
+    {
+      "epoch": 3.90625,
+      "grad_norm": 21.586963653564453,
+      "learning_rate": 6.788194444444444e-06,
+      "loss": 3.1402,
+      "step": 250
+    },
+    {
+      "epoch": 3.90625,
+      "eval_loss": 1.548005223274231,
+      "eval_runtime": 4.7767,
+      "eval_samples_per_second": 90.438,
+      "eval_steps_per_second": 5.652,
+      "step": 250
+    },
+    {
+      "epoch": 4.0625,
+      "grad_norm": 20.794466018676758,
+      "learning_rate": 6.614583333333334e-06,
+      "loss": 3.0188,
+      "step": 260
+    },
+    {
+      "epoch": 4.21875,
+      "grad_norm": 21.908910751342773,
+      "learning_rate": 6.4409722222222226e-06,
+      "loss": 2.8433,
+      "step": 270
+    },
+    {
+      "epoch": 4.296875,
+      "eval_loss": 1.49290931224823,
+      "eval_runtime": 4.6928,
+      "eval_samples_per_second": 92.055,
+      "eval_steps_per_second": 5.753,
+      "step": 275
+    },
+    {
+      "epoch": 4.375,
+      "grad_norm": 24.68117332458496,
+      "learning_rate": 6.2673611111111125e-06,
+      "loss": 2.8547,
+      "step": 280
+    },
+    {
+      "epoch": 4.53125,
+      "grad_norm": 24.355791091918945,
+      "learning_rate": 6.093750000000001e-06,
+      "loss": 2.8257,
+      "step": 290
+    },
+    {
+      "epoch": 4.6875,
+      "grad_norm": 23.48269271850586,
+      "learning_rate": 5.920138888888889e-06,
+      "loss": 2.7926,
+      "step": 300
+    },
+    {
+      "epoch": 4.6875,
+      "eval_loss": 1.4208338260650635,
+      "eval_runtime": 4.6392,
+      "eval_samples_per_second": 93.12,
+      "eval_steps_per_second": 5.82,
+      "step": 300
+    },
+    {
+      "epoch": 4.84375,
+      "grad_norm": 25.30280303955078,
+      "learning_rate": 5.746527777777778e-06,
+      "loss": 2.8348,
+      "step": 310
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 26.121788024902344,
+      "learning_rate": 5.572916666666667e-06,
+      "loss": 2.7752,
+      "step": 320
+    },
+    {
+      "epoch": 5.078125,
+      "eval_loss": 1.3631044626235962,
+      "eval_runtime": 4.6263,
+      "eval_samples_per_second": 93.379,
+      "eval_steps_per_second": 5.836,
+      "step": 325
+    },
+    {
+      "epoch": 5.15625,
+      "grad_norm": 23.74436378479004,
+      "learning_rate": 5.399305555555556e-06,
+      "loss": 2.5492,
+      "step": 330
+    },
+    {
+      "epoch": 5.3125,
+      "grad_norm": 25.19687843322754,
+      "learning_rate": 5.2256944444444445e-06,
+      "loss": 2.5594,
+      "step": 340
+    },
+    {
+      "epoch": 5.46875,
+      "grad_norm": 24.556848526000977,
+      "learning_rate": 5.0520833333333344e-06,
+      "loss": 2.5388,
+      "step": 350
+    },
+    {
+      "epoch": 5.46875,
+      "eval_loss": 1.3000701665878296,
+      "eval_runtime": 4.6145,
+      "eval_samples_per_second": 93.618,
+      "eval_steps_per_second": 5.851,
+      "step": 350
+    },
+    {
+      "epoch": 5.625,
+      "grad_norm": 25.34222984313965,
+      "learning_rate": 4.878472222222223e-06,
+      "loss": 2.4945,
+      "step": 360
+    },
+    {
+      "epoch": 5.78125,
+      "grad_norm": 26.028766632080078,
+      "learning_rate": 4.704861111111112e-06,
+      "loss": 2.4622,
+      "step": 370
+    },
+    {
+      "epoch": 5.859375,
+      "eval_loss": 1.2737797498703003,
+      "eval_runtime": 4.6455,
+      "eval_samples_per_second": 92.994,
+      "eval_steps_per_second": 5.812,
+      "step": 375
+    },
+    {
+      "epoch": 5.9375,
+      "grad_norm": 25.235429763793945,
+      "learning_rate": 4.53125e-06,
+      "loss": 2.4739,
+      "step": 380
+    },
+    {
+      "epoch": 6.09375,
+      "grad_norm": 24.631134033203125,
+      "learning_rate": 4.357638888888889e-06,
+      "loss": 2.3813,
+      "step": 390
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 27.127145767211914,
+      "learning_rate": 4.184027777777778e-06,
+      "loss": 2.25,
+      "step": 400
+    },
+    {
+      "epoch": 6.25,
+      "eval_loss": 1.220424771308899,
+      "eval_runtime": 4.705,
+      "eval_samples_per_second": 91.817,
+      "eval_steps_per_second": 5.739,
+      "step": 400
+    },
+    {
+      "epoch": 6.40625,
+      "grad_norm": 24.72281837463379,
+      "learning_rate": 4.010416666666667e-06,
+      "loss": 2.3371,
+      "step": 410
+    },
+    {
+      "epoch": 6.5625,
+      "grad_norm": 25.333667755126953,
+      "learning_rate": 3.836805555555556e-06,
+      "loss": 2.2495,
+      "step": 420
+    },
+    {
+      "epoch": 6.640625,
+      "eval_loss": 1.1890788078308105,
+      "eval_runtime": 4.9032,
+      "eval_samples_per_second": 88.105,
+      "eval_steps_per_second": 5.507,
+      "step": 425
+    },
+    {
+      "epoch": 6.71875,
+      "grad_norm": 25.572025299072266,
+      "learning_rate": 3.6631944444444446e-06,
+      "loss": 2.2528,
+      "step": 430
+    },
+    {
+      "epoch": 6.875,
+      "grad_norm": 26.69953155517578,
+      "learning_rate": 3.4895833333333333e-06,
+      "loss": 2.2632,
+      "step": 440
+    },
+    {
+      "epoch": 7.03125,
+      "grad_norm": 25.635225296020508,
+      "learning_rate": 3.3159722222222224e-06,
+      "loss": 2.1912,
+      "step": 450
+    },
+    {
+      "epoch": 7.03125,
+      "eval_loss": 1.143013596534729,
+      "eval_runtime": 4.7149,
+      "eval_samples_per_second": 91.624,
+      "eval_steps_per_second": 5.727,
+      "step": 450
+    },
+    {
+      "epoch": 7.1875,
+      "grad_norm": 26.367721557617188,
+      "learning_rate": 3.1423611111111115e-06,
+      "loss": 2.0829,
+      "step": 460
+    },
+    {
+      "epoch": 7.34375,
+      "grad_norm": 26.74110984802246,
+      "learning_rate": 2.96875e-06,
+      "loss": 2.0772,
+      "step": 470
+    },
+    {
+      "epoch": 7.421875,
+      "eval_loss": 1.130937933921814,
+      "eval_runtime": 4.8054,
+      "eval_samples_per_second": 89.9,
+      "eval_steps_per_second": 5.619,
+      "step": 475
+    },
+    {
+      "epoch": 7.5,
+      "grad_norm": 25.550865173339844,
+      "learning_rate": 2.7951388888888893e-06,
+      "loss": 2.0683,
+      "step": 480
+    },
+    {
+      "epoch": 7.65625,
+      "grad_norm": 26.189870834350586,
+      "learning_rate": 2.621527777777778e-06,
+      "loss": 2.1433,
+      "step": 490
+    },
+    {
+      "epoch": 7.8125,
+      "grad_norm": 25.142404556274414,
+      "learning_rate": 2.4479166666666666e-06,
+      "loss": 2.1272,
+      "step": 500
+    },
+    {
+      "epoch": 7.8125,
+      "eval_loss": 1.1044453382492065,
+      "eval_runtime": 4.7489,
+      "eval_samples_per_second": 90.969,
+      "eval_steps_per_second": 5.686,
+      "step": 500
+    },
+    {
+      "epoch": 7.96875,
+      "grad_norm": 26.091402053833008,
+      "learning_rate": 2.2743055555555557e-06,
+      "loss": 2.0564,
+      "step": 510
+    },
+    {
+      "epoch": 8.125,
+      "grad_norm": 25.8810977935791,
+      "learning_rate": 2.1006944444444448e-06,
+      "loss": 1.9743,
+      "step": 520
+    },
+    {
+      "epoch": 8.203125,
+      "eval_loss": 1.0846548080444336,
+      "eval_runtime": 4.9525,
+      "eval_samples_per_second": 87.229,
+      "eval_steps_per_second": 5.452,
+      "step": 525
+    },
+    {
+      "epoch": 8.28125,
+      "grad_norm": 25.896873474121094,
+      "learning_rate": 1.9270833333333334e-06,
+      "loss": 1.9884,
+      "step": 530
+    },
+    {
+      "epoch": 8.4375,
+      "grad_norm": 27.100982666015625,
+      "learning_rate": 1.7534722222222223e-06,
+      "loss": 1.9915,
+      "step": 540
+    },
+    {
+      "epoch": 8.59375,
+      "grad_norm": 27.147930145263672,
+      "learning_rate": 1.5798611111111112e-06,
+      "loss": 2.007,
+      "step": 550
+    },
+    {
+      "epoch": 8.59375,
+      "eval_loss": 1.0685715675354004,
+      "eval_runtime": 4.6413,
+      "eval_samples_per_second": 93.076,
+      "eval_steps_per_second": 5.817,
+      "step": 550
+    },
+    {
+      "epoch": 8.75,
+      "grad_norm": 26.25347137451172,
+      "learning_rate": 1.40625e-06,
+      "loss": 1.9727,
+      "step": 560
+    },
+    {
+      "epoch": 8.90625,
+      "grad_norm": 26.688894271850586,
+      "learning_rate": 1.232638888888889e-06,
+      "loss": 1.9395,
+      "step": 570
+    },
+    {
+      "epoch": 8.984375,
+      "eval_loss": 1.061125636100769,
+      "eval_runtime": 4.6582,
+      "eval_samples_per_second": 92.74,
+      "eval_steps_per_second": 5.796,
+      "step": 575
+    },
+    {
+      "epoch": 9.0625,
+      "grad_norm": 27.173229217529297,
+      "learning_rate": 1.0590277777777778e-06,
+      "loss": 1.9538,
+      "step": 580
+    },
+    {
+      "epoch": 9.21875,
+      "grad_norm": 25.862943649291992,
+      "learning_rate": 8.854166666666668e-07,
+      "loss": 1.9069,
+      "step": 590
+    },
+    {
+      "epoch": 9.375,
+      "grad_norm": 25.96297264099121,
+      "learning_rate": 7.118055555555556e-07,
+      "loss": 1.8768,
+      "step": 600
+    },
+    {
+      "epoch": 9.375,
+      "eval_loss": 1.0467159748077393,
+      "eval_runtime": 4.6503,
+      "eval_samples_per_second": 92.896,
+      "eval_steps_per_second": 5.806,
+      "step": 600
+    },
+    {
+      "epoch": 9.53125,
+      "grad_norm": 26.35511589050293,
+      "learning_rate": 5.381944444444445e-07,
+      "loss": 1.8875,
+      "step": 610
+    },
+    {
+      "epoch": 9.6875,
+      "grad_norm": 26.81864356994629,
+      "learning_rate": 3.6458333333333337e-07,
+      "loss": 1.8867,
+      "step": 620
+    },
+    {
+      "epoch": 9.765625,
+      "eval_loss": 1.0413788557052612,
+      "eval_runtime": 4.6336,
+      "eval_samples_per_second": 93.232,
+      "eval_steps_per_second": 5.827,
+      "step": 625
+    },
+    {
+      "epoch": 9.84375,
+      "grad_norm": 24.75679588317871,
+      "learning_rate": 1.9097222222222225e-07,
+      "loss": 1.846,
+      "step": 630
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 24.3472843170166,
+      "learning_rate": 1.736111111111111e-08,
+      "loss": 1.9162,
+      "step": 640
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 640,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6e27d74df66fa9e54032218db4fc94733eb1e8f70b48b3c2ff76fcf7c52de5e8
+size 5624