George2002 commited on Apr 16, 2025

Commit

15e722d

verified ·

1 Parent(s): 3fe5cec

Upload model checkpoint

Browse files

Files changed (17) hide show

.gitattributes +1 -0
1_Pooling/config.json +10 -0
README.md +625 -0
config.json +27 -0
config_sentence_transformers.json +10 -0
model.safetensors +3 -0
modules.json +20 -0
optimizer.pt +3 -0
rng_state_0.pth +3 -0
rng_state_1.pth +3 -0
scheduler.pt +3 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +51 -0
tokenizer.json +3 -0
tokenizer_config.json +55 -0
trainer_state.json +1252 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 1024,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,625 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- dataset_size:18202
+- loss:MultipleNegativesRankingLoss
+base_model: intfloat/multilingual-e5-large
+widget:
+- source_sentence: 'query: С кокого момента можно закозать Детскую СберКарту по украинскому
+    свидетельству о рождении?'
+  sentences:
+  - "passage: Выберите интересующий вопрос\n\nГде Родителю найти QR-код для того,\
+    \ чтобы Ребёнок смог начать пользоваться МП СберKids ?\n\nНайти QR-код можно у\
+    \ Родителя в МП СБОЛ в разделе Кошелек, выбрать карту Ребенка - Настройки - Вход\
+    \ Ребёнка в МП СберKids \nС телефоном Ребёнка можно отсканировать QR-код с экрана\
+    \ Родителя.\nНужно отсканировать QR-код"
+  - 'query: Какие действия предпринимает банкя после связи опекуна иь ребенка?'
+  - 'query: С каким вопросом ФУ обратился касательно процедуры банкротства?'
+- source_sentence: 'query: Что подтверждает документ, необходимый для получения наследства?'
+  sentences:
+  - 'query: Какое количество бонусов можно получить за покупки с Детской СберКартой?'
+  - "passage: Клиент обратился с вопросом о невозможности оплачивать кредит в полном\
+    \ объеме по причине тяжелой жизненной ситуации \n(реструктуризация возможна по\
+    \ причинам: потеря работы, смена места работы, снижение дохода, болезнь, смерть\
+    \ близких родственников, болезнь близких родственников, развод, декрет, отпуск\
+    \ по уходу за ребенком, призыв в армию, чрезвычайная ситуация в регионе). \n\n\
+    Обратите внимание клиента на следующее:\n-  более простым способом является подача\
+    \ заявки в Сбербанк онлайн;\n-  кредитная карта может быть заблокирована для расходных\
+    \ операций на 180 дней после подачи заявления на реструктуризацию и вне зависимости\
+    \ от принятого банком решения по заявке.\n\n   Если после подачи заявления в Сбол.про\
+    \  сервис не доступен для прикрепления  пакета документов,  предоставленных клиентом,\
+    \ маршрутизируем в Мобильное приложение  Сбербанк Онлайна для  оформления заявления\
+    \ или прикрепления документов.\n  При возникновении вопросов просим обращаться\
+    \ по телефону: 8-800-200-8-200(звонок по России бесплатный), график работы: ежедневно\
+    \  с 04:00 до 20:00 (мск).\n\nВажно!!!   Если при оформлении заявки в  Сбол.про\
+    \ приходит отказ, то  не нужно оформлять обращение по ветке «Решить проблему».\
+    \  \n\nВажно!!!   РС постадавшим от мошенничества предоставлется по ветке \"Решить\
+    \ проблему\", только по потребительским кредитам выданным после 08.07.2024\n\n\
+    Действия, необходимые по запросу клиента:\n\n\nконсультация по реструктуризации\
+    \ кредита\n\nКонсультацию по вопросам реструктуризации можно получить:\n\n- на\
+    \ сайте Банка: www.sberbank.ru  в разделе \"Программы поддержки\"\n\n- по номеру\
+    \ горячей линии: 8-800-200-8-200, график работы: ежедневно с 04:00 до 20:00 (мск).\n\
+    \nобращайте внимание клиента, что для iOS загрузка документов возможна в приложении\
+    \ версии 14.3 или через ВЕБ версию СБОЛ"
+  - 'passage: Возможные ошибки:
+    Вы отменили операцию
+    Вы отменили операцию'
+- source_sentence: 'query: Какие документы необходимы доверенному лицу банкрота для
+    выполнения операции?'
+  sentences:
+  - 'query: Какое согласие требуется для открытия счета банкроту, который находится
+    в реструктуризации долгов?'
+  - 'passage: Выберите интересующий вопрос
+    Сколько бонусов СберСпасибо можно получать по Детской СберКарте ?
+    За каждую покупку начисляется 0,5% бонусами. Чтобы проверить баланс Ребёнку нужно
+    зайти приложение СберKids или отправьте СМС на номер 900 с текстом: Спасибо пробел
+    и последние 4 цифры номера карты.'
+  - 'query: Что нужно сделать, чтобы банкрот открыл новый счет или карту с разрешения
+    финансового управляющего?'
+- source_sentence: 'query: Как изменить ПИН-код на Детской сберкате через МП СБОЛ?'
+  sentences:
+  - 'query: Когда клиент считается включееным в реестр банкротов?'
+  - 'passage: Выберите операцию, которую необходимо выполнить банкроту
+    Отправка перевода
+    Проведение перевода:
+    Клиентам банкротам в стадии Реализация имущества  - разрешенно при наличии разрешения
+    финансового управляющего
+    Клиентам банкротам в стадии Реструктуризация долгов - разрешенно при наличии разрешения
+    финансового управляющего'
+  - 'passage: Выберите интересующий вопрос
+    Где Ребёнок может совершать переводы по Детской СберКарте ?
+    Ребёнок Может совершать переводы в своем приложении МП СберKids в пределах детских
+    лимитов - 50 000 рублей в месяц (в соответствии с Тарифами Банка).
+    Ребёнок НЕ может совершать переводы в банкоматах Банка и в ВСП.'
+- source_sentence: 'query: Как законный представитель получает доступ к списку желаний
+    ребенка в МП СБОЛ?'
+  sentences:
+  - 'query: Какие меры принимает Банк по отношению к имуществу и финансам банкрота?'
+  - 'passage: Если клиент предъявил документ, подтверждающий полномочия владельца
+    счёта в качестве законного представителя бенефициара, то необходимо проверить
+    срок действия документа.
+    Если клиент не может предоставить новый документ, то необходимо завершить обслуживание
+    клиента.
+    Если срок действия истёк
+    Если срок действия истёк, то необходимо завершить обслуживание клиента.'
+  - 'passage: После ввода суммы планируемой расходной операции в СБОЛ.Про на экране
+    монитора появилось модальное окно с текстовым сообщением о необходимости согласования
+    операции с подразделением комплаенс?
+    Нет
+    Если у Вас есть подозрения, что целью проведения операции является легализация
+    доходов, полученных преступным путем, действуйте в соответствии с порядком по
+    ветке "Да".
+    Если подозрения отсутствуют, то проведите операцию. Согласование с ПЦП Центр комплаенс/комплаенс
+    Московского Банка не требуется.'
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+---
+# SentenceTransformer based on intfloat/multilingual-e5-large
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [intfloat/multilingual-e5-large](https://huggingface.co/intfloat/multilingual-e5-large) <!-- at revision 0dc5580a448e4284468b8909bae50fa925907bc5 -->
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 1024 dimensions
+- **Similarity Function:** Cosine Similarity
+<!-- - **Training Dataset:** Unknown -->
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+  (2): Normalize()
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("George2002/sledopyt_embedder")
+# Run inference
+sentences = [
+    'query: Как законный представитель получает доступ к списку желаний ребенка в МП СБОЛ?',
+    'passage: После ввода суммы планируемой расходной операции в СБОЛ.Про на экране монитора появилось модальное окно с текстовым сообщением о необходимости согласования операции с подразделением комплаенс?\n\nНет\n\nЕсли у Вас есть подозрения, что целью проведения операции является легализация доходов, полученных преступным путем, действуйте в соответствии с порядком по ветке "Да".\n\nЕсли подозрения отсутствуют, то проведите операцию. Согласование с ПЦП Центр комплаенс/комплаенс Московского Банка не требуется.',
+    'passage: Если клиент предъявил документ, подтверждающий полномочия владельца счёта в качестве законного представителя бенефициара, то необходимо проверить срок действия документа.\nЕсли клиент не может предоставить новый документ, то необходимо завершить обслуживание клиента.\n\nЕсли срок действия истёк\n\nЕсли срок действия истёк, то необходимо завершить обслуживание клиента.',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 1024]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities.shape)
+# [3, 3]
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Dataset
+#### Unnamed Dataset
+* Size: 18,202 training samples
+* Columns: <code>anchor</code> and <code>positive</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                            | positive                                                                            |
+  |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                              |
+  | details | <ul><li>min: 11 tokens</li><li>mean: 22.0 tokens</li><li>max: 41 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 86.42 tokens</li><li>max: 512 tokens</li></ul> |
+* Samples:
+  | anchor                                                                                            | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |
+  |:--------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>query: Что подтвердит статус законного представителя при прикреплении к подопечному?</code> | <code>query: Где доступна памятка по заключению ДБО?</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        |
+  | <code>query: Как можно оплатить покупку Детской СберКартой так же, как с обычной картой?</code>   | <code>query: Какие способы оплаты доступны для Детской СберКарты, чтобы использовать ее как обычную карту?</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
+  | <code>query: Каково нзачение дл яmemoi_d 16300?</code>                                            | <code>passage: Операции по продуктам несовершеннолетнего дееспособного с 14 лет до 18 лет (эмансипированный) совершает сам несовершеннолетний с 14 лет до 18 лет или его доверенное лицо.<br>Выписка по счету (вкладу) может быть выдана:<br><br>-Несовершеннолетний с 14 до 18 лет<br><br>-Доверенное лицо<br>Какие документы необходимо предъявить в Банк для проставления признака дееспособный по несовершеннолетнему с 14 до 18 лет:<br><br>ДУЛ несовершеннолетнего с 14 до 18 лет + ОДИН из следующих документов:<br><br>- свидетельство о заключении брака (п.2 ст. 21 ГК РФ)<br>- решение органа опеки и попечительства о признании несовершеннолетнего полностью дееспособным (эмансипированным) (п.1 ст. 27 ГК РФ)<br>- решение суда о признании несовершеннолетнего полностью дееспособным (эмансипированным) (п.1 ст. 27 ГК РФ)</code> |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Evaluation Dataset
+#### Unnamed Dataset
+* Size: 959 evaluation samples
+* Columns: <code>anchor</code> and <code>positive</code>
+* Approximate statistics based on the first 959 samples:
+  |         | anchor                                                                             | positive                                                                            |
+  |:--------|:-----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
+  | type    | string                                                                             | string                                                                              |
+  | details | <ul><li>min: 11 tokens</li><li>mean: 22.13 tokens</li><li>max: 39 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 84.03 tokens</li><li>max: 512 tokens</li></ul> |
+* Samples:
+  | anchor                                                                                                        | positive                                                                                 |
+  |:--------------------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------|
+  | <code>query: Что нужно сделать после предъявления документов для ребенка до 14 лет?</code>                    | <code>query: Какие операции охватывает регламент ревста и его снятия в Сбербанке?</code> |
+  | <code>query: Какие документы нужны законному представителю для установки лимитов по Детской СберКарте?</code> | <code>query: Что сказать клиенту, если он не принес сберкнижку при обращении?</code>     |
+  | <code>query: Какой стчатус имеет обращение клиента, еслии его полномочия не подтверждены?</code>              | <code>query: Какое шаги следует предпринять при прихлде клаента?</code>                  |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 64
+- `learning_rate`: 1e-05
+- `weight_decay`: 0.01
+- `num_train_epochs`: 10
+- `warmup_ratio`: 0.1
+- `load_best_model_at_end`: True
+- `push_to_hub`: True
+- `hub_model_id`: George2002/sledopyt_embedder
+- `hub_strategy`: end
+- `batch_sampler`: no_duplicates
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 64
+- `per_device_eval_batch_size`: 8
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 1e-05
+- `weight_decay`: 0.01
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 10
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.1
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: False
+- `fp16`: False
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: True
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: True
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `tp_size`: 0
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: True
+- `resume_from_checkpoint`: None
+- `hub_model_id`: George2002/sledopyt_embedder
+- `hub_strategy`: end
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+</details>
+### Training Logs
+<details><summary>Click to expand</summary>
+| Epoch  | Step | Training Loss | Validation Loss |
+|:------:|:----:|:-------------:|:---------------:|
+| 0.0704 | 10   | 3.8016        | -               |
+| 0.1408 | 20   | 3.7424        | -               |
+| 0.2113 | 30   | 3.6583        | -               |
+| 0.2817 | 40   | 3.7144        | -               |
+| 0.3521 | 50   | 3.5497        | 1.7768          |
+| 0.4225 | 60   | 3.6716        | -               |
+| 0.4930 | 70   | 3.5206        | -               |
+| 0.5634 | 80   | 3.4553        | -               |
+| 0.6338 | 90   | 3.4572        | -               |
+| 0.7042 | 100  | 3.4715        | 1.7043          |
+| 0.7746 | 110  | 3.4693        | -               |
+| 0.8451 | 120  | 3.482         | -               |
+| 0.9155 | 130  | 3.4296        | -               |
+| 0.9859 | 140  | 3.3627        | -               |
+| 1.0563 | 150  | 3.3338        | 1.6177          |
+| 1.1268 | 160  | 3.2974        | -               |
+| 1.1972 | 170  | 3.3756        | -               |
+| 1.2676 | 180  | 3.3302        | -               |
+| 1.3380 | 190  | 3.2841        | -               |
+| 1.4085 | 200  | 3.14          | 1.5555          |
+| 1.4789 | 210  | 3.2447        | -               |
+| 1.5493 | 220  | 3.301         | -               |
+| 1.6197 | 230  | 3.2738        | -               |
+| 1.6901 | 240  | 3.1474        | -               |
+| 1.7606 | 250  | 3.1417        | 1.5091          |
+| 1.8310 | 260  | 3.1931        | -               |
+| 1.9014 | 270  | 3.1649        | -               |
+| 1.9718 | 280  | 3.2231        | -               |
+| 2.0423 | 290  | 3.1172        | -               |
+| 2.1127 | 300  | 3.0193        | 1.4375          |
+| 2.1831 | 310  | 2.9451        | -               |
+| 2.2535 | 320  | 2.9669        | -               |
+| 2.3239 | 330  | 2.9739        | -               |
+| 2.3944 | 340  | 2.8988        | -               |
+| 2.4648 | 350  | 2.9009        | 1.3773          |
+| 2.5352 | 360  | 2.8597        | -               |
+| 2.6056 | 370  | 2.8603        | -               |
+| 2.6761 | 380  | 2.9262        | -               |
+| 2.7465 | 390  | 2.9301        | -               |
+| 2.8169 | 400  | 2.9446        | 1.3113          |
+| 2.8873 | 410  | 2.9103        | -               |
+| 2.9577 | 420  | 2.88          | -               |
+| 3.0282 | 430  | 2.7008        | -               |
+| 3.0986 | 440  | 2.669         | -               |
+| 3.1690 | 450  | 2.6466        | 1.2236          |
+| 3.2394 | 460  | 2.6583        | -               |
+| 3.3099 | 470  | 2.5912        | -               |
+| 3.3803 | 480  | 2.5551        | -               |
+| 3.4507 | 490  | 2.5759        | -               |
+| 3.5211 | 500  | 2.6059        | 1.1634          |
+| 3.5915 | 510  | 2.5128        | -               |
+| 3.6620 | 520  | 2.5397        | -               |
+| 3.7324 | 530  | 2.5198        | -               |
+| 3.8028 | 540  | 2.4605        | -               |
+| 3.8732 | 550  | 2.4911        | 1.0877          |
+| 3.9437 | 560  | 2.445         | -               |
+| 4.0141 | 570  | 2.4261        | -               |
+| 4.0845 | 580  | 2.2965        | -               |
+| 4.1549 | 590  | 2.1889        | -               |
+| 4.2254 | 600  | 2.2193        | 1.0498          |
+| 4.2958 | 610  | 2.2024        | -               |
+| 4.3662 | 620  | 2.2096        | -               |
+| 4.4366 | 630  | 2.2598        | -               |
+| 4.5070 | 640  | 2.2322        | -               |
+| 4.5775 | 650  | 2.1822        | 0.9610          |
+| 4.6479 | 660  | 2.1621        | -               |
+| 4.7183 | 670  | 2.1543        | -               |
+| 4.7887 | 680  | 2.2376        | -               |
+| 4.8592 | 690  | 2.1652        | -               |
+| 4.9296 | 700  | 2.1194        | 0.8909          |
+| 5.0    | 710  | 2.0919        | -               |
+| 5.0704 | 720  | 1.9779        | -               |
+| 5.1408 | 730  | 1.8619        | -               |
+| 5.2113 | 740  | 1.9172        | -               |
+| 5.2817 | 750  | 1.9355        | 0.8482          |
+| 5.3521 | 760  | 1.9393        | -               |
+| 5.4225 | 770  | 1.8727        | -               |
+| 5.4930 | 780  | 1.9599        | -               |
+| 5.5634 | 790  | 1.8271        | -               |
+| 5.6338 | 800  | 1.9065        | 0.8195          |
+| 5.7042 | 810  | 1.8742        | -               |
+| 5.7746 | 820  | 1.8754        | -               |
+| 5.8451 | 830  | 1.8412        | -               |
+| 5.9155 | 840  | 1.845         | -               |
+| 5.9859 | 850  | 1.8035        | 0.7713          |
+| 6.0563 | 860  | 1.7062        | -               |
+| 6.1268 | 870  | 1.6908        | -               |
+| 6.1972 | 880  | 1.6868        | -               |
+| 6.2676 | 890  | 1.686         | -               |
+| 6.3380 | 900  | 1.564         | 0.7355          |
+| 6.4085 | 910  | 1.7135        | -               |
+| 6.4789 | 920  | 1.6614        | -               |
+| 6.5493 | 930  | 1.6442        | -               |
+| 6.6197 | 940  | 1.6117        | -               |
+| 6.6901 | 950  | 1.6317        | 0.7008          |
+| 6.7606 | 960  | 1.6589        | -               |
+| 6.8310 | 970  | 1.673         | -               |
+| 6.9014 | 980  | 1.6018        | -               |
+| 6.9718 | 990  | 1.6291        | -               |
+| 7.0423 | 1000 | 1.5407        | 0.6680          |
+| 7.1127 | 1010 | 1.4842        | -               |
+| 7.1831 | 1020 | 1.5063        | -               |
+| 7.2535 | 1030 | 1.5052        | -               |
+| 7.3239 | 1040 | 1.42          | -               |
+| 7.3944 | 1050 | 1.4671        | 0.6451          |
+| 7.4648 | 1060 | 1.4879        | -               |
+| 7.5352 | 1070 | 1.5012        | -               |
+| 7.6056 | 1080 | 1.4386        | -               |
+| 7.6761 | 1090 | 1.4544        | -               |
+| 7.7465 | 1100 | 1.4076        | 0.6195          |
+| 7.8169 | 1110 | 1.4838        | -               |
+| 7.8873 | 1120 | 1.4745        | -               |
+| 7.9577 | 1130 | 1.3781        | -               |
+| 8.0282 | 1140 | 1.422         | -               |
+| 8.0986 | 1150 | 1.345         | 0.6033          |
+| 8.1690 | 1160 | 1.4478        | -               |
+| 8.2394 | 1170 | 1.3111        | -               |
+| 8.3099 | 1180 | 1.3754        | -               |
+| 8.3803 | 1190 | 1.3996        | -               |
+| 8.4507 | 1200 | 1.3818        | 0.5862          |
+| 8.5211 | 1210 | 1.348         | -               |
+| 8.5915 | 1220 | 1.3567        | -               |
+| 8.6620 | 1230 | 1.331         | -               |
+| 8.7324 | 1240 | 1.2977        | -               |
+| 8.8028 | 1250 | 1.2578        | 0.5742          |
+| 8.8732 | 1260 | 1.2807        | -               |
+| 8.9437 | 1270 | 1.3597        | -               |
+| 9.0141 | 1280 | 1.3292        | -               |
+| 9.0845 | 1290 | 1.2585        | -               |
+| 9.1549 | 1300 | 1.2552        | 0.5647          |
+| 9.2254 | 1310 | 1.3339        | -               |
+| 9.2958 | 1320 | 1.2872        | -               |
+| 9.3662 | 1330 | 1.276         | -               |
+| 9.4366 | 1340 | 1.2846        | -               |
+| 9.5070 | 1350 | 1.2782        | 0.5621          |
+| 9.5775 | 1360 | 1.2883        | -               |
+| 9.6479 | 1370 | 1.2515        | -               |
+| 9.7183 | 1380 | 1.3023        | -               |
+| 9.7887 | 1390 | 1.3053        | -               |
+| 9.8592 | 1400 | 1.2556        | 0.5562          |
+| 9.9296 | 1410 | 1.2926        | -               |
+| 10.0   | 1420 | 1.2199        | -               |
+</details>
+### Framework Versions
+- Python: 3.10.12
+- Sentence Transformers: 4.1.0
+- Transformers: 4.51.3
+- PyTorch: 2.6.0+cu124
+- Accelerate: 1.6.0
+- Datasets: 3.5.0
+- Tokenizers: 0.21.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MultipleNegativesRankingLoss
+```bibtex
+@misc{henderson2017efficient,
+    title={Efficient Natural Language Response Suggestion for Smart Reply},
+    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
+    year={2017},
+    eprint={1705.00652},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "XLMRobertaModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "classifier_dropout": null,
+  "eos_token_id": 2,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "xlm-roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "output_past": true,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 250002
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "4.1.0",
+    "transformers": "4.51.3",
+    "pytorch": "2.6.0+cu124"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e889508edab32a62d3556df6ea928b24c2fb8dfe9bf4d7f4ee8b168de679bed
+size 2239607176

modules.json ADDED Viewed

	@@ -0,0 +1,20 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  },
+  {
+    "idx": 2,
+    "name": "2",
+    "path": "2_Normalize",
+    "type": "sentence_transformers.models.Normalize"
+  }
+]

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4be066e40c1ee81a4f94fb6c12ef9231772207cf23a5fd721de3ad25a6665fe1
+size 4471055801

rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5997e32aba2966804d63e3ecd9c8b855581a9a46e12a96f3983fc05434abc14f
+size 14512

rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fcc0e68124101d652e2cf18ed5591e27e63de6f0dd49197e2b51fa3a60582f1f
+size 14512

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6a318d3c78bf030713323240e63a6ca9f0734093c3dac41f5d1ca6ea5774224
+size 1064

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": true,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:883b037111086fd4dfebbbc9b7cee11e1517b5e0c0514879478661440f137085
+size 17082987

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,55 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "250001": {
+      "content": "<mask>",
+      "lstrip": true,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "XLMRobertaTokenizer",
+  "unk_token": "<unk>"
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1252 @@

+{
+  "best_global_step": 1400,
+  "best_metric": 0.5561918616294861,
+  "best_model_checkpoint": ".../training_output/checkpoint-1400",
+  "epoch": 10.0,
+  "eval_steps": 50,
+  "global_step": 1420,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.07042253521126761,
+      "grad_norm": 4.834911346435547,
+      "learning_rate": 6.338028169014085e-07,
+      "loss": 3.8016,
+      "step": 10
+    },
+    {
+      "epoch": 0.14084507042253522,
+      "grad_norm": 3.7942707538604736,
+      "learning_rate": 1.3380281690140844e-06,
+      "loss": 3.7424,
+      "step": 20
+    },
+    {
+      "epoch": 0.2112676056338028,
+      "grad_norm": 4.044854164123535,
+      "learning_rate": 2.0422535211267608e-06,
+      "loss": 3.6583,
+      "step": 30
+    },
+    {
+      "epoch": 0.28169014084507044,
+      "grad_norm": 4.419040679931641,
+      "learning_rate": 2.746478873239437e-06,
+      "loss": 3.7144,
+      "step": 40
+    },
+    {
+      "epoch": 0.352112676056338,
+      "grad_norm": 4.994226455688477,
+      "learning_rate": 3.4507042253521127e-06,
+      "loss": 3.5497,
+      "step": 50
+    },
+    {
+      "epoch": 0.352112676056338,
+      "eval_loss": 1.7768433094024658,
+      "eval_runtime": 10.0717,
+      "eval_samples_per_second": 95.217,
+      "eval_steps_per_second": 5.957,
+      "step": 50
+    },
+    {
+      "epoch": 0.4225352112676056,
+      "grad_norm": 4.968951225280762,
+      "learning_rate": 4.154929577464789e-06,
+      "loss": 3.6716,
+      "step": 60
+    },
+    {
+      "epoch": 0.49295774647887325,
+      "grad_norm": 4.8160014152526855,
+      "learning_rate": 4.859154929577465e-06,
+      "loss": 3.5206,
+      "step": 70
+    },
+    {
+      "epoch": 0.5633802816901409,
+      "grad_norm": 5.351637363433838,
+      "learning_rate": 5.563380281690142e-06,
+      "loss": 3.4553,
+      "step": 80
+    },
+    {
+      "epoch": 0.6338028169014085,
+      "grad_norm": 5.762838363647461,
+      "learning_rate": 6.267605633802818e-06,
+      "loss": 3.4572,
+      "step": 90
+    },
+    {
+      "epoch": 0.704225352112676,
+      "grad_norm": 5.674283504486084,
+      "learning_rate": 6.9718309859154935e-06,
+      "loss": 3.4715,
+      "step": 100
+    },
+    {
+      "epoch": 0.704225352112676,
+      "eval_loss": 1.704325556755066,
+      "eval_runtime": 9.3452,
+      "eval_samples_per_second": 102.619,
+      "eval_steps_per_second": 6.42,
+      "step": 100
+    },
+    {
+      "epoch": 0.7746478873239436,
+      "grad_norm": 5.651138782501221,
+      "learning_rate": 7.67605633802817e-06,
+      "loss": 3.4693,
+      "step": 110
+    },
+    {
+      "epoch": 0.8450704225352113,
+      "grad_norm": 5.866046905517578,
+      "learning_rate": 8.380281690140846e-06,
+      "loss": 3.482,
+      "step": 120
+    },
+    {
+      "epoch": 0.9154929577464789,
+      "grad_norm": 6.652071475982666,
+      "learning_rate": 9.084507042253522e-06,
+      "loss": 3.4296,
+      "step": 130
+    },
+    {
+      "epoch": 0.9859154929577465,
+      "grad_norm": 8.077320098876953,
+      "learning_rate": 9.788732394366198e-06,
+      "loss": 3.3627,
+      "step": 140
+    },
+    {
+      "epoch": 1.056338028169014,
+      "grad_norm": 6.8231329917907715,
+      "learning_rate": 9.945226917057903e-06,
+      "loss": 3.3338,
+      "step": 150
+    },
+    {
+      "epoch": 1.056338028169014,
+      "eval_loss": 1.6177195310592651,
+      "eval_runtime": 9.306,
+      "eval_samples_per_second": 103.052,
+      "eval_steps_per_second": 6.447,
+      "step": 150
+    },
+    {
+      "epoch": 1.1267605633802817,
+      "grad_norm": 7.225569725036621,
+      "learning_rate": 9.866979655712052e-06,
+      "loss": 3.2974,
+      "step": 160
+    },
+    {
+      "epoch": 1.1971830985915493,
+      "grad_norm": 7.667593479156494,
+      "learning_rate": 9.788732394366198e-06,
+      "loss": 3.3756,
+      "step": 170
+    },
+    {
+      "epoch": 1.267605633802817,
+      "grad_norm": 7.092339992523193,
+      "learning_rate": 9.710485133020345e-06,
+      "loss": 3.3302,
+      "step": 180
+    },
+    {
+      "epoch": 1.3380281690140845,
+      "grad_norm": 7.544447898864746,
+      "learning_rate": 9.632237871674493e-06,
+      "loss": 3.2841,
+      "step": 190
+    },
+    {
+      "epoch": 1.408450704225352,
+      "grad_norm": 8.606858253479004,
+      "learning_rate": 9.55399061032864e-06,
+      "loss": 3.14,
+      "step": 200
+    },
+    {
+      "epoch": 1.408450704225352,
+      "eval_loss": 1.5555429458618164,
+      "eval_runtime": 8.9418,
+      "eval_samples_per_second": 107.249,
+      "eval_steps_per_second": 6.71,
+      "step": 200
+    },
+    {
+      "epoch": 1.4788732394366197,
+      "grad_norm": 9.349486351013184,
+      "learning_rate": 9.475743348982786e-06,
+      "loss": 3.2447,
+      "step": 210
+    },
+    {
+      "epoch": 1.5492957746478875,
+      "grad_norm": 10.120262145996094,
+      "learning_rate": 9.397496087636934e-06,
+      "loss": 3.301,
+      "step": 220
+    },
+    {
+      "epoch": 1.619718309859155,
+      "grad_norm": 8.683691024780273,
+      "learning_rate": 9.31924882629108e-06,
+      "loss": 3.2738,
+      "step": 230
+    },
+    {
+      "epoch": 1.6901408450704225,
+      "grad_norm": 8.391075134277344,
+      "learning_rate": 9.241001564945227e-06,
+      "loss": 3.1474,
+      "step": 240
+    },
+    {
+      "epoch": 1.76056338028169,
+      "grad_norm": 9.799640655517578,
+      "learning_rate": 9.162754303599375e-06,
+      "loss": 3.1417,
+      "step": 250
+    },
+    {
+      "epoch": 1.76056338028169,
+      "eval_loss": 1.5090895891189575,
+      "eval_runtime": 9.059,
+      "eval_samples_per_second": 105.862,
+      "eval_steps_per_second": 6.623,
+      "step": 250
+    },
+    {
+      "epoch": 1.8309859154929577,
+      "grad_norm": 9.724505424499512,
+      "learning_rate": 9.084507042253522e-06,
+      "loss": 3.1931,
+      "step": 260
+    },
+    {
+      "epoch": 1.9014084507042255,
+      "grad_norm": 11.591618537902832,
+      "learning_rate": 9.006259780907669e-06,
+      "loss": 3.1649,
+      "step": 270
+    },
+    {
+      "epoch": 1.971830985915493,
+      "grad_norm": 9.90600299835205,
+      "learning_rate": 8.928012519561817e-06,
+      "loss": 3.2231,
+      "step": 280
+    },
+    {
+      "epoch": 2.0422535211267605,
+      "grad_norm": 10.291154861450195,
+      "learning_rate": 8.849765258215963e-06,
+      "loss": 3.1172,
+      "step": 290
+    },
+    {
+      "epoch": 2.112676056338028,
+      "grad_norm": 11.620966911315918,
+      "learning_rate": 8.77151799687011e-06,
+      "loss": 3.0193,
+      "step": 300
+    },
+    {
+      "epoch": 2.112676056338028,
+      "eval_loss": 1.437499761581421,
+      "eval_runtime": 8.9265,
+      "eval_samples_per_second": 107.433,
+      "eval_steps_per_second": 6.722,
+      "step": 300
+    },
+    {
+      "epoch": 2.183098591549296,
+      "grad_norm": 12.65719223022461,
+      "learning_rate": 8.693270735524258e-06,
+      "loss": 2.9451,
+      "step": 310
+    },
+    {
+      "epoch": 2.2535211267605635,
+      "grad_norm": 12.792698860168457,
+      "learning_rate": 8.615023474178405e-06,
+      "loss": 2.9669,
+      "step": 320
+    },
+    {
+      "epoch": 2.323943661971831,
+      "grad_norm": 12.682389259338379,
+      "learning_rate": 8.536776212832551e-06,
+      "loss": 2.9739,
+      "step": 330
+    },
+    {
+      "epoch": 2.3943661971830985,
+      "grad_norm": 12.96263313293457,
+      "learning_rate": 8.4585289514867e-06,
+      "loss": 2.8988,
+      "step": 340
+    },
+    {
+      "epoch": 2.464788732394366,
+      "grad_norm": 14.160724639892578,
+      "learning_rate": 8.380281690140846e-06,
+      "loss": 2.9009,
+      "step": 350
+    },
+    {
+      "epoch": 2.464788732394366,
+      "eval_loss": 1.3772871494293213,
+      "eval_runtime": 9.6484,
+      "eval_samples_per_second": 99.394,
+      "eval_steps_per_second": 6.219,
+      "step": 350
+    },
+    {
+      "epoch": 2.535211267605634,
+      "grad_norm": 14.379948616027832,
+      "learning_rate": 8.302034428794992e-06,
+      "loss": 2.8597,
+      "step": 360
+    },
+    {
+      "epoch": 2.6056338028169015,
+      "grad_norm": 15.024813652038574,
+      "learning_rate": 8.22378716744914e-06,
+      "loss": 2.8603,
+      "step": 370
+    },
+    {
+      "epoch": 2.676056338028169,
+      "grad_norm": 15.947714805603027,
+      "learning_rate": 8.145539906103287e-06,
+      "loss": 2.9262,
+      "step": 380
+    },
+    {
+      "epoch": 2.7464788732394365,
+      "grad_norm": 15.812085151672363,
+      "learning_rate": 8.067292644757434e-06,
+      "loss": 2.9301,
+      "step": 390
+    },
+    {
+      "epoch": 2.816901408450704,
+      "grad_norm": 15.922052383422852,
+      "learning_rate": 7.989045383411582e-06,
+      "loss": 2.9446,
+      "step": 400
+    },
+    {
+      "epoch": 2.816901408450704,
+      "eval_loss": 1.3113040924072266,
+      "eval_runtime": 8.9464,
+      "eval_samples_per_second": 107.194,
+      "eval_steps_per_second": 6.707,
+      "step": 400
+    },
+    {
+      "epoch": 2.887323943661972,
+      "grad_norm": 15.517271995544434,
+      "learning_rate": 7.910798122065728e-06,
+      "loss": 2.9103,
+      "step": 410
+    },
+    {
+      "epoch": 2.9577464788732395,
+      "grad_norm": 16.0577449798584,
+      "learning_rate": 7.832550860719875e-06,
+      "loss": 2.88,
+      "step": 420
+    },
+    {
+      "epoch": 3.028169014084507,
+      "grad_norm": 15.434414863586426,
+      "learning_rate": 7.754303599374023e-06,
+      "loss": 2.7008,
+      "step": 430
+    },
+    {
+      "epoch": 3.0985915492957745,
+      "grad_norm": 18.000938415527344,
+      "learning_rate": 7.67605633802817e-06,
+      "loss": 2.669,
+      "step": 440
+    },
+    {
+      "epoch": 3.169014084507042,
+      "grad_norm": 17.124902725219727,
+      "learning_rate": 7.597809076682316e-06,
+      "loss": 2.6466,
+      "step": 450
+    },
+    {
+      "epoch": 3.169014084507042,
+      "eval_loss": 1.2235872745513916,
+      "eval_runtime": 8.9632,
+      "eval_samples_per_second": 106.993,
+      "eval_steps_per_second": 6.694,
+      "step": 450
+    },
+    {
+      "epoch": 3.23943661971831,
+      "grad_norm": 18.728208541870117,
+      "learning_rate": 7.5195618153364636e-06,
+      "loss": 2.6583,
+      "step": 460
+    },
+    {
+      "epoch": 3.3098591549295775,
+      "grad_norm": 20.174840927124023,
+      "learning_rate": 7.441314553990611e-06,
+      "loss": 2.5912,
+      "step": 470
+    },
+    {
+      "epoch": 3.380281690140845,
+      "grad_norm": 19.468631744384766,
+      "learning_rate": 7.3630672926447575e-06,
+      "loss": 2.5551,
+      "step": 480
+    },
+    {
+      "epoch": 3.4507042253521125,
+      "grad_norm": 19.333127975463867,
+      "learning_rate": 7.284820031298905e-06,
+      "loss": 2.5759,
+      "step": 490
+    },
+    {
+      "epoch": 3.52112676056338,
+      "grad_norm": 20.050857543945312,
+      "learning_rate": 7.206572769953052e-06,
+      "loss": 2.6059,
+      "step": 500
+    },
+    {
+      "epoch": 3.52112676056338,
+      "eval_loss": 1.1633683443069458,
+      "eval_runtime": 8.9644,
+      "eval_samples_per_second": 106.979,
+      "eval_steps_per_second": 6.693,
+      "step": 500
+    },
+    {
+      "epoch": 3.591549295774648,
+      "grad_norm": 21.03053855895996,
+      "learning_rate": 7.128325508607199e-06,
+      "loss": 2.5128,
+      "step": 510
+    },
+    {
+      "epoch": 3.6619718309859155,
+      "grad_norm": 20.328510284423828,
+      "learning_rate": 7.050078247261346e-06,
+      "loss": 2.5397,
+      "step": 520
+    },
+    {
+      "epoch": 3.732394366197183,
+      "grad_norm": 21.760059356689453,
+      "learning_rate": 6.9718309859154935e-06,
+      "loss": 2.5198,
+      "step": 530
+    },
+    {
+      "epoch": 3.802816901408451,
+      "grad_norm": 20.767467498779297,
+      "learning_rate": 6.89358372456964e-06,
+      "loss": 2.4605,
+      "step": 540
+    },
+    {
+      "epoch": 3.873239436619718,
+      "grad_norm": 24.69249725341797,
+      "learning_rate": 6.815336463223787e-06,
+      "loss": 2.4911,
+      "step": 550
+    },
+    {
+      "epoch": 3.873239436619718,
+      "eval_loss": 1.0876926183700562,
+      "eval_runtime": 8.9503,
+      "eval_samples_per_second": 107.147,
+      "eval_steps_per_second": 6.704,
+      "step": 550
+    },
+    {
+      "epoch": 3.943661971830986,
+      "grad_norm": 21.451522827148438,
+      "learning_rate": 6.737089201877935e-06,
+      "loss": 2.445,
+      "step": 560
+    },
+    {
+      "epoch": 4.014084507042254,
+      "grad_norm": 21.80568504333496,
+      "learning_rate": 6.658841940532081e-06,
+      "loss": 2.4261,
+      "step": 570
+    },
+    {
+      "epoch": 4.084507042253521,
+      "grad_norm": 23.770599365234375,
+      "learning_rate": 6.580594679186229e-06,
+      "loss": 2.2965,
+      "step": 580
+    },
+    {
+      "epoch": 4.154929577464789,
+      "grad_norm": 22.17987060546875,
+      "learning_rate": 6.502347417840375e-06,
+      "loss": 2.1889,
+      "step": 590
+    },
+    {
+      "epoch": 4.225352112676056,
+      "grad_norm": 22.51678466796875,
+      "learning_rate": 6.424100156494523e-06,
+      "loss": 2.2193,
+      "step": 600
+    },
+    {
+      "epoch": 4.225352112676056,
+      "eval_loss": 1.049774408340454,
+      "eval_runtime": 8.9455,
+      "eval_samples_per_second": 107.205,
+      "eval_steps_per_second": 6.707,
+      "step": 600
+    },
+    {
+      "epoch": 4.295774647887324,
+      "grad_norm": 23.58041000366211,
+      "learning_rate": 6.345852895148671e-06,
+      "loss": 2.2024,
+      "step": 610
+    },
+    {
+      "epoch": 4.366197183098592,
+      "grad_norm": 24.69291877746582,
+      "learning_rate": 6.267605633802818e-06,
+      "loss": 2.2096,
+      "step": 620
+    },
+    {
+      "epoch": 4.436619718309859,
+      "grad_norm": 24.199907302856445,
+      "learning_rate": 6.189358372456965e-06,
+      "loss": 2.2598,
+      "step": 630
+    },
+    {
+      "epoch": 4.507042253521127,
+      "grad_norm": 23.92287826538086,
+      "learning_rate": 6.111111111111112e-06,
+      "loss": 2.2322,
+      "step": 640
+    },
+    {
+      "epoch": 4.577464788732394,
+      "grad_norm": 22.647499084472656,
+      "learning_rate": 6.0328638497652595e-06,
+      "loss": 2.1822,
+      "step": 650
+    },
+    {
+      "epoch": 4.577464788732394,
+      "eval_loss": 0.9610461592674255,
+      "eval_runtime": 8.9698,
+      "eval_samples_per_second": 106.915,
+      "eval_steps_per_second": 6.689,
+      "step": 650
+    },
+    {
+      "epoch": 4.647887323943662,
+      "grad_norm": 23.590543746948242,
+      "learning_rate": 5.954616588419406e-06,
+      "loss": 2.1621,
+      "step": 660
+    },
+    {
+      "epoch": 4.71830985915493,
+      "grad_norm": 23.479148864746094,
+      "learning_rate": 5.876369327073553e-06,
+      "loss": 2.1543,
+      "step": 670
+    },
+    {
+      "epoch": 4.788732394366197,
+      "grad_norm": 26.514415740966797,
+      "learning_rate": 5.798122065727701e-06,
+      "loss": 2.2376,
+      "step": 680
+    },
+    {
+      "epoch": 4.859154929577465,
+      "grad_norm": 25.98239517211914,
+      "learning_rate": 5.719874804381847e-06,
+      "loss": 2.1652,
+      "step": 690
+    },
+    {
+      "epoch": 4.929577464788732,
+      "grad_norm": 25.147550582885742,
+      "learning_rate": 5.641627543035995e-06,
+      "loss": 2.1194,
+      "step": 700
+    },
+    {
+      "epoch": 4.929577464788732,
+      "eval_loss": 0.8909062743186951,
+      "eval_runtime": 8.9807,
+      "eval_samples_per_second": 106.785,
+      "eval_steps_per_second": 6.681,
+      "step": 700
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 24.74693489074707,
+      "learning_rate": 5.563380281690142e-06,
+      "loss": 2.0919,
+      "step": 710
+    },
+    {
+      "epoch": 5.070422535211268,
+      "grad_norm": 27.079837799072266,
+      "learning_rate": 5.4851330203442885e-06,
+      "loss": 1.9779,
+      "step": 720
+    },
+    {
+      "epoch": 5.140845070422535,
+      "grad_norm": 25.947982788085938,
+      "learning_rate": 5.406885758998436e-06,
+      "loss": 1.8619,
+      "step": 730
+    },
+    {
+      "epoch": 5.211267605633803,
+      "grad_norm": 27.102828979492188,
+      "learning_rate": 5.328638497652583e-06,
+      "loss": 1.9172,
+      "step": 740
+    },
+    {
+      "epoch": 5.28169014084507,
+      "grad_norm": 27.407745361328125,
+      "learning_rate": 5.25039123630673e-06,
+      "loss": 1.9355,
+      "step": 750
+    },
+    {
+      "epoch": 5.28169014084507,
+      "eval_loss": 0.8482040166854858,
+      "eval_runtime": 9.8318,
+      "eval_samples_per_second": 97.54,
+      "eval_steps_per_second": 6.103,
+      "step": 750
+    },
+    {
+      "epoch": 5.352112676056338,
+      "grad_norm": 24.58213233947754,
+      "learning_rate": 5.172143974960877e-06,
+      "loss": 1.9393,
+      "step": 760
+    },
+    {
+      "epoch": 5.422535211267606,
+      "grad_norm": 24.623889923095703,
+      "learning_rate": 5.093896713615024e-06,
+      "loss": 1.8727,
+      "step": 770
+    },
+    {
+      "epoch": 5.492957746478873,
+      "grad_norm": 26.396087646484375,
+      "learning_rate": 5.015649452269171e-06,
+      "loss": 1.9599,
+      "step": 780
+    },
+    {
+      "epoch": 5.563380281690141,
+      "grad_norm": 28.786396026611328,
+      "learning_rate": 4.9374021909233185e-06,
+      "loss": 1.8271,
+      "step": 790
+    },
+    {
+      "epoch": 5.633802816901408,
+      "grad_norm": 25.507366180419922,
+      "learning_rate": 4.859154929577465e-06,
+      "loss": 1.9065,
+      "step": 800
+    },
+    {
+      "epoch": 5.633802816901408,
+      "eval_loss": 0.8195229768753052,
+      "eval_runtime": 8.968,
+      "eval_samples_per_second": 106.935,
+      "eval_steps_per_second": 6.69,
+      "step": 800
+    },
+    {
+      "epoch": 5.704225352112676,
+      "grad_norm": 26.951005935668945,
+      "learning_rate": 4.780907668231612e-06,
+      "loss": 1.8742,
+      "step": 810
+    },
+    {
+      "epoch": 5.774647887323944,
+      "grad_norm": 27.19331169128418,
+      "learning_rate": 4.70266040688576e-06,
+      "loss": 1.8754,
+      "step": 820
+    },
+    {
+      "epoch": 5.845070422535211,
+      "grad_norm": 26.17990493774414,
+      "learning_rate": 4.624413145539906e-06,
+      "loss": 1.8412,
+      "step": 830
+    },
+    {
+      "epoch": 5.915492957746479,
+      "grad_norm": 28.198486328125,
+      "learning_rate": 4.546165884194054e-06,
+      "loss": 1.845,
+      "step": 840
+    },
+    {
+      "epoch": 5.985915492957746,
+      "grad_norm": 24.81572914123535,
+      "learning_rate": 4.467918622848201e-06,
+      "loss": 1.8035,
+      "step": 850
+    },
+    {
+      "epoch": 5.985915492957746,
+      "eval_loss": 0.7713097929954529,
+      "eval_runtime": 8.914,
+      "eval_samples_per_second": 107.583,
+      "eval_steps_per_second": 6.731,
+      "step": 850
+    },
+    {
+      "epoch": 6.056338028169014,
+      "grad_norm": 27.168418884277344,
+      "learning_rate": 4.3896713615023476e-06,
+      "loss": 1.7062,
+      "step": 860
+    },
+    {
+      "epoch": 6.126760563380282,
+      "grad_norm": 25.584774017333984,
+      "learning_rate": 4.311424100156495e-06,
+      "loss": 1.6908,
+      "step": 870
+    },
+    {
+      "epoch": 6.197183098591549,
+      "grad_norm": 27.289413452148438,
+      "learning_rate": 4.233176838810642e-06,
+      "loss": 1.6868,
+      "step": 880
+    },
+    {
+      "epoch": 6.267605633802817,
+      "grad_norm": 26.789995193481445,
+      "learning_rate": 4.154929577464789e-06,
+      "loss": 1.686,
+      "step": 890
+    },
+    {
+      "epoch": 6.338028169014084,
+      "grad_norm": 27.878765106201172,
+      "learning_rate": 4.076682316118936e-06,
+      "loss": 1.564,
+      "step": 900
+    },
+    {
+      "epoch": 6.338028169014084,
+      "eval_loss": 0.7355391383171082,
+      "eval_runtime": 8.9357,
+      "eval_samples_per_second": 107.322,
+      "eval_steps_per_second": 6.715,
+      "step": 900
+    },
+    {
+      "epoch": 6.408450704225352,
+      "grad_norm": 27.236083984375,
+      "learning_rate": 3.998435054773084e-06,
+      "loss": 1.7135,
+      "step": 910
+    },
+    {
+      "epoch": 6.47887323943662,
+      "grad_norm": 26.007850646972656,
+      "learning_rate": 3.92018779342723e-06,
+      "loss": 1.6614,
+      "step": 920
+    },
+    {
+      "epoch": 6.549295774647887,
+      "grad_norm": 26.08616065979004,
+      "learning_rate": 3.8419405320813775e-06,
+      "loss": 1.6442,
+      "step": 930
+    },
+    {
+      "epoch": 6.619718309859155,
+      "grad_norm": 26.021728515625,
+      "learning_rate": 3.7636932707355245e-06,
+      "loss": 1.6117,
+      "step": 940
+    },
+    {
+      "epoch": 6.690140845070422,
+      "grad_norm": 26.019577026367188,
+      "learning_rate": 3.6854460093896714e-06,
+      "loss": 1.6317,
+      "step": 950
+    },
+    {
+      "epoch": 6.690140845070422,
+      "eval_loss": 0.700791597366333,
+      "eval_runtime": 8.9228,
+      "eval_samples_per_second": 107.477,
+      "eval_steps_per_second": 6.724,
+      "step": 950
+    },
+    {
+      "epoch": 6.76056338028169,
+      "grad_norm": 25.988859176635742,
+      "learning_rate": 3.6071987480438188e-06,
+      "loss": 1.6589,
+      "step": 960
+    },
+    {
+      "epoch": 6.830985915492958,
+      "grad_norm": 26.973453521728516,
+      "learning_rate": 3.5289514866979657e-06,
+      "loss": 1.673,
+      "step": 970
+    },
+    {
+      "epoch": 6.901408450704225,
+      "grad_norm": 27.36475372314453,
+      "learning_rate": 3.4507042253521127e-06,
+      "loss": 1.6018,
+      "step": 980
+    },
+    {
+      "epoch": 6.971830985915493,
+      "grad_norm": 28.897504806518555,
+      "learning_rate": 3.37245696400626e-06,
+      "loss": 1.6291,
+      "step": 990
+    },
+    {
+      "epoch": 7.042253521126761,
+      "grad_norm": 26.3133544921875,
+      "learning_rate": 3.294209702660407e-06,
+      "loss": 1.5407,
+      "step": 1000
+    },
+    {
+      "epoch": 7.042253521126761,
+      "eval_loss": 0.6679695248603821,
+      "eval_runtime": 8.9256,
+      "eval_samples_per_second": 107.444,
+      "eval_steps_per_second": 6.722,
+      "step": 1000
+    },
+    {
+      "epoch": 7.112676056338028,
+      "grad_norm": 29.09581184387207,
+      "learning_rate": 3.215962441314554e-06,
+      "loss": 1.4842,
+      "step": 1010
+    },
+    {
+      "epoch": 7.183098591549296,
+      "grad_norm": 27.576128005981445,
+      "learning_rate": 3.137715179968701e-06,
+      "loss": 1.5063,
+      "step": 1020
+    },
+    {
+      "epoch": 7.253521126760563,
+      "grad_norm": 29.655752182006836,
+      "learning_rate": 3.0594679186228483e-06,
+      "loss": 1.5052,
+      "step": 1030
+    },
+    {
+      "epoch": 7.323943661971831,
+      "grad_norm": 25.104883193969727,
+      "learning_rate": 2.9812206572769952e-06,
+      "loss": 1.42,
+      "step": 1040
+    },
+    {
+      "epoch": 7.394366197183099,
+      "grad_norm": 27.621112823486328,
+      "learning_rate": 2.902973395931143e-06,
+      "loss": 1.4671,
+      "step": 1050
+    },
+    {
+      "epoch": 7.394366197183099,
+      "eval_loss": 0.6450517177581787,
+      "eval_runtime": 8.9546,
+      "eval_samples_per_second": 107.096,
+      "eval_steps_per_second": 6.7,
+      "step": 1050
+    },
+    {
+      "epoch": 7.464788732394366,
+      "grad_norm": 27.425331115722656,
+      "learning_rate": 2.82472613458529e-06,
+      "loss": 1.4879,
+      "step": 1060
+    },
+    {
+      "epoch": 7.535211267605634,
+      "grad_norm": 27.76177978515625,
+      "learning_rate": 2.746478873239437e-06,
+      "loss": 1.5012,
+      "step": 1070
+    },
+    {
+      "epoch": 7.605633802816901,
+      "grad_norm": 24.934165954589844,
+      "learning_rate": 2.6682316118935843e-06,
+      "loss": 1.4386,
+      "step": 1080
+    },
+    {
+      "epoch": 7.676056338028169,
+      "grad_norm": 28.298328399658203,
+      "learning_rate": 2.5899843505477313e-06,
+      "loss": 1.4544,
+      "step": 1090
+    },
+    {
+      "epoch": 7.746478873239437,
+      "grad_norm": 24.99042320251465,
+      "learning_rate": 2.5117370892018782e-06,
+      "loss": 1.4076,
+      "step": 1100
+    },
+    {
+      "epoch": 7.746478873239437,
+      "eval_loss": 0.6194617748260498,
+      "eval_runtime": 8.9294,
+      "eval_samples_per_second": 107.398,
+      "eval_steps_per_second": 6.719,
+      "step": 1100
+    },
+    {
+      "epoch": 7.816901408450704,
+      "grad_norm": 27.29831314086914,
+      "learning_rate": 2.433489827856025e-06,
+      "loss": 1.4838,
+      "step": 1110
+    },
+    {
+      "epoch": 7.887323943661972,
+      "grad_norm": 27.53099250793457,
+      "learning_rate": 2.3552425665101726e-06,
+      "loss": 1.4745,
+      "step": 1120
+    },
+    {
+      "epoch": 7.957746478873239,
+      "grad_norm": 27.09596824645996,
+      "learning_rate": 2.2769953051643195e-06,
+      "loss": 1.3781,
+      "step": 1130
+    },
+    {
+      "epoch": 8.028169014084508,
+      "grad_norm": 26.090456008911133,
+      "learning_rate": 2.1987480438184665e-06,
+      "loss": 1.422,
+      "step": 1140
+    },
+    {
+      "epoch": 8.098591549295774,
+      "grad_norm": 26.628990173339844,
+      "learning_rate": 2.120500782472614e-06,
+      "loss": 1.345,
+      "step": 1150
+    },
+    {
+      "epoch": 8.098591549295774,
+      "eval_loss": 0.603298008441925,
+      "eval_runtime": 8.923,
+      "eval_samples_per_second": 107.475,
+      "eval_steps_per_second": 6.724,
+      "step": 1150
+    },
+    {
+      "epoch": 8.169014084507042,
+      "grad_norm": 26.968416213989258,
+      "learning_rate": 2.0422535211267608e-06,
+      "loss": 1.4478,
+      "step": 1160
+    },
+    {
+      "epoch": 8.23943661971831,
+      "grad_norm": 28.169918060302734,
+      "learning_rate": 1.9640062597809077e-06,
+      "loss": 1.3111,
+      "step": 1170
+    },
+    {
+      "epoch": 8.309859154929578,
+      "grad_norm": 28.084226608276367,
+      "learning_rate": 1.885758998435055e-06,
+      "loss": 1.3754,
+      "step": 1180
+    },
+    {
+      "epoch": 8.380281690140846,
+      "grad_norm": 28.451416015625,
+      "learning_rate": 1.807511737089202e-06,
+      "loss": 1.3996,
+      "step": 1190
+    },
+    {
+      "epoch": 8.450704225352112,
+      "grad_norm": 27.99500846862793,
+      "learning_rate": 1.729264475743349e-06,
+      "loss": 1.3818,
+      "step": 1200
+    },
+    {
+      "epoch": 8.450704225352112,
+      "eval_loss": 0.5862457752227783,
+      "eval_runtime": 8.9231,
+      "eval_samples_per_second": 107.473,
+      "eval_steps_per_second": 6.724,
+      "step": 1200
+    },
+    {
+      "epoch": 8.52112676056338,
+      "grad_norm": 26.25287628173828,
+      "learning_rate": 1.6510172143974962e-06,
+      "loss": 1.348,
+      "step": 1210
+    },
+    {
+      "epoch": 8.591549295774648,
+      "grad_norm": 27.26688003540039,
+      "learning_rate": 1.5727699530516433e-06,
+      "loss": 1.3567,
+      "step": 1220
+    },
+    {
+      "epoch": 8.661971830985916,
+      "grad_norm": 25.22686767578125,
+      "learning_rate": 1.4945226917057903e-06,
+      "loss": 1.331,
+      "step": 1230
+    },
+    {
+      "epoch": 8.732394366197184,
+      "grad_norm": 27.34234619140625,
+      "learning_rate": 1.4162754303599375e-06,
+      "loss": 1.2977,
+      "step": 1240
+    },
+    {
+      "epoch": 8.80281690140845,
+      "grad_norm": 23.48381233215332,
+      "learning_rate": 1.3380281690140844e-06,
+      "loss": 1.2578,
+      "step": 1250
+    },
+    {
+      "epoch": 8.80281690140845,
+      "eval_loss": 0.5742074847221375,
+      "eval_runtime": 8.9308,
+      "eval_samples_per_second": 107.381,
+      "eval_steps_per_second": 6.718,
+      "step": 1250
+    },
+    {
+      "epoch": 8.873239436619718,
+      "grad_norm": 25.575672149658203,
+      "learning_rate": 1.2597809076682316e-06,
+      "loss": 1.2807,
+      "step": 1260
+    },
+    {
+      "epoch": 8.943661971830986,
+      "grad_norm": 27.154817581176758,
+      "learning_rate": 1.1815336463223787e-06,
+      "loss": 1.3597,
+      "step": 1270
+    },
+    {
+      "epoch": 9.014084507042254,
+      "grad_norm": 28.042072296142578,
+      "learning_rate": 1.103286384976526e-06,
+      "loss": 1.3292,
+      "step": 1280
+    },
+    {
+      "epoch": 9.084507042253522,
+      "grad_norm": 27.011009216308594,
+      "learning_rate": 1.0250391236306729e-06,
+      "loss": 1.2585,
+      "step": 1290
+    },
+    {
+      "epoch": 9.154929577464788,
+      "grad_norm": 27.294761657714844,
+      "learning_rate": 9.467918622848201e-07,
+      "loss": 1.2552,
+      "step": 1300
+    },
+    {
+      "epoch": 9.154929577464788,
+      "eval_loss": 0.5647178292274475,
+      "eval_runtime": 8.9528,
+      "eval_samples_per_second": 107.117,
+      "eval_steps_per_second": 6.702,
+      "step": 1300
+    },
+    {
+      "epoch": 9.225352112676056,
+      "grad_norm": 25.794416427612305,
+      "learning_rate": 8.685446009389673e-07,
+      "loss": 1.3339,
+      "step": 1310
+    },
+    {
+      "epoch": 9.295774647887324,
+      "grad_norm": 26.401464462280273,
+      "learning_rate": 7.902973395931143e-07,
+      "loss": 1.2872,
+      "step": 1320
+    },
+    {
+      "epoch": 9.366197183098592,
+      "grad_norm": 28.1634464263916,
+      "learning_rate": 7.120500782472614e-07,
+      "loss": 1.276,
+      "step": 1330
+    },
+    {
+      "epoch": 9.43661971830986,
+      "grad_norm": 26.156156539916992,
+      "learning_rate": 6.338028169014085e-07,
+      "loss": 1.2846,
+      "step": 1340
+    },
+    {
+      "epoch": 9.507042253521126,
+      "grad_norm": 26.216571807861328,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 1.2782,
+      "step": 1350
+    },
+    {
+      "epoch": 9.507042253521126,
+      "eval_loss": 0.5621166229248047,
+      "eval_runtime": 8.9665,
+      "eval_samples_per_second": 106.953,
+      "eval_steps_per_second": 6.692,
+      "step": 1350
+    },
+    {
+      "epoch": 9.577464788732394,
+      "grad_norm": 26.63737678527832,
+      "learning_rate": 4.773082942097027e-07,
+      "loss": 1.2883,
+      "step": 1360
+    },
+    {
+      "epoch": 9.647887323943662,
+      "grad_norm": 27.532459259033203,
+      "learning_rate": 3.990610328638498e-07,
+      "loss": 1.2515,
+      "step": 1370
+    },
+    {
+      "epoch": 9.71830985915493,
+      "grad_norm": 23.93533706665039,
+      "learning_rate": 3.208137715179969e-07,
+      "loss": 1.3023,
+      "step": 1380
+    },
+    {
+      "epoch": 9.788732394366198,
+      "grad_norm": 26.48802375793457,
+      "learning_rate": 2.42566510172144e-07,
+      "loss": 1.3053,
+      "step": 1390
+    },
+    {
+      "epoch": 9.859154929577464,
+      "grad_norm": 25.6018123626709,
+      "learning_rate": 1.643192488262911e-07,
+      "loss": 1.2556,
+      "step": 1400
+    },
+    {
+      "epoch": 9.859154929577464,
+      "eval_loss": 0.5561918616294861,
+      "eval_runtime": 9.3282,
+      "eval_samples_per_second": 102.806,
+      "eval_steps_per_second": 6.432,
+      "step": 1400
+    },
+    {
+      "epoch": 9.929577464788732,
+      "grad_norm": 26.17299461364746,
+      "learning_rate": 8.607198748043818e-08,
+      "loss": 1.2926,
+      "step": 1410
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 28.140972137451172,
+      "learning_rate": 7.824726134585291e-09,
+      "loss": 1.2199,
+      "step": 1420
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1420,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 350,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5eaf2a66839f8c6540bdf21f08aebfd47bb9d0c1b65c23a5de9ffd4bcd50343e
+size 5624