beamaia commited on Feb 22, 2024

Commit

de5bdfb

verified ·

1 Parent(s): 231bf01

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +87 -5
adapter_config.json +3 -3
checkpoint-1520/README.md +204 -0
checkpoint-1520/adapter_config.json +29 -0
checkpoint-1520/adapter_model.safetensors +3 -0
checkpoint-1520/optimizer.pt +3 -0
checkpoint-1520/rng_state_0.pth +3 -0
checkpoint-1520/rng_state_1.pth +3 -0
checkpoint-1520/scheduler.pt +3 -0
checkpoint-1520/special_tokens_map.json +24 -0
checkpoint-1520/tokenizer.json +0 -0
checkpoint-1520/tokenizer.model +3 -0
checkpoint-1520/tokenizer_config.json +43 -0
checkpoint-1520/trainer_state.json +1161 -0
checkpoint-1520/training_args.bin +3 -0
checkpoint-1540/README.md +204 -0
checkpoint-1540/adapter_config.json +29 -0
checkpoint-1540/adapter_model.safetensors +3 -0
checkpoint-1540/optimizer.pt +3 -0
checkpoint-1540/rng_state_0.pth +3 -0
checkpoint-1540/rng_state_1.pth +3 -0
checkpoint-1540/scheduler.pt +3 -0
checkpoint-1540/special_tokens_map.json +24 -0
checkpoint-1540/tokenizer.json +0 -0
checkpoint-1540/tokenizer.model +3 -0
checkpoint-1540/tokenizer_config.json +43 -0
checkpoint-1540/trainer_state.json +1176 -0
checkpoint-1540/training_args.bin +3 -0
checkpoint-1560/README.md +204 -0
checkpoint-1560/adapter_config.json +29 -0
checkpoint-1560/adapter_model.safetensors +3 -0
checkpoint-1560/optimizer.pt +3 -0
checkpoint-1560/rng_state_0.pth +3 -0
checkpoint-1560/rng_state_1.pth +3 -0
checkpoint-1560/scheduler.pt +3 -0
checkpoint-1560/special_tokens_map.json +24 -0
checkpoint-1560/tokenizer.json +0 -0
checkpoint-1560/tokenizer.model +3 -0
checkpoint-1560/tokenizer_config.json +43 -0
checkpoint-1560/trainer_state.json +1191 -0
checkpoint-1560/training_args.bin +3 -0
checkpoint-1580/README.md +204 -0
checkpoint-1580/adapter_config.json +29 -0
checkpoint-1580/adapter_model.safetensors +3 -0
checkpoint-1580/optimizer.pt +3 -0
checkpoint-1580/rng_state_0.pth +3 -0
checkpoint-1580/rng_state_1.pth +3 -0
checkpoint-1580/scheduler.pt +3 -0
checkpoint-1580/special_tokens_map.json +24 -0
checkpoint-1580/tokenizer.json +0 -0

README.md CHANGED Viewed

@@ -16,9 +16,9 @@ should probably proofread and complete it, then remove this comment. -->
 # ZeroShot-3.3.3-Mistral-7b-Multilanguage-3.2.0
-This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) on the None dataset.
 It achieves the following results on the evaluation set:
-- Loss: 1.7469
 ## Model description
@@ -48,17 +48,99 @@ The following hyperparameters were used during training:
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
-- training_steps: 2
 - mixed_precision_training: Native AMP
 ### Training results
 ### Framework versions
-- PEFT 0.7.1
 - Transformers 4.39.0.dev0
 - Pytorch 2.1.0+cu118
-- Datasets 2.16.1
 - Tokenizers 0.15.1

 # ZeroShot-3.3.3-Mistral-7b-Multilanguage-3.2.0
+This model is a fine-tuned version of [mistralai/Mistral-7B-Instruct-v0.2](https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3754
 ## Model description
 - optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
 - lr_scheduler_type: linear
 - lr_scheduler_warmup_ratio: 0.1
+- training_steps: 1612
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 1.8728        | 0.01  | 20   | 1.7906          |
+| 1.4796        | 0.02  | 40   | 1.1876          |
+| 0.8318        | 0.04  | 60   | 0.6326          |
+| 0.5478        | 0.05  | 80   | 0.5419          |
+| 0.517         | 0.06  | 100  | 0.5157          |
+| 0.5109        | 0.07  | 120  | 0.4906          |
+| 0.4656        | 0.09  | 140  | 0.4658          |
+| 0.4409        | 0.1   | 160  | 0.4519          |
+| 0.4316        | 0.11  | 180  | 0.4475          |
+| 0.4297        | 0.12  | 200  | 0.4428          |
+| 0.4226        | 0.14  | 220  | 0.4389          |
+| 0.4321        | 0.15  | 240  | 0.4360          |
+| 0.4261        | 0.16  | 260  | 0.4337          |
+| 0.4235        | 0.17  | 280  | 0.4307          |
+| 0.4279        | 0.19  | 300  | 0.4280          |
+| 0.419         | 0.2   | 320  | 0.4253          |
+| 0.4129        | 0.21  | 340  | 0.4230          |
+| 0.4097        | 0.22  | 360  | 0.4223          |
+| 0.4204        | 0.24  | 380  | 0.4200          |
+| 0.4042        | 0.25  | 400  | 0.4191          |
+| 0.4134        | 0.26  | 420  | 0.4176          |
+| 0.4006        | 0.27  | 440  | 0.4158          |
+| 0.4004        | 0.29  | 460  | 0.4141          |
+| 0.3967        | 0.3   | 480  | 0.4123          |
+| 0.4089        | 0.31  | 500  | 0.4100          |
+| 0.3924        | 0.32  | 520  | 0.4087          |
+| 0.4118        | 0.33  | 540  | 0.4079          |
+| 0.4027        | 0.35  | 560  | 0.4069          |
+| 0.393         | 0.36  | 580  | 0.4055          |
+| 0.4103        | 0.37  | 600  | 0.4047          |
+| 0.3896        | 0.38  | 620  | 0.4033          |
+| 0.3912        | 0.4   | 640  | 0.4016          |
+| 0.3897        | 0.41  | 660  | 0.4012          |
+| 0.3963        | 0.42  | 680  | 0.3994          |
+| 0.3914        | 0.43  | 700  | 0.3981          |
+| 0.3769        | 0.45  | 720  | 0.3970          |
+| 0.3904        | 0.46  | 740  | 0.3970          |
+| 0.3831        | 0.47  | 760  | 0.3951          |
+| 0.3922        | 0.48  | 780  | 0.3943          |
+| 0.403         | 0.5   | 800  | 0.3928          |
+| 0.3913        | 0.51  | 820  | 0.3922          |
+| 0.3836        | 0.52  | 840  | 0.3913          |
+| 0.3736        | 0.53  | 860  | 0.3903          |
+| 0.3773        | 0.55  | 880  | 0.3897          |
+| 0.3883        | 0.56  | 900  | 0.3890          |
+| 0.3751        | 0.57  | 920  | 0.3884          |
+| 0.3832        | 0.58  | 940  | 0.3874          |
+| 0.3726        | 0.6   | 960  | 0.3869          |
+| 0.3738        | 0.61  | 980  | 0.3861          |
+| 0.3809        | 0.62  | 1000 | 0.3855          |
+| 0.3871        | 0.63  | 1020 | 0.3845          |
+| 0.3799        | 0.64  | 1040 | 0.3838          |
+| 0.3882        | 0.66  | 1060 | 0.3831          |
+| 0.3846        | 0.67  | 1080 | 0.3823          |
+| 0.3696        | 0.68  | 1100 | 0.3821          |
+| 0.3791        | 0.69  | 1120 | 0.3816          |
+| 0.3726        | 0.71  | 1140 | 0.3808          |
+| 0.3698        | 0.72  | 1160 | 0.3804          |
+| 0.3777        | 0.73  | 1180 | 0.3800          |
+| 0.3637        | 0.74  | 1200 | 0.3794          |
+| 0.3653        | 0.76  | 1220 | 0.3787          |
+| 0.382         | 0.77  | 1240 | 0.3783          |
+| 0.3587        | 0.78  | 1260 | 0.3781          |
+| 0.3729        | 0.79  | 1280 | 0.3776          |
+| 0.3731        | 0.81  | 1300 | 0.3772          |
+| 0.3757        | 0.82  | 1320 | 0.3770          |
+| 0.3733        | 0.83  | 1340 | 0.3767          |
+| 0.3792        | 0.84  | 1360 | 0.3764          |
+| 0.3678        | 0.86  | 1380 | 0.3761          |
+| 0.3604        | 0.87  | 1400 | 0.3759          |
+| 0.3496        | 0.88  | 1420 | 0.3758          |
+| 0.3676        | 0.89  | 1440 | 0.3757          |
+| 0.3678        | 0.91  | 1460 | 0.3757          |
+| 0.3646        | 0.92  | 1480 | 0.3755          |
+| 0.3621        | 0.93  | 1500 | 0.3755          |
+| 0.3825        | 0.94  | 1520 | 0.3754          |
+| 0.3718        | 0.95  | 1540 | 0.3754          |
+| 0.3511        | 0.97  | 1560 | 0.3754          |
+| 0.3716        | 0.98  | 1580 | 0.3754          |
+| 0.3766        | 0.99  | 1600 | 0.3754          |
 ### Framework versions
+- PEFT 0.8.2
 - Transformers 4.39.0.dev0
 - Pytorch 2.1.0+cu118
+- Datasets 2.17.1
 - Tokenizers 0.15.1

adapter_config.json CHANGED Viewed

@@ -19,10 +19,10 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "k_proj",
     "v_proj",
-    "o_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_rslora": false

checkpoint-1520/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: mistralai/Mistral-7B-Instruct-v0.2
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-1520/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-1520/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cc68e493b63ec961fc5247aa68cd10a411aa1e1dd75b04a4314b0e7a17cdc3d
+size 27297032

checkpoint-1520/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b09f56e916f55df970291d6958ed0ccd42d06d29342b1918fff3ef348898f35a
+size 54678266

checkpoint-1520/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09386417525b0d73a8e964b5511ca3b5b6f91c924fd35779e18b740cd6d2ddf5
+size 14512

checkpoint-1520/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b312c5394a834d17495ea557792207f77d8e23a366e1f149500025e29aa3f2d7
+size 14512

checkpoint-1520/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fdd37660c565d65c59b9ac7504502e06e679b67458a6c6e51eb584b70628354
+size 1000

checkpoint-1520/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1520/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1520/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-1520/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1520/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1161 @@

+{
+  "best_metric": 0.3754417300224304,
+  "best_model_checkpoint": "./mistral/22-02-24-Weni-ZeroShot-3.3.3-Mistral-7b-Multilanguage-3.2.0_Zeroshot-2_max_steps-1612_batch_16_2024-02-22_ppid_1326/checkpoint-1520",
+  "epoch": 0.9423434593924365,
+  "eval_steps": 20,
+  "global_step": 1520,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.6690024137496948,
+      "learning_rate": 2.3602484472049692e-05,
+      "loss": 1.8728,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 1.7905555963516235,
+      "eval_runtime": 165.4628,
+      "eval_samples_per_second": 17.327,
+      "eval_steps_per_second": 4.333,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.7746976613998413,
+      "learning_rate": 4.8447204968944106e-05,
+      "loss": 1.4796,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.1875672340393066,
+      "eval_runtime": 165.7743,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.1963611841201782,
+      "learning_rate": 7.329192546583851e-05,
+      "loss": 0.8318,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 0.6325646638870239,
+      "eval_runtime": 165.8606,
+      "eval_samples_per_second": 17.286,
+      "eval_steps_per_second": 4.323,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.6274264454841614,
+      "learning_rate": 9.813664596273293e-05,
+      "loss": 0.5478,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.541927695274353,
+      "eval_runtime": 165.8755,
+      "eval_samples_per_second": 17.284,
+      "eval_steps_per_second": 4.323,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.7583674788475037,
+      "learning_rate": 0.00012298136645962735,
+      "loss": 0.517,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.5157255530357361,
+      "eval_runtime": 165.8227,
+      "eval_samples_per_second": 17.29,
+      "eval_steps_per_second": 4.324,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.496155321598053,
+      "learning_rate": 0.00014782608695652173,
+      "loss": 0.5109,
+      "step": 120
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.49060019850730896,
+      "eval_runtime": 165.8171,
+      "eval_samples_per_second": 17.29,
+      "eval_steps_per_second": 4.324,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.3945171535015106,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 0.4656,
+      "step": 140
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4657692313194275,
+      "eval_runtime": 165.7753,
+      "eval_samples_per_second": 17.294,
+      "eval_steps_per_second": 4.325,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.3318285346031189,
+      "learning_rate": 0.00019627329192546585,
+      "loss": 0.4409,
+      "step": 160
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.45186159014701843,
+      "eval_runtime": 165.7746,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.4603807330131531,
+      "learning_rate": 0.00019993226958500473,
+      "loss": 0.4316,
+      "step": 180
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.4474850594997406,
+      "eval_runtime": 165.6607,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 180
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.4568885862827301,
+      "learning_rate": 0.00019967929472585524,
+      "loss": 0.4297,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.4427547752857208,
+      "eval_runtime": 165.7208,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.384003221988678,
+      "learning_rate": 0.00019923944021970962,
+      "loss": 0.4226,
+      "step": 220
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4389376938343048,
+      "eval_runtime": 165.7023,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.327,
+      "step": 220
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.30612272024154663,
+      "learning_rate": 0.00019861353070979048,
+      "loss": 0.4321,
+      "step": 240
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.4359733462333679,
+      "eval_runtime": 165.7286,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 240
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.4149855971336365,
+      "learning_rate": 0.0001978027396569313,
+      "loss": 0.4261,
+      "step": 260
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.4336954355239868,
+      "eval_runtime": 165.7171,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 260
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.28470170497894287,
+      "learning_rate": 0.00019680858713956126,
+      "loss": 0.4235,
+      "step": 280
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 0.4306911528110504,
+      "eval_runtime": 165.7298,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 280
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.3317676782608032,
+      "learning_rate": 0.00019563293700384832,
+      "loss": 0.4279,
+      "step": 300
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.4280063509941101,
+      "eval_runtime": 165.7359,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 300
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.3677004277706146,
+      "learning_rate": 0.0001942779933693437,
+      "loss": 0.419,
+      "step": 320
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.425252765417099,
+      "eval_runtime": 165.7143,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 320
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.34667083621025085,
+      "learning_rate": 0.00019274629649667838,
+      "loss": 0.4129,
+      "step": 340
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.423022985458374,
+      "eval_runtime": 165.6904,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 4.327,
+      "step": 340
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.37289124727249146,
+      "learning_rate": 0.00019104071802505943,
+      "loss": 0.4097,
+      "step": 360
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.4223038852214813,
+      "eval_runtime": 165.7184,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 360
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.9662333130836487,
+      "learning_rate": 0.00018926226943248415,
+      "loss": 0.4204,
+      "step": 380
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.41996675729751587,
+      "eval_runtime": 165.7378,
+      "eval_samples_per_second": 17.298,
+      "eval_steps_per_second": 4.326,
+      "step": 380
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.43084949254989624,
+      "learning_rate": 0.00018722711057125052,
+      "loss": 0.4042,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.4190637767314911,
+      "eval_runtime": 165.6378,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 400
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.3700352609157562,
+      "learning_rate": 0.00018502841753095908,
+      "loss": 0.4134,
+      "step": 420
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.4176079034805298,
+      "eval_runtime": 165.7021,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.327,
+      "step": 420
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.2829599976539612,
+      "learning_rate": 0.00018267031244128938,
+      "loss": 0.4006,
+      "step": 440
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 0.4157721698284149,
+      "eval_runtime": 165.7174,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 440
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.2943759560585022,
+      "learning_rate": 0.00018015721629907882,
+      "loss": 0.4004,
+      "step": 460
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.4140998125076294,
+      "eval_runtime": 165.7622,
+      "eval_samples_per_second": 17.296,
+      "eval_steps_per_second": 4.325,
+      "step": 460
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.36071881651878357,
+      "learning_rate": 0.00017749384067979764,
+      "loss": 0.3967,
+      "step": 480
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.4122526943683624,
+      "eval_runtime": 165.6609,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 480
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.3050592243671417,
+      "learning_rate": 0.00017468517890424455,
+      "loss": 0.4089,
+      "step": 500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.4099767506122589,
+      "eval_runtime": 165.7178,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.3138140141963959,
+      "learning_rate": 0.00017173649667702337,
+      "loss": 0.3924,
+      "step": 520
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.40873026847839355,
+      "eval_runtime": 165.7231,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.326,
+      "step": 520
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.299787700176239,
+      "learning_rate": 0.0001686533222143523,
+      "loss": 0.4118,
+      "step": 540
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.40794187784194946,
+      "eval_runtime": 165.723,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.326,
+      "step": 540
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.37338224053382874,
+      "learning_rate": 0.0001654414358797141,
+      "loss": 0.4027,
+      "step": 560
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.4068893790245056,
+      "eval_runtime": 165.5504,
+      "eval_samples_per_second": 17.318,
+      "eval_steps_per_second": 4.331,
+      "step": 560
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.3397510349750519,
+      "learning_rate": 0.00016210685934677782,
+      "loss": 0.393,
+      "step": 580
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.40551885962486267,
+      "eval_runtime": 165.5533,
+      "eval_samples_per_second": 17.318,
+      "eval_steps_per_second": 4.331,
+      "step": 580
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.3803115487098694,
+      "learning_rate": 0.00015883106145163397,
+      "loss": 0.4103,
+      "step": 600
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.40474218130111694,
+      "eval_runtime": 165.6206,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 600
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.3368137776851654,
+      "learning_rate": 0.00015527541943543543,
+      "loss": 0.3896,
+      "step": 620
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.40325844287872314,
+      "eval_runtime": 165.6617,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 620
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.32399722933769226,
+      "learning_rate": 0.00015161614656089196,
+      "loss": 0.3912,
+      "step": 640
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.4015989899635315,
+      "eval_runtime": 165.6304,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 640
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.42368754744529724,
+      "learning_rate": 0.0001478601032660207,
+      "loss": 0.3897,
+      "step": 660
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.40123647451400757,
+      "eval_runtime": 165.6021,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 4.33,
+      "step": 660
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.36450713872909546,
+      "learning_rate": 0.00014401433141490152,
+      "loss": 0.3963,
+      "step": 680
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.39942467212677,
+      "eval_runtime": 165.5741,
+      "eval_samples_per_second": 17.316,
+      "eval_steps_per_second": 4.33,
+      "step": 680
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.3598613739013672,
+      "learning_rate": 0.00014008604109552665,
+      "loss": 0.3914,
+      "step": 700
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.39811620116233826,
+      "eval_runtime": 165.6088,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.329,
+      "step": 700
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.3440189063549042,
+      "learning_rate": 0.00013608259710226186,
+      "loss": 0.3769,
+      "step": 720
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.396987646818161,
+      "eval_runtime": 165.6485,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.328,
+      "step": 720
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.3481440544128418,
+      "learning_rate": 0.0001320115051282632,
+      "loss": 0.3904,
+      "step": 740
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.3970092833042145,
+      "eval_runtime": 165.6528,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 740
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.4135587215423584,
+      "learning_rate": 0.0001278803976937355,
+      "loss": 0.3831,
+      "step": 760
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.39514589309692383,
+      "eval_runtime": 165.7492,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 760
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.34816452860832214,
+      "learning_rate": 0.00012369701983641388,
+      "loss": 0.3922,
+      "step": 780
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.3943038880825043,
+      "eval_runtime": 165.7169,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 780
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.4880768060684204,
+      "learning_rate": 0.0001194692145910969,
+      "loss": 0.403,
+      "step": 800
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.3928041160106659,
+      "eval_runtime": 165.6712,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.328,
+      "step": 800
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.3198924660682678,
+      "learning_rate": 0.00011520490828545361,
+      "loss": 0.3913,
+      "step": 820
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.3922466039657593,
+      "eval_runtime": 165.7505,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 820
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.33648762106895447,
+      "learning_rate": 0.00011091209567967229,
+      "loss": 0.3836,
+      "step": 840
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.39126288890838623,
+      "eval_runtime": 165.7535,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 840
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.2874184846878052,
+      "learning_rate": 0.00010659882497781187,
+      "loss": 0.3736,
+      "step": 860
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.3903014063835144,
+      "eval_runtime": 165.7718,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 860
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.37889736890792847,
+      "learning_rate": 0.00010227318273895532,
+      "loss": 0.3773,
+      "step": 880
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.38970035314559937,
+      "eval_runtime": 165.5823,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.33,
+      "step": 880
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.32016921043395996,
+      "learning_rate": 9.794327871645574e-05,
+      "loss": 0.3883,
+      "step": 900
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.38903746008872986,
+      "eval_runtime": 165.5591,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 900
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.34894031286239624,
+      "learning_rate": 9.361723065369682e-05,
+      "loss": 0.3751,
+      "step": 920
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.3883580267429352,
+      "eval_runtime": 165.5778,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.33,
+      "step": 920
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.35315269231796265,
+      "learning_rate": 8.930314906487384e-05,
+      "loss": 0.3832,
+      "step": 940
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.3874415457248688,
+      "eval_runtime": 165.6643,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 940
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.4276430904865265,
+      "learning_rate": 8.500912202932824e-05,
+      "loss": 0.3726,
+      "step": 960
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.3868561387062073,
+      "eval_runtime": 165.6292,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 960
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.32810911536216736,
+      "learning_rate": 8.07432000279427e-05,
+      "loss": 0.3738,
+      "step": 980
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.38609209656715393,
+      "eval_runtime": 165.6113,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.329,
+      "step": 980
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.3598964214324951,
+      "learning_rate": 7.651338085002669e-05,
+      "loss": 0.3809,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 0.3854670822620392,
+      "eval_runtime": 165.6347,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 1000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.32283729314804077,
+      "learning_rate": 7.232759459898832e-05,
+      "loss": 0.3871,
+      "step": 1020
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.38449159264564514,
+      "eval_runtime": 165.5636,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1020
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.3151933252811432,
+      "learning_rate": 6.819368882490458e-05,
+      "loss": 0.3799,
+      "step": 1040
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.3837529420852661,
+      "eval_runtime": 165.6596,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 1040
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.37252795696258545,
+      "learning_rate": 6.411941381186302e-05,
+      "loss": 0.3882,
+      "step": 1060
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.38311225175857544,
+      "eval_runtime": 165.5928,
+      "eval_samples_per_second": 17.314,
+      "eval_steps_per_second": 4.33,
+      "step": 1060
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.33380192518234253,
+      "learning_rate": 6.01124080476589e-05,
+      "loss": 0.3846,
+      "step": 1080
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.3823437988758087,
+      "eval_runtime": 165.6364,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 1080
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.3543049991130829,
+      "learning_rate": 5.6180183903088844e-05,
+      "loss": 0.3696,
+      "step": 1100
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.3821370601654053,
+      "eval_runtime": 165.5383,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.331,
+      "step": 1100
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.374683141708374,
+      "learning_rate": 5.233011354768991e-05,
+      "loss": 0.3791,
+      "step": 1120
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.38156434893608093,
+      "eval_runtime": 165.6726,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.328,
+      "step": 1120
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.3851562738418579,
+      "learning_rate": 4.8569415128328945e-05,
+      "loss": 0.3726,
+      "step": 1140
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.38082343339920044,
+      "eval_runtime": 165.6253,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1140
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.422851026058197,
+      "learning_rate": 4.490513923655564e-05,
+      "loss": 0.3698,
+      "step": 1160
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.38037535548210144,
+      "eval_runtime": 165.6523,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 1160
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.3657631278038025,
+      "learning_rate": 4.134415569008935e-05,
+      "loss": 0.3777,
+      "step": 1180
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 0.3799656629562378,
+      "eval_runtime": 165.615,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 1180
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.34044766426086426,
+      "learning_rate": 3.789314065322218e-05,
+      "loss": 0.3637,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.3793714940547943,
+      "eval_runtime": 165.687,
+      "eval_samples_per_second": 17.304,
+      "eval_steps_per_second": 4.327,
+      "step": 1200
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.327467679977417,
+      "learning_rate": 3.455856412028593e-05,
+      "loss": 0.3653,
+      "step": 1220
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.3786996603012085,
+      "eval_runtime": 165.7148,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 1220
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3492739796638489,
+      "learning_rate": 3.1346677785647704e-05,
+      "loss": 0.382,
+      "step": 1240
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.3782605230808258,
+      "eval_runtime": 165.621,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 1240
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3024798333644867,
+      "learning_rate": 2.826350332297667e-05,
+      "loss": 0.3587,
+      "step": 1260
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.37805166840553284,
+      "eval_runtime": 165.623,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1260
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3727082312107086,
+      "learning_rate": 2.531482109575547e-05,
+      "loss": 0.3729,
+      "step": 1280
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.3775557577610016,
+      "eval_runtime": 165.6074,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.33,
+      "step": 1280
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.41581809520721436,
+      "learning_rate": 2.250615932020238e-05,
+      "loss": 0.3731,
+      "step": 1300
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.37723448872566223,
+      "eval_runtime": 165.6275,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1300
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.44623810052871704,
+      "learning_rate": 1.9842783700921196e-05,
+      "loss": 0.3757,
+      "step": 1320
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.3769790530204773,
+      "eval_runtime": 165.5377,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.331,
+      "step": 1320
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.365567147731781,
+      "learning_rate": 1.732968755871063e-05,
+      "loss": 0.3733,
+      "step": 1340
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.3767223656177521,
+      "eval_runtime": 165.6665,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 1340
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4132380187511444,
+      "learning_rate": 1.4971582469040957e-05,
+      "loss": 0.3792,
+      "step": 1360
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.3763655126094818,
+      "eval_runtime": 165.6456,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.329,
+      "step": 1360
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.33449500799179077,
+      "learning_rate": 1.2772889428749524e-05,
+      "loss": 0.3678,
+      "step": 1380
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.3761462867259979,
+      "eval_runtime": 165.6026,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 4.33,
+      "step": 1380
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.28829070925712585,
+      "learning_rate": 1.0737730567515847e-05,
+      "loss": 0.3604,
+      "step": 1400
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.3759004473686218,
+      "eval_runtime": 165.5228,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.332,
+      "step": 1400
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.4277011454105377,
+      "learning_rate": 8.869921419655457e-06,
+      "loss": 0.3496,
+      "step": 1420
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.3757947087287903,
+      "eval_runtime": 165.6492,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.328,
+      "step": 1420
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.40312379598617554,
+      "learning_rate": 7.172963770721341e-06,
+      "loss": 0.3676,
+      "step": 1440
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.3757094442844391,
+      "eval_runtime": 165.5144,
+      "eval_samples_per_second": 17.322,
+      "eval_steps_per_second": 4.332,
+      "step": 1440
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.45307889580726624,
+      "learning_rate": 5.650039092324766e-06,
+      "loss": 0.3678,
+      "step": 1460
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.37566059827804565,
+      "eval_runtime": 165.5183,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.332,
+      "step": 1460
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.31653299927711487,
+      "learning_rate": 4.304002577483357e-06,
+      "loss": 0.3646,
+      "step": 1480
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.3755495548248291,
+      "eval_runtime": 165.5577,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1480
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.3237595856189728,
+      "learning_rate": 3.13737778767923e-06,
+      "loss": 0.3621,
+      "step": 1500
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.3754778504371643,
+      "eval_runtime": 165.5564,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1500
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.41257408261299133,
+      "learning_rate": 2.1523519216631094e-06,
+      "loss": 0.3825,
+      "step": 1520
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.3754417300224304,
+      "eval_runtime": 165.5324,
+      "eval_samples_per_second": 17.32,
+      "eval_steps_per_second": 4.331,
+      "step": 1520
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1612,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20,
+  "total_flos": 7.848376780749537e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1520/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19cdc3b0645f297de07155d8f0cee10c20d51defbbc762523c42ad678ebd6dbd
+size 5176

checkpoint-1540/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: mistralai/Mistral-7B-Instruct-v0.2
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-1540/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-1540/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17a72d10f9fa75c9578ea582ce17e7b1f1df0409d6c636c2b3e71f0345d3cc90
+size 27297032

checkpoint-1540/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:370de6bca2f9c5dbbe2342eb1078ff874afad96c19cd542fd613e6e379e7f35c
+size 54678266

checkpoint-1540/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:959e54607cfbf00c10e9e0355fbcf0841eaa0ae0240205cdb890d7bf760633ba
+size 14512

checkpoint-1540/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:090413aa08658517e33fd7bd136f03414977178a69f37ea012a04f5d1c8dbe35
+size 14512

checkpoint-1540/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1681d4c860a3c5ce4bd87ba235bfe9fc1520c429d2434187ca819d9f22cc82cc
+size 1000

checkpoint-1540/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1540/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1540/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-1540/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1540/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1176 @@

+{
+  "best_metric": 0.37540262937545776,
+  "best_model_checkpoint": "./mistral/22-02-24-Weni-ZeroShot-3.3.3-Mistral-7b-Multilanguage-3.2.0_Zeroshot-2_max_steps-1612_batch_16_2024-02-22_ppid_1326/checkpoint-1540",
+  "epoch": 0.9547427154370738,
+  "eval_steps": 20,
+  "global_step": 1540,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.6690024137496948,
+      "learning_rate": 2.3602484472049692e-05,
+      "loss": 1.8728,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 1.7905555963516235,
+      "eval_runtime": 165.4628,
+      "eval_samples_per_second": 17.327,
+      "eval_steps_per_second": 4.333,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.7746976613998413,
+      "learning_rate": 4.8447204968944106e-05,
+      "loss": 1.4796,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.1875672340393066,
+      "eval_runtime": 165.7743,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.1963611841201782,
+      "learning_rate": 7.329192546583851e-05,
+      "loss": 0.8318,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 0.6325646638870239,
+      "eval_runtime": 165.8606,
+      "eval_samples_per_second": 17.286,
+      "eval_steps_per_second": 4.323,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.6274264454841614,
+      "learning_rate": 9.813664596273293e-05,
+      "loss": 0.5478,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.541927695274353,
+      "eval_runtime": 165.8755,
+      "eval_samples_per_second": 17.284,
+      "eval_steps_per_second": 4.323,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.7583674788475037,
+      "learning_rate": 0.00012298136645962735,
+      "loss": 0.517,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.5157255530357361,
+      "eval_runtime": 165.8227,
+      "eval_samples_per_second": 17.29,
+      "eval_steps_per_second": 4.324,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.496155321598053,
+      "learning_rate": 0.00014782608695652173,
+      "loss": 0.5109,
+      "step": 120
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.49060019850730896,
+      "eval_runtime": 165.8171,
+      "eval_samples_per_second": 17.29,
+      "eval_steps_per_second": 4.324,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.3945171535015106,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 0.4656,
+      "step": 140
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4657692313194275,
+      "eval_runtime": 165.7753,
+      "eval_samples_per_second": 17.294,
+      "eval_steps_per_second": 4.325,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.3318285346031189,
+      "learning_rate": 0.00019627329192546585,
+      "loss": 0.4409,
+      "step": 160
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.45186159014701843,
+      "eval_runtime": 165.7746,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.4603807330131531,
+      "learning_rate": 0.00019993226958500473,
+      "loss": 0.4316,
+      "step": 180
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.4474850594997406,
+      "eval_runtime": 165.6607,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 180
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.4568885862827301,
+      "learning_rate": 0.00019967929472585524,
+      "loss": 0.4297,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.4427547752857208,
+      "eval_runtime": 165.7208,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.384003221988678,
+      "learning_rate": 0.00019923944021970962,
+      "loss": 0.4226,
+      "step": 220
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4389376938343048,
+      "eval_runtime": 165.7023,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.327,
+      "step": 220
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.30612272024154663,
+      "learning_rate": 0.00019861353070979048,
+      "loss": 0.4321,
+      "step": 240
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.4359733462333679,
+      "eval_runtime": 165.7286,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 240
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.4149855971336365,
+      "learning_rate": 0.0001978027396569313,
+      "loss": 0.4261,
+      "step": 260
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.4336954355239868,
+      "eval_runtime": 165.7171,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 260
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.28470170497894287,
+      "learning_rate": 0.00019680858713956126,
+      "loss": 0.4235,
+      "step": 280
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 0.4306911528110504,
+      "eval_runtime": 165.7298,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 280
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.3317676782608032,
+      "learning_rate": 0.00019563293700384832,
+      "loss": 0.4279,
+      "step": 300
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.4280063509941101,
+      "eval_runtime": 165.7359,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 300
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.3677004277706146,
+      "learning_rate": 0.0001942779933693437,
+      "loss": 0.419,
+      "step": 320
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.425252765417099,
+      "eval_runtime": 165.7143,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 320
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.34667083621025085,
+      "learning_rate": 0.00019274629649667838,
+      "loss": 0.4129,
+      "step": 340
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.423022985458374,
+      "eval_runtime": 165.6904,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 4.327,
+      "step": 340
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.37289124727249146,
+      "learning_rate": 0.00019104071802505943,
+      "loss": 0.4097,
+      "step": 360
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.4223038852214813,
+      "eval_runtime": 165.7184,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 360
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.9662333130836487,
+      "learning_rate": 0.00018926226943248415,
+      "loss": 0.4204,
+      "step": 380
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.41996675729751587,
+      "eval_runtime": 165.7378,
+      "eval_samples_per_second": 17.298,
+      "eval_steps_per_second": 4.326,
+      "step": 380
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.43084949254989624,
+      "learning_rate": 0.00018722711057125052,
+      "loss": 0.4042,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.4190637767314911,
+      "eval_runtime": 165.6378,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 400
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.3700352609157562,
+      "learning_rate": 0.00018502841753095908,
+      "loss": 0.4134,
+      "step": 420
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.4176079034805298,
+      "eval_runtime": 165.7021,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.327,
+      "step": 420
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.2829599976539612,
+      "learning_rate": 0.00018267031244128938,
+      "loss": 0.4006,
+      "step": 440
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 0.4157721698284149,
+      "eval_runtime": 165.7174,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 440
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.2943759560585022,
+      "learning_rate": 0.00018015721629907882,
+      "loss": 0.4004,
+      "step": 460
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.4140998125076294,
+      "eval_runtime": 165.7622,
+      "eval_samples_per_second": 17.296,
+      "eval_steps_per_second": 4.325,
+      "step": 460
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.36071881651878357,
+      "learning_rate": 0.00017749384067979764,
+      "loss": 0.3967,
+      "step": 480
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.4122526943683624,
+      "eval_runtime": 165.6609,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 480
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.3050592243671417,
+      "learning_rate": 0.00017468517890424455,
+      "loss": 0.4089,
+      "step": 500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.4099767506122589,
+      "eval_runtime": 165.7178,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.3138140141963959,
+      "learning_rate": 0.00017173649667702337,
+      "loss": 0.3924,
+      "step": 520
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.40873026847839355,
+      "eval_runtime": 165.7231,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.326,
+      "step": 520
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.299787700176239,
+      "learning_rate": 0.0001686533222143523,
+      "loss": 0.4118,
+      "step": 540
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.40794187784194946,
+      "eval_runtime": 165.723,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.326,
+      "step": 540
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.37338224053382874,
+      "learning_rate": 0.0001654414358797141,
+      "loss": 0.4027,
+      "step": 560
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.4068893790245056,
+      "eval_runtime": 165.5504,
+      "eval_samples_per_second": 17.318,
+      "eval_steps_per_second": 4.331,
+      "step": 560
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.3397510349750519,
+      "learning_rate": 0.00016210685934677782,
+      "loss": 0.393,
+      "step": 580
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.40551885962486267,
+      "eval_runtime": 165.5533,
+      "eval_samples_per_second": 17.318,
+      "eval_steps_per_second": 4.331,
+      "step": 580
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.3803115487098694,
+      "learning_rate": 0.00015883106145163397,
+      "loss": 0.4103,
+      "step": 600
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.40474218130111694,
+      "eval_runtime": 165.6206,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 600
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.3368137776851654,
+      "learning_rate": 0.00015527541943543543,
+      "loss": 0.3896,
+      "step": 620
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.40325844287872314,
+      "eval_runtime": 165.6617,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 620
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.32399722933769226,
+      "learning_rate": 0.00015161614656089196,
+      "loss": 0.3912,
+      "step": 640
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.4015989899635315,
+      "eval_runtime": 165.6304,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 640
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.42368754744529724,
+      "learning_rate": 0.0001478601032660207,
+      "loss": 0.3897,
+      "step": 660
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.40123647451400757,
+      "eval_runtime": 165.6021,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 4.33,
+      "step": 660
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.36450713872909546,
+      "learning_rate": 0.00014401433141490152,
+      "loss": 0.3963,
+      "step": 680
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.39942467212677,
+      "eval_runtime": 165.5741,
+      "eval_samples_per_second": 17.316,
+      "eval_steps_per_second": 4.33,
+      "step": 680
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.3598613739013672,
+      "learning_rate": 0.00014008604109552665,
+      "loss": 0.3914,
+      "step": 700
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.39811620116233826,
+      "eval_runtime": 165.6088,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.329,
+      "step": 700
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.3440189063549042,
+      "learning_rate": 0.00013608259710226186,
+      "loss": 0.3769,
+      "step": 720
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.396987646818161,
+      "eval_runtime": 165.6485,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.328,
+      "step": 720
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.3481440544128418,
+      "learning_rate": 0.0001320115051282632,
+      "loss": 0.3904,
+      "step": 740
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.3970092833042145,
+      "eval_runtime": 165.6528,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 740
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.4135587215423584,
+      "learning_rate": 0.0001278803976937355,
+      "loss": 0.3831,
+      "step": 760
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.39514589309692383,
+      "eval_runtime": 165.7492,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 760
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.34816452860832214,
+      "learning_rate": 0.00012369701983641388,
+      "loss": 0.3922,
+      "step": 780
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.3943038880825043,
+      "eval_runtime": 165.7169,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 780
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.4880768060684204,
+      "learning_rate": 0.0001194692145910969,
+      "loss": 0.403,
+      "step": 800
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.3928041160106659,
+      "eval_runtime": 165.6712,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.328,
+      "step": 800
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.3198924660682678,
+      "learning_rate": 0.00011520490828545361,
+      "loss": 0.3913,
+      "step": 820
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.3922466039657593,
+      "eval_runtime": 165.7505,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 820
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.33648762106895447,
+      "learning_rate": 0.00011091209567967229,
+      "loss": 0.3836,
+      "step": 840
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.39126288890838623,
+      "eval_runtime": 165.7535,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 840
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.2874184846878052,
+      "learning_rate": 0.00010659882497781187,
+      "loss": 0.3736,
+      "step": 860
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.3903014063835144,
+      "eval_runtime": 165.7718,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 860
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.37889736890792847,
+      "learning_rate": 0.00010227318273895532,
+      "loss": 0.3773,
+      "step": 880
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.38970035314559937,
+      "eval_runtime": 165.5823,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.33,
+      "step": 880
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.32016921043395996,
+      "learning_rate": 9.794327871645574e-05,
+      "loss": 0.3883,
+      "step": 900
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.38903746008872986,
+      "eval_runtime": 165.5591,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 900
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.34894031286239624,
+      "learning_rate": 9.361723065369682e-05,
+      "loss": 0.3751,
+      "step": 920
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.3883580267429352,
+      "eval_runtime": 165.5778,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.33,
+      "step": 920
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.35315269231796265,
+      "learning_rate": 8.930314906487384e-05,
+      "loss": 0.3832,
+      "step": 940
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.3874415457248688,
+      "eval_runtime": 165.6643,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 940
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.4276430904865265,
+      "learning_rate": 8.500912202932824e-05,
+      "loss": 0.3726,
+      "step": 960
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.3868561387062073,
+      "eval_runtime": 165.6292,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 960
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.32810911536216736,
+      "learning_rate": 8.07432000279427e-05,
+      "loss": 0.3738,
+      "step": 980
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.38609209656715393,
+      "eval_runtime": 165.6113,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.329,
+      "step": 980
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.3598964214324951,
+      "learning_rate": 7.651338085002669e-05,
+      "loss": 0.3809,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 0.3854670822620392,
+      "eval_runtime": 165.6347,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 1000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.32283729314804077,
+      "learning_rate": 7.232759459898832e-05,
+      "loss": 0.3871,
+      "step": 1020
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.38449159264564514,
+      "eval_runtime": 165.5636,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1020
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.3151933252811432,
+      "learning_rate": 6.819368882490458e-05,
+      "loss": 0.3799,
+      "step": 1040
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.3837529420852661,
+      "eval_runtime": 165.6596,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 1040
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.37252795696258545,
+      "learning_rate": 6.411941381186302e-05,
+      "loss": 0.3882,
+      "step": 1060
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.38311225175857544,
+      "eval_runtime": 165.5928,
+      "eval_samples_per_second": 17.314,
+      "eval_steps_per_second": 4.33,
+      "step": 1060
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.33380192518234253,
+      "learning_rate": 6.01124080476589e-05,
+      "loss": 0.3846,
+      "step": 1080
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.3823437988758087,
+      "eval_runtime": 165.6364,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 1080
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.3543049991130829,
+      "learning_rate": 5.6180183903088844e-05,
+      "loss": 0.3696,
+      "step": 1100
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.3821370601654053,
+      "eval_runtime": 165.5383,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.331,
+      "step": 1100
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.374683141708374,
+      "learning_rate": 5.233011354768991e-05,
+      "loss": 0.3791,
+      "step": 1120
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.38156434893608093,
+      "eval_runtime": 165.6726,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.328,
+      "step": 1120
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.3851562738418579,
+      "learning_rate": 4.8569415128328945e-05,
+      "loss": 0.3726,
+      "step": 1140
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.38082343339920044,
+      "eval_runtime": 165.6253,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1140
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.422851026058197,
+      "learning_rate": 4.490513923655564e-05,
+      "loss": 0.3698,
+      "step": 1160
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.38037535548210144,
+      "eval_runtime": 165.6523,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 1160
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.3657631278038025,
+      "learning_rate": 4.134415569008935e-05,
+      "loss": 0.3777,
+      "step": 1180
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 0.3799656629562378,
+      "eval_runtime": 165.615,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 1180
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.34044766426086426,
+      "learning_rate": 3.789314065322218e-05,
+      "loss": 0.3637,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.3793714940547943,
+      "eval_runtime": 165.687,
+      "eval_samples_per_second": 17.304,
+      "eval_steps_per_second": 4.327,
+      "step": 1200
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.327467679977417,
+      "learning_rate": 3.455856412028593e-05,
+      "loss": 0.3653,
+      "step": 1220
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.3786996603012085,
+      "eval_runtime": 165.7148,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 1220
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3492739796638489,
+      "learning_rate": 3.1346677785647704e-05,
+      "loss": 0.382,
+      "step": 1240
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.3782605230808258,
+      "eval_runtime": 165.621,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 1240
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3024798333644867,
+      "learning_rate": 2.826350332297667e-05,
+      "loss": 0.3587,
+      "step": 1260
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.37805166840553284,
+      "eval_runtime": 165.623,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1260
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3727082312107086,
+      "learning_rate": 2.531482109575547e-05,
+      "loss": 0.3729,
+      "step": 1280
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.3775557577610016,
+      "eval_runtime": 165.6074,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.33,
+      "step": 1280
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.41581809520721436,
+      "learning_rate": 2.250615932020238e-05,
+      "loss": 0.3731,
+      "step": 1300
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.37723448872566223,
+      "eval_runtime": 165.6275,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1300
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.44623810052871704,
+      "learning_rate": 1.9842783700921196e-05,
+      "loss": 0.3757,
+      "step": 1320
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.3769790530204773,
+      "eval_runtime": 165.5377,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.331,
+      "step": 1320
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.365567147731781,
+      "learning_rate": 1.732968755871063e-05,
+      "loss": 0.3733,
+      "step": 1340
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.3767223656177521,
+      "eval_runtime": 165.6665,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 1340
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4132380187511444,
+      "learning_rate": 1.4971582469040957e-05,
+      "loss": 0.3792,
+      "step": 1360
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.3763655126094818,
+      "eval_runtime": 165.6456,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.329,
+      "step": 1360
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.33449500799179077,
+      "learning_rate": 1.2772889428749524e-05,
+      "loss": 0.3678,
+      "step": 1380
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.3761462867259979,
+      "eval_runtime": 165.6026,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 4.33,
+      "step": 1380
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.28829070925712585,
+      "learning_rate": 1.0737730567515847e-05,
+      "loss": 0.3604,
+      "step": 1400
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.3759004473686218,
+      "eval_runtime": 165.5228,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.332,
+      "step": 1400
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.4277011454105377,
+      "learning_rate": 8.869921419655457e-06,
+      "loss": 0.3496,
+      "step": 1420
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.3757947087287903,
+      "eval_runtime": 165.6492,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.328,
+      "step": 1420
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.40312379598617554,
+      "learning_rate": 7.172963770721341e-06,
+      "loss": 0.3676,
+      "step": 1440
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.3757094442844391,
+      "eval_runtime": 165.5144,
+      "eval_samples_per_second": 17.322,
+      "eval_steps_per_second": 4.332,
+      "step": 1440
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.45307889580726624,
+      "learning_rate": 5.650039092324766e-06,
+      "loss": 0.3678,
+      "step": 1460
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.37566059827804565,
+      "eval_runtime": 165.5183,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.332,
+      "step": 1460
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.31653299927711487,
+      "learning_rate": 4.304002577483357e-06,
+      "loss": 0.3646,
+      "step": 1480
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.3755495548248291,
+      "eval_runtime": 165.5577,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1480
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.3237595856189728,
+      "learning_rate": 3.13737778767923e-06,
+      "loss": 0.3621,
+      "step": 1500
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.3754778504371643,
+      "eval_runtime": 165.5564,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1500
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.41257408261299133,
+      "learning_rate": 2.1523519216631094e-06,
+      "loss": 0.3825,
+      "step": 1520
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.3754417300224304,
+      "eval_runtime": 165.5324,
+      "eval_samples_per_second": 17.32,
+      "eval_steps_per_second": 4.331,
+      "step": 1520
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.3975638747215271,
+      "learning_rate": 1.350771714874166e-06,
+      "loss": 0.3718,
+      "step": 1540
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.37540262937545776,
+      "eval_runtime": 165.5691,
+      "eval_samples_per_second": 17.316,
+      "eval_steps_per_second": 4.331,
+      "step": 1540
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1612,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20,
+  "total_flos": 7.950352554330685e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1540/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19cdc3b0645f297de07155d8f0cee10c20d51defbbc762523c42ad678ebd6dbd
+size 5176

checkpoint-1560/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: mistralai/Mistral-7B-Instruct-v0.2
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-1560/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-1560/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:16b69a36f9d96bfa0da891b712cb263ca17c339b5297372df9e28ba23a58bd8b
+size 27297032

checkpoint-1560/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad4b3bca7f4e90962faaa92bc773fcf77b742d81d70de6071bb9a45ebcad5acb
+size 54678266

checkpoint-1560/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b6f3359aa7364fe2693f1ca4441a4caf3e6abbc3936fcd5626f390f5b0c8188
+size 14512

checkpoint-1560/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcb6dc404981179f74dfe8d839f63677af6a56077cc2703fa12e3c1b267e080c
+size 14512

checkpoint-1560/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f9dfbdfed60fde5c5c1d041621c1dffcb5a726ce0554cd12e0f0d8148be07c2
+size 1000

checkpoint-1560/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1560/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1560/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dadfd56d766715c61d2ef780a525ab43b8e6da4de6865bda3d95fdef5e134055
+size 493443

checkpoint-1560/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<s>",
+  "chat_template": "{{ bos_token }}{% for message in messages %}{% if (message['role'] == 'user') != (loop.index0 % 2 == 0) %}{{ raise_exception('Conversation roles must alternate user/assistant/user/assistant/...') }}{% endif %}{% if message['role'] == 'user' %}{{ '[INST] ' + message['content'] + ' [/INST]' }}{% elif message['role'] == 'assistant' %}{{ message['content'] + eos_token}}{% else %}{{ raise_exception('Only user and assistant roles are supported!') }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-1560/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1191 @@

+{
+  "best_metric": 0.37537458539009094,
+  "best_model_checkpoint": "./mistral/22-02-24-Weni-ZeroShot-3.3.3-Mistral-7b-Multilanguage-3.2.0_Zeroshot-2_max_steps-1612_batch_16_2024-02-22_ppid_1326/checkpoint-1560",
+  "epoch": 0.9671419714817111,
+  "eval_steps": 20,
+  "global_step": 1560,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "grad_norm": 1.6690024137496948,
+      "learning_rate": 2.3602484472049692e-05,
+      "loss": 1.8728,
+      "step": 20
+    },
+    {
+      "epoch": 0.01,
+      "eval_loss": 1.7905555963516235,
+      "eval_runtime": 165.4628,
+      "eval_samples_per_second": 17.327,
+      "eval_steps_per_second": 4.333,
+      "step": 20
+    },
+    {
+      "epoch": 0.02,
+      "grad_norm": 1.7746976613998413,
+      "learning_rate": 4.8447204968944106e-05,
+      "loss": 1.4796,
+      "step": 40
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 1.1875672340393066,
+      "eval_runtime": 165.7743,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 40
+    },
+    {
+      "epoch": 0.04,
+      "grad_norm": 1.1963611841201782,
+      "learning_rate": 7.329192546583851e-05,
+      "loss": 0.8318,
+      "step": 60
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 0.6325646638870239,
+      "eval_runtime": 165.8606,
+      "eval_samples_per_second": 17.286,
+      "eval_steps_per_second": 4.323,
+      "step": 60
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 0.6274264454841614,
+      "learning_rate": 9.813664596273293e-05,
+      "loss": 0.5478,
+      "step": 80
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 0.541927695274353,
+      "eval_runtime": 165.8755,
+      "eval_samples_per_second": 17.284,
+      "eval_steps_per_second": 4.323,
+      "step": 80
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.7583674788475037,
+      "learning_rate": 0.00012298136645962735,
+      "loss": 0.517,
+      "step": 100
+    },
+    {
+      "epoch": 0.06,
+      "eval_loss": 0.5157255530357361,
+      "eval_runtime": 165.8227,
+      "eval_samples_per_second": 17.29,
+      "eval_steps_per_second": 4.324,
+      "step": 100
+    },
+    {
+      "epoch": 0.07,
+      "grad_norm": 0.496155321598053,
+      "learning_rate": 0.00014782608695652173,
+      "loss": 0.5109,
+      "step": 120
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.49060019850730896,
+      "eval_runtime": 165.8171,
+      "eval_samples_per_second": 17.29,
+      "eval_steps_per_second": 4.324,
+      "step": 120
+    },
+    {
+      "epoch": 0.09,
+      "grad_norm": 0.3945171535015106,
+      "learning_rate": 0.00017142857142857143,
+      "loss": 0.4656,
+      "step": 140
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.4657692313194275,
+      "eval_runtime": 165.7753,
+      "eval_samples_per_second": 17.294,
+      "eval_steps_per_second": 4.325,
+      "step": 140
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 0.3318285346031189,
+      "learning_rate": 0.00019627329192546585,
+      "loss": 0.4409,
+      "step": 160
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 0.45186159014701843,
+      "eval_runtime": 165.7746,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 160
+    },
+    {
+      "epoch": 0.11,
+      "grad_norm": 0.4603807330131531,
+      "learning_rate": 0.00019993226958500473,
+      "loss": 0.4316,
+      "step": 180
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.4474850594997406,
+      "eval_runtime": 165.6607,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 180
+    },
+    {
+      "epoch": 0.12,
+      "grad_norm": 0.4568885862827301,
+      "learning_rate": 0.00019967929472585524,
+      "loss": 0.4297,
+      "step": 200
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.4427547752857208,
+      "eval_runtime": 165.7208,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 200
+    },
+    {
+      "epoch": 0.14,
+      "grad_norm": 0.384003221988678,
+      "learning_rate": 0.00019923944021970962,
+      "loss": 0.4226,
+      "step": 220
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.4389376938343048,
+      "eval_runtime": 165.7023,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.327,
+      "step": 220
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 0.30612272024154663,
+      "learning_rate": 0.00019861353070979048,
+      "loss": 0.4321,
+      "step": 240
+    },
+    {
+      "epoch": 0.15,
+      "eval_loss": 0.4359733462333679,
+      "eval_runtime": 165.7286,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 240
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.4149855971336365,
+      "learning_rate": 0.0001978027396569313,
+      "loss": 0.4261,
+      "step": 260
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.4336954355239868,
+      "eval_runtime": 165.7171,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 260
+    },
+    {
+      "epoch": 0.17,
+      "grad_norm": 0.28470170497894287,
+      "learning_rate": 0.00019680858713956126,
+      "loss": 0.4235,
+      "step": 280
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 0.4306911528110504,
+      "eval_runtime": 165.7298,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 280
+    },
+    {
+      "epoch": 0.19,
+      "grad_norm": 0.3317676782608032,
+      "learning_rate": 0.00019563293700384832,
+      "loss": 0.4279,
+      "step": 300
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.4280063509941101,
+      "eval_runtime": 165.7359,
+      "eval_samples_per_second": 17.299,
+      "eval_steps_per_second": 4.326,
+      "step": 300
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 0.3677004277706146,
+      "learning_rate": 0.0001942779933693437,
+      "loss": 0.419,
+      "step": 320
+    },
+    {
+      "epoch": 0.2,
+      "eval_loss": 0.425252765417099,
+      "eval_runtime": 165.7143,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 320
+    },
+    {
+      "epoch": 0.21,
+      "grad_norm": 0.34667083621025085,
+      "learning_rate": 0.00019274629649667838,
+      "loss": 0.4129,
+      "step": 340
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.423022985458374,
+      "eval_runtime": 165.6904,
+      "eval_samples_per_second": 17.303,
+      "eval_steps_per_second": 4.327,
+      "step": 340
+    },
+    {
+      "epoch": 0.22,
+      "grad_norm": 0.37289124727249146,
+      "learning_rate": 0.00019104071802505943,
+      "loss": 0.4097,
+      "step": 360
+    },
+    {
+      "epoch": 0.22,
+      "eval_loss": 0.4223038852214813,
+      "eval_runtime": 165.7184,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 360
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.9662333130836487,
+      "learning_rate": 0.00018926226943248415,
+      "loss": 0.4204,
+      "step": 380
+    },
+    {
+      "epoch": 0.24,
+      "eval_loss": 0.41996675729751587,
+      "eval_runtime": 165.7378,
+      "eval_samples_per_second": 17.298,
+      "eval_steps_per_second": 4.326,
+      "step": 380
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.43084949254989624,
+      "learning_rate": 0.00018722711057125052,
+      "loss": 0.4042,
+      "step": 400
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.4190637767314911,
+      "eval_runtime": 165.6378,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 400
+    },
+    {
+      "epoch": 0.26,
+      "grad_norm": 0.3700352609157562,
+      "learning_rate": 0.00018502841753095908,
+      "loss": 0.4134,
+      "step": 420
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.4176079034805298,
+      "eval_runtime": 165.7021,
+      "eval_samples_per_second": 17.302,
+      "eval_steps_per_second": 4.327,
+      "step": 420
+    },
+    {
+      "epoch": 0.27,
+      "grad_norm": 0.2829599976539612,
+      "learning_rate": 0.00018267031244128938,
+      "loss": 0.4006,
+      "step": 440
+    },
+    {
+      "epoch": 0.27,
+      "eval_loss": 0.4157721698284149,
+      "eval_runtime": 165.7174,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 440
+    },
+    {
+      "epoch": 0.29,
+      "grad_norm": 0.2943759560585022,
+      "learning_rate": 0.00018015721629907882,
+      "loss": 0.4004,
+      "step": 460
+    },
+    {
+      "epoch": 0.29,
+      "eval_loss": 0.4140998125076294,
+      "eval_runtime": 165.7622,
+      "eval_samples_per_second": 17.296,
+      "eval_steps_per_second": 4.325,
+      "step": 460
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 0.36071881651878357,
+      "learning_rate": 0.00017749384067979764,
+      "loss": 0.3967,
+      "step": 480
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.4122526943683624,
+      "eval_runtime": 165.6609,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 480
+    },
+    {
+      "epoch": 0.31,
+      "grad_norm": 0.3050592243671417,
+      "learning_rate": 0.00017468517890424455,
+      "loss": 0.4089,
+      "step": 500
+    },
+    {
+      "epoch": 0.31,
+      "eval_loss": 0.4099767506122589,
+      "eval_runtime": 165.7178,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.327,
+      "step": 500
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.3138140141963959,
+      "learning_rate": 0.00017173649667702337,
+      "loss": 0.3924,
+      "step": 520
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.40873026847839355,
+      "eval_runtime": 165.7231,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.326,
+      "step": 520
+    },
+    {
+      "epoch": 0.33,
+      "grad_norm": 0.299787700176239,
+      "learning_rate": 0.0001686533222143523,
+      "loss": 0.4118,
+      "step": 540
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.40794187784194946,
+      "eval_runtime": 165.723,
+      "eval_samples_per_second": 17.3,
+      "eval_steps_per_second": 4.326,
+      "step": 540
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 0.37338224053382874,
+      "learning_rate": 0.0001654414358797141,
+      "loss": 0.4027,
+      "step": 560
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.4068893790245056,
+      "eval_runtime": 165.5504,
+      "eval_samples_per_second": 17.318,
+      "eval_steps_per_second": 4.331,
+      "step": 560
+    },
+    {
+      "epoch": 0.36,
+      "grad_norm": 0.3397510349750519,
+      "learning_rate": 0.00016210685934677782,
+      "loss": 0.393,
+      "step": 580
+    },
+    {
+      "epoch": 0.36,
+      "eval_loss": 0.40551885962486267,
+      "eval_runtime": 165.5533,
+      "eval_samples_per_second": 17.318,
+      "eval_steps_per_second": 4.331,
+      "step": 580
+    },
+    {
+      "epoch": 0.37,
+      "grad_norm": 0.3803115487098694,
+      "learning_rate": 0.00015883106145163397,
+      "loss": 0.4103,
+      "step": 600
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.40474218130111694,
+      "eval_runtime": 165.6206,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 600
+    },
+    {
+      "epoch": 0.38,
+      "grad_norm": 0.3368137776851654,
+      "learning_rate": 0.00015527541943543543,
+      "loss": 0.3896,
+      "step": 620
+    },
+    {
+      "epoch": 0.38,
+      "eval_loss": 0.40325844287872314,
+      "eval_runtime": 165.6617,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 620
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.32399722933769226,
+      "learning_rate": 0.00015161614656089196,
+      "loss": 0.3912,
+      "step": 640
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.4015989899635315,
+      "eval_runtime": 165.6304,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 640
+    },
+    {
+      "epoch": 0.41,
+      "grad_norm": 0.42368754744529724,
+      "learning_rate": 0.0001478601032660207,
+      "loss": 0.3897,
+      "step": 660
+    },
+    {
+      "epoch": 0.41,
+      "eval_loss": 0.40123647451400757,
+      "eval_runtime": 165.6021,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 4.33,
+      "step": 660
+    },
+    {
+      "epoch": 0.42,
+      "grad_norm": 0.36450713872909546,
+      "learning_rate": 0.00014401433141490152,
+      "loss": 0.3963,
+      "step": 680
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.39942467212677,
+      "eval_runtime": 165.5741,
+      "eval_samples_per_second": 17.316,
+      "eval_steps_per_second": 4.33,
+      "step": 680
+    },
+    {
+      "epoch": 0.43,
+      "grad_norm": 0.3598613739013672,
+      "learning_rate": 0.00014008604109552665,
+      "loss": 0.3914,
+      "step": 700
+    },
+    {
+      "epoch": 0.43,
+      "eval_loss": 0.39811620116233826,
+      "eval_runtime": 165.6088,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.329,
+      "step": 700
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 0.3440189063549042,
+      "learning_rate": 0.00013608259710226186,
+      "loss": 0.3769,
+      "step": 720
+    },
+    {
+      "epoch": 0.45,
+      "eval_loss": 0.396987646818161,
+      "eval_runtime": 165.6485,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.328,
+      "step": 720
+    },
+    {
+      "epoch": 0.46,
+      "grad_norm": 0.3481440544128418,
+      "learning_rate": 0.0001320115051282632,
+      "loss": 0.3904,
+      "step": 740
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.3970092833042145,
+      "eval_runtime": 165.6528,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 740
+    },
+    {
+      "epoch": 0.47,
+      "grad_norm": 0.4135587215423584,
+      "learning_rate": 0.0001278803976937355,
+      "loss": 0.3831,
+      "step": 760
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.39514589309692383,
+      "eval_runtime": 165.7492,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 760
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.34816452860832214,
+      "learning_rate": 0.00012369701983641388,
+      "loss": 0.3922,
+      "step": 780
+    },
+    {
+      "epoch": 0.48,
+      "eval_loss": 0.3943038880825043,
+      "eval_runtime": 165.7169,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 780
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 0.4880768060684204,
+      "learning_rate": 0.0001194692145910969,
+      "loss": 0.403,
+      "step": 800
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.3928041160106659,
+      "eval_runtime": 165.6712,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.328,
+      "step": 800
+    },
+    {
+      "epoch": 0.51,
+      "grad_norm": 0.3198924660682678,
+      "learning_rate": 0.00011520490828545361,
+      "loss": 0.3913,
+      "step": 820
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.3922466039657593,
+      "eval_runtime": 165.7505,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 820
+    },
+    {
+      "epoch": 0.52,
+      "grad_norm": 0.33648762106895447,
+      "learning_rate": 0.00011091209567967229,
+      "loss": 0.3836,
+      "step": 840
+    },
+    {
+      "epoch": 0.52,
+      "eval_loss": 0.39126288890838623,
+      "eval_runtime": 165.7535,
+      "eval_samples_per_second": 17.297,
+      "eval_steps_per_second": 4.326,
+      "step": 840
+    },
+    {
+      "epoch": 0.53,
+      "grad_norm": 0.2874184846878052,
+      "learning_rate": 0.00010659882497781187,
+      "loss": 0.3736,
+      "step": 860
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.3903014063835144,
+      "eval_runtime": 165.7718,
+      "eval_samples_per_second": 17.295,
+      "eval_steps_per_second": 4.325,
+      "step": 860
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 0.37889736890792847,
+      "learning_rate": 0.00010227318273895532,
+      "loss": 0.3773,
+      "step": 880
+    },
+    {
+      "epoch": 0.55,
+      "eval_loss": 0.38970035314559937,
+      "eval_runtime": 165.5823,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.33,
+      "step": 880
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.32016921043395996,
+      "learning_rate": 9.794327871645574e-05,
+      "loss": 0.3883,
+      "step": 900
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.38903746008872986,
+      "eval_runtime": 165.5591,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 900
+    },
+    {
+      "epoch": 0.57,
+      "grad_norm": 0.34894031286239624,
+      "learning_rate": 9.361723065369682e-05,
+      "loss": 0.3751,
+      "step": 920
+    },
+    {
+      "epoch": 0.57,
+      "eval_loss": 0.3883580267429352,
+      "eval_runtime": 165.5778,
+      "eval_samples_per_second": 17.315,
+      "eval_steps_per_second": 4.33,
+      "step": 920
+    },
+    {
+      "epoch": 0.58,
+      "grad_norm": 0.35315269231796265,
+      "learning_rate": 8.930314906487384e-05,
+      "loss": 0.3832,
+      "step": 940
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.3874415457248688,
+      "eval_runtime": 165.6643,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 940
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 0.4276430904865265,
+      "learning_rate": 8.500912202932824e-05,
+      "loss": 0.3726,
+      "step": 960
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.3868561387062073,
+      "eval_runtime": 165.6292,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 960
+    },
+    {
+      "epoch": 0.61,
+      "grad_norm": 0.32810911536216736,
+      "learning_rate": 8.07432000279427e-05,
+      "loss": 0.3738,
+      "step": 980
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.38609209656715393,
+      "eval_runtime": 165.6113,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.329,
+      "step": 980
+    },
+    {
+      "epoch": 0.62,
+      "grad_norm": 0.3598964214324951,
+      "learning_rate": 7.651338085002669e-05,
+      "loss": 0.3809,
+      "step": 1000
+    },
+    {
+      "epoch": 0.62,
+      "eval_loss": 0.3854670822620392,
+      "eval_runtime": 165.6347,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 1000
+    },
+    {
+      "epoch": 0.63,
+      "grad_norm": 0.32283729314804077,
+      "learning_rate": 7.232759459898832e-05,
+      "loss": 0.3871,
+      "step": 1020
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.38449159264564514,
+      "eval_runtime": 165.5636,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1020
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.3151933252811432,
+      "learning_rate": 6.819368882490458e-05,
+      "loss": 0.3799,
+      "step": 1040
+    },
+    {
+      "epoch": 0.64,
+      "eval_loss": 0.3837529420852661,
+      "eval_runtime": 165.6596,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 1040
+    },
+    {
+      "epoch": 0.66,
+      "grad_norm": 0.37252795696258545,
+      "learning_rate": 6.411941381186302e-05,
+      "loss": 0.3882,
+      "step": 1060
+    },
+    {
+      "epoch": 0.66,
+      "eval_loss": 0.38311225175857544,
+      "eval_runtime": 165.5928,
+      "eval_samples_per_second": 17.314,
+      "eval_steps_per_second": 4.33,
+      "step": 1060
+    },
+    {
+      "epoch": 0.67,
+      "grad_norm": 0.33380192518234253,
+      "learning_rate": 6.01124080476589e-05,
+      "loss": 0.3846,
+      "step": 1080
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.3823437988758087,
+      "eval_runtime": 165.6364,
+      "eval_samples_per_second": 17.309,
+      "eval_steps_per_second": 4.329,
+      "step": 1080
+    },
+    {
+      "epoch": 0.68,
+      "grad_norm": 0.3543049991130829,
+      "learning_rate": 5.6180183903088844e-05,
+      "loss": 0.3696,
+      "step": 1100
+    },
+    {
+      "epoch": 0.68,
+      "eval_loss": 0.3821370601654053,
+      "eval_runtime": 165.5383,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.331,
+      "step": 1100
+    },
+    {
+      "epoch": 0.69,
+      "grad_norm": 0.374683141708374,
+      "learning_rate": 5.233011354768991e-05,
+      "loss": 0.3791,
+      "step": 1120
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.38156434893608093,
+      "eval_runtime": 165.6726,
+      "eval_samples_per_second": 17.305,
+      "eval_steps_per_second": 4.328,
+      "step": 1120
+    },
+    {
+      "epoch": 0.71,
+      "grad_norm": 0.3851562738418579,
+      "learning_rate": 4.8569415128328945e-05,
+      "loss": 0.3726,
+      "step": 1140
+    },
+    {
+      "epoch": 0.71,
+      "eval_loss": 0.38082343339920044,
+      "eval_runtime": 165.6253,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1140
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.422851026058197,
+      "learning_rate": 4.490513923655564e-05,
+      "loss": 0.3698,
+      "step": 1160
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.38037535548210144,
+      "eval_runtime": 165.6523,
+      "eval_samples_per_second": 17.307,
+      "eval_steps_per_second": 4.328,
+      "step": 1160
+    },
+    {
+      "epoch": 0.73,
+      "grad_norm": 0.3657631278038025,
+      "learning_rate": 4.134415569008935e-05,
+      "loss": 0.3777,
+      "step": 1180
+    },
+    {
+      "epoch": 0.73,
+      "eval_loss": 0.3799656629562378,
+      "eval_runtime": 165.615,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 1180
+    },
+    {
+      "epoch": 0.74,
+      "grad_norm": 0.34044766426086426,
+      "learning_rate": 3.789314065322218e-05,
+      "loss": 0.3637,
+      "step": 1200
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.3793714940547943,
+      "eval_runtime": 165.687,
+      "eval_samples_per_second": 17.304,
+      "eval_steps_per_second": 4.327,
+      "step": 1200
+    },
+    {
+      "epoch": 0.76,
+      "grad_norm": 0.327467679977417,
+      "learning_rate": 3.455856412028593e-05,
+      "loss": 0.3653,
+      "step": 1220
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.3786996603012085,
+      "eval_runtime": 165.7148,
+      "eval_samples_per_second": 17.301,
+      "eval_steps_per_second": 4.327,
+      "step": 1220
+    },
+    {
+      "epoch": 0.77,
+      "grad_norm": 0.3492739796638489,
+      "learning_rate": 3.1346677785647704e-05,
+      "loss": 0.382,
+      "step": 1240
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.3782605230808258,
+      "eval_runtime": 165.621,
+      "eval_samples_per_second": 17.311,
+      "eval_steps_per_second": 4.329,
+      "step": 1240
+    },
+    {
+      "epoch": 0.78,
+      "grad_norm": 0.3024798333644867,
+      "learning_rate": 2.826350332297667e-05,
+      "loss": 0.3587,
+      "step": 1260
+    },
+    {
+      "epoch": 0.78,
+      "eval_loss": 0.37805166840553284,
+      "eval_runtime": 165.623,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1260
+    },
+    {
+      "epoch": 0.79,
+      "grad_norm": 0.3727082312107086,
+      "learning_rate": 2.531482109575547e-05,
+      "loss": 0.3729,
+      "step": 1280
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.3775557577610016,
+      "eval_runtime": 165.6074,
+      "eval_samples_per_second": 17.312,
+      "eval_steps_per_second": 4.33,
+      "step": 1280
+    },
+    {
+      "epoch": 0.81,
+      "grad_norm": 0.41581809520721436,
+      "learning_rate": 2.250615932020238e-05,
+      "loss": 0.3731,
+      "step": 1300
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.37723448872566223,
+      "eval_runtime": 165.6275,
+      "eval_samples_per_second": 17.31,
+      "eval_steps_per_second": 4.329,
+      "step": 1300
+    },
+    {
+      "epoch": 0.82,
+      "grad_norm": 0.44623810052871704,
+      "learning_rate": 1.9842783700921196e-05,
+      "loss": 0.3757,
+      "step": 1320
+    },
+    {
+      "epoch": 0.82,
+      "eval_loss": 0.3769790530204773,
+      "eval_runtime": 165.5377,
+      "eval_samples_per_second": 17.319,
+      "eval_steps_per_second": 4.331,
+      "step": 1320
+    },
+    {
+      "epoch": 0.83,
+      "grad_norm": 0.365567147731781,
+      "learning_rate": 1.732968755871063e-05,
+      "loss": 0.3733,
+      "step": 1340
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.3767223656177521,
+      "eval_runtime": 165.6665,
+      "eval_samples_per_second": 17.306,
+      "eval_steps_per_second": 4.328,
+      "step": 1340
+    },
+    {
+      "epoch": 0.84,
+      "grad_norm": 0.4132380187511444,
+      "learning_rate": 1.4971582469040957e-05,
+      "loss": 0.3792,
+      "step": 1360
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.3763655126094818,
+      "eval_runtime": 165.6456,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.329,
+      "step": 1360
+    },
+    {
+      "epoch": 0.86,
+      "grad_norm": 0.33449500799179077,
+      "learning_rate": 1.2772889428749524e-05,
+      "loss": 0.3678,
+      "step": 1380
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.3761462867259979,
+      "eval_runtime": 165.6026,
+      "eval_samples_per_second": 17.313,
+      "eval_steps_per_second": 4.33,
+      "step": 1380
+    },
+    {
+      "epoch": 0.87,
+      "grad_norm": 0.28829070925712585,
+      "learning_rate": 1.0737730567515847e-05,
+      "loss": 0.3604,
+      "step": 1400
+    },
+    {
+      "epoch": 0.87,
+      "eval_loss": 0.3759004473686218,
+      "eval_runtime": 165.5228,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.332,
+      "step": 1400
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.4277011454105377,
+      "learning_rate": 8.869921419655457e-06,
+      "loss": 0.3496,
+      "step": 1420
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.3757947087287903,
+      "eval_runtime": 165.6492,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 4.328,
+      "step": 1420
+    },
+    {
+      "epoch": 0.89,
+      "grad_norm": 0.40312379598617554,
+      "learning_rate": 7.172963770721341e-06,
+      "loss": 0.3676,
+      "step": 1440
+    },
+    {
+      "epoch": 0.89,
+      "eval_loss": 0.3757094442844391,
+      "eval_runtime": 165.5144,
+      "eval_samples_per_second": 17.322,
+      "eval_steps_per_second": 4.332,
+      "step": 1440
+    },
+    {
+      "epoch": 0.91,
+      "grad_norm": 0.45307889580726624,
+      "learning_rate": 5.650039092324766e-06,
+      "loss": 0.3678,
+      "step": 1460
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.37566059827804565,
+      "eval_runtime": 165.5183,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 4.332,
+      "step": 1460
+    },
+    {
+      "epoch": 0.92,
+      "grad_norm": 0.31653299927711487,
+      "learning_rate": 4.304002577483357e-06,
+      "loss": 0.3646,
+      "step": 1480
+    },
+    {
+      "epoch": 0.92,
+      "eval_loss": 0.3755495548248291,
+      "eval_runtime": 165.5577,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1480
+    },
+    {
+      "epoch": 0.93,
+      "grad_norm": 0.3237595856189728,
+      "learning_rate": 3.13737778767923e-06,
+      "loss": 0.3621,
+      "step": 1500
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.3754778504371643,
+      "eval_runtime": 165.5564,
+      "eval_samples_per_second": 17.317,
+      "eval_steps_per_second": 4.331,
+      "step": 1500
+    },
+    {
+      "epoch": 0.94,
+      "grad_norm": 0.41257408261299133,
+      "learning_rate": 2.1523519216631094e-06,
+      "loss": 0.3825,
+      "step": 1520
+    },
+    {
+      "epoch": 0.94,
+      "eval_loss": 0.3754417300224304,
+      "eval_runtime": 165.5324,
+      "eval_samples_per_second": 17.32,
+      "eval_steps_per_second": 4.331,
+      "step": 1520
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 0.3975638747215271,
+      "learning_rate": 1.350771714874166e-06,
+      "loss": 0.3718,
+      "step": 1540
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.37540262937545776,
+      "eval_runtime": 165.5691,
+      "eval_samples_per_second": 17.316,
+      "eval_steps_per_second": 4.331,
+      "step": 1540
+    },
+    {
+      "epoch": 0.97,
+      "grad_norm": 0.39280959963798523,
+      "learning_rate": 7.341399771636948e-07,
+      "loss": 0.3511,
+      "step": 1560
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.37537458539009094,
+      "eval_runtime": 165.5674,
+      "eval_samples_per_second": 17.316,
+      "eval_steps_per_second": 4.331,
+      "step": 1560
+    }
+  ],
+  "logging_steps": 20,
+  "max_steps": 1612,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 20,
+  "total_flos": 8.055819878625444e+17,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1560/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:19cdc3b0645f297de07155d8f0cee10c20d51defbbc762523c42ad678ebd6dbd
+size 5176

checkpoint-1580/README.md ADDED Viewed

	@@ -0,0 +1,204 @@

+---
+library_name: peft
+base_model: mistralai/Mistral-7B-Instruct-v0.2
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.8.2

checkpoint-1580/adapter_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "mistralai/Mistral-7B-Instruct-v0.2",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.1,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 8,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "v_proj",
+    "k_proj",
+    "q_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_rslora": false
+}

checkpoint-1580/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dfab10e4d649130708f14db579c51291b350188b1f142c435d67658d36b5acf7
+size 27297032

checkpoint-1580/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9a748e2fc4af1a3e6064b55f91737d94015a16813ddf58c815ac7bd48528ad81
+size 54678266

checkpoint-1580/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fa4d12b7e14ada28ecca3a6072302d6039354f825ca91b7a577b31d5c095b84
+size 14512

checkpoint-1580/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8ad93b45e8d42d37fa8389806f755b2fb642dbe2d1044b5725d44451d2f523a0
+size 14512

checkpoint-1580/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f6f015b3a90e3b88b787118422147290c34f47a18f4c24717d7fa2a49792c80
+size 1000

checkpoint-1580/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1580/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff