dante123 commited on Jun 9, 2024

Commit

ab5df65

verified ·

1 Parent(s): 96f6640

Upload 42 files

Browse files

Files changed (42) hide show

relation/README.md +196 -0
relation/adapter_config.json +26 -0
relation/adapter_model.safetensors +3 -0
relation/all_results.json +11 -0
relation/checkpoint-1190/README.md +218 -0
relation/checkpoint-1190/adapter_config.json +26 -0
relation/checkpoint-1190/adapter_model.safetensors +3 -0
relation/checkpoint-1190/optimizer.pt +3 -0
relation/checkpoint-1190/rng_state.pth +3 -0
relation/checkpoint-1190/scheduler.pt +3 -0
relation/checkpoint-1190/special_tokens_map.json +30 -0
relation/checkpoint-1190/tokenizer.model +3 -0
relation/checkpoint-1190/tokenizer_config.json +43 -0
relation/checkpoint-1190/trainer_state.json +1687 -0
relation/checkpoint-1190/training_args.bin +3 -0
relation/checkpoint-1200/README.md +218 -0
relation/checkpoint-1200/adapter_config.json +0 -0
relation/checkpoint-1200/adapter_model.safetensors +3 -0
relation/checkpoint-1200/optimizer.pt +3 -0
relation/checkpoint-1200/rng_state.pth +3 -0
relation/checkpoint-1200/scheduler.pt +3 -0
relation/checkpoint-1200/special_tokens_map.json +0 -0
relation/checkpoint-1200/tokenizer.model +3 -0
relation/checkpoint-1200/tokenizer_config.json +0 -0
relation/checkpoint-1200/trainer_state.json +1696 -0
relation/checkpoint-1200/training_args.bin +3 -0
relation/eval_results.json +7 -0
relation/runs/Jan27_03-39-34_platform/events.out.tfevents.1706326783.platform +3 -0
relation/runs/Jan29_07-52-52_platform/events.out.tfevents.1706514788.platform +3 -0
relation/runs/Jan29_07-56-19_platform/events.out.tfevents.1706514989.platform +3 -0
relation/runs/Jan29_08-02-06_platform/events.out.tfevents.1706515335.platform +3 -0
relation/runs/Jan29_08-20-10_platform/events.out.tfevents.1706516420.platform +3 -0
relation/runs/Jan29_08-20-10_platform/events.out.tfevents.1706516457.platform +3 -0
relation/special_tokens_map.json +30 -0
relation/tokenizer.model +3 -0
relation/tokenizer_config.json +43 -0
relation/train_results.json +7 -0
relation/trainer_log.jsonl +243 -0
relation/trainer_state.json +1710 -0
relation/training_args.bin +3 -0
relation/training_eval_loss.png +0 -0
relation/training_loss.png +0 -0

relation/README.md ADDED Viewed

	@@ -0,0 +1,196 @@

+---
+license: other
+library_name: peft
+tags:
+- llama-factory
+- lora
+- generated_from_trainer
+base_model: /workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5
+model-index:
+- name: relation
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# relation
+This model is a fine-tuned version of [/workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5](https://huggingface.co//workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5) on the vicuna_relation_test dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.4715
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 4
+- total_train_batch_size: 32
+- optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
+- lr_scheduler_type: cosine
+- training_steps: 1200
+- mixed_precision_training: Native AMP
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 3.0929        | 0.02  | 10   | 2.1679          |
+| 1.8074        | 0.04  | 20   | 1.4093          |
+| 1.2188        | 0.05  | 30   | 1.1259          |
+| 1.0841        | 0.07  | 40   | 0.9606          |
+| 0.9594        | 0.09  | 50   | 0.8682          |
+| 0.8765        | 0.11  | 60   | 0.8166          |
+| 0.852         | 0.12  | 70   | 0.7803          |
+| 0.8404        | 0.14  | 80   | 0.7602          |
+| 0.8183        | 0.16  | 90   | 0.7223          |
+| 0.7816        | 0.18  | 100  | 0.7134          |
+| 0.7792        | 0.19  | 110  | 0.7234          |
+| 0.7648        | 0.21  | 120  | 0.6883          |
+| 0.8132        | 0.23  | 130  | 0.7020          |
+| 0.7599        | 0.25  | 140  | 0.6684          |
+| 0.7518        | 0.26  | 150  | 0.6716          |
+| 0.7452        | 0.28  | 160  | 0.6634          |
+| 0.7215        | 0.3   | 170  | 0.6610          |
+| 0.7088        | 0.32  | 180  | 0.6598          |
+| 0.7237        | 0.33  | 190  | 0.6470          |
+| 0.7353        | 0.35  | 200  | 0.6315          |
+| 0.7111        | 0.37  | 210  | 0.6466          |
+| 0.7136        | 0.39  | 220  | 0.6329          |
+| 0.7044        | 0.4   | 230  | 0.6357          |
+| 0.7369        | 0.42  | 240  | 0.6215          |
+| 0.6995        | 0.44  | 250  | 0.6103          |
+| 0.7027        | 0.46  | 260  | 0.5964          |
+| 0.6872        | 0.47  | 270  | 0.6044          |
+| 0.7182        | 0.49  | 280  | 0.6127          |
+| 0.6897        | 0.51  | 290  | 0.6016          |
+| 0.6824        | 0.53  | 300  | 0.5880          |
+| 0.673         | 0.54  | 310  | 0.5902          |
+| 0.6956        | 0.56  | 320  | 0.5811          |
+| 0.6889        | 0.58  | 330  | 0.5850          |
+| 0.6773        | 0.6   | 340  | 0.5934          |
+| 0.6782        | 0.61  | 350  | 0.5942          |
+| 0.719         | 0.63  | 360  | 0.5849          |
+| 0.6809        | 0.65  | 370  | 0.5799          |
+| 0.6412        | 0.67  | 380  | 0.5710          |
+| 0.6411        | 0.69  | 390  | 0.5628          |
+| 0.6519        | 0.7   | 400  | 0.5612          |
+| 0.6446        | 0.72  | 410  | 0.5562          |
+| 0.6574        | 0.74  | 420  | 0.5645          |
+| 0.6633        | 0.76  | 430  | 0.5664          |
+| 0.6673        | 0.77  | 440  | 0.5483          |
+| 0.6466        | 0.79  | 450  | 0.5542          |
+| 0.653         | 0.81  | 460  | 0.5411          |
+| 0.6384        | 0.83  | 470  | 0.5362          |
+| 0.6287        | 0.84  | 480  | 0.5453          |
+| 0.661         | 0.86  | 490  | 0.5645          |
+| 0.608         | 0.88  | 500  | 0.5245          |
+| 0.6584        | 0.9   | 510  | 0.5376          |
+| 0.6416        | 0.91  | 520  | 0.5471          |
+| 0.6527        | 0.93  | 530  | 0.5426          |
+| 0.6164        | 0.95  | 540  | 0.5284          |
+| 0.611         | 0.97  | 550  | 0.5313          |
+| 0.614         | 0.98  | 560  | 0.5263          |
+| 0.6382        | 1.0   | 570  | 0.5317          |
+| 0.5804        | 1.02  | 580  | 0.5207          |
+| 0.6291        | 1.04  | 590  | 0.5238          |
+| 0.5911        | 1.05  | 600  | 0.5174          |
+| 0.6111        | 1.07  | 610  | 0.5281          |
+| 0.5578        | 1.09  | 620  | 0.5255          |
+| 0.6055        | 1.11  | 630  | 0.5177          |
+| 0.6015        | 1.12  | 640  | 0.5131          |
+| 0.6072        | 1.14  | 650  | 0.5168          |
+| 0.5956        | 1.16  | 660  | 0.5169          |
+| 0.6099        | 1.18  | 670  | 0.5170          |
+| 0.6038        | 1.19  | 680  | 0.5056          |
+| 0.583         | 1.21  | 690  | 0.5121          |
+| 0.5885        | 1.23  | 700  | 0.5234          |
+| 0.5784        | 1.25  | 710  | 0.5028          |
+| 0.5744        | 1.26  | 720  | 0.5100          |
+| 0.6014        | 1.28  | 730  | 0.5038          |
+| 0.6185        | 1.3   | 740  | 0.5146          |
+| 0.6184        | 1.32  | 750  | 0.5317          |
+| 0.6141        | 1.34  | 760  | 0.5080          |
+| 0.6146        | 1.35  | 770  | 0.5165          |
+| 0.5721        | 1.37  | 780  | 0.5040          |
+| 0.5931        | 1.39  | 790  | 0.4934          |
+| 0.5944        | 1.41  | 800  | 0.4876          |
+| 0.6002        | 1.42  | 810  | 0.4930          |
+| 0.5557        | 1.44  | 820  | 0.4913          |
+| 0.58          | 1.46  | 830  | 0.4910          |
+| 0.5459        | 1.48  | 840  | 0.4884          |
+| 0.5871        | 1.49  | 850  | 0.4860          |
+| 0.5554        | 1.51  | 860  | 0.4857          |
+| 0.5819        | 1.53  | 870  | 0.4649          |
+| 0.5649        | 1.55  | 880  | 0.4790          |
+| 0.5779        | 1.56  | 890  | 0.4807          |
+| 0.5756        | 1.58  | 900  | 0.4834          |
+| 0.5563        | 1.6   | 910  | 0.4946          |
+| 0.5393        | 1.62  | 920  | 0.4848          |
+| 0.5551        | 1.63  | 930  | 0.4845          |
+| 0.5687        | 1.65  | 940  | 0.4807          |
+| 0.5469        | 1.67  | 950  | 0.4749          |
+| 0.5771        | 1.69  | 960  | 0.4859          |
+| 0.5689        | 1.7   | 970  | 0.4734          |
+| 0.5741        | 1.72  | 980  | 0.4882          |
+| 0.5643        | 1.74  | 990  | 0.4816          |
+| 0.5603        | 1.76  | 1000 | 0.4676          |
+| 0.5925        | 1.77  | 1010 | 0.4686          |
+| 0.5834        | 1.79  | 1020 | 0.4743          |
+| 0.5902        | 1.81  | 1030 | 0.4916          |
+| 0.5777        | 1.83  | 1040 | 0.4748          |
+| 0.5921        | 1.84  | 1050 | 0.4843          |
+| 0.5877        | 1.86  | 1060 | 0.4742          |
+| 0.5453        | 1.88  | 1070 | 0.4705          |
+| 0.5445        | 1.9   | 1080 | 0.4663          |
+| 0.5686        | 1.92  | 1090 | 0.4745          |
+| 0.5712        | 1.93  | 1100 | 0.4888          |
+| 0.6032        | 1.95  | 1110 | 0.4861          |
+| 0.5491        | 1.97  | 1120 | 0.4721          |
+| 0.5452        | 1.99  | 1130 | 0.4645          |
+| 0.5526        | 2.0   | 1140 | 0.4877          |
+| 0.5443        | 2.02  | 1150 | 0.4716          |
+| 0.5103        | 2.04  | 1160 | 0.4632          |
+| 0.5202        | 2.06  | 1170 | 0.4802          |
+| 0.5436        | 2.07  | 1180 | 0.4681          |
+| 0.5454        | 2.09  | 1190 | 0.4709          |
+| 0.5183        | 2.11  | 1200 | 0.4742          |
+### Framework versions
+- PEFT 0.7.0
+- Transformers 4.37.1
+- Pytorch 2.1.2+cu121
+- Datasets 2.16.1
+- Tokenizers 0.15.1

relation/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 100,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

relation/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7dd3ea728b80943d43cca08f40bb52976d12d523795db8da4b7b4fa2ae9716c
+size 7577600

relation/all_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "epoch": 2.11,
+    "eval_loss": 0.47148287296295166,
+    "eval_runtime": 30.9817,
+    "eval_samples_per_second": 16.106,
+    "eval_steps_per_second": 2.033,
+    "train_loss": 0.000492346822768822,
+    "train_runtime": 4.9952,
+    "train_samples_per_second": 3843.723,
+    "train_steps_per_second": 240.233
+}

relation/checkpoint-1190/README.md ADDED Viewed

	@@ -0,0 +1,218 @@

+---
+library_name: peft
+base_model: /workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.7.0

relation/checkpoint-1190/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "/workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 100,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

relation/checkpoint-1190/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3543a633a9648e3a03fbb1f49cd0a8706d844247ec816e0bc798a92d29500ca1
+size 8101888

relation/checkpoint-1190/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b71db006084e10a6f89ba69f850a7d1b5081d6dc060cb7cc6777bb804cc4a48
+size 8036352

relation/checkpoint-1190/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fe95a3689b627e7062f8bc0590da34660e55f7a18f9116250b10b09f8690418
+size 14244

relation/checkpoint-1190/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2dd78847099dfe1787912937b89765e5dcd47cd274f886eebe8bd8301db20456
+size 1064

relation/checkpoint-1190/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

relation/checkpoint-1190/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

relation/checkpoint-1190/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

relation/checkpoint-1190/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1687 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.090909090909091,
+  "eval_steps": 10,
+  "global_step": 1190,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00019999576610920983,
+      "loss": 3.0929,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.167867660522461,
+      "eval_runtime": 21.3399,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.858,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019998306479535586,
+      "loss": 1.8074,
+      "step": 20
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.4092761278152466,
+      "eval_runtime": 21.3617,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019996189713395766,
+      "loss": 1.2188,
+      "step": 30
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 1.1258704662322998,
+      "eval_runtime": 21.3588,
+      "eval_samples_per_second": 23.363,
+      "eval_steps_per_second": 5.852,
+      "step": 30
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993226491744662,
+      "loss": 1.0841,
+      "step": 40
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.9605854153633118,
+      "eval_runtime": 21.3693,
+      "eval_samples_per_second": 23.351,
+      "eval_steps_per_second": 5.85,
+      "step": 40
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019989417065501396,
+      "loss": 0.9594,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.8681771159172058,
+      "eval_runtime": 21.3662,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 50
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019984761757239875,
+      "loss": 0.8765,
+      "step": 60
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.816562294960022,
+      "eval_runtime": 21.3405,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.857,
+      "step": 60
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019979260961161427,
+      "loss": 0.852,
+      "step": 70
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.7803006768226624,
+      "eval_runtime": 21.3622,
+      "eval_samples_per_second": 23.359,
+      "eval_steps_per_second": 5.851,
+      "step": 70
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019972915143061455,
+      "loss": 0.8404,
+      "step": 80
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.760216236114502,
+      "eval_runtime": 21.379,
+      "eval_samples_per_second": 23.341,
+      "eval_steps_per_second": 5.847,
+      "step": 80
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001996572484028997,
+      "loss": 0.8183,
+      "step": 90
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.7222956418991089,
+      "eval_runtime": 21.3895,
+      "eval_samples_per_second": 23.329,
+      "eval_steps_per_second": 5.844,
+      "step": 90
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019957690661706108,
+      "loss": 0.7816,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 0.7133845686912537,
+      "eval_runtime": 21.3742,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019948813287626563,
+      "loss": 0.7792,
+      "step": 110
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.7233743667602539,
+      "eval_runtime": 21.3703,
+      "eval_samples_per_second": 23.35,
+      "eval_steps_per_second": 5.849,
+      "step": 110
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001993909346976798,
+      "loss": 0.7648,
+      "step": 120
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.6882979273796082,
+      "eval_runtime": 21.3682,
+      "eval_samples_per_second": 23.352,
+      "eval_steps_per_second": 5.85,
+      "step": 120
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001992853203118331,
+      "loss": 0.8132,
+      "step": 130
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.7019714117050171,
+      "eval_runtime": 21.374,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 130
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000199171298661921,
+      "loss": 0.7599,
+      "step": 140
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.668350338935852,
+      "eval_runtime": 21.323,
+      "eval_samples_per_second": 23.402,
+      "eval_steps_per_second": 5.862,
+      "step": 140
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001990488794030478,
+      "loss": 0.7518,
+      "step": 150
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.6716361045837402,
+      "eval_runtime": 21.3312,
+      "eval_samples_per_second": 23.393,
+      "eval_steps_per_second": 5.86,
+      "step": 150
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019891807290140892,
+      "loss": 0.7452,
+      "step": 160
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.6634441018104553,
+      "eval_runtime": 21.3388,
+      "eval_samples_per_second": 23.385,
+      "eval_steps_per_second": 5.858,
+      "step": 160
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019877889023341323,
+      "loss": 0.7215,
+      "step": 170
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.6609596610069275,
+      "eval_runtime": 21.3355,
+      "eval_samples_per_second": 23.388,
+      "eval_steps_per_second": 5.859,
+      "step": 170
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019863134318474503,
+      "loss": 0.7088,
+      "step": 180
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.659795880317688,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 180
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001984754442493662,
+      "loss": 0.7237,
+      "step": 190
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.6469973921775818,
+      "eval_runtime": 21.3405,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.857,
+      "step": 190
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000198311206628458,
+      "loss": 0.7353,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.6315197348594666,
+      "eval_runtime": 21.3347,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019813864422930347,
+      "loss": 0.7111,
+      "step": 210
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.6466153860092163,
+      "eval_runtime": 21.3369,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.858,
+      "step": 210
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019795777166410966,
+      "loss": 0.7136,
+      "step": 220
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.632926344871521,
+      "eval_runtime": 21.3244,
+      "eval_samples_per_second": 23.4,
+      "eval_steps_per_second": 5.862,
+      "step": 220
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019776860424877032,
+      "loss": 0.7044,
+      "step": 230
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6356912851333618,
+      "eval_runtime": 21.3235,
+      "eval_samples_per_second": 23.401,
+      "eval_steps_per_second": 5.862,
+      "step": 230
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000197571158001569,
+      "loss": 0.7369,
+      "step": 240
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6214553713798523,
+      "eval_runtime": 21.3355,
+      "eval_samples_per_second": 23.388,
+      "eval_steps_per_second": 5.859,
+      "step": 240
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019736544964182268,
+      "loss": 0.6995,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.6103290915489197,
+      "eval_runtime": 21.3392,
+      "eval_samples_per_second": 23.384,
+      "eval_steps_per_second": 5.858,
+      "step": 250
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019715149658846591,
+      "loss": 0.7027,
+      "step": 260
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.5964030027389526,
+      "eval_runtime": 21.3644,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 260
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000196929316958576,
+      "loss": 0.6872,
+      "step": 270
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.60444176197052,
+      "eval_runtime": 21.3353,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 270
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019669892956583867,
+      "loss": 0.7182,
+      "step": 280
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6127080917358398,
+      "eval_runtime": 21.3451,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 280
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019646035391895512,
+      "loss": 0.6897,
+      "step": 290
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.6016324758529663,
+      "eval_runtime": 21.324,
+      "eval_samples_per_second": 23.401,
+      "eval_steps_per_second": 5.862,
+      "step": 290
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019621361021999008,
+      "loss": 0.6824,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.5880205631256104,
+      "eval_runtime": 21.3379,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.858,
+      "step": 300
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.000195958719362661,
+      "loss": 0.673,
+      "step": 310
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 0.5902190804481506,
+      "eval_runtime": 21.3191,
+      "eval_samples_per_second": 23.406,
+      "eval_steps_per_second": 5.863,
+      "step": 310
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019569570293056894,
+      "loss": 0.6956,
+      "step": 320
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.5811321139335632,
+      "eval_runtime": 21.3365,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.859,
+      "step": 320
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019542458319537093,
+      "loss": 0.6889,
+      "step": 330
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.5849844813346863,
+      "eval_runtime": 21.3231,
+      "eval_samples_per_second": 23.402,
+      "eval_steps_per_second": 5.862,
+      "step": 330
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019514538311489395,
+      "loss": 0.6773,
+      "step": 340
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.5933501720428467,
+      "eval_runtime": 21.3446,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 340
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019485812633119096,
+      "loss": 0.6782,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.594153642654419,
+      "eval_runtime": 21.3347,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 350
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019456283716853904,
+      "loss": 0.719,
+      "step": 360
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.5848734974861145,
+      "eval_runtime": 21.3162,
+      "eval_samples_per_second": 23.409,
+      "eval_steps_per_second": 5.864,
+      "step": 360
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019425954063137947,
+      "loss": 0.6809,
+      "step": 370
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.579924464225769,
+      "eval_runtime": 21.3339,
+      "eval_samples_per_second": 23.39,
+      "eval_steps_per_second": 5.859,
+      "step": 370
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00019394826240220057,
+      "loss": 0.6412,
+      "step": 380
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.5709846019744873,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 380
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019362902883936288,
+      "loss": 0.6411,
+      "step": 390
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.562785267829895,
+      "eval_runtime": 21.3375,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.858,
+      "step": 390
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00019330186697486722,
+      "loss": 0.6519,
+      "step": 400
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.5611785650253296,
+      "eval_runtime": 21.3506,
+      "eval_samples_per_second": 23.372,
+      "eval_steps_per_second": 5.855,
+      "step": 400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00019296680451206575,
+      "loss": 0.6446,
+      "step": 410
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.5562126636505127,
+      "eval_runtime": 21.3482,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 410
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00019262386982331594,
+      "loss": 0.6574,
+      "step": 420
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.5644647479057312,
+      "eval_runtime": 21.3719,
+      "eval_samples_per_second": 23.348,
+      "eval_steps_per_second": 5.849,
+      "step": 420
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00019227309194757818,
+      "loss": 0.6633,
+      "step": 430
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.5663937926292419,
+      "eval_runtime": 21.3728,
+      "eval_samples_per_second": 23.347,
+      "eval_steps_per_second": 5.849,
+      "step": 430
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00019191450058795683,
+      "loss": 0.6673,
+      "step": 440
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.5483366847038269,
+      "eval_runtime": 21.352,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 5.854,
+      "step": 440
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00019154812610918501,
+      "loss": 0.6466,
+      "step": 450
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.554151713848114,
+      "eval_runtime": 21.4045,
+      "eval_samples_per_second": 23.313,
+      "eval_steps_per_second": 5.84,
+      "step": 450
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00019117399953505335,
+      "loss": 0.653,
+      "step": 460
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.5411431789398193,
+      "eval_runtime": 21.3349,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 460
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00019079215254578293,
+      "loss": 0.6384,
+      "step": 470
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.5362362265586853,
+      "eval_runtime": 21.3477,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.855,
+      "step": 470
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00019040261747534283,
+      "loss": 0.6287,
+      "step": 480
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.5452967286109924,
+      "eval_runtime": 21.3462,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 480
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00019000542730871197,
+      "loss": 0.661,
+      "step": 490
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.5644904971122742,
+      "eval_runtime": 21.3569,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 5.853,
+      "step": 490
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0001896006156790861,
+      "loss": 0.608,
+      "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.5245234370231628,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018918821686502989,
+      "loss": 0.6584,
+      "step": 510
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.5376425385475159,
+      "eval_runtime": 21.3569,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 5.853,
+      "step": 510
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0001887682657875741,
+      "loss": 0.6416,
+      "step": 520
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.5471484661102295,
+      "eval_runtime": 21.3644,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 520
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018834079800725872,
+      "loss": 0.6527,
+      "step": 530
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.5425943732261658,
+      "eval_runtime": 21.3669,
+      "eval_samples_per_second": 23.354,
+      "eval_steps_per_second": 5.85,
+      "step": 530
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00018790584972112174,
+      "loss": 0.6164,
+      "step": 540
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.5284227728843689,
+      "eval_runtime": 21.3751,
+      "eval_samples_per_second": 23.345,
+      "eval_steps_per_second": 5.848,
+      "step": 540
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00018746345775963395,
+      "loss": 0.611,
+      "step": 550
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.5312528014183044,
+      "eval_runtime": 21.3628,
+      "eval_samples_per_second": 23.358,
+      "eval_steps_per_second": 5.851,
+      "step": 550
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00018701365958358047,
+      "loss": 0.614,
+      "step": 560
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.5262718796730042,
+      "eval_runtime": 21.3578,
+      "eval_samples_per_second": 23.364,
+      "eval_steps_per_second": 5.853,
+      "step": 560
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00018655649328088835,
+      "loss": 0.6382,
+      "step": 570
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.5316660404205322,
+      "eval_runtime": 21.3512,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 570
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00018609199756340156,
+      "loss": 0.5804,
+      "step": 580
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.5207402110099792,
+      "eval_runtime": 21.3663,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 580
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001856202117636029,
+      "loss": 0.6291,
+      "step": 590
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5237697958946228,
+      "eval_runtime": 21.3922,
+      "eval_samples_per_second": 23.326,
+      "eval_steps_per_second": 5.843,
+      "step": 590
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00018514117583128347,
+      "loss": 0.5911,
+      "step": 600
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.517393171787262,
+      "eval_runtime": 21.3498,
+      "eval_samples_per_second": 23.373,
+      "eval_steps_per_second": 5.855,
+      "step": 600
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00018465493033015967,
+      "loss": 0.6111,
+      "step": 610
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.5281241536140442,
+      "eval_runtime": 21.3522,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 5.854,
+      "step": 610
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001841615164344385,
+      "loss": 0.5578,
+      "step": 620
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.5255175232887268,
+      "eval_runtime": 21.3637,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 620
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00018366097592533093,
+      "loss": 0.6055,
+      "step": 630
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.5177362561225891,
+      "eval_runtime": 21.3827,
+      "eval_samples_per_second": 23.337,
+      "eval_steps_per_second": 5.846,
+      "step": 630
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018315335118751396,
+      "loss": 0.6015,
+      "step": 640
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5130926370620728,
+      "eval_runtime": 21.4348,
+      "eval_samples_per_second": 23.28,
+      "eval_steps_per_second": 5.832,
+      "step": 640
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001826386852055417,
+      "loss": 0.6072,
+      "step": 650
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.5168054103851318,
+      "eval_runtime": 21.3583,
+      "eval_samples_per_second": 23.363,
+      "eval_steps_per_second": 5.853,
+      "step": 650
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001821170215602053,
+      "loss": 0.5956,
+      "step": 660
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5168840289115906,
+      "eval_runtime": 21.3753,
+      "eval_samples_per_second": 23.345,
+      "eval_steps_per_second": 5.848,
+      "step": 660
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0001815884044248429,
+      "loss": 0.6099,
+      "step": 670
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.5169732570648193,
+      "eval_runtime": 21.3472,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.856,
+      "step": 670
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001810528785615989,
+      "loss": 0.6038,
+      "step": 680
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.5055590867996216,
+      "eval_runtime": 21.3489,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 680
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018051048931763366,
+      "loss": 0.583,
+      "step": 690
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.5121394395828247,
+      "eval_runtime": 21.3436,
+      "eval_samples_per_second": 23.379,
+      "eval_steps_per_second": 5.857,
+      "step": 690
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001799612826212837,
+      "loss": 0.5885,
+      "step": 700
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.523388683795929,
+      "eval_runtime": 21.3616,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 700
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017940530497817254,
+      "loss": 0.5784,
+      "step": 710
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.5028228163719177,
+      "eval_runtime": 21.3469,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 5.856,
+      "step": 710
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00017884260346727254,
+      "loss": 0.5744,
+      "step": 720
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.5100187063217163,
+      "eval_runtime": 21.3603,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 720
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017827322573691872,
+      "loss": 0.6014,
+      "step": 730
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.5038166046142578,
+      "eval_runtime": 21.3431,
+      "eval_samples_per_second": 23.38,
+      "eval_steps_per_second": 5.857,
+      "step": 730
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001776972200007735,
+      "loss": 0.6185,
+      "step": 740
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.5146144032478333,
+      "eval_runtime": 21.3367,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.858,
+      "step": 740
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00017711463503374466,
+      "loss": 0.6184,
+      "step": 750
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.5316588282585144,
+      "eval_runtime": 21.3617,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 750
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001765255201678546,
+      "loss": 0.6141,
+      "step": 760
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.5080065727233887,
+      "eval_runtime": 21.3913,
+      "eval_samples_per_second": 23.327,
+      "eval_steps_per_second": 5.844,
+      "step": 760
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00017592992528806352,
+      "loss": 0.6146,
+      "step": 770
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.5165488719940186,
+      "eval_runtime": 21.3517,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 770
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0001753279008280449,
+      "loss": 0.5721,
+      "step": 780
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 21.3467,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 5.856,
+      "step": 780
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00017471949776591504,
+      "loss": 0.5931,
+      "step": 790
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.49337631464004517,
+      "eval_runtime": 21.3473,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.856,
+      "step": 790
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00017410476761991643,
+      "loss": 0.5944,
+      "step": 800
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.487575501203537,
+      "eval_runtime": 21.3451,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 800
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00017348376244405512,
+      "loss": 0.6002,
+      "step": 810
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.4929651618003845,
+      "eval_runtime": 21.3604,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 810
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.000172856534823693,
+      "loss": 0.5557,
+      "step": 820
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.4913093149662018,
+      "eval_runtime": 21.3626,
+      "eval_samples_per_second": 23.359,
+      "eval_steps_per_second": 5.851,
+      "step": 820
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00017222313787109496,
+      "loss": 0.58,
+      "step": 830
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.4909800887107849,
+      "eval_runtime": 21.4163,
+      "eval_samples_per_second": 23.3,
+      "eval_steps_per_second": 5.837,
+      "step": 830
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00017158362522093153,
+      "loss": 0.5459,
+      "step": 840
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.4883653223514557,
+      "eval_runtime": 21.3483,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 840
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00017093805102573706,
+      "loss": 0.5871,
+      "step": 850
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.48601067066192627,
+      "eval_runtime": 21.3674,
+      "eval_samples_per_second": 23.353,
+      "eval_steps_per_second": 5.85,
+      "step": 850
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00017028646995132435,
+      "loss": 0.5554,
+      "step": 860
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.4856807291507721,
+      "eval_runtime": 21.366,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 860
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0001696289371721556,
+      "loss": 0.5819,
+      "step": 870
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 0.4648899435997009,
+      "eval_runtime": 21.3516,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 870
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00016896550836667035,
+      "loss": 0.5649,
+      "step": 880
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 0.47903972864151,
+      "eval_runtime": 21.3528,
+      "eval_samples_per_second": 23.369,
+      "eval_steps_per_second": 5.854,
+      "step": 880
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00016829623971257088,
+      "loss": 0.5779,
+      "step": 890
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.4807458519935608,
+      "eval_runtime": 21.377,
+      "eval_samples_per_second": 23.343,
+      "eval_steps_per_second": 5.847,
+      "step": 890
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00016762118788206487,
+      "loss": 0.5756,
+      "step": 900
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.483437180519104,
+      "eval_runtime": 21.3913,
+      "eval_samples_per_second": 23.327,
+      "eval_steps_per_second": 5.843,
+      "step": 900
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.000166940410037067,
+      "loss": 0.5563,
+      "step": 910
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.49455228447914124,
+      "eval_runtime": 21.365,
+      "eval_samples_per_second": 23.356,
+      "eval_steps_per_second": 5.851,
+      "step": 910
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00016625396382435813,
+      "loss": 0.5393,
+      "step": 920
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.4847542643547058,
+      "eval_runtime": 21.3614,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 920
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00016556190737070428,
+      "loss": 0.5551,
+      "step": 930
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.4845309257507324,
+      "eval_runtime": 21.4008,
+      "eval_samples_per_second": 23.317,
+      "eval_steps_per_second": 5.841,
+      "step": 930
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00016486429927793436,
+      "loss": 0.5687,
+      "step": 940
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.4806869626045227,
+      "eval_runtime": 21.374,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 940
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00016416119861797796,
+      "loss": 0.5469,
+      "step": 950
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 0.4748505651950836,
+      "eval_runtime": 21.355,
+      "eval_samples_per_second": 23.367,
+      "eval_steps_per_second": 5.853,
+      "step": 950
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001634526649278632,
+      "loss": 0.5771,
+      "step": 960
+    },
+    {
+      "epoch": 1.69,
+      "eval_loss": 0.4859110414981842,
+      "eval_runtime": 21.3418,
+      "eval_samples_per_second": 23.381,
+      "eval_steps_per_second": 5.857,
+      "step": 960
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00016273875820467545,
+      "loss": 0.5689,
+      "step": 970
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.4734295606613159,
+      "eval_runtime": 21.3607,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 970
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001620195389004767,
+      "loss": 0.5741,
+      "step": 980
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.4881950914859772,
+      "eval_runtime": 21.3786,
+      "eval_samples_per_second": 23.341,
+      "eval_steps_per_second": 5.847,
+      "step": 980
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00016129506791718665,
+      "loss": 0.5643,
+      "step": 990
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.4815501570701599,
+      "eval_runtime": 21.3699,
+      "eval_samples_per_second": 23.351,
+      "eval_steps_per_second": 5.849,
+      "step": 990
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00016056540660142586,
+      "loss": 0.5603,
+      "step": 1000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.46760401129722595,
+      "eval_runtime": 21.354,
+      "eval_samples_per_second": 23.368,
+      "eval_steps_per_second": 5.854,
+      "step": 1000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001598306167393208,
+      "loss": 0.5925,
+      "step": 1010
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.46860912442207336,
+      "eval_runtime": 21.3958,
+      "eval_samples_per_second": 23.322,
+      "eval_steps_per_second": 5.842,
+      "step": 1010
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00015909076055127202,
+      "loss": 0.5834,
+      "step": 1020
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.47431066632270813,
+      "eval_runtime": 21.4034,
+      "eval_samples_per_second": 23.314,
+      "eval_steps_per_second": 5.84,
+      "step": 1020
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00019360595357389735,
+      "loss": 0.5902,
+      "step": 1030
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.49162757396698,
+      "eval_runtime": 38.6636,
+      "eval_samples_per_second": 12.906,
+      "eval_steps_per_second": 3.233,
+      "step": 1030
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00019348256763960145,
+      "loss": 0.5777,
+      "step": 1040
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.47481468319892883,
+      "eval_runtime": 41.2268,
+      "eval_samples_per_second": 12.104,
+      "eval_steps_per_second": 3.032,
+      "step": 1040
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00019335804264972018,
+      "loss": 0.5921,
+      "step": 1050
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.48432889580726624,
+      "eval_runtime": 30.5847,
+      "eval_samples_per_second": 16.315,
+      "eval_steps_per_second": 4.087,
+      "step": 1050
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00019323238012155123,
+      "loss": 0.5877,
+      "step": 1060
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.47419798374176025,
+      "eval_runtime": 37.8731,
+      "eval_samples_per_second": 13.176,
+      "eval_steps_per_second": 3.3,
+      "step": 1060
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00019310558158625285,
+      "loss": 0.5453,
+      "step": 1070
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.4705266058444977,
+      "eval_runtime": 22.4824,
+      "eval_samples_per_second": 22.195,
+      "eval_steps_per_second": 2.802,
+      "step": 1070
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 0.5445,
+      "step": 1080
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.4662667214870453,
+      "eval_runtime": 31.6864,
+      "eval_samples_per_second": 15.748,
+      "eval_steps_per_second": 1.988,
+      "step": 1080
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00019284858268809137,
+      "loss": 0.5686,
+      "step": 1090
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.47445282340049744,
+      "eval_runtime": 27.1784,
+      "eval_samples_per_second": 18.36,
+      "eval_steps_per_second": 2.318,
+      "step": 1090
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00019271838545667876,
+      "loss": 0.5712,
+      "step": 1100
+    },
+    {
+      "epoch": 1.93,
+      "eval_loss": 0.48884764313697815,
+      "eval_runtime": 37.118,
+      "eval_samples_per_second": 13.444,
+      "eval_steps_per_second": 1.697,
+      "step": 1100
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0001925870584809995,
+      "loss": 0.6032,
+      "step": 1110
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.48608502745628357,
+      "eval_runtime": 36.4351,
+      "eval_samples_per_second": 13.696,
+      "eval_steps_per_second": 1.729,
+      "step": 1110
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00019245460336123134,
+      "loss": 0.5491,
+      "step": 1120
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.472098708152771,
+      "eval_runtime": 22.4827,
+      "eval_samples_per_second": 22.195,
+      "eval_steps_per_second": 2.802,
+      "step": 1120
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00019232102171129811,
+      "loss": 0.5452,
+      "step": 1130
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.4644794762134552,
+      "eval_runtime": 27.0746,
+      "eval_samples_per_second": 18.431,
+      "eval_steps_per_second": 2.327,
+      "step": 1130
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00019218631515885006,
+      "loss": 0.5526,
+      "step": 1140
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.48768851161003113,
+      "eval_runtime": 32.1887,
+      "eval_samples_per_second": 15.502,
+      "eval_steps_per_second": 1.957,
+      "step": 1140
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00019205048534524406,
+      "loss": 0.5443,
+      "step": 1150
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.4716103971004486,
+      "eval_runtime": 30.3462,
+      "eval_samples_per_second": 16.444,
+      "eval_steps_per_second": 2.076,
+      "step": 1150
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00019191353392552344,
+      "loss": 0.5103,
+      "step": 1160
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 0.46319034695625305,
+      "eval_runtime": 23.7207,
+      "eval_samples_per_second": 21.037,
+      "eval_steps_per_second": 2.656,
+      "step": 1160
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00019177546256839812,
+      "loss": 0.5202,
+      "step": 1170
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.4802156984806061,
+      "eval_runtime": 24.1547,
+      "eval_samples_per_second": 20.658,
+      "eval_steps_per_second": 2.608,
+      "step": 1170
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00019163627295622397,
+      "loss": 0.5436,
+      "step": 1180
+    },
+    {
+      "epoch": 2.07,
+      "eval_loss": 0.4681110680103302,
+      "eval_runtime": 26.9736,
+      "eval_samples_per_second": 18.5,
+      "eval_steps_per_second": 2.336,
+      "step": 1180
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0001914959667849825,
+      "loss": 0.5454,
+      "step": 1190
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.470931738615036,
+      "eval_runtime": 36.9982,
+      "eval_samples_per_second": 13.487,
+      "eval_steps_per_second": 1.703,
+      "step": 1190
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 9000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps": 10,
+  "total_flos": 3.419947642336051e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

relation/checkpoint-1190/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4081a09c8a35bfb2db1219c416768f48125bbefa8d9a5a75cc35ac4f8817f480
+size 4920

relation/checkpoint-1200/README.md ADDED Viewed

	@@ -0,0 +1,218 @@

+---
+library_name: peft
+base_model: /workspace/xll/checkpoints/lmsys/vicuna-7b-v1.5
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.7.0

relation/checkpoint-1200/adapter_config.json ADDED Viewed

File without changes

relation/checkpoint-1200/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:620dbba5764a64ff711aa50cfb3c3fd7d3165100ce2dc631a328f1badc3fe993
+size 7716864

relation/checkpoint-1200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e445b61843b6504656e0d4dde7457250e8bb353105fe47578c32b7d434a49341
+size 98304

relation/checkpoint-1200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
+size 0

relation/checkpoint-1200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
+size 0

relation/checkpoint-1200/special_tokens_map.json ADDED Viewed

File without changes

relation/checkpoint-1200/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e3b0c44298fc1c149afbf4c8996fb92427ae41e4649b934ca495991b7852b855
+size 0

relation/checkpoint-1200/tokenizer_config.json ADDED Viewed

File without changes

relation/checkpoint-1200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1696 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.108476064997804,
+  "eval_steps": 10,
+  "global_step": 1200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00019999576610920983,
+      "loss": 3.0929,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.167867660522461,
+      "eval_runtime": 21.3399,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.858,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019998306479535586,
+      "loss": 1.8074,
+      "step": 20
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.4092761278152466,
+      "eval_runtime": 21.3617,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019996189713395766,
+      "loss": 1.2188,
+      "step": 30
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 1.1258704662322998,
+      "eval_runtime": 21.3588,
+      "eval_samples_per_second": 23.363,
+      "eval_steps_per_second": 5.852,
+      "step": 30
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993226491744662,
+      "loss": 1.0841,
+      "step": 40
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.9605854153633118,
+      "eval_runtime": 21.3693,
+      "eval_samples_per_second": 23.351,
+      "eval_steps_per_second": 5.85,
+      "step": 40
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019989417065501396,
+      "loss": 0.9594,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.8681771159172058,
+      "eval_runtime": 21.3662,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 50
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019984761757239875,
+      "loss": 0.8765,
+      "step": 60
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.816562294960022,
+      "eval_runtime": 21.3405,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.857,
+      "step": 60
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019979260961161427,
+      "loss": 0.852,
+      "step": 70
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.7803006768226624,
+      "eval_runtime": 21.3622,
+      "eval_samples_per_second": 23.359,
+      "eval_steps_per_second": 5.851,
+      "step": 70
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019972915143061455,
+      "loss": 0.8404,
+      "step": 80
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.760216236114502,
+      "eval_runtime": 21.379,
+      "eval_samples_per_second": 23.341,
+      "eval_steps_per_second": 5.847,
+      "step": 80
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001996572484028997,
+      "loss": 0.8183,
+      "step": 90
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.7222956418991089,
+      "eval_runtime": 21.3895,
+      "eval_samples_per_second": 23.329,
+      "eval_steps_per_second": 5.844,
+      "step": 90
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019957690661706108,
+      "loss": 0.7816,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 0.7133845686912537,
+      "eval_runtime": 21.3742,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019948813287626563,
+      "loss": 0.7792,
+      "step": 110
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.7233743667602539,
+      "eval_runtime": 21.3703,
+      "eval_samples_per_second": 23.35,
+      "eval_steps_per_second": 5.849,
+      "step": 110
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001993909346976798,
+      "loss": 0.7648,
+      "step": 120
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.6882979273796082,
+      "eval_runtime": 21.3682,
+      "eval_samples_per_second": 23.352,
+      "eval_steps_per_second": 5.85,
+      "step": 120
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001992853203118331,
+      "loss": 0.8132,
+      "step": 130
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.7019714117050171,
+      "eval_runtime": 21.374,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 130
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000199171298661921,
+      "loss": 0.7599,
+      "step": 140
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.668350338935852,
+      "eval_runtime": 21.323,
+      "eval_samples_per_second": 23.402,
+      "eval_steps_per_second": 5.862,
+      "step": 140
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001990488794030478,
+      "loss": 0.7518,
+      "step": 150
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.6716361045837402,
+      "eval_runtime": 21.3312,
+      "eval_samples_per_second": 23.393,
+      "eval_steps_per_second": 5.86,
+      "step": 150
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019891807290140892,
+      "loss": 0.7452,
+      "step": 160
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.6634441018104553,
+      "eval_runtime": 21.3388,
+      "eval_samples_per_second": 23.385,
+      "eval_steps_per_second": 5.858,
+      "step": 160
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019877889023341323,
+      "loss": 0.7215,
+      "step": 170
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.6609596610069275,
+      "eval_runtime": 21.3355,
+      "eval_samples_per_second": 23.388,
+      "eval_steps_per_second": 5.859,
+      "step": 170
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019863134318474503,
+      "loss": 0.7088,
+      "step": 180
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.659795880317688,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 180
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001984754442493662,
+      "loss": 0.7237,
+      "step": 190
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.6469973921775818,
+      "eval_runtime": 21.3405,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.857,
+      "step": 190
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000198311206628458,
+      "loss": 0.7353,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.6315197348594666,
+      "eval_runtime": 21.3347,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019813864422930347,
+      "loss": 0.7111,
+      "step": 210
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.6466153860092163,
+      "eval_runtime": 21.3369,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.858,
+      "step": 210
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019795777166410966,
+      "loss": 0.7136,
+      "step": 220
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.632926344871521,
+      "eval_runtime": 21.3244,
+      "eval_samples_per_second": 23.4,
+      "eval_steps_per_second": 5.862,
+      "step": 220
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019776860424877032,
+      "loss": 0.7044,
+      "step": 230
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6356912851333618,
+      "eval_runtime": 21.3235,
+      "eval_samples_per_second": 23.401,
+      "eval_steps_per_second": 5.862,
+      "step": 230
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000197571158001569,
+      "loss": 0.7369,
+      "step": 240
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6214553713798523,
+      "eval_runtime": 21.3355,
+      "eval_samples_per_second": 23.388,
+      "eval_steps_per_second": 5.859,
+      "step": 240
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019736544964182268,
+      "loss": 0.6995,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.6103290915489197,
+      "eval_runtime": 21.3392,
+      "eval_samples_per_second": 23.384,
+      "eval_steps_per_second": 5.858,
+      "step": 250
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019715149658846591,
+      "loss": 0.7027,
+      "step": 260
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.5964030027389526,
+      "eval_runtime": 21.3644,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 260
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000196929316958576,
+      "loss": 0.6872,
+      "step": 270
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.60444176197052,
+      "eval_runtime": 21.3353,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 270
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019669892956583867,
+      "loss": 0.7182,
+      "step": 280
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6127080917358398,
+      "eval_runtime": 21.3451,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 280
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019646035391895512,
+      "loss": 0.6897,
+      "step": 290
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.6016324758529663,
+      "eval_runtime": 21.324,
+      "eval_samples_per_second": 23.401,
+      "eval_steps_per_second": 5.862,
+      "step": 290
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019621361021999008,
+      "loss": 0.6824,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.5880205631256104,
+      "eval_runtime": 21.3379,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.858,
+      "step": 300
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.000195958719362661,
+      "loss": 0.673,
+      "step": 310
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 0.5902190804481506,
+      "eval_runtime": 21.3191,
+      "eval_samples_per_second": 23.406,
+      "eval_steps_per_second": 5.863,
+      "step": 310
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019569570293056894,
+      "loss": 0.6956,
+      "step": 320
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.5811321139335632,
+      "eval_runtime": 21.3365,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.859,
+      "step": 320
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019542458319537093,
+      "loss": 0.6889,
+      "step": 330
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.5849844813346863,
+      "eval_runtime": 21.3231,
+      "eval_samples_per_second": 23.402,
+      "eval_steps_per_second": 5.862,
+      "step": 330
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019514538311489395,
+      "loss": 0.6773,
+      "step": 340
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.5933501720428467,
+      "eval_runtime": 21.3446,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 340
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019485812633119096,
+      "loss": 0.6782,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.594153642654419,
+      "eval_runtime": 21.3347,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 350
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019456283716853904,
+      "loss": 0.719,
+      "step": 360
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.5848734974861145,
+      "eval_runtime": 21.3162,
+      "eval_samples_per_second": 23.409,
+      "eval_steps_per_second": 5.864,
+      "step": 360
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019425954063137947,
+      "loss": 0.6809,
+      "step": 370
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.579924464225769,
+      "eval_runtime": 21.3339,
+      "eval_samples_per_second": 23.39,
+      "eval_steps_per_second": 5.859,
+      "step": 370
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00019394826240220057,
+      "loss": 0.6412,
+      "step": 380
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.5709846019744873,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 380
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019362902883936288,
+      "loss": 0.6411,
+      "step": 390
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.562785267829895,
+      "eval_runtime": 21.3375,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.858,
+      "step": 390
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00019330186697486722,
+      "loss": 0.6519,
+      "step": 400
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.5611785650253296,
+      "eval_runtime": 21.3506,
+      "eval_samples_per_second": 23.372,
+      "eval_steps_per_second": 5.855,
+      "step": 400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00019296680451206575,
+      "loss": 0.6446,
+      "step": 410
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.5562126636505127,
+      "eval_runtime": 21.3482,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 410
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00019262386982331594,
+      "loss": 0.6574,
+      "step": 420
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.5644647479057312,
+      "eval_runtime": 21.3719,
+      "eval_samples_per_second": 23.348,
+      "eval_steps_per_second": 5.849,
+      "step": 420
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00019227309194757818,
+      "loss": 0.6633,
+      "step": 430
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.5663937926292419,
+      "eval_runtime": 21.3728,
+      "eval_samples_per_second": 23.347,
+      "eval_steps_per_second": 5.849,
+      "step": 430
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00019191450058795683,
+      "loss": 0.6673,
+      "step": 440
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.5483366847038269,
+      "eval_runtime": 21.352,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 5.854,
+      "step": 440
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00019154812610918501,
+      "loss": 0.6466,
+      "step": 450
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.554151713848114,
+      "eval_runtime": 21.4045,
+      "eval_samples_per_second": 23.313,
+      "eval_steps_per_second": 5.84,
+      "step": 450
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00019117399953505335,
+      "loss": 0.653,
+      "step": 460
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.5411431789398193,
+      "eval_runtime": 21.3349,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 460
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00019079215254578293,
+      "loss": 0.6384,
+      "step": 470
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.5362362265586853,
+      "eval_runtime": 21.3477,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.855,
+      "step": 470
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00019040261747534283,
+      "loss": 0.6287,
+      "step": 480
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.5452967286109924,
+      "eval_runtime": 21.3462,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 480
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00019000542730871197,
+      "loss": 0.661,
+      "step": 490
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.5644904971122742,
+      "eval_runtime": 21.3569,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 5.853,
+      "step": 490
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0001896006156790861,
+      "loss": 0.608,
+      "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.5245234370231628,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018918821686502989,
+      "loss": 0.6584,
+      "step": 510
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.5376425385475159,
+      "eval_runtime": 21.3569,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 5.853,
+      "step": 510
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0001887682657875741,
+      "loss": 0.6416,
+      "step": 520
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.5471484661102295,
+      "eval_runtime": 21.3644,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 520
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018834079800725872,
+      "loss": 0.6527,
+      "step": 530
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.5425943732261658,
+      "eval_runtime": 21.3669,
+      "eval_samples_per_second": 23.354,
+      "eval_steps_per_second": 5.85,
+      "step": 530
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00018790584972112174,
+      "loss": 0.6164,
+      "step": 540
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.5284227728843689,
+      "eval_runtime": 21.3751,
+      "eval_samples_per_second": 23.345,
+      "eval_steps_per_second": 5.848,
+      "step": 540
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00018746345775963395,
+      "loss": 0.611,
+      "step": 550
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.5312528014183044,
+      "eval_runtime": 21.3628,
+      "eval_samples_per_second": 23.358,
+      "eval_steps_per_second": 5.851,
+      "step": 550
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00018701365958358047,
+      "loss": 0.614,
+      "step": 560
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.5262718796730042,
+      "eval_runtime": 21.3578,
+      "eval_samples_per_second": 23.364,
+      "eval_steps_per_second": 5.853,
+      "step": 560
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00018655649328088835,
+      "loss": 0.6382,
+      "step": 570
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.5316660404205322,
+      "eval_runtime": 21.3512,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 570
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00018609199756340156,
+      "loss": 0.5804,
+      "step": 580
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.5207402110099792,
+      "eval_runtime": 21.3663,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 580
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001856202117636029,
+      "loss": 0.6291,
+      "step": 590
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5237697958946228,
+      "eval_runtime": 21.3922,
+      "eval_samples_per_second": 23.326,
+      "eval_steps_per_second": 5.843,
+      "step": 590
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00018514117583128347,
+      "loss": 0.5911,
+      "step": 600
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.517393171787262,
+      "eval_runtime": 21.3498,
+      "eval_samples_per_second": 23.373,
+      "eval_steps_per_second": 5.855,
+      "step": 600
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00018465493033015967,
+      "loss": 0.6111,
+      "step": 610
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.5281241536140442,
+      "eval_runtime": 21.3522,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 5.854,
+      "step": 610
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001841615164344385,
+      "loss": 0.5578,
+      "step": 620
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.5255175232887268,
+      "eval_runtime": 21.3637,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 620
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00018366097592533093,
+      "loss": 0.6055,
+      "step": 630
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.5177362561225891,
+      "eval_runtime": 21.3827,
+      "eval_samples_per_second": 23.337,
+      "eval_steps_per_second": 5.846,
+      "step": 630
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018315335118751396,
+      "loss": 0.6015,
+      "step": 640
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5130926370620728,
+      "eval_runtime": 21.4348,
+      "eval_samples_per_second": 23.28,
+      "eval_steps_per_second": 5.832,
+      "step": 640
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001826386852055417,
+      "loss": 0.6072,
+      "step": 650
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.5168054103851318,
+      "eval_runtime": 21.3583,
+      "eval_samples_per_second": 23.363,
+      "eval_steps_per_second": 5.853,
+      "step": 650
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001821170215602053,
+      "loss": 0.5956,
+      "step": 660
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5168840289115906,
+      "eval_runtime": 21.3753,
+      "eval_samples_per_second": 23.345,
+      "eval_steps_per_second": 5.848,
+      "step": 660
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0001815884044248429,
+      "loss": 0.6099,
+      "step": 670
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.5169732570648193,
+      "eval_runtime": 21.3472,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.856,
+      "step": 670
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001810528785615989,
+      "loss": 0.6038,
+      "step": 680
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.5055590867996216,
+      "eval_runtime": 21.3489,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 680
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018051048931763366,
+      "loss": 0.583,
+      "step": 690
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.5121394395828247,
+      "eval_runtime": 21.3436,
+      "eval_samples_per_second": 23.379,
+      "eval_steps_per_second": 5.857,
+      "step": 690
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001799612826212837,
+      "loss": 0.5885,
+      "step": 700
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.523388683795929,
+      "eval_runtime": 21.3616,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 700
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017940530497817254,
+      "loss": 0.5784,
+      "step": 710
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.5028228163719177,
+      "eval_runtime": 21.3469,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 5.856,
+      "step": 710
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00017884260346727254,
+      "loss": 0.5744,
+      "step": 720
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.5100187063217163,
+      "eval_runtime": 21.3603,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 720
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017827322573691872,
+      "loss": 0.6014,
+      "step": 730
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.5038166046142578,
+      "eval_runtime": 21.3431,
+      "eval_samples_per_second": 23.38,
+      "eval_steps_per_second": 5.857,
+      "step": 730
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001776972200007735,
+      "loss": 0.6185,
+      "step": 740
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.5146144032478333,
+      "eval_runtime": 21.3367,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.858,
+      "step": 740
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00017711463503374466,
+      "loss": 0.6184,
+      "step": 750
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.5316588282585144,
+      "eval_runtime": 21.3617,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 750
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001765255201678546,
+      "loss": 0.6141,
+      "step": 760
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.5080065727233887,
+      "eval_runtime": 21.3913,
+      "eval_samples_per_second": 23.327,
+      "eval_steps_per_second": 5.844,
+      "step": 760
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00017592992528806352,
+      "loss": 0.6146,
+      "step": 770
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.5165488719940186,
+      "eval_runtime": 21.3517,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 770
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0001753279008280449,
+      "loss": 0.5721,
+      "step": 780
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 21.3467,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 5.856,
+      "step": 780
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00017471949776591504,
+      "loss": 0.5931,
+      "step": 790
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.49337631464004517,
+      "eval_runtime": 21.3473,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.856,
+      "step": 790
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00017410476761991643,
+      "loss": 0.5944,
+      "step": 800
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.487575501203537,
+      "eval_runtime": 21.3451,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 800
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00017348376244405512,
+      "loss": 0.6002,
+      "step": 810
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.4929651618003845,
+      "eval_runtime": 21.3604,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 810
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.000172856534823693,
+      "loss": 0.5557,
+      "step": 820
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.4913093149662018,
+      "eval_runtime": 21.3626,
+      "eval_samples_per_second": 23.359,
+      "eval_steps_per_second": 5.851,
+      "step": 820
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00017222313787109496,
+      "loss": 0.58,
+      "step": 830
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.4909800887107849,
+      "eval_runtime": 21.4163,
+      "eval_samples_per_second": 23.3,
+      "eval_steps_per_second": 5.837,
+      "step": 830
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00017158362522093153,
+      "loss": 0.5459,
+      "step": 840
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.4883653223514557,
+      "eval_runtime": 21.3483,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 840
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00017093805102573706,
+      "loss": 0.5871,
+      "step": 850
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.48601067066192627,
+      "eval_runtime": 21.3674,
+      "eval_samples_per_second": 23.353,
+      "eval_steps_per_second": 5.85,
+      "step": 850
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00017028646995132435,
+      "loss": 0.5554,
+      "step": 860
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.4856807291507721,
+      "eval_runtime": 21.366,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 860
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0001696289371721556,
+      "loss": 0.5819,
+      "step": 870
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 0.4648899435997009,
+      "eval_runtime": 21.3516,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 870
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00016896550836667035,
+      "loss": 0.5649,
+      "step": 880
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 0.47903972864151,
+      "eval_runtime": 21.3528,
+      "eval_samples_per_second": 23.369,
+      "eval_steps_per_second": 5.854,
+      "step": 880
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00016829623971257088,
+      "loss": 0.5779,
+      "step": 890
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.4807458519935608,
+      "eval_runtime": 21.377,
+      "eval_samples_per_second": 23.343,
+      "eval_steps_per_second": 5.847,
+      "step": 890
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00016762118788206487,
+      "loss": 0.5756,
+      "step": 900
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.483437180519104,
+      "eval_runtime": 21.3913,
+      "eval_samples_per_second": 23.327,
+      "eval_steps_per_second": 5.843,
+      "step": 900
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.000166940410037067,
+      "loss": 0.5563,
+      "step": 910
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.49455228447914124,
+      "eval_runtime": 21.365,
+      "eval_samples_per_second": 23.356,
+      "eval_steps_per_second": 5.851,
+      "step": 910
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00016625396382435813,
+      "loss": 0.5393,
+      "step": 920
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.4847542643547058,
+      "eval_runtime": 21.3614,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 920
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00016556190737070428,
+      "loss": 0.5551,
+      "step": 930
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.4845309257507324,
+      "eval_runtime": 21.4008,
+      "eval_samples_per_second": 23.317,
+      "eval_steps_per_second": 5.841,
+      "step": 930
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00016486429927793436,
+      "loss": 0.5687,
+      "step": 940
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.4806869626045227,
+      "eval_runtime": 21.374,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 940
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00016416119861797796,
+      "loss": 0.5469,
+      "step": 950
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 0.4748505651950836,
+      "eval_runtime": 21.355,
+      "eval_samples_per_second": 23.367,
+      "eval_steps_per_second": 5.853,
+      "step": 950
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001634526649278632,
+      "loss": 0.5771,
+      "step": 960
+    },
+    {
+      "epoch": 1.69,
+      "eval_loss": 0.4859110414981842,
+      "eval_runtime": 21.3418,
+      "eval_samples_per_second": 23.381,
+      "eval_steps_per_second": 5.857,
+      "step": 960
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00016273875820467545,
+      "loss": 0.5689,
+      "step": 970
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.4734295606613159,
+      "eval_runtime": 21.3607,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 970
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001620195389004767,
+      "loss": 0.5741,
+      "step": 980
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.4881950914859772,
+      "eval_runtime": 21.3786,
+      "eval_samples_per_second": 23.341,
+      "eval_steps_per_second": 5.847,
+      "step": 980
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00016129506791718665,
+      "loss": 0.5643,
+      "step": 990
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.4815501570701599,
+      "eval_runtime": 21.3699,
+      "eval_samples_per_second": 23.351,
+      "eval_steps_per_second": 5.849,
+      "step": 990
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00016056540660142586,
+      "loss": 0.5603,
+      "step": 1000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.46760401129722595,
+      "eval_runtime": 21.354,
+      "eval_samples_per_second": 23.368,
+      "eval_steps_per_second": 5.854,
+      "step": 1000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001598306167393208,
+      "loss": 0.5925,
+      "step": 1010
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.46860912442207336,
+      "eval_runtime": 21.3958,
+      "eval_samples_per_second": 23.322,
+      "eval_steps_per_second": 5.842,
+      "step": 1010
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00015909076055127202,
+      "loss": 0.5834,
+      "step": 1020
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.47431066632270813,
+      "eval_runtime": 21.4034,
+      "eval_samples_per_second": 23.314,
+      "eval_steps_per_second": 5.84,
+      "step": 1020
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00019360595357389735,
+      "loss": 0.5902,
+      "step": 1030
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.49162757396698,
+      "eval_runtime": 38.6636,
+      "eval_samples_per_second": 12.906,
+      "eval_steps_per_second": 3.233,
+      "step": 1030
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00019348256763960145,
+      "loss": 0.5777,
+      "step": 1040
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.47481468319892883,
+      "eval_runtime": 41.2268,
+      "eval_samples_per_second": 12.104,
+      "eval_steps_per_second": 3.032,
+      "step": 1040
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00019335804264972018,
+      "loss": 0.5921,
+      "step": 1050
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.48432889580726624,
+      "eval_runtime": 30.5847,
+      "eval_samples_per_second": 16.315,
+      "eval_steps_per_second": 4.087,
+      "step": 1050
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00019323238012155123,
+      "loss": 0.5877,
+      "step": 1060
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.47419798374176025,
+      "eval_runtime": 37.8731,
+      "eval_samples_per_second": 13.176,
+      "eval_steps_per_second": 3.3,
+      "step": 1060
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00019310558158625285,
+      "loss": 0.5453,
+      "step": 1070
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.4705266058444977,
+      "eval_runtime": 22.4824,
+      "eval_samples_per_second": 22.195,
+      "eval_steps_per_second": 2.802,
+      "step": 1070
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 0.5445,
+      "step": 1080
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.4662667214870453,
+      "eval_runtime": 31.6864,
+      "eval_samples_per_second": 15.748,
+      "eval_steps_per_second": 1.988,
+      "step": 1080
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00019284858268809137,
+      "loss": 0.5686,
+      "step": 1090
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.47445282340049744,
+      "eval_runtime": 27.1784,
+      "eval_samples_per_second": 18.36,
+      "eval_steps_per_second": 2.318,
+      "step": 1090
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00019271838545667876,
+      "loss": 0.5712,
+      "step": 1100
+    },
+    {
+      "epoch": 1.93,
+      "eval_loss": 0.48884764313697815,
+      "eval_runtime": 37.118,
+      "eval_samples_per_second": 13.444,
+      "eval_steps_per_second": 1.697,
+      "step": 1100
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0001925870584809995,
+      "loss": 0.6032,
+      "step": 1110
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.48608502745628357,
+      "eval_runtime": 36.4351,
+      "eval_samples_per_second": 13.696,
+      "eval_steps_per_second": 1.729,
+      "step": 1110
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00019245460336123134,
+      "loss": 0.5491,
+      "step": 1120
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.472098708152771,
+      "eval_runtime": 22.4827,
+      "eval_samples_per_second": 22.195,
+      "eval_steps_per_second": 2.802,
+      "step": 1120
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00019232102171129811,
+      "loss": 0.5452,
+      "step": 1130
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.4644794762134552,
+      "eval_runtime": 27.0746,
+      "eval_samples_per_second": 18.431,
+      "eval_steps_per_second": 2.327,
+      "step": 1130
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00019218631515885006,
+      "loss": 0.5526,
+      "step": 1140
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.48768851161003113,
+      "eval_runtime": 32.1887,
+      "eval_samples_per_second": 15.502,
+      "eval_steps_per_second": 1.957,
+      "step": 1140
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00019205048534524406,
+      "loss": 0.5443,
+      "step": 1150
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.4716103971004486,
+      "eval_runtime": 30.3462,
+      "eval_samples_per_second": 16.444,
+      "eval_steps_per_second": 2.076,
+      "step": 1150
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00019191353392552344,
+      "loss": 0.5103,
+      "step": 1160
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 0.46319034695625305,
+      "eval_runtime": 23.7207,
+      "eval_samples_per_second": 21.037,
+      "eval_steps_per_second": 2.656,
+      "step": 1160
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00019177546256839812,
+      "loss": 0.5202,
+      "step": 1170
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.4802156984806061,
+      "eval_runtime": 24.1547,
+      "eval_samples_per_second": 20.658,
+      "eval_steps_per_second": 2.608,
+      "step": 1170
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00019163627295622397,
+      "loss": 0.5436,
+      "step": 1180
+    },
+    {
+      "epoch": 2.07,
+      "eval_loss": 0.4681110680103302,
+      "eval_runtime": 26.9736,
+      "eval_samples_per_second": 18.5,
+      "eval_steps_per_second": 2.336,
+      "step": 1180
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0001914959667849825,
+      "loss": 0.5454,
+      "step": 1190
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.470931738615036,
+      "eval_runtime": 36.9982,
+      "eval_samples_per_second": 13.487,
+      "eval_steps_per_second": 1.703,
+      "step": 1190
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 0.5183,
+      "step": 1200
+    },
+    {
+      "epoch": 2.11,
+      "eval_loss": 0.47423675656318665,
+      "eval_runtime": 33.685,
+      "eval_samples_per_second": 14.814,
+      "eval_steps_per_second": 1.87,
+      "step": 1200
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 9000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 16,
+  "save_steps":

relation/checkpoint-1200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4081a09c8a35bfb2db1219c416768f48125bbefa8d9a5a75cc35ac4f8817f480
+size 4920

relation/eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.11,
+    "eval_loss": 0.47148287296295166,
+    "eval_runtime": 30.9817,
+    "eval_samples_per_second": 16.106,
+    "eval_steps_per_second": 2.033
+}

relation/runs/Jan27_03-39-34_platform/events.out.tfevents.1706326783.platform ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9fddae49a4f40121daa708b2cd564b155e2082ffd05fc27b8c44e5b14b3349c3
+size 48505

relation/runs/Jan29_07-52-52_platform/events.out.tfevents.1706514788.platform ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:679abc8d01b7d306cdacd20a8d89a06d125165d984d5724c7dc8770a4e50d045
+size 5837

relation/runs/Jan29_07-56-19_platform/events.out.tfevents.1706514989.platform ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:36ebb7f17275a6543bc9ec041c8fd4dfa191d40e5c6034655cdcc3652f9e8c81
+size 5995

relation/runs/Jan29_08-02-06_platform/events.out.tfevents.1706515335.platform ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:502de83c3536554dae20b28cbefdd2dca5b5fd2e318830f83e1cd3ebe7c59fe6
+size 10974

relation/runs/Jan29_08-20-10_platform/events.out.tfevents.1706516420.platform ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db630cfb85131816b99100c3ecd7d226a8e23e0341499f22720eb098e384669b
+size 5336

relation/runs/Jan29_08-20-10_platform/events.out.tfevents.1706516457.platform ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:232484c8261a1d2bdac1e2ea76f1753d6ea002b45d3238473431063657e6b687
+size 311

relation/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

relation/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

relation/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<unk>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

relation/train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.11,
+    "train_loss": 0.000492346822768822,
+    "train_runtime": 4.9952,
+    "train_samples_per_second": 3843.723,
+    "train_steps_per_second": 240.233
+}

relation/trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,243 @@

+{"current_steps": 10, "total_steps": 3414, "loss": 3.0929, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019999576610920983, "epoch": 0.02, "percentage": 0.29, "elapsed_time": "0:00:23", "remaining_time": "2:14:45"}
+{"current_steps": 10, "total_steps": 3414, "loss": null, "eval_loss": 2.167867660522461, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.02, "percentage": 0.29, "elapsed_time": "0:00:23", "remaining_time": "2:14:45"}
+{"current_steps": 20, "total_steps": 3414, "loss": 1.8074, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019998306479535586, "epoch": 0.04, "percentage": 0.59, "elapsed_time": "0:01:09", "remaining_time": "3:16:48"}
+{"current_steps": 20, "total_steps": 3414, "loss": null, "eval_loss": 1.4092761278152466, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.04, "percentage": 0.59, "elapsed_time": "0:01:09", "remaining_time": "3:16:48"}
+{"current_steps": 30, "total_steps": 3414, "loss": 1.2188, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019996189713395766, "epoch": 0.05, "percentage": 0.88, "elapsed_time": "0:01:55", "remaining_time": "3:36:46"}
+{"current_steps": 30, "total_steps": 3414, "loss": null, "eval_loss": 1.1258704662322998, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.05, "percentage": 0.88, "elapsed_time": "0:01:55", "remaining_time": "3:36:46"}
+{"current_steps": 40, "total_steps": 3414, "loss": 1.0841, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019993226491744662, "epoch": 0.07, "percentage": 1.17, "elapsed_time": "0:02:40", "remaining_time": "3:45:28"}
+{"current_steps": 40, "total_steps": 3414, "loss": null, "eval_loss": 0.9605854153633118, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.07, "percentage": 1.17, "elapsed_time": "0:02:40", "remaining_time": "3:45:28"}
+{"current_steps": 50, "total_steps": 3414, "loss": 0.9594, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019989417065501396, "epoch": 0.09, "percentage": 1.46, "elapsed_time": "0:03:26", "remaining_time": "3:51:29"}
+{"current_steps": 50, "total_steps": 3414, "loss": null, "eval_loss": 0.8681771159172058, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.09, "percentage": 1.46, "elapsed_time": "0:03:26", "remaining_time": "3:51:29"}
+{"current_steps": 60, "total_steps": 3414, "loss": 0.8765, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019984761757239875, "epoch": 0.11, "percentage": 1.76, "elapsed_time": "0:04:11", "remaining_time": "3:54:27"}
+{"current_steps": 60, "total_steps": 3414, "loss": null, "eval_loss": 0.816562294960022, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.11, "percentage": 1.76, "elapsed_time": "0:04:11", "remaining_time": "3:54:27"}
+{"current_steps": 70, "total_steps": 3414, "loss": 0.852, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019979260961161427, "epoch": 0.12, "percentage": 2.05, "elapsed_time": "0:04:56", "remaining_time": "3:56:12"}
+{"current_steps": 70, "total_steps": 3414, "loss": null, "eval_loss": 0.7803006768226624, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.12, "percentage": 2.05, "elapsed_time": "0:04:56", "remaining_time": "3:56:12"}
+{"current_steps": 80, "total_steps": 3414, "loss": 0.8404, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019972915143061455, "epoch": 0.14, "percentage": 2.34, "elapsed_time": "0:05:41", "remaining_time": "3:57:26"}
+{"current_steps": 80, "total_steps": 3414, "loss": null, "eval_loss": 0.760216236114502, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.14, "percentage": 2.34, "elapsed_time": "0:05:41", "remaining_time": "3:57:26"}
+{"current_steps": 90, "total_steps": 3414, "loss": 0.8183, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001996572484028997, "epoch": 0.16, "percentage": 2.64, "elapsed_time": "0:06:26", "remaining_time": "3:58:11"}
+{"current_steps": 90, "total_steps": 3414, "loss": null, "eval_loss": 0.7222956418991089, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.16, "percentage": 2.64, "elapsed_time": "0:06:26", "remaining_time": "3:58:11"}
+{"current_steps": 100, "total_steps": 3414, "loss": 0.7816, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019957690661706108, "epoch": 0.18, "percentage": 2.93, "elapsed_time": "0:07:13", "remaining_time": "3:59:09"}
+{"current_steps": 100, "total_steps": 3414, "loss": null, "eval_loss": 0.7133845686912537, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.18, "percentage": 2.93, "elapsed_time": "0:07:13", "remaining_time": "3:59:09"}
+{"current_steps": 110, "total_steps": 3414, "loss": 0.7792, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019948813287626563, "epoch": 0.19, "percentage": 3.22, "elapsed_time": "0:07:58", "remaining_time": "3:59:42"}
+{"current_steps": 110, "total_steps": 3414, "loss": null, "eval_loss": 0.7233743667602539, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.19, "percentage": 3.22, "elapsed_time": "0:07:58", "remaining_time": "3:59:42"}
+{"current_steps": 120, "total_steps": 3414, "loss": 0.7648, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001993909346976798, "epoch": 0.21, "percentage": 3.51, "elapsed_time": "0:08:43", "remaining_time": "3:59:19"}
+{"current_steps": 120, "total_steps": 3414, "loss": null, "eval_loss": 0.6882979273796082, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.21, "percentage": 3.51, "elapsed_time": "0:08:43", "remaining_time": "3:59:19"}
+{"current_steps": 130, "total_steps": 3414, "loss": 0.8132, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001992853203118331, "epoch": 0.23, "percentage": 3.81, "elapsed_time": "0:09:28", "remaining_time": "3:59:31"}
+{"current_steps": 130, "total_steps": 3414, "loss": null, "eval_loss": 0.7019714117050171, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.23, "percentage": 3.81, "elapsed_time": "0:09:28", "remaining_time": "3:59:31"}
+{"current_steps": 140, "total_steps": 3414, "loss": 0.7599, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000199171298661921, "epoch": 0.25, "percentage": 4.1, "elapsed_time": "0:10:14", "remaining_time": "3:59:25"}
+{"current_steps": 140, "total_steps": 3414, "loss": null, "eval_loss": 0.668350338935852, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.25, "percentage": 4.1, "elapsed_time": "0:10:14", "remaining_time": "3:59:25"}
+{"current_steps": 150, "total_steps": 3414, "loss": 0.7518, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001990488794030478, "epoch": 0.26, "percentage": 4.39, "elapsed_time": "0:10:59", "remaining_time": "3:59:04"}
+{"current_steps": 150, "total_steps": 3414, "loss": null, "eval_loss": 0.6716361045837402, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.26, "percentage": 4.39, "elapsed_time": "0:10:59", "remaining_time": "3:59:04"}
+{"current_steps": 160, "total_steps": 3414, "loss": 0.7452, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019891807290140892, "epoch": 0.28, "percentage": 4.69, "elapsed_time": "0:11:44", "remaining_time": "3:58:48"}
+{"current_steps": 160, "total_steps": 3414, "loss": null, "eval_loss": 0.6634441018104553, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.28, "percentage": 4.69, "elapsed_time": "0:11:44", "remaining_time": "3:58:48"}
+{"current_steps": 170, "total_steps": 3414, "loss": 0.7215, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019877889023341323, "epoch": 0.3, "percentage": 4.98, "elapsed_time": "0:12:30", "remaining_time": "3:58:34"}
+{"current_steps": 170, "total_steps": 3414, "loss": null, "eval_loss": 0.6609596610069275, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.3, "percentage": 4.98, "elapsed_time": "0:12:30", "remaining_time": "3:58:34"}
+{"current_steps": 180, "total_steps": 3414, "loss": 0.7088, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019863134318474503, "epoch": 0.32, "percentage": 5.27, "elapsed_time": "0:13:15", "remaining_time": "3:58:20"}
+{"current_steps": 180, "total_steps": 3414, "loss": null, "eval_loss": 0.659795880317688, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.32, "percentage": 5.27, "elapsed_time": "0:13:15", "remaining_time": "3:58:20"}
+{"current_steps": 190, "total_steps": 3414, "loss": 0.7237, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001984754442493662, "epoch": 0.33, "percentage": 5.57, "elapsed_time": "0:14:01", "remaining_time": "3:57:55"}
+{"current_steps": 190, "total_steps": 3414, "loss": null, "eval_loss": 0.6469973921775818, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.33, "percentage": 5.57, "elapsed_time": "0:14:01", "remaining_time": "3:57:55"}
+{"current_steps": 200, "total_steps": 3414, "loss": 0.7353, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000198311206628458, "epoch": 0.35, "percentage": 5.86, "elapsed_time": "0:14:47", "remaining_time": "3:57:35"}
+{"current_steps": 200, "total_steps": 3414, "loss": null, "eval_loss": 0.6315197348594666, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.35, "percentage": 5.86, "elapsed_time": "0:14:47", "remaining_time": "3:57:35"}
+{"current_steps": 210, "total_steps": 3414, "loss": 0.7111, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019813864422930347, "epoch": 0.37, "percentage": 6.15, "elapsed_time": "0:15:31", "remaining_time": "3:56:48"}
+{"current_steps": 210, "total_steps": 3414, "loss": null, "eval_loss": 0.6466153860092163, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.37, "percentage": 6.15, "elapsed_time": "0:15:31", "remaining_time": "3:56:48"}
+{"current_steps": 220, "total_steps": 3414, "loss": 0.7136, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019795777166410966, "epoch": 0.39, "percentage": 6.44, "elapsed_time": "0:16:15", "remaining_time": "3:56:07"}
+{"current_steps": 220, "total_steps": 3414, "loss": null, "eval_loss": 0.632926344871521, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.39, "percentage": 6.44, "elapsed_time": "0:16:15", "remaining_time": "3:56:07"}
+{"current_steps": 230, "total_steps": 3414, "loss": 0.7044, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019776860424877032, "epoch": 0.4, "percentage": 6.74, "elapsed_time": "0:17:01", "remaining_time": "3:55:42"}
+{"current_steps": 230, "total_steps": 3414, "loss": null, "eval_loss": 0.6356912851333618, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.4, "percentage": 6.74, "elapsed_time": "0:17:01", "remaining_time": "3:55:42"}
+{"current_steps": 240, "total_steps": 3414, "loss": 0.7369, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000197571158001569, "epoch": 0.42, "percentage": 7.03, "elapsed_time": "0:17:46", "remaining_time": "3:55:10"}
+{"current_steps": 240, "total_steps": 3414, "loss": null, "eval_loss": 0.6214553713798523, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.42, "percentage": 7.03, "elapsed_time": "0:17:46", "remaining_time": "3:55:10"}
+{"current_steps": 250, "total_steps": 3414, "loss": 0.6995, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019736544964182268, "epoch": 0.44, "percentage": 7.32, "elapsed_time": "0:18:32", "remaining_time": "3:54:33"}
+{"current_steps": 250, "total_steps": 3414, "loss": null, "eval_loss": 0.6103290915489197, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.44, "percentage": 7.32, "elapsed_time": "0:18:32", "remaining_time": "3:54:33"}
+{"current_steps": 260, "total_steps": 3414, "loss": 0.7027, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019715149658846591, "epoch": 0.46, "percentage": 7.62, "elapsed_time": "0:19:17", "remaining_time": "3:54:05"}
+{"current_steps": 260, "total_steps": 3414, "loss": null, "eval_loss": 0.5964030027389526, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.46, "percentage": 7.62, "elapsed_time": "0:19:17", "remaining_time": "3:54:05"}
+{"current_steps": 270, "total_steps": 3414, "loss": 0.6872, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000196929316958576, "epoch": 0.47, "percentage": 7.91, "elapsed_time": "0:20:03", "remaining_time": "3:53:28"}
+{"current_steps": 270, "total_steps": 3414, "loss": null, "eval_loss": 0.60444176197052, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.47, "percentage": 7.91, "elapsed_time": "0:20:03", "remaining_time": "3:53:28"}
+{"current_steps": 280, "total_steps": 3414, "loss": 0.7182, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019669892956583867, "epoch": 0.49, "percentage": 8.2, "elapsed_time": "0:20:48", "remaining_time": "3:52:57"}
+{"current_steps": 280, "total_steps": 3414, "loss": null, "eval_loss": 0.6127080917358398, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.49, "percentage": 8.2, "elapsed_time": "0:20:48", "remaining_time": "3:52:57"}
+{"current_steps": 290, "total_steps": 3414, "loss": 0.6897, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019646035391895512, "epoch": 0.51, "percentage": 8.49, "elapsed_time": "0:21:33", "remaining_time": "3:52:18"}
+{"current_steps": 290, "total_steps": 3414, "loss": null, "eval_loss": 0.6016324758529663, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.51, "percentage": 8.49, "elapsed_time": "0:21:33", "remaining_time": "3:52:18"}
+{"current_steps": 300, "total_steps": 3414, "loss": 0.6824, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019621361021999008, "epoch": 0.53, "percentage": 8.79, "elapsed_time": "0:22:18", "remaining_time": "3:51:38"}
+{"current_steps": 300, "total_steps": 3414, "loss": null, "eval_loss": 0.5880205631256104, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.53, "percentage": 8.79, "elapsed_time": "0:22:18", "remaining_time": "3:51:38"}
+{"current_steps": 310, "total_steps": 3414, "loss": 0.673, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000195958719362661, "epoch": 0.54, "percentage": 9.08, "elapsed_time": "0:23:05", "remaining_time": "3:51:09"}
+{"current_steps": 310, "total_steps": 3414, "loss": null, "eval_loss": 0.5902190804481506, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.54, "percentage": 9.08, "elapsed_time": "0:23:05", "remaining_time": "3:51:09"}
+{"current_steps": 320, "total_steps": 3414, "loss": 0.6956, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019569570293056894, "epoch": 0.56, "percentage": 9.37, "elapsed_time": "0:23:49", "remaining_time": "3:50:21"}
+{"current_steps": 320, "total_steps": 3414, "loss": null, "eval_loss": 0.5811321139335632, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.56, "percentage": 9.37, "elapsed_time": "0:23:49", "remaining_time": "3:50:21"}
+{"current_steps": 330, "total_steps": 3414, "loss": 0.6889, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019542458319537093, "epoch": 0.58, "percentage": 9.67, "elapsed_time": "0:24:34", "remaining_time": "3:49:44"}
+{"current_steps": 330, "total_steps": 3414, "loss": null, "eval_loss": 0.5849844813346863, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.58, "percentage": 9.67, "elapsed_time": "0:24:34", "remaining_time": "3:49:44"}
+{"current_steps": 340, "total_steps": 3414, "loss": 0.6773, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019514538311489395, "epoch": 0.6, "percentage": 9.96, "elapsed_time": "0:25:20", "remaining_time": "3:49:06"}
+{"current_steps": 340, "total_steps": 3414, "loss": null, "eval_loss": 0.5933501720428467, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.6, "percentage": 9.96, "elapsed_time": "0:25:20", "remaining_time": "3:49:06"}
+{"current_steps": 350, "total_steps": 3414, "loss": 0.6782, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019485812633119096, "epoch": 0.61, "percentage": 10.25, "elapsed_time": "0:26:06", "remaining_time": "3:48:36"}
+{"current_steps": 350, "total_steps": 3414, "loss": null, "eval_loss": 0.594153642654419, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.61, "percentage": 10.25, "elapsed_time": "0:26:06", "remaining_time": "3:48:36"}
+{"current_steps": 360, "total_steps": 3414, "loss": 0.719, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019456283716853904, "epoch": 0.63, "percentage": 10.54, "elapsed_time": "0:26:51", "remaining_time": "3:47:53"}
+{"current_steps": 360, "total_steps": 3414, "loss": null, "eval_loss": 0.5848734974861145, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.63, "percentage": 10.54, "elapsed_time": "0:26:51", "remaining_time": "3:47:53"}
+{"current_steps": 370, "total_steps": 3414, "loss": 0.6809, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019425954063137947, "epoch": 0.65, "percentage": 10.84, "elapsed_time": "0:27:38", "remaining_time": "3:47:23"}
+{"current_steps": 370, "total_steps": 3414, "loss": null, "eval_loss": 0.579924464225769, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.65, "percentage": 10.84, "elapsed_time": "0:27:38", "remaining_time": "3:47:23"}
+{"current_steps": 380, "total_steps": 3414, "loss": 0.6412, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019394826240220057, "epoch": 0.67, "percentage": 11.13, "elapsed_time": "0:28:23", "remaining_time": "3:46:43"}
+{"current_steps": 380, "total_steps": 3414, "loss": null, "eval_loss": 0.5709846019744873, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.67, "percentage": 11.13, "elapsed_time": "0:28:23", "remaining_time": "3:46:43"}
+{"current_steps": 390, "total_steps": 3414, "loss": 0.6411, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019362902883936288, "epoch": 0.69, "percentage": 11.42, "elapsed_time": "0:29:10", "remaining_time": "3:46:10"}
+{"current_steps": 390, "total_steps": 3414, "loss": null, "eval_loss": 0.562785267829895, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.69, "percentage": 11.42, "elapsed_time": "0:29:10", "remaining_time": "3:46:10"}
+{"current_steps": 400, "total_steps": 3414, "loss": 0.6519, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019330186697486722, "epoch": 0.7, "percentage": 11.72, "elapsed_time": "0:29:55", "remaining_time": "3:45:25"}
+{"current_steps": 400, "total_steps": 3414, "loss": null, "eval_loss": 0.5611785650253296, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.7, "percentage": 11.72, "elapsed_time": "0:29:55", "remaining_time": "3:45:25"}
+{"current_steps": 410, "total_steps": 3414, "loss": 0.6446, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019296680451206575, "epoch": 0.72, "percentage": 12.01, "elapsed_time": "0:30:40", "remaining_time": "3:44:44"}
+{"current_steps": 410, "total_steps": 3414, "loss": null, "eval_loss": 0.5562126636505127, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.72, "percentage": 12.01, "elapsed_time": "0:30:40", "remaining_time": "3:44:44"}
+{"current_steps": 420, "total_steps": 3414, "loss": 0.6574, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019262386982331594, "epoch": 0.74, "percentage": 12.3, "elapsed_time": "0:31:26", "remaining_time": "3:44:06"}
+{"current_steps": 420, "total_steps": 3414, "loss": null, "eval_loss": 0.5644647479057312, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.74, "percentage": 12.3, "elapsed_time": "0:31:26", "remaining_time": "3:44:06"}
+{"current_steps": 430, "total_steps": 3414, "loss": 0.6633, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019227309194757818, "epoch": 0.76, "percentage": 12.6, "elapsed_time": "0:32:11", "remaining_time": "3:43:22"}
+{"current_steps": 430, "total_steps": 3414, "loss": null, "eval_loss": 0.5663937926292419, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.76, "percentage": 12.6, "elapsed_time": "0:32:11", "remaining_time": "3:43:22"}
+{"current_steps": 440, "total_steps": 3414, "loss": 0.6673, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019191450058795683, "epoch": 0.77, "percentage": 12.89, "elapsed_time": "0:32:56", "remaining_time": "3:42:40"}
+{"current_steps": 440, "total_steps": 3414, "loss": null, "eval_loss": 0.5483366847038269, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.77, "percentage": 12.89, "elapsed_time": "0:32:56", "remaining_time": "3:42:40"}
+{"current_steps": 450, "total_steps": 3414, "loss": 0.6466, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019154812610918501, "epoch": 0.79, "percentage": 13.18, "elapsed_time": "0:33:42", "remaining_time": "3:41:59"}
+{"current_steps": 450, "total_steps": 3414, "loss": null, "eval_loss": 0.554151713848114, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.79, "percentage": 13.18, "elapsed_time": "0:33:42", "remaining_time": "3:41:59"}
+{"current_steps": 460, "total_steps": 3414, "loss": 0.653, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019117399953505335, "epoch": 0.81, "percentage": 13.47, "elapsed_time": "0:34:28", "remaining_time": "3:41:21"}
+{"current_steps": 460, "total_steps": 3414, "loss": null, "eval_loss": 0.5411431789398193, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.81, "percentage": 13.47, "elapsed_time": "0:34:28", "remaining_time": "3:41:21"}
+{"current_steps": 470, "total_steps": 3414, "loss": 0.6384, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019079215254578293, "epoch": 0.83, "percentage": 13.77, "elapsed_time": "0:35:12", "remaining_time": "3:40:32"}
+{"current_steps": 470, "total_steps": 3414, "loss": null, "eval_loss": 0.5362362265586853, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.83, "percentage": 13.77, "elapsed_time": "0:35:12", "remaining_time": "3:40:32"}
+{"current_steps": 480, "total_steps": 3414, "loss": 0.6287, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019040261747534283, "epoch": 0.84, "percentage": 14.06, "elapsed_time": "0:35:57", "remaining_time": "3:39:47"}
+{"current_steps": 480, "total_steps": 3414, "loss": null, "eval_loss": 0.5452967286109924, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.84, "percentage": 14.06, "elapsed_time": "0:35:57", "remaining_time": "3:39:47"}
+{"current_steps": 490, "total_steps": 3414, "loss": 0.661, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019000542730871197, "epoch": 0.86, "percentage": 14.35, "elapsed_time": "0:36:42", "remaining_time": "3:39:03"}
+{"current_steps": 490, "total_steps": 3414, "loss": null, "eval_loss": 0.5644904971122742, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.86, "percentage": 14.35, "elapsed_time": "0:36:42", "remaining_time": "3:39:03"}
+{"current_steps": 500, "total_steps": 3414, "loss": 0.608, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001896006156790861, "epoch": 0.88, "percentage": 14.65, "elapsed_time": "0:37:27", "remaining_time": "3:38:16"}
+{"current_steps": 500, "total_steps": 3414, "loss": null, "eval_loss": 0.5245234370231628, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.88, "percentage": 14.65, "elapsed_time": "0:37:27", "remaining_time": "3:38:16"}
+{"current_steps": 510, "total_steps": 3414, "loss": 0.6584, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018918821686502989, "epoch": 0.9, "percentage": 14.94, "elapsed_time": "0:38:13", "remaining_time": "3:37:37"}
+{"current_steps": 510, "total_steps": 3414, "loss": null, "eval_loss": 0.5376425385475159, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.9, "percentage": 14.94, "elapsed_time": "0:38:13", "remaining_time": "3:37:37"}
+{"current_steps": 520, "total_steps": 3414, "loss": 0.6416, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001887682657875741, "epoch": 0.91, "percentage": 15.23, "elapsed_time": "0:38:57", "remaining_time": "3:36:50"}
+{"current_steps": 520, "total_steps": 3414, "loss": null, "eval_loss": 0.5471484661102295, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.91, "percentage": 15.23, "elapsed_time": "0:38:57", "remaining_time": "3:36:50"}
+{"current_steps": 530, "total_steps": 3414, "loss": 0.6527, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018834079800725872, "epoch": 0.93, "percentage": 15.52, "elapsed_time": "0:39:43", "remaining_time": "3:36:07"}
+{"current_steps": 530, "total_steps": 3414, "loss": null, "eval_loss": 0.5425943732261658, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.93, "percentage": 15.52, "elapsed_time": "0:39:43", "remaining_time": "3:36:07"}
+{"current_steps": 540, "total_steps": 3414, "loss": 0.6164, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018790584972112174, "epoch": 0.95, "percentage": 15.82, "elapsed_time": "0:40:29", "remaining_time": "3:35:28"}
+{"current_steps": 540, "total_steps": 3414, "loss": null, "eval_loss": 0.5284227728843689, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.95, "percentage": 15.82, "elapsed_time": "0:40:29", "remaining_time": "3:35:28"}
+{"current_steps": 550, "total_steps": 3414, "loss": 0.611, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018746345775963395, "epoch": 0.97, "percentage": 16.11, "elapsed_time": "0:41:15", "remaining_time": "3:34:48"}
+{"current_steps": 550, "total_steps": 3414, "loss": null, "eval_loss": 0.5312528014183044, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.97, "percentage": 16.11, "elapsed_time": "0:41:15", "remaining_time": "3:34:48"}
+{"current_steps": 560, "total_steps": 3414, "loss": 0.614, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018701365958358047, "epoch": 0.98, "percentage": 16.4, "elapsed_time": "0:42:01", "remaining_time": "3:34:12"}
+{"current_steps": 560, "total_steps": 3414, "loss": null, "eval_loss": 0.5262718796730042, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 0.98, "percentage": 16.4, "elapsed_time": "0:42:01", "remaining_time": "3:34:12"}
+{"current_steps": 570, "total_steps": 3414, "loss": 0.6382, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018655649328088835, "epoch": 1.0, "percentage": 16.7, "elapsed_time": "0:42:48", "remaining_time": "3:33:33"}
+{"current_steps": 570, "total_steps": 3414, "loss": null, "eval_loss": 0.5316660404205322, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.0, "percentage": 16.7, "elapsed_time": "0:42:48", "remaining_time": "3:33:33"}
+{"current_steps": 580, "total_steps": 3414, "loss": 0.5804, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018609199756340156, "epoch": 1.02, "percentage": 16.99, "elapsed_time": "0:43:34", "remaining_time": "3:32:52"}
+{"current_steps": 580, "total_steps": 3414, "loss": null, "eval_loss": 0.5207402110099792, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.02, "percentage": 16.99, "elapsed_time": "0:43:34", "remaining_time": "3:32:52"}
+{"current_steps": 590, "total_steps": 3414, "loss": 0.6291, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001856202117636029, "epoch": 1.04, "percentage": 17.28, "elapsed_time": "0:44:21", "remaining_time": "3:32:17"}
+{"current_steps": 590, "total_steps": 3414, "loss": null, "eval_loss": 0.5237697958946228, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.04, "percentage": 17.28, "elapsed_time": "0:44:21", "remaining_time": "3:32:17"}
+{"current_steps": 600, "total_steps": 3414, "loss": 0.5911, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018514117583128347, "epoch": 1.05, "percentage": 17.57, "elapsed_time": "0:45:07", "remaining_time": "3:31:36"}
+{"current_steps": 600, "total_steps": 3414, "loss": null, "eval_loss": 0.517393171787262, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.05, "percentage": 17.57, "elapsed_time": "0:45:07", "remaining_time": "3:31:36"}
+{"current_steps": 610, "total_steps": 3414, "loss": 0.6111, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018465493033015967, "epoch": 1.07, "percentage": 17.87, "elapsed_time": "0:45:52", "remaining_time": "3:30:52"}
+{"current_steps": 610, "total_steps": 3414, "loss": null, "eval_loss": 0.5281241536140442, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.07, "percentage": 17.87, "elapsed_time": "0:45:52", "remaining_time": "3:30:52"}
+{"current_steps": 620, "total_steps": 3414, "loss": 0.5578, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001841615164344385, "epoch": 1.09, "percentage": 18.16, "elapsed_time": "0:46:37", "remaining_time": "3:30:06"}
+{"current_steps": 620, "total_steps": 3414, "loss": null, "eval_loss": 0.5255175232887268, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.09, "percentage": 18.16, "elapsed_time": "0:46:37", "remaining_time": "3:30:06"}
+{"current_steps": 630, "total_steps": 3414, "loss": 0.6055, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018366097592533093, "epoch": 1.11, "percentage": 18.45, "elapsed_time": "0:47:23", "remaining_time": "3:29:25"}
+{"current_steps": 630, "total_steps": 3414, "loss": null, "eval_loss": 0.5177362561225891, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.11, "percentage": 18.45, "elapsed_time": "0:47:23", "remaining_time": "3:29:25"}
+{"current_steps": 640, "total_steps": 3414, "loss": 0.6015, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018315335118751396, "epoch": 1.12, "percentage": 18.75, "elapsed_time": "0:48:09", "remaining_time": "3:28:45"}
+{"current_steps": 640, "total_steps": 3414, "loss": null, "eval_loss": 0.5130926370620728, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.12, "percentage": 18.75, "elapsed_time": "0:48:09", "remaining_time": "3:28:45"}
+{"current_steps": 650, "total_steps": 3414, "loss": 0.6072, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001826386852055417, "epoch": 1.14, "percentage": 19.04, "elapsed_time": "0:48:56", "remaining_time": "3:28:05"}
+{"current_steps": 650, "total_steps": 3414, "loss": null, "eval_loss": 0.5168054103851318, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.14, "percentage": 19.04, "elapsed_time": "0:48:56", "remaining_time": "3:28:05"}
+{"current_steps": 660, "total_steps": 3414, "loss": 0.5956, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001821170215602053, "epoch": 1.16, "percentage": 19.33, "elapsed_time": "0:49:41", "remaining_time": "3:27:22"}
+{"current_steps": 660, "total_steps": 3414, "loss": null, "eval_loss": 0.5168840289115906, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.16, "percentage": 19.33, "elapsed_time": "0:49:41", "remaining_time": "3:27:22"}
+{"current_steps": 670, "total_steps": 3414, "loss": 0.6099, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001815884044248429, "epoch": 1.18, "percentage": 19.63, "elapsed_time": "0:50:27", "remaining_time": "3:26:38"}
+{"current_steps": 670, "total_steps": 3414, "loss": null, "eval_loss": 0.5169732570648193, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.18, "percentage": 19.63, "elapsed_time": "0:50:27", "remaining_time": "3:26:38"}
+{"current_steps": 680, "total_steps": 3414, "loss": 0.6038, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001810528785615989, "epoch": 1.19, "percentage": 19.92, "elapsed_time": "0:51:11", "remaining_time": "3:25:49"}
+{"current_steps": 680, "total_steps": 3414, "loss": null, "eval_loss": 0.5055590867996216, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.19, "percentage": 19.92, "elapsed_time": "0:51:11", "remaining_time": "3:25:49"}
+{"current_steps": 690, "total_steps": 3414, "loss": 0.583, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00018051048931763366, "epoch": 1.21, "percentage": 20.21, "elapsed_time": "0:51:57", "remaining_time": "3:25:06"}
+{"current_steps": 690, "total_steps": 3414, "loss": null, "eval_loss": 0.5121394395828247, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.21, "percentage": 20.21, "elapsed_time": "0:51:57", "remaining_time": "3:25:06"}
+{"current_steps": 700, "total_steps": 3414, "loss": 0.5885, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001799612826212837, "epoch": 1.23, "percentage": 20.5, "elapsed_time": "0:52:43", "remaining_time": "3:24:23"}
+{"current_steps": 700, "total_steps": 3414, "loss": null, "eval_loss": 0.523388683795929, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.23, "percentage": 20.5, "elapsed_time": "0:52:43", "remaining_time": "3:24:23"}
+{"current_steps": 710, "total_steps": 3414, "loss": 0.5784, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017940530497817254, "epoch": 1.25, "percentage": 20.8, "elapsed_time": "0:53:28", "remaining_time": "3:23:40"}
+{"current_steps": 710, "total_steps": 3414, "loss": null, "eval_loss": 0.5028228163719177, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.25, "percentage": 20.8, "elapsed_time": "0:53:28", "remaining_time": "3:23:40"}
+{"current_steps": 720, "total_steps": 3414, "loss": 0.5744, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017884260346727254, "epoch": 1.26, "percentage": 21.09, "elapsed_time": "0:54:13", "remaining_time": "3:22:53"}
+{"current_steps": 720, "total_steps": 3414, "loss": null, "eval_loss": 0.5100187063217163, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.26, "percentage": 21.09, "elapsed_time": "0:54:13", "remaining_time": "3:22:53"}
+{"current_steps": 730, "total_steps": 3414, "loss": 0.6014, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017827322573691872, "epoch": 1.28, "percentage": 21.38, "elapsed_time": "0:54:59", "remaining_time": "3:22:09"}
+{"current_steps": 730, "total_steps": 3414, "loss": null, "eval_loss": 0.5038166046142578, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.28, "percentage": 21.38, "elapsed_time": "0:54:59", "remaining_time": "3:22:09"}
+{"current_steps": 740, "total_steps": 3414, "loss": 0.6185, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001776972200007735, "epoch": 1.3, "percentage": 21.68, "elapsed_time": "0:55:43", "remaining_time": "3:21:23"}
+{"current_steps": 740, "total_steps": 3414, "loss": null, "eval_loss": 0.5146144032478333, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.3, "percentage": 21.68, "elapsed_time": "0:55:43", "remaining_time": "3:21:23"}
+{"current_steps": 750, "total_steps": 3414, "loss": 0.6184, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017711463503374466, "epoch": 1.32, "percentage": 21.97, "elapsed_time": "0:56:29", "remaining_time": "3:20:41"}
+{"current_steps": 750, "total_steps": 3414, "loss": null, "eval_loss": 0.5316588282585144, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.32, "percentage": 21.97, "elapsed_time": "0:56:29", "remaining_time": "3:20:41"}
+{"current_steps": 760, "total_steps": 3414, "loss": 0.6141, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001765255201678546, "epoch": 1.34, "percentage": 22.26, "elapsed_time": "0:57:14", "remaining_time": "3:19:55"}
+{"current_steps": 760, "total_steps": 3414, "loss": null, "eval_loss": 0.5080065727233887, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.34, "percentage": 22.26, "elapsed_time": "0:57:14", "remaining_time": "3:19:55"}
+{"current_steps": 770, "total_steps": 3414, "loss": 0.6146, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017592992528806352, "epoch": 1.35, "percentage": 22.55, "elapsed_time": "0:58:00", "remaining_time": "3:19:09"}
+{"current_steps": 770, "total_steps": 3414, "loss": null, "eval_loss": 0.5165488719940186, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.35, "percentage": 22.55, "elapsed_time": "0:58:00", "remaining_time": "3:19:09"}
+{"current_steps": 780, "total_steps": 3414, "loss": 0.5721, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001753279008280449, "epoch": 1.37, "percentage": 22.85, "elapsed_time": "0:58:45", "remaining_time": "3:18:24"}
+{"current_steps": 780, "total_steps": 3414, "loss": null, "eval_loss": 0.5040128231048584, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.37, "percentage": 22.85, "elapsed_time": "0:58:45", "remaining_time": "3:18:24"}
+{"current_steps": 790, "total_steps": 3414, "loss": 0.5931, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017471949776591504, "epoch": 1.39, "percentage": 23.14, "elapsed_time": "0:59:30", "remaining_time": "3:17:40"}
+{"current_steps": 790, "total_steps": 3414, "loss": null, "eval_loss": 0.49337631464004517, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.39, "percentage": 23.14, "elapsed_time": "0:59:30", "remaining_time": "3:17:40"}
+{"current_steps": 800, "total_steps": 3414, "loss": 0.5944, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017410476761991643, "epoch": 1.41, "percentage": 23.43, "elapsed_time": "1:00:16", "remaining_time": "3:16:57"}
+{"current_steps": 800, "total_steps": 3414, "loss": null, "eval_loss": 0.487575501203537, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.41, "percentage": 23.43, "elapsed_time": "1:00:16", "remaining_time": "3:16:57"}
+{"current_steps": 810, "total_steps": 3414, "loss": 0.6002, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017348376244405512, "epoch": 1.42, "percentage": 23.73, "elapsed_time": "1:01:01", "remaining_time": "3:16:11"}
+{"current_steps": 810, "total_steps": 3414, "loss": null, "eval_loss": 0.4929651618003845, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.42, "percentage": 23.73, "elapsed_time": "1:01:01", "remaining_time": "3:16:11"}
+{"current_steps": 820, "total_steps": 3414, "loss": 0.5557, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000172856534823693, "epoch": 1.44, "percentage": 24.02, "elapsed_time": "1:01:47", "remaining_time": "3:15:27"}
+{"current_steps": 820, "total_steps": 3414, "loss": null, "eval_loss": 0.4913093149662018, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.44, "percentage": 24.02, "elapsed_time": "1:01:47", "remaining_time": "3:15:27"}
+{"current_steps": 830, "total_steps": 3414, "loss": 0.58, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017222313787109496, "epoch": 1.46, "percentage": 24.31, "elapsed_time": "1:02:33", "remaining_time": "3:14:45"}
+{"current_steps": 830, "total_steps": 3414, "loss": null, "eval_loss": 0.4909800887107849, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.46, "percentage": 24.31, "elapsed_time": "1:02:33", "remaining_time": "3:14:45"}
+{"current_steps": 840, "total_steps": 3414, "loss": 0.5459, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017158362522093153, "epoch": 1.48, "percentage": 24.6, "elapsed_time": "1:03:19", "remaining_time": "3:14:01"}
+{"current_steps": 840, "total_steps": 3414, "loss": null, "eval_loss": 0.4883653223514557, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.48, "percentage": 24.6, "elapsed_time": "1:03:19", "remaining_time": "3:14:01"}
+{"current_steps": 850, "total_steps": 3414, "loss": 0.5871, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017093805102573706, "epoch": 1.49, "percentage": 24.9, "elapsed_time": "1:04:05", "remaining_time": "3:13:19"}
+{"current_steps": 850, "total_steps": 3414, "loss": null, "eval_loss": 0.48601067066192627, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.49, "percentage": 24.9, "elapsed_time": "1:04:05", "remaining_time": "3:13:19"}
+{"current_steps": 860, "total_steps": 3414, "loss": 0.5554, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00017028646995132435, "epoch": 1.51, "percentage": 25.19, "elapsed_time": "1:04:50", "remaining_time": "3:12:32"}
+{"current_steps": 860, "total_steps": 3414, "loss": null, "eval_loss": 0.4856807291507721, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.51, "percentage": 25.19, "elapsed_time": "1:04:50", "remaining_time": "3:12:32"}
+{"current_steps": 870, "total_steps": 3414, "loss": 0.5819, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001696289371721556, "epoch": 1.53, "percentage": 25.48, "elapsed_time": "1:05:34", "remaining_time": "3:11:45"}
+{"current_steps": 870, "total_steps": 3414, "loss": null, "eval_loss": 0.4648899435997009, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.53, "percentage": 25.48, "elapsed_time": "1:05:34", "remaining_time": "3:11:45"}
+{"current_steps": 880, "total_steps": 3414, "loss": 0.5649, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016896550836667035, "epoch": 1.55, "percentage": 25.78, "elapsed_time": "1:06:21", "remaining_time": "3:11:04"}
+{"current_steps": 880, "total_steps": 3414, "loss": null, "eval_loss": 0.47903972864151, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.55, "percentage": 25.78, "elapsed_time": "1:06:21", "remaining_time": "3:11:04"}
+{"current_steps": 890, "total_steps": 3414, "loss": 0.5779, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016829623971257088, "epoch": 1.56, "percentage": 26.07, "elapsed_time": "1:07:05", "remaining_time": "3:10:17"}
+{"current_steps": 890, "total_steps": 3414, "loss": null, "eval_loss": 0.4807458519935608, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.56, "percentage": 26.07, "elapsed_time": "1:07:05", "remaining_time": "3:10:17"}
+{"current_steps": 900, "total_steps": 3414, "loss": 0.5756, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016762118788206487, "epoch": 1.58, "percentage": 26.36, "elapsed_time": "1:07:51", "remaining_time": "3:09:32"}
+{"current_steps": 900, "total_steps": 3414, "loss": null, "eval_loss": 0.483437180519104, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.58, "percentage": 26.36, "elapsed_time": "1:07:51", "remaining_time": "3:09:32"}
+{"current_steps": 910, "total_steps": 3414, "loss": 0.5563, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.000166940410037067, "epoch": 1.6, "percentage": 26.65, "elapsed_time": "1:08:36", "remaining_time": "3:08:47"}
+{"current_steps": 910, "total_steps": 3414, "loss": null, "eval_loss": 0.49455228447914124, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.6, "percentage": 26.65, "elapsed_time": "1:08:36", "remaining_time": "3:08:47"}
+{"current_steps": 920, "total_steps": 3414, "loss": 0.5393, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016625396382435813, "epoch": 1.62, "percentage": 26.95, "elapsed_time": "1:09:22", "remaining_time": "3:08:03"}
+{"current_steps": 920, "total_steps": 3414, "loss": null, "eval_loss": 0.4847542643547058, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.62, "percentage": 26.95, "elapsed_time": "1:09:22", "remaining_time": "3:08:03"}
+{"current_steps": 930, "total_steps": 3414, "loss": 0.5551, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016556190737070428, "epoch": 1.63, "percentage": 27.24, "elapsed_time": "1:10:07", "remaining_time": "3:07:18"}
+{"current_steps": 930, "total_steps": 3414, "loss": null, "eval_loss": 0.4845309257507324, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.63, "percentage": 27.24, "elapsed_time": "1:10:07", "remaining_time": "3:07:18"}
+{"current_steps": 940, "total_steps": 3414, "loss": 0.5687, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016486429927793436, "epoch": 1.65, "percentage": 27.53, "elapsed_time": "1:10:53", "remaining_time": "3:06:34"}
+{"current_steps": 940, "total_steps": 3414, "loss": null, "eval_loss": 0.4806869626045227, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.65, "percentage": 27.53, "elapsed_time": "1:10:53", "remaining_time": "3:06:34"}
+{"current_steps": 950, "total_steps": 3414, "loss": 0.5469, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016416119861797796, "epoch": 1.67, "percentage": 27.83, "elapsed_time": "1:11:38", "remaining_time": "3:05:50"}
+{"current_steps": 950, "total_steps": 3414, "loss": null, "eval_loss": 0.4748505651950836, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.67, "percentage": 27.83, "elapsed_time": "1:11:38", "remaining_time": "3:05:50"}
+{"current_steps": 960, "total_steps": 3414, "loss": 0.5771, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001634526649278632, "epoch": 1.69, "percentage": 28.12, "elapsed_time": "1:12:24", "remaining_time": "3:05:06"}
+{"current_steps": 960, "total_steps": 3414, "loss": null, "eval_loss": 0.4859110414981842, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.69, "percentage": 28.12, "elapsed_time": "1:12:24", "remaining_time": "3:05:06"}
+{"current_steps": 970, "total_steps": 3414, "loss": 0.5689, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016273875820467545, "epoch": 1.7, "percentage": 28.41, "elapsed_time": "1:13:09", "remaining_time": "3:04:20"}
+{"current_steps": 970, "total_steps": 3414, "loss": null, "eval_loss": 0.4734295606613159, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.7, "percentage": 28.41, "elapsed_time": "1:13:09", "remaining_time": "3:04:20"}
+{"current_steps": 980, "total_steps": 3414, "loss": 0.5741, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001620195389004767, "epoch": 1.72, "percentage": 28.71, "elapsed_time": "1:13:55", "remaining_time": "3:03:35"}
+{"current_steps": 980, "total_steps": 3414, "loss": null, "eval_loss": 0.4881950914859772, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.72, "percentage": 28.71, "elapsed_time": "1:13:55", "remaining_time": "3:03:35"}
+{"current_steps": 990, "total_steps": 3414, "loss": 0.5643, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016129506791718665, "epoch": 1.74, "percentage": 29.0, "elapsed_time": "1:14:41", "remaining_time": "3:02:52"}
+{"current_steps": 990, "total_steps": 3414, "loss": null, "eval_loss": 0.4815501570701599, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.74, "percentage": 29.0, "elapsed_time": "1:14:41", "remaining_time": "3:02:52"}
+{"current_steps": 1000, "total_steps": 3414, "loss": 0.5603, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00016056540660142586, "epoch": 1.76, "percentage": 29.29, "elapsed_time": "1:15:26", "remaining_time": "3:02:06"}
+{"current_steps": 1000, "total_steps": 3414, "loss": null, "eval_loss": 0.46760401129722595, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.76, "percentage": 29.29, "elapsed_time": "1:15:26", "remaining_time": "3:02:06"}
+{"current_steps": 1010, "total_steps": 3414, "loss": 0.5925, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001598306167393208, "epoch": 1.77, "percentage": 29.58, "elapsed_time": "1:16:11", "remaining_time": "3:01:22"}
+{"current_steps": 1010, "total_steps": 3414, "loss": null, "eval_loss": 0.46860912442207336, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.77, "percentage": 29.58, "elapsed_time": "1:16:11", "remaining_time": "3:01:22"}
+{"current_steps": 1020, "total_steps": 3414, "loss": 0.5834, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00015909076055127202, "epoch": 1.79, "percentage": 29.88, "elapsed_time": "1:16:58", "remaining_time": "3:00:40"}
+{"current_steps": 1020, "total_steps": 3414, "loss": null, "eval_loss": 0.47431066632270813, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.79, "percentage": 29.88, "elapsed_time": "1:16:58", "remaining_time": "3:00:40"}
+{"current_steps": 1030, "total_steps": 9000, "loss": 0.5902, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019360595357389735, "epoch": 1.81, "percentage": 11.44, "elapsed_time": "0:00:30", "remaining_time": "0:03:55"}
+{"current_steps": 1030, "total_steps": 9000, "loss": null, "eval_loss": 0.49162757396698, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.81, "percentage": 11.44, "elapsed_time": "0:00:30", "remaining_time": "0:03:55"}
+{"current_steps": 1040, "total_steps": 9000, "loss": 0.5777, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019348256763960145, "epoch": 1.83, "percentage": 11.56, "elapsed_time": "0:01:49", "remaining_time": "0:14:01"}
+{"current_steps": 1040, "total_steps": 9000, "loss": null, "eval_loss": 0.47481468319892883, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.83, "percentage": 11.56, "elapsed_time": "0:01:49", "remaining_time": "0:14:01"}
+{"current_steps": 1050, "total_steps": 9000, "loss": 0.5921, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019335804264972018, "epoch": 1.84, "percentage": 11.67, "elapsed_time": "0:00:38", "remaining_time": "0:04:48"}
+{"current_steps": 1050, "total_steps": 9000, "loss": null, "eval_loss": 0.48432889580726624, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.84, "percentage": 11.67, "elapsed_time": "0:00:38", "remaining_time": "0:04:48"}
+{"current_steps": 1060, "total_steps": 9000, "loss": 0.5877, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019323238012155123, "epoch": 1.86, "percentage": 11.78, "elapsed_time": "0:01:37", "remaining_time": "0:12:10"}
+{"current_steps": 1060, "total_steps": 9000, "loss": null, "eval_loss": 0.47419798374176025, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.86, "percentage": 11.78, "elapsed_time": "0:01:37", "remaining_time": "0:12:10"}
+{"current_steps": 1070, "total_steps": 9000, "loss": 0.5452, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019310558158625285, "epoch": 1.88, "percentage": 11.89, "elapsed_time": "0:02:56", "remaining_time": "0:21:47"}
+{"current_steps": 1070, "total_steps": 9000, "loss": 0.5453, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019310558158625285, "epoch": 1.88, "percentage": 11.89, "elapsed_time": "0:00:26", "remaining_time": "0:03:16"}
+{"current_steps": 1070, "total_steps": 9000, "loss": null, "eval_loss": 0.4705266058444977, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.88, "percentage": 11.89, "elapsed_time": "0:00:26", "remaining_time": "0:03:16"}
+{"current_steps": 1080, "total_steps": 9000, "loss": 0.5445, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019297764858882514, "epoch": 1.9, "percentage": 12.0, "elapsed_time": "0:01:20", "remaining_time": "0:09:52"}
+{"current_steps": 1080, "total_steps": 9000, "loss": null, "eval_loss": 0.4662667214870453, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.9, "percentage": 12.0, "elapsed_time": "0:01:20", "remaining_time": "0:09:52"}
+{"current_steps": 1090, "total_steps": 9000, "loss": 0.5686, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019284858268809137, "epoch": 1.92, "percentage": 12.11, "elapsed_time": "0:02:35", "remaining_time": "0:18:51"}
+{"current_steps": 1090, "total_steps": 9000, "loss": null, "eval_loss": 0.47445282340049744, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.92, "percentage": 12.11, "elapsed_time": "0:02:35", "remaining_time": "0:18:51"}
+{"current_steps": 1100, "total_steps": 9000, "loss": 0.5712, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019271838545667876, "epoch": 1.93, "percentage": 12.22, "elapsed_time": "0:03:42", "remaining_time": "0:26:34"}
+{"current_steps": 1100, "total_steps": 9000, "loss": null, "eval_loss": 0.48884764313697815, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.93, "percentage": 12.22, "elapsed_time": "0:03:42", "remaining_time": "0:26:34"}
+{"current_steps": 1110, "total_steps": 9000, "loss": 0.6032, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001925870584809995, "epoch": 1.95, "percentage": 12.33, "elapsed_time": "0:05:07", "remaining_time": "0:36:22"}
+{"current_steps": 1110, "total_steps": 9000, "loss": null, "eval_loss": 0.48608502745628357, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.95, "percentage": 12.33, "elapsed_time": "0:05:07", "remaining_time": "0:36:22"}
+{"current_steps": 1120, "total_steps": 9000, "loss": 0.5491, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019245460336123134, "epoch": 1.97, "percentage": 12.44, "elapsed_time": "0:06:21", "remaining_time": "0:44:41"}
+{"current_steps": 1120, "total_steps": 9000, "loss": null, "eval_loss": 0.472098708152771, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.97, "percentage": 12.44, "elapsed_time": "0:06:21", "remaining_time": "0:44:41"}
+{"current_steps": 1130, "total_steps": 9000, "loss": 0.5452, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019232102171129811, "epoch": 1.99, "percentage": 12.56, "elapsed_time": "0:07:11", "remaining_time": "0:50:04"}
+{"current_steps": 1130, "total_steps": 9000, "loss": null, "eval_loss": 0.4644794762134552, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 1.99, "percentage": 12.56, "elapsed_time": "0:07:11", "remaining_time": "0:50:04"}
+{"current_steps": 1140, "total_steps": 9000, "loss": 0.5526, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019218631515885006, "epoch": 2.0, "percentage": 12.67, "elapsed_time": "0:08:11", "remaining_time": "0:56:27"}
+{"current_steps": 1140, "total_steps": 9000, "loss": null, "eval_loss": 0.48768851161003113, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.0, "percentage": 12.67, "elapsed_time": "0:08:11", "remaining_time": "0:56:27"}
+{"current_steps": 1150, "total_steps": 9000, "loss": 0.5443, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019205048534524406, "epoch": 2.02, "percentage": 12.78, "elapsed_time": "0:09:28", "remaining_time": "1:04:37"}
+{"current_steps": 1150, "total_steps": 9000, "loss": null, "eval_loss": 0.4716103971004486, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.02, "percentage": 12.78, "elapsed_time": "0:09:28", "remaining_time": "1:04:37"}
+{"current_steps": 1160, "total_steps": 9000, "loss": 0.5103, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019191353392552344, "epoch": 2.04, "percentage": 12.89, "elapsed_time": "0:10:36", "remaining_time": "1:11:39"}
+{"current_steps": 1160, "total_steps": 9000, "loss": null, "eval_loss": 0.46319034695625305, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.04, "percentage": 12.89, "elapsed_time": "0:10:36", "remaining_time": "1:11:39"}
+{"current_steps": 1170, "total_steps": 9000, "loss": 0.5202, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019177546256839812, "epoch": 2.06, "percentage": 13.0, "elapsed_time": "0:11:37", "remaining_time": "1:17:48"}
+{"current_steps": 1170, "total_steps": 9000, "loss": null, "eval_loss": 0.4802156984806061, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.06, "percentage": 13.0, "elapsed_time": "0:11:37", "remaining_time": "1:17:48"}
+{"current_steps": 1180, "total_steps": 9000, "loss": 0.5436, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.00019163627295622397, "epoch": 2.07, "percentage": 13.11, "elapsed_time": "0:12:31", "remaining_time": "1:23:02"}
+{"current_steps": 1180, "total_steps": 9000, "loss": null, "eval_loss": 0.4681110680103302, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.07, "percentage": 13.11, "elapsed_time": "0:12:31", "remaining_time": "1:23:02"}
+{"current_steps": 1190, "total_steps": 9000, "loss": 0.5454, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001914959667849825, "epoch": 2.09, "percentage": 13.22, "elapsed_time": "0:13:35", "remaining_time": "1:29:12"}
+{"current_steps": 1190, "total_steps": 9000, "loss": null, "eval_loss": 0.470931738615036, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.09, "percentage": 13.22, "elapsed_time": "0:13:35", "remaining_time": "1:29:12"}
+{"current_steps": 1200, "total_steps": 9000, "loss": 0.5183, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": 0.0001913545457642601, "epoch": 2.11, "percentage": 13.33, "elapsed_time": "0:14:57", "remaining_time": "1:37:10"}
+{"current_steps": 1200, "total_steps": 9000, "loss": null, "eval_loss": 0.47423675656318665, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.11, "percentage": 13.33, "elapsed_time": "0:14:57", "remaining_time": "1:37:10"}
+{"current_steps": 1201, "total_steps": 1200, "loss": null, "eval_loss": null, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.11, "percentage": 100.08, "elapsed_time": "0:00:04", "remaining_time": "0:00:00"}
+{"current_steps": 63, "total_steps": 63, "loss": null, "eval_loss": 0.47148287296295166, "predict_loss": null, "reward": null, "learning_rate": null, "epoch": 2.11, "percentage": 100.0, "elapsed_time": "0:00:36", "remaining_time": "0:00:00"}

relation/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1710 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.110671936758893,
+  "eval_steps": 10,
+  "global_step": 1201,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.00019999576610920983,
+      "loss": 3.0929,
+      "step": 10
+    },
+    {
+      "epoch": 0.02,
+      "eval_loss": 2.167867660522461,
+      "eval_runtime": 21.3399,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.858,
+      "step": 10
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00019998306479535586,
+      "loss": 1.8074,
+      "step": 20
+    },
+    {
+      "epoch": 0.04,
+      "eval_loss": 1.4092761278152466,
+      "eval_runtime": 21.3617,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 20
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00019996189713395766,
+      "loss": 1.2188,
+      "step": 30
+    },
+    {
+      "epoch": 0.05,
+      "eval_loss": 1.1258704662322998,
+      "eval_runtime": 21.3588,
+      "eval_samples_per_second": 23.363,
+      "eval_steps_per_second": 5.852,
+      "step": 30
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00019993226491744662,
+      "loss": 1.0841,
+      "step": 40
+    },
+    {
+      "epoch": 0.07,
+      "eval_loss": 0.9605854153633118,
+      "eval_runtime": 21.3693,
+      "eval_samples_per_second": 23.351,
+      "eval_steps_per_second": 5.85,
+      "step": 40
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 0.00019989417065501396,
+      "loss": 0.9594,
+      "step": 50
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 0.8681771159172058,
+      "eval_runtime": 21.3662,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 50
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 0.00019984761757239875,
+      "loss": 0.8765,
+      "step": 60
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 0.816562294960022,
+      "eval_runtime": 21.3405,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.857,
+      "step": 60
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.00019979260961161427,
+      "loss": 0.852,
+      "step": 70
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 0.7803006768226624,
+      "eval_runtime": 21.3622,
+      "eval_samples_per_second": 23.359,
+      "eval_steps_per_second": 5.851,
+      "step": 70
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 0.00019972915143061455,
+      "loss": 0.8404,
+      "step": 80
+    },
+    {
+      "epoch": 0.14,
+      "eval_loss": 0.760216236114502,
+      "eval_runtime": 21.379,
+      "eval_samples_per_second": 23.341,
+      "eval_steps_per_second": 5.847,
+      "step": 80
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 0.0001996572484028997,
+      "loss": 0.8183,
+      "step": 90
+    },
+    {
+      "epoch": 0.16,
+      "eval_loss": 0.7222956418991089,
+      "eval_runtime": 21.3895,
+      "eval_samples_per_second": 23.329,
+      "eval_steps_per_second": 5.844,
+      "step": 90
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 0.00019957690661706108,
+      "loss": 0.7816,
+      "step": 100
+    },
+    {
+      "epoch": 0.18,
+      "eval_loss": 0.7133845686912537,
+      "eval_runtime": 21.3742,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 100
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 0.00019948813287626563,
+      "loss": 0.7792,
+      "step": 110
+    },
+    {
+      "epoch": 0.19,
+      "eval_loss": 0.7233743667602539,
+      "eval_runtime": 21.3703,
+      "eval_samples_per_second": 23.35,
+      "eval_steps_per_second": 5.849,
+      "step": 110
+    },
+    {
+      "epoch": 0.21,
+      "learning_rate": 0.0001993909346976798,
+      "loss": 0.7648,
+      "step": 120
+    },
+    {
+      "epoch": 0.21,
+      "eval_loss": 0.6882979273796082,
+      "eval_runtime": 21.3682,
+      "eval_samples_per_second": 23.352,
+      "eval_steps_per_second": 5.85,
+      "step": 120
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0001992853203118331,
+      "loss": 0.8132,
+      "step": 130
+    },
+    {
+      "epoch": 0.23,
+      "eval_loss": 0.7019714117050171,
+      "eval_runtime": 21.374,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 130
+    },
+    {
+      "epoch": 0.25,
+      "learning_rate": 0.000199171298661921,
+      "loss": 0.7599,
+      "step": 140
+    },
+    {
+      "epoch": 0.25,
+      "eval_loss": 0.668350338935852,
+      "eval_runtime": 21.323,
+      "eval_samples_per_second": 23.402,
+      "eval_steps_per_second": 5.862,
+      "step": 140
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 0.0001990488794030478,
+      "loss": 0.7518,
+      "step": 150
+    },
+    {
+      "epoch": 0.26,
+      "eval_loss": 0.6716361045837402,
+      "eval_runtime": 21.3312,
+      "eval_samples_per_second": 23.393,
+      "eval_steps_per_second": 5.86,
+      "step": 150
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 0.00019891807290140892,
+      "loss": 0.7452,
+      "step": 160
+    },
+    {
+      "epoch": 0.28,
+      "eval_loss": 0.6634441018104553,
+      "eval_runtime": 21.3388,
+      "eval_samples_per_second": 23.385,
+      "eval_steps_per_second": 5.858,
+      "step": 160
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 0.00019877889023341323,
+      "loss": 0.7215,
+      "step": 170
+    },
+    {
+      "epoch": 0.3,
+      "eval_loss": 0.6609596610069275,
+      "eval_runtime": 21.3355,
+      "eval_samples_per_second": 23.388,
+      "eval_steps_per_second": 5.859,
+      "step": 170
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 0.00019863134318474503,
+      "loss": 0.7088,
+      "step": 180
+    },
+    {
+      "epoch": 0.32,
+      "eval_loss": 0.659795880317688,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 180
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 0.0001984754442493662,
+      "loss": 0.7237,
+      "step": 190
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.6469973921775818,
+      "eval_runtime": 21.3405,
+      "eval_samples_per_second": 23.383,
+      "eval_steps_per_second": 5.857,
+      "step": 190
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.000198311206628458,
+      "loss": 0.7353,
+      "step": 200
+    },
+    {
+      "epoch": 0.35,
+      "eval_loss": 0.6315197348594666,
+      "eval_runtime": 21.3347,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 200
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 0.00019813864422930347,
+      "loss": 0.7111,
+      "step": 210
+    },
+    {
+      "epoch": 0.37,
+      "eval_loss": 0.6466153860092163,
+      "eval_runtime": 21.3369,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.858,
+      "step": 210
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 0.00019795777166410966,
+      "loss": 0.7136,
+      "step": 220
+    },
+    {
+      "epoch": 0.39,
+      "eval_loss": 0.632926344871521,
+      "eval_runtime": 21.3244,
+      "eval_samples_per_second": 23.4,
+      "eval_steps_per_second": 5.862,
+      "step": 220
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 0.00019776860424877032,
+      "loss": 0.7044,
+      "step": 230
+    },
+    {
+      "epoch": 0.4,
+      "eval_loss": 0.6356912851333618,
+      "eval_runtime": 21.3235,
+      "eval_samples_per_second": 23.401,
+      "eval_steps_per_second": 5.862,
+      "step": 230
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 0.000197571158001569,
+      "loss": 0.7369,
+      "step": 240
+    },
+    {
+      "epoch": 0.42,
+      "eval_loss": 0.6214553713798523,
+      "eval_runtime": 21.3355,
+      "eval_samples_per_second": 23.388,
+      "eval_steps_per_second": 5.859,
+      "step": 240
+    },
+    {
+      "epoch": 0.44,
+      "learning_rate": 0.00019736544964182268,
+      "loss": 0.6995,
+      "step": 250
+    },
+    {
+      "epoch": 0.44,
+      "eval_loss": 0.6103290915489197,
+      "eval_runtime": 21.3392,
+      "eval_samples_per_second": 23.384,
+      "eval_steps_per_second": 5.858,
+      "step": 250
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 0.00019715149658846591,
+      "loss": 0.7027,
+      "step": 260
+    },
+    {
+      "epoch": 0.46,
+      "eval_loss": 0.5964030027389526,
+      "eval_runtime": 21.3644,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 260
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.000196929316958576,
+      "loss": 0.6872,
+      "step": 270
+    },
+    {
+      "epoch": 0.47,
+      "eval_loss": 0.60444176197052,
+      "eval_runtime": 21.3353,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 270
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 0.00019669892956583867,
+      "loss": 0.7182,
+      "step": 280
+    },
+    {
+      "epoch": 0.49,
+      "eval_loss": 0.6127080917358398,
+      "eval_runtime": 21.3451,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 280
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 0.00019646035391895512,
+      "loss": 0.6897,
+      "step": 290
+    },
+    {
+      "epoch": 0.51,
+      "eval_loss": 0.6016324758529663,
+      "eval_runtime": 21.324,
+      "eval_samples_per_second": 23.401,
+      "eval_steps_per_second": 5.862,
+      "step": 290
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 0.00019621361021999008,
+      "loss": 0.6824,
+      "step": 300
+    },
+    {
+      "epoch": 0.53,
+      "eval_loss": 0.5880205631256104,
+      "eval_runtime": 21.3379,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.858,
+      "step": 300
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 0.000195958719362661,
+      "loss": 0.673,
+      "step": 310
+    },
+    {
+      "epoch": 0.54,
+      "eval_loss": 0.5902190804481506,
+      "eval_runtime": 21.3191,
+      "eval_samples_per_second": 23.406,
+      "eval_steps_per_second": 5.863,
+      "step": 310
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 0.00019569570293056894,
+      "loss": 0.6956,
+      "step": 320
+    },
+    {
+      "epoch": 0.56,
+      "eval_loss": 0.5811321139335632,
+      "eval_runtime": 21.3365,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.859,
+      "step": 320
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.00019542458319537093,
+      "loss": 0.6889,
+      "step": 330
+    },
+    {
+      "epoch": 0.58,
+      "eval_loss": 0.5849844813346863,
+      "eval_runtime": 21.3231,
+      "eval_samples_per_second": 23.402,
+      "eval_steps_per_second": 5.862,
+      "step": 330
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 0.00019514538311489395,
+      "loss": 0.6773,
+      "step": 340
+    },
+    {
+      "epoch": 0.6,
+      "eval_loss": 0.5933501720428467,
+      "eval_runtime": 21.3446,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 340
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 0.00019485812633119096,
+      "loss": 0.6782,
+      "step": 350
+    },
+    {
+      "epoch": 0.61,
+      "eval_loss": 0.594153642654419,
+      "eval_runtime": 21.3347,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 350
+    },
+    {
+      "epoch": 0.63,
+      "learning_rate": 0.00019456283716853904,
+      "loss": 0.719,
+      "step": 360
+    },
+    {
+      "epoch": 0.63,
+      "eval_loss": 0.5848734974861145,
+      "eval_runtime": 21.3162,
+      "eval_samples_per_second": 23.409,
+      "eval_steps_per_second": 5.864,
+      "step": 360
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 0.00019425954063137947,
+      "loss": 0.6809,
+      "step": 370
+    },
+    {
+      "epoch": 0.65,
+      "eval_loss": 0.579924464225769,
+      "eval_runtime": 21.3339,
+      "eval_samples_per_second": 23.39,
+      "eval_steps_per_second": 5.859,
+      "step": 370
+    },
+    {
+      "epoch": 0.67,
+      "learning_rate": 0.00019394826240220057,
+      "loss": 0.6412,
+      "step": 380
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.5709846019744873,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 380
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 0.00019362902883936288,
+      "loss": 0.6411,
+      "step": 390
+    },
+    {
+      "epoch": 0.69,
+      "eval_loss": 0.562785267829895,
+      "eval_runtime": 21.3375,
+      "eval_samples_per_second": 23.386,
+      "eval_steps_per_second": 5.858,
+      "step": 390
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00019330186697486722,
+      "loss": 0.6519,
+      "step": 400
+    },
+    {
+      "epoch": 0.7,
+      "eval_loss": 0.5611785650253296,
+      "eval_runtime": 21.3506,
+      "eval_samples_per_second": 23.372,
+      "eval_steps_per_second": 5.855,
+      "step": 400
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 0.00019296680451206575,
+      "loss": 0.6446,
+      "step": 410
+    },
+    {
+      "epoch": 0.72,
+      "eval_loss": 0.5562126636505127,
+      "eval_runtime": 21.3482,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 410
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 0.00019262386982331594,
+      "loss": 0.6574,
+      "step": 420
+    },
+    {
+      "epoch": 0.74,
+      "eval_loss": 0.5644647479057312,
+      "eval_runtime": 21.3719,
+      "eval_samples_per_second": 23.348,
+      "eval_steps_per_second": 5.849,
+      "step": 420
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00019227309194757818,
+      "loss": 0.6633,
+      "step": 430
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.5663937926292419,
+      "eval_runtime": 21.3728,
+      "eval_samples_per_second": 23.347,
+      "eval_steps_per_second": 5.849,
+      "step": 430
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 0.00019191450058795683,
+      "loss": 0.6673,
+      "step": 440
+    },
+    {
+      "epoch": 0.77,
+      "eval_loss": 0.5483366847038269,
+      "eval_runtime": 21.352,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 5.854,
+      "step": 440
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 0.00019154812610918501,
+      "loss": 0.6466,
+      "step": 450
+    },
+    {
+      "epoch": 0.79,
+      "eval_loss": 0.554151713848114,
+      "eval_runtime": 21.4045,
+      "eval_samples_per_second": 23.313,
+      "eval_steps_per_second": 5.84,
+      "step": 450
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.00019117399953505335,
+      "loss": 0.653,
+      "step": 460
+    },
+    {
+      "epoch": 0.81,
+      "eval_loss": 0.5411431789398193,
+      "eval_runtime": 21.3349,
+      "eval_samples_per_second": 23.389,
+      "eval_steps_per_second": 5.859,
+      "step": 460
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 0.00019079215254578293,
+      "loss": 0.6384,
+      "step": 470
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.5362362265586853,
+      "eval_runtime": 21.3477,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.855,
+      "step": 470
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 0.00019040261747534283,
+      "loss": 0.6287,
+      "step": 480
+    },
+    {
+      "epoch": 0.84,
+      "eval_loss": 0.5452967286109924,
+      "eval_runtime": 21.3462,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 480
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 0.00019000542730871197,
+      "loss": 0.661,
+      "step": 490
+    },
+    {
+      "epoch": 0.86,
+      "eval_loss": 0.5644904971122742,
+      "eval_runtime": 21.3569,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 5.853,
+      "step": 490
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 0.0001896006156790861,
+      "loss": 0.608,
+      "step": 500
+    },
+    {
+      "epoch": 0.88,
+      "eval_loss": 0.5245234370231628,
+      "eval_runtime": 21.3459,
+      "eval_samples_per_second": 23.377,
+      "eval_steps_per_second": 5.856,
+      "step": 500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 0.00018918821686502989,
+      "loss": 0.6584,
+      "step": 510
+    },
+    {
+      "epoch": 0.9,
+      "eval_loss": 0.5376425385475159,
+      "eval_runtime": 21.3569,
+      "eval_samples_per_second": 23.365,
+      "eval_steps_per_second": 5.853,
+      "step": 510
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 0.0001887682657875741,
+      "loss": 0.6416,
+      "step": 520
+    },
+    {
+      "epoch": 0.91,
+      "eval_loss": 0.5471484661102295,
+      "eval_runtime": 21.3644,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 520
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00018834079800725872,
+      "loss": 0.6527,
+      "step": 530
+    },
+    {
+      "epoch": 0.93,
+      "eval_loss": 0.5425943732261658,
+      "eval_runtime": 21.3669,
+      "eval_samples_per_second": 23.354,
+      "eval_steps_per_second": 5.85,
+      "step": 530
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 0.00018790584972112174,
+      "loss": 0.6164,
+      "step": 540
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.5284227728843689,
+      "eval_runtime": 21.3751,
+      "eval_samples_per_second": 23.345,
+      "eval_steps_per_second": 5.848,
+      "step": 540
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 0.00018746345775963395,
+      "loss": 0.611,
+      "step": 550
+    },
+    {
+      "epoch": 0.97,
+      "eval_loss": 0.5312528014183044,
+      "eval_runtime": 21.3628,
+      "eval_samples_per_second": 23.358,
+      "eval_steps_per_second": 5.851,
+      "step": 550
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 0.00018701365958358047,
+      "loss": 0.614,
+      "step": 560
+    },
+    {
+      "epoch": 0.98,
+      "eval_loss": 0.5262718796730042,
+      "eval_runtime": 21.3578,
+      "eval_samples_per_second": 23.364,
+      "eval_steps_per_second": 5.853,
+      "step": 560
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 0.00018655649328088835,
+      "loss": 0.6382,
+      "step": 570
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.5316660404205322,
+      "eval_runtime": 21.3512,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 570
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 0.00018609199756340156,
+      "loss": 0.5804,
+      "step": 580
+    },
+    {
+      "epoch": 1.02,
+      "eval_loss": 0.5207402110099792,
+      "eval_runtime": 21.3663,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 580
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 0.0001856202117636029,
+      "loss": 0.6291,
+      "step": 590
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.5237697958946228,
+      "eval_runtime": 21.3922,
+      "eval_samples_per_second": 23.326,
+      "eval_steps_per_second": 5.843,
+      "step": 590
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00018514117583128347,
+      "loss": 0.5911,
+      "step": 600
+    },
+    {
+      "epoch": 1.05,
+      "eval_loss": 0.517393171787262,
+      "eval_runtime": 21.3498,
+      "eval_samples_per_second": 23.373,
+      "eval_steps_per_second": 5.855,
+      "step": 600
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 0.00018465493033015967,
+      "loss": 0.6111,
+      "step": 610
+    },
+    {
+      "epoch": 1.07,
+      "eval_loss": 0.5281241536140442,
+      "eval_runtime": 21.3522,
+      "eval_samples_per_second": 23.37,
+      "eval_steps_per_second": 5.854,
+      "step": 610
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 0.0001841615164344385,
+      "loss": 0.5578,
+      "step": 620
+    },
+    {
+      "epoch": 1.09,
+      "eval_loss": 0.5255175232887268,
+      "eval_runtime": 21.3637,
+      "eval_samples_per_second": 23.357,
+      "eval_steps_per_second": 5.851,
+      "step": 620
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00018366097592533093,
+      "loss": 0.6055,
+      "step": 630
+    },
+    {
+      "epoch": 1.11,
+      "eval_loss": 0.5177362561225891,
+      "eval_runtime": 21.3827,
+      "eval_samples_per_second": 23.337,
+      "eval_steps_per_second": 5.846,
+      "step": 630
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 0.00018315335118751396,
+      "loss": 0.6015,
+      "step": 640
+    },
+    {
+      "epoch": 1.12,
+      "eval_loss": 0.5130926370620728,
+      "eval_runtime": 21.4348,
+      "eval_samples_per_second": 23.28,
+      "eval_steps_per_second": 5.832,
+      "step": 640
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 0.0001826386852055417,
+      "loss": 0.6072,
+      "step": 650
+    },
+    {
+      "epoch": 1.14,
+      "eval_loss": 0.5168054103851318,
+      "eval_runtime": 21.3583,
+      "eval_samples_per_second": 23.363,
+      "eval_steps_per_second": 5.853,
+      "step": 650
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.0001821170215602053,
+      "loss": 0.5956,
+      "step": 660
+    },
+    {
+      "epoch": 1.16,
+      "eval_loss": 0.5168840289115906,
+      "eval_runtime": 21.3753,
+      "eval_samples_per_second": 23.345,
+      "eval_steps_per_second": 5.848,
+      "step": 660
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 0.0001815884044248429,
+      "loss": 0.6099,
+      "step": 670
+    },
+    {
+      "epoch": 1.18,
+      "eval_loss": 0.5169732570648193,
+      "eval_runtime": 21.3472,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.856,
+      "step": 670
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 0.0001810528785615989,
+      "loss": 0.6038,
+      "step": 680
+    },
+    {
+      "epoch": 1.19,
+      "eval_loss": 0.5055590867996216,
+      "eval_runtime": 21.3489,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 680
+    },
+    {
+      "epoch": 1.21,
+      "learning_rate": 0.00018051048931763366,
+      "loss": 0.583,
+      "step": 690
+    },
+    {
+      "epoch": 1.21,
+      "eval_loss": 0.5121394395828247,
+      "eval_runtime": 21.3436,
+      "eval_samples_per_second": 23.379,
+      "eval_steps_per_second": 5.857,
+      "step": 690
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 0.0001799612826212837,
+      "loss": 0.5885,
+      "step": 700
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.523388683795929,
+      "eval_runtime": 21.3616,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 700
+    },
+    {
+      "epoch": 1.25,
+      "learning_rate": 0.00017940530497817254,
+      "loss": 0.5784,
+      "step": 710
+    },
+    {
+      "epoch": 1.25,
+      "eval_loss": 0.5028228163719177,
+      "eval_runtime": 21.3469,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 5.856,
+      "step": 710
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 0.00017884260346727254,
+      "loss": 0.5744,
+      "step": 720
+    },
+    {
+      "epoch": 1.26,
+      "eval_loss": 0.5100187063217163,
+      "eval_runtime": 21.3603,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 720
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.00017827322573691872,
+      "loss": 0.6014,
+      "step": 730
+    },
+    {
+      "epoch": 1.28,
+      "eval_loss": 0.5038166046142578,
+      "eval_runtime": 21.3431,
+      "eval_samples_per_second": 23.38,
+      "eval_steps_per_second": 5.857,
+      "step": 730
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 0.0001776972200007735,
+      "loss": 0.6185,
+      "step": 740
+    },
+    {
+      "epoch": 1.3,
+      "eval_loss": 0.5146144032478333,
+      "eval_runtime": 21.3367,
+      "eval_samples_per_second": 23.387,
+      "eval_steps_per_second": 5.858,
+      "step": 740
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 0.00017711463503374466,
+      "loss": 0.6184,
+      "step": 750
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.5316588282585144,
+      "eval_runtime": 21.3617,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 750
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.0001765255201678546,
+      "loss": 0.6141,
+      "step": 760
+    },
+    {
+      "epoch": 1.34,
+      "eval_loss": 0.5080065727233887,
+      "eval_runtime": 21.3913,
+      "eval_samples_per_second": 23.327,
+      "eval_steps_per_second": 5.844,
+      "step": 760
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 0.00017592992528806352,
+      "loss": 0.6146,
+      "step": 770
+    },
+    {
+      "epoch": 1.35,
+      "eval_loss": 0.5165488719940186,
+      "eval_runtime": 21.3517,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 770
+    },
+    {
+      "epoch": 1.37,
+      "learning_rate": 0.0001753279008280449,
+      "loss": 0.5721,
+      "step": 780
+    },
+    {
+      "epoch": 1.37,
+      "eval_loss": 0.5040128231048584,
+      "eval_runtime": 21.3467,
+      "eval_samples_per_second": 23.376,
+      "eval_steps_per_second": 5.856,
+      "step": 780
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 0.00017471949776591504,
+      "loss": 0.5931,
+      "step": 790
+    },
+    {
+      "epoch": 1.39,
+      "eval_loss": 0.49337631464004517,
+      "eval_runtime": 21.3473,
+      "eval_samples_per_second": 23.375,
+      "eval_steps_per_second": 5.856,
+      "step": 790
+    },
+    {
+      "epoch": 1.41,
+      "learning_rate": 0.00017410476761991643,
+      "loss": 0.5944,
+      "step": 800
+    },
+    {
+      "epoch": 1.41,
+      "eval_loss": 0.487575501203537,
+      "eval_runtime": 21.3451,
+      "eval_samples_per_second": 23.378,
+      "eval_steps_per_second": 5.856,
+      "step": 800
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 0.00017348376244405512,
+      "loss": 0.6002,
+      "step": 810
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.4929651618003845,
+      "eval_runtime": 21.3604,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 810
+    },
+    {
+      "epoch": 1.44,
+      "learning_rate": 0.000172856534823693,
+      "loss": 0.5557,
+      "step": 820
+    },
+    {
+      "epoch": 1.44,
+      "eval_loss": 0.4913093149662018,
+      "eval_runtime": 21.3626,
+      "eval_samples_per_second": 23.359,
+      "eval_steps_per_second": 5.851,
+      "step": 820
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 0.00017222313787109496,
+      "loss": 0.58,
+      "step": 830
+    },
+    {
+      "epoch": 1.46,
+      "eval_loss": 0.4909800887107849,
+      "eval_runtime": 21.4163,
+      "eval_samples_per_second": 23.3,
+      "eval_steps_per_second": 5.837,
+      "step": 830
+    },
+    {
+      "epoch": 1.48,
+      "learning_rate": 0.00017158362522093153,
+      "loss": 0.5459,
+      "step": 840
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.4883653223514557,
+      "eval_runtime": 21.3483,
+      "eval_samples_per_second": 23.374,
+      "eval_steps_per_second": 5.855,
+      "step": 840
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 0.00017093805102573706,
+      "loss": 0.5871,
+      "step": 850
+    },
+    {
+      "epoch": 1.49,
+      "eval_loss": 0.48601067066192627,
+      "eval_runtime": 21.3674,
+      "eval_samples_per_second": 23.353,
+      "eval_steps_per_second": 5.85,
+      "step": 850
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00017028646995132435,
+      "loss": 0.5554,
+      "step": 860
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.4856807291507721,
+      "eval_runtime": 21.366,
+      "eval_samples_per_second": 23.355,
+      "eval_steps_per_second": 5.85,
+      "step": 860
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 0.0001696289371721556,
+      "loss": 0.5819,
+      "step": 870
+    },
+    {
+      "epoch": 1.53,
+      "eval_loss": 0.4648899435997009,
+      "eval_runtime": 21.3516,
+      "eval_samples_per_second": 23.371,
+      "eval_steps_per_second": 5.854,
+      "step": 870
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 0.00016896550836667035,
+      "loss": 0.5649,
+      "step": 880
+    },
+    {
+      "epoch": 1.55,
+      "eval_loss": 0.47903972864151,
+      "eval_runtime": 21.3528,
+      "eval_samples_per_second": 23.369,
+      "eval_steps_per_second": 5.854,
+      "step": 880
+    },
+    {
+      "epoch": 1.56,
+      "learning_rate": 0.00016829623971257088,
+      "loss": 0.5779,
+      "step": 890
+    },
+    {
+      "epoch": 1.56,
+      "eval_loss": 0.4807458519935608,
+      "eval_runtime": 21.377,
+      "eval_samples_per_second": 23.343,
+      "eval_steps_per_second": 5.847,
+      "step": 890
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 0.00016762118788206487,
+      "loss": 0.5756,
+      "step": 900
+    },
+    {
+      "epoch": 1.58,
+      "eval_loss": 0.483437180519104,
+      "eval_runtime": 21.3913,
+      "eval_samples_per_second": 23.327,
+      "eval_steps_per_second": 5.843,
+      "step": 900
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 0.000166940410037067,
+      "loss": 0.5563,
+      "step": 910
+    },
+    {
+      "epoch": 1.6,
+      "eval_loss": 0.49455228447914124,
+      "eval_runtime": 21.365,
+      "eval_samples_per_second": 23.356,
+      "eval_steps_per_second": 5.851,
+      "step": 910
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 0.00016625396382435813,
+      "loss": 0.5393,
+      "step": 920
+    },
+    {
+      "epoch": 1.62,
+      "eval_loss": 0.4847542643547058,
+      "eval_runtime": 21.3614,
+      "eval_samples_per_second": 23.36,
+      "eval_steps_per_second": 5.852,
+      "step": 920
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00016556190737070428,
+      "loss": 0.5551,
+      "step": 930
+    },
+    {
+      "epoch": 1.63,
+      "eval_loss": 0.4845309257507324,
+      "eval_runtime": 21.4008,
+      "eval_samples_per_second": 23.317,
+      "eval_steps_per_second": 5.841,
+      "step": 930
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 0.00016486429927793436,
+      "loss": 0.5687,
+      "step": 940
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.4806869626045227,
+      "eval_runtime": 21.374,
+      "eval_samples_per_second": 23.346,
+      "eval_steps_per_second": 5.848,
+      "step": 940
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 0.00016416119861797796,
+      "loss": 0.5469,
+      "step": 950
+    },
+    {
+      "epoch": 1.67,
+      "eval_loss": 0.4748505651950836,
+      "eval_runtime": 21.355,
+      "eval_samples_per_second": 23.367,
+      "eval_steps_per_second": 5.853,
+      "step": 950
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.0001634526649278632,
+      "loss": 0.5771,
+      "step": 960
+    },
+    {
+      "epoch": 1.69,
+      "eval_loss": 0.4859110414981842,
+      "eval_runtime": 21.3418,
+      "eval_samples_per_second": 23.381,
+      "eval_steps_per_second": 5.857,
+      "step": 960
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 0.00016273875820467545,
+      "loss": 0.5689,
+      "step": 970
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.4734295606613159,
+      "eval_runtime": 21.3607,
+      "eval_samples_per_second": 23.361,
+      "eval_steps_per_second": 5.852,
+      "step": 970
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 0.0001620195389004767,
+      "loss": 0.5741,
+      "step": 980
+    },
+    {
+      "epoch": 1.72,
+      "eval_loss": 0.4881950914859772,
+      "eval_runtime": 21.3786,
+      "eval_samples_per_second": 23.341,
+      "eval_steps_per_second": 5.847,
+      "step": 980
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 0.00016129506791718665,
+      "loss": 0.5643,
+      "step": 990
+    },
+    {
+      "epoch": 1.74,
+      "eval_loss": 0.4815501570701599,
+      "eval_runtime": 21.3699,
+      "eval_samples_per_second": 23.351,
+      "eval_steps_per_second": 5.849,
+      "step": 990
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 0.00016056540660142586,
+      "loss": 0.5603,
+      "step": 1000
+    },
+    {
+      "epoch": 1.76,
+      "eval_loss": 0.46760401129722595,
+      "eval_runtime": 21.354,
+      "eval_samples_per_second": 23.368,
+      "eval_steps_per_second": 5.854,
+      "step": 1000
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 0.0001598306167393208,
+      "loss": 0.5925,
+      "step": 1010
+    },
+    {
+      "epoch": 1.77,
+      "eval_loss": 0.46860912442207336,
+      "eval_runtime": 21.3958,
+      "eval_samples_per_second": 23.322,
+      "eval_steps_per_second": 5.842,
+      "step": 1010
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 0.00015909076055127202,
+      "loss": 0.5834,
+      "step": 1020
+    },
+    {
+      "epoch": 1.79,
+      "eval_loss": 0.47431066632270813,
+      "eval_runtime": 21.4034,
+      "eval_samples_per_second": 23.314,
+      "eval_steps_per_second": 5.84,
+      "step": 1020
+    },
+    {
+      "epoch": 1.81,
+      "learning_rate": 0.00019360595357389735,
+      "loss": 0.5902,
+      "step": 1030
+    },
+    {
+      "epoch": 1.81,
+      "eval_loss": 0.49162757396698,
+      "eval_runtime": 38.6636,
+      "eval_samples_per_second": 12.906,
+      "eval_steps_per_second": 3.233,
+      "step": 1030
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 0.00019348256763960145,
+      "loss": 0.5777,
+      "step": 1040
+    },
+    {
+      "epoch": 1.83,
+      "eval_loss": 0.47481468319892883,
+      "eval_runtime": 41.2268,
+      "eval_samples_per_second": 12.104,
+      "eval_steps_per_second": 3.032,
+      "step": 1040
+    },
+    {
+      "epoch": 1.84,
+      "learning_rate": 0.00019335804264972018,
+      "loss": 0.5921,
+      "step": 1050
+    },
+    {
+      "epoch": 1.84,
+      "eval_loss": 0.48432889580726624,
+      "eval_runtime": 30.5847,
+      "eval_samples_per_second": 16.315,
+      "eval_steps_per_second": 4.087,
+      "step": 1050
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00019323238012155123,
+      "loss": 0.5877,
+      "step": 1060
+    },
+    {
+      "epoch": 1.86,
+      "eval_loss": 0.47419798374176025,
+      "eval_runtime": 37.8731,
+      "eval_samples_per_second": 13.176,
+      "eval_steps_per_second": 3.3,
+      "step": 1060
+    },
+    {
+      "epoch": 1.88,
+      "learning_rate": 0.00019310558158625285,
+      "loss": 0.5453,
+      "step": 1070
+    },
+    {
+      "epoch": 1.88,
+      "eval_loss": 0.4705266058444977,
+      "eval_runtime": 22.4824,
+      "eval_samples_per_second": 22.195,
+      "eval_steps_per_second": 2.802,
+      "step": 1070
+    },
+    {
+      "epoch": 1.9,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 0.5445,
+      "step": 1080
+    },
+    {
+      "epoch": 1.9,
+      "eval_loss": 0.4662667214870453,
+      "eval_runtime": 31.6864,
+      "eval_samples_per_second": 15.748,
+      "eval_steps_per_second": 1.988,
+      "step": 1080
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00019284858268809137,
+      "loss": 0.5686,
+      "step": 1090
+    },
+    {
+      "epoch": 1.92,
+      "eval_loss": 0.47445282340049744,
+      "eval_runtime": 27.1784,
+      "eval_samples_per_second": 18.36,
+      "eval_steps_per_second": 2.318,
+      "step": 1090
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 0.00019271838545667876,
+      "loss": 0.5712,
+      "step": 1100
+    },
+    {
+      "epoch": 1.93,
+      "eval_loss": 0.48884764313697815,
+      "eval_runtime": 37.118,
+      "eval_samples_per_second": 13.444,
+      "eval_steps_per_second": 1.697,
+      "step": 1100
+    },
+    {
+      "epoch": 1.95,
+      "learning_rate": 0.0001925870584809995,
+      "loss": 0.6032,
+      "step": 1110
+    },
+    {
+      "epoch": 1.95,
+      "eval_loss": 0.48608502745628357,
+      "eval_runtime": 36.4351,
+      "eval_samples_per_second": 13.696,
+      "eval_steps_per_second": 1.729,
+      "step": 1110
+    },
+    {
+      "epoch": 1.97,
+      "learning_rate": 0.00019245460336123134,
+      "loss": 0.5491,
+      "step": 1120
+    },
+    {
+      "epoch": 1.97,
+      "eval_loss": 0.472098708152771,
+      "eval_runtime": 22.4827,
+      "eval_samples_per_second": 22.195,
+      "eval_steps_per_second": 2.802,
+      "step": 1120
+    },
+    {
+      "epoch": 1.99,
+      "learning_rate": 0.00019232102171129811,
+      "loss": 0.5452,
+      "step": 1130
+    },
+    {
+      "epoch": 1.99,
+      "eval_loss": 0.4644794762134552,
+      "eval_runtime": 27.0746,
+      "eval_samples_per_second": 18.431,
+      "eval_steps_per_second": 2.327,
+      "step": 1130
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 0.00019218631515885006,
+      "loss": 0.5526,
+      "step": 1140
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.48768851161003113,
+      "eval_runtime": 32.1887,
+      "eval_samples_per_second": 15.502,
+      "eval_steps_per_second": 1.957,
+      "step": 1140
+    },
+    {
+      "epoch": 2.02,
+      "learning_rate": 0.00019205048534524406,
+      "loss": 0.5443,
+      "step": 1150
+    },
+    {
+      "epoch": 2.02,
+      "eval_loss": 0.4716103971004486,
+      "eval_runtime": 30.3462,
+      "eval_samples_per_second": 16.444,
+      "eval_steps_per_second": 2.076,
+      "step": 1150
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 0.00019191353392552344,
+      "loss": 0.5103,
+      "step": 1160
+    },
+    {
+      "epoch": 2.04,
+      "eval_loss": 0.46319034695625305,
+      "eval_runtime": 23.7207,
+      "eval_samples_per_second": 21.037,
+      "eval_steps_per_second": 2.656,
+      "step": 1160
+    },
+    {
+      "epoch": 2.06,
+      "learning_rate": 0.00019177546256839812,
+      "loss": 0.5202,
+      "step": 1170
+    },
+    {
+      "epoch": 2.06,
+      "eval_loss": 0.4802156984806061,
+      "eval_runtime": 24.1547,
+      "eval_samples_per_second": 20.658,
+      "eval_steps_per_second": 2.608,
+      "step": 1170
+    },
+    {
+      "epoch": 2.07,
+      "learning_rate": 0.00019163627295622397,
+      "loss": 0.5436,
+      "step": 1180
+    },
+    {
+      "epoch": 2.07,
+      "eval_loss": 0.4681110680103302,
+      "eval_runtime": 26.9736,
+      "eval_samples_per_second": 18.5,
+      "eval_steps_per_second": 2.336,
+      "step": 1180
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 0.0001914959667849825,
+      "loss": 0.5454,
+      "step": 1190
+    },
+    {
+      "epoch": 2.09,
+      "eval_loss": 0.470931738615036,
+      "eval_runtime": 36.9982,
+      "eval_samples_per_second": 13.487,
+      "eval_steps_per_second": 1.703,
+      "step": 1190
+    },
+    {
+      "epoch": 2.11,
+      "learning_rate": 0.0001913545457642601,
+      "loss": 0.5183,
+      "step": 1200
+    },
+    {
+      "epoch": 2.11,
+      "eval_loss": 0.47423675656318665,
+      "eval_runtime": 33.685,
+      "eval_samples_per_second": 14.814,
+      "eval_steps_per_second": 1.87,
+      "step": 1200
+    },
+    {
+      "epoch": 2.11,
+      "step": 1201,
+      "total_flos": 3.450559153050747e+17,
+      "train_loss": 0.000492346822768822,
+      "train_runtime": 4.9952,
+      "train_samples_per_second": 3843.723,
+      "train_steps_per_second": 240.233
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 10,
+  "total_flos": 3.450559153050747e+17,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

relation/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0b9e34a849ec20a74862407fc63d2564ae3a5dcd55fcb3e8883e1a6d34910891
+size 4920

relation/training_eval_loss.png ADDED Viewed

relation/training_loss.png ADDED Viewed