saim1212 commited on May 10, 2025

Commit

25aeef3

verified ·

1 Parent(s): a89fdb2

vision_on

Browse files

Files changed (28) hide show

.gitattributes +1 -0
README.md +5 -5
adapter_config.json +5 -5
adapter_model.safetensors +1 -1
all_results.json +6 -6
checkpoint-1110/README.md +202 -0
checkpoint-1110/adapter_config.json +39 -0
checkpoint-1110/adapter_model.safetensors +3 -0
checkpoint-1110/added_tokens.json +16 -0
checkpoint-1110/chat_template.json +3 -0
checkpoint-1110/merges.txt +0 -0
checkpoint-1110/optimizer.pt +3 -0
checkpoint-1110/preprocessor_config.json +29 -0
checkpoint-1110/rng_state_0.pth +3 -0
checkpoint-1110/rng_state_1.pth +3 -0
checkpoint-1110/scaler.pt +3 -0
checkpoint-1110/scheduler.pt +3 -0
checkpoint-1110/special_tokens_map.json +31 -0
checkpoint-1110/tokenizer.json +3 -0
checkpoint-1110/tokenizer_config.json +148 -0
checkpoint-1110/trainer_state.json +811 -0
checkpoint-1110/training_args.bin +3 -0
checkpoint-1110/vocab.json +0 -0
runs/May09_18-22-54_0a7143ac4fc3/events.out.tfevents.1746815275.0a7143ac4fc3.138.0 +3 -0
train_results.json +6 -6
trainer_log.jsonl +112 -63
trainer_state.json +604 -261
training_args.bin +2 -2

.gitattributes CHANGED Viewed

@@ -35,3 +35,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-620/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *tfevents* filter=lfs diff=lfs merge=lfs -text
 checkpoint-620/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-1110/tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md CHANGED Viewed

@@ -36,13 +36,13 @@ More information needed
 The following hyperparameters were used during training:
 - learning_rate: 2e-05
-- train_batch_size: 4
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 2
-- gradient_accumulation_steps: 4
-- total_train_batch_size: 32
 - total_eval_batch_size: 16
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
@@ -58,6 +58,6 @@ The following hyperparameters were used during training:
 - PEFT 0.15.0
 - Transformers 4.50.0
-- Pytorch 2.4.1+cu121
-- Datasets 3.2.0
 - Tokenizers 0.21.0

 The following hyperparameters were used during training:
 - learning_rate: 2e-05
+- train_batch_size: 3
 - eval_batch_size: 8
 - seed: 42
 - distributed_type: multi-GPU
 - num_devices: 2
+- gradient_accumulation_steps: 3
+- total_train_batch_size: 18
 - total_eval_batch_size: 16
 - optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: cosine
 - PEFT 0.15.0
 - Transformers 4.50.0
+- Pytorch 2.4.0
+- Datasets 3.1.0
 - Tokenizers 0.21.0

adapter_config.json CHANGED Viewed

@@ -24,13 +24,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "gate_proj",
-    "v_proj",
-    "up_proj",
     "k_proj",
-    "o_proj",
     "down_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
+    "up_proj",
     "down_proj",
+    "gate_proj",
+    "v_proj",
+    "q_proj",
+    "o_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9898f0fb3424a02fe4ed0e1717139a80d63a4ec5a0625710780a01a90b0947d
 size 91374880

 version https://git-lfs.github.com/spec/v1
+oid sha256:1532ce62e44c0c3c92e9ba5a85f3a876c2a4d850720cd708c6efa1d5964b6d91
 size 91374880

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.848,
-    "total_flos": 2.117785669819433e+17,
-    "train_loss": 0.48659542481745444,
-    "train_runtime": 31064.4118,
-    "train_samples_per_second": 0.644,
-    "train_steps_per_second": 0.02
 }

 {
+    "epoch": 9.91616766467066,
+    "total_flos": 3.0002693815874355e+17,
+    "train_loss": 1.1883513411960087,
+    "train_runtime": 36141.346,
+    "train_samples_per_second": 0.553,
+    "train_steps_per_second": 0.031
 }

checkpoint-1110/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: saim1212/penguin2-checkpoint2
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.15.0

checkpoint-1110/adapter_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "saim1212/penguin2-checkpoint2",
+  "bias": "none",
+  "corda_config": null,
+  "eva_config": null,
+  "exclude_modules": null,
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_bias": false,
+  "lora_dropout": 0.0,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "up_proj",
+    "down_proj",
+    "gate_proj",
+    "v_proj",
+    "q_proj",
+    "o_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "trainable_token_indices": null,
+  "use_dora": false,
+  "use_rslora": false
+}

checkpoint-1110/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1532ce62e44c0c3c92e9ba5a85f3a876c2a4d850720cd708c6efa1d5964b6d91
+size 91374880

checkpoint-1110/added_tokens.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-1110/chat_template.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}"
+}

checkpoint-1110/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1110/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1bf595de676edff8fa0c1160d73dfbb9f06f17950427d96d4b5cb1e76667401
+size 183102410

checkpoint-1110/preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "do_convert_rgb": true,
+  "do_normalize": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "image_mean": [
+    0.48145466,
+    0.4578275,
+    0.40821073
+  ],
+  "image_processor_type": "Qwen2VLImageProcessor",
+  "image_std": [
+    0.26862954,
+    0.26130258,
+    0.27577711
+  ],
+  "max_pixels": 12845056,
+  "merge_size": 2,
+  "min_pixels": 3136,
+  "patch_size": 14,
+  "processor_class": "Qwen2VLProcessor",
+  "resample": 3,
+  "rescale_factor": 0.00392156862745098,
+  "size": {
+    "longest_edge": 12845056,
+    "shortest_edge": 3136
+  },
+  "temporal_patch_size": 2
+}

checkpoint-1110/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b074bf97f241c2662caa5ce956b03d1249c3cc0713b6aef7796673362754f98
+size 14512

checkpoint-1110/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58aed9e8d78903cb12015375021c729c3f6c5fd1a1e19e7aee6ddde57c3310b9
+size 14512

checkpoint-1110/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57953168f0dda5d4bf2c454e4d8806bce2b154cf62330908a665e6c6698ee690
+size 988

checkpoint-1110/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9af3068573d87387921839ac38a04c83d5cde9d2dbb330f714ba4bb8a3b4323e
+size 1064

checkpoint-1110/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1110/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:091aa7594dc2fcfbfa06b9e3c22a5f0562ac14f30375c13af7309407a0e67b8a
+size 11420371

checkpoint-1110/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,148 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% set image_count = namespace(value=0) %}{% set video_count = namespace(value=0) %}{% for message in messages %}{% if loop.first and message['role'] != 'system' %}<|im_start|>system\nYou are a helpful assistant.<|im_end|>\n{% endif %}<|im_start|>{{ message['role'] }}\n{% if message['content'] is string %}{{ message['content'] }}<|im_end|>\n{% else %}{% for content in message['content'] %}{% if content['type'] == 'image' or 'image' in content or 'image_url' in content %}{% set image_count.value = image_count.value + 1 %}{% if add_vision_id %}Picture {{ image_count.value }}: {% endif %}<|vision_start|><|image_pad|><|vision_end|>{% elif content['type'] == 'video' or 'video' in content %}{% set video_count.value = video_count.value + 1 %}{% if add_vision_id %}Video {{ video_count.value }}: {% endif %}<|vision_start|><|video_pad|><|vision_end|>{% elif 'text' in content %}{{ content['text'] }}{% endif %}{% endfor %}<|im_end|>\n{% endif %}{% endfor %}{% if add_generation_prompt %}<|im_start|>assistant\n{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "max_length": null,
+  "model_max_length": 32768,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|endoftext|>",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "processor_class": "Qwen2VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-1110/trainer_state.json ADDED Viewed

	@@ -0,0 +1,811 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.91616766467066,
+  "eval_steps": 500,
+  "global_step": 1110,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08982035928143713,
+      "grad_norm": 49.68221664428711,
+      "learning_rate": 1.4414414414414416e-06,
+      "loss": 8.7467,
+      "step": 10
+    },
+    {
+      "epoch": 0.17964071856287425,
+      "grad_norm": 22.61308479309082,
+      "learning_rate": 3.063063063063063e-06,
+      "loss": 5.5972,
+      "step": 20
+    },
+    {
+      "epoch": 0.2694610778443114,
+      "grad_norm": 11.650931358337402,
+      "learning_rate": 4.864864864864866e-06,
+      "loss": 4.1239,
+      "step": 30
+    },
+    {
+      "epoch": 0.3592814371257485,
+      "grad_norm": 11.040465354919434,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 3.3473,
+      "step": 40
+    },
+    {
+      "epoch": 0.4491017964071856,
+      "grad_norm": 21.185564041137695,
+      "learning_rate": 8.46846846846847e-06,
+      "loss": 2.843,
+      "step": 50
+    },
+    {
+      "epoch": 0.5389221556886228,
+      "grad_norm": 6.222358226776123,
+      "learning_rate": 1.027027027027027e-05,
+      "loss": 2.5158,
+      "step": 60
+    },
+    {
+      "epoch": 0.6287425149700598,
+      "grad_norm": 12.189018249511719,
+      "learning_rate": 1.2072072072072074e-05,
+      "loss": 2.1371,
+      "step": 70
+    },
+    {
+      "epoch": 0.718562874251497,
+      "grad_norm": 17.56637191772461,
+      "learning_rate": 1.3873873873873875e-05,
+      "loss": 1.9438,
+      "step": 80
+    },
+    {
+      "epoch": 0.8083832335329342,
+      "grad_norm": 5.583638668060303,
+      "learning_rate": 1.5675675675675676e-05,
+      "loss": 1.7556,
+      "step": 90
+    },
+    {
+      "epoch": 0.8982035928143712,
+      "grad_norm": 3.642561197280884,
+      "learning_rate": 1.7477477477477477e-05,
+      "loss": 1.6005,
+      "step": 100
+    },
+    {
+      "epoch": 0.9880239520958084,
+      "grad_norm": 2.80586314201355,
+      "learning_rate": 1.927927927927928e-05,
+      "loss": 1.5588,
+      "step": 110
+    },
+    {
+      "epoch": 1.0718562874251496,
+      "grad_norm": 2.6551783084869385,
+      "learning_rate": 1.9998219965624736e-05,
+      "loss": 1.4294,
+      "step": 120
+    },
+    {
+      "epoch": 1.1616766467065869,
+      "grad_norm": 2.895826578140259,
+      "learning_rate": 1.9987344272588007e-05,
+      "loss": 1.4837,
+      "step": 130
+    },
+    {
+      "epoch": 1.251497005988024,
+      "grad_norm": 2.8669326305389404,
+      "learning_rate": 1.9966592535953532e-05,
+      "loss": 1.453,
+      "step": 140
+    },
+    {
+      "epoch": 1.341317365269461,
+      "grad_norm": 2.1909446716308594,
+      "learning_rate": 1.9935985276197033e-05,
+      "loss": 1.3837,
+      "step": 150
+    },
+    {
+      "epoch": 1.4311377245508983,
+      "grad_norm": 3.2299187183380127,
+      "learning_rate": 1.989555275948572e-05,
+      "loss": 1.3152,
+      "step": 160
+    },
+    {
+      "epoch": 1.5209580838323353,
+      "grad_norm": 1.9108384847640991,
+      "learning_rate": 1.984533496774942e-05,
+      "loss": 1.1961,
+      "step": 170
+    },
+    {
+      "epoch": 1.6107784431137726,
+      "grad_norm": 1.1921658515930176,
+      "learning_rate": 1.9785381559144196e-05,
+      "loss": 1.1209,
+      "step": 180
+    },
+    {
+      "epoch": 1.7005988023952097,
+      "grad_norm": 0.8914986848831177,
+      "learning_rate": 1.9715751818947603e-05,
+      "loss": 1.1056,
+      "step": 190
+    },
+    {
+      "epoch": 1.7904191616766467,
+      "grad_norm": 0.9408266544342041,
+      "learning_rate": 1.963651460093409e-05,
+      "loss": 1.0827,
+      "step": 200
+    },
+    {
+      "epoch": 1.8802395209580838,
+      "grad_norm": 0.8248458504676819,
+      "learning_rate": 1.9547748259288536e-05,
+      "loss": 1.0787,
+      "step": 210
+    },
+    {
+      "epoch": 1.9700598802395208,
+      "grad_norm": 0.9938483238220215,
+      "learning_rate": 1.9449540571125284e-05,
+      "loss": 1.0597,
+      "step": 220
+    },
+    {
+      "epoch": 2.053892215568862,
+      "grad_norm": 0.9142336249351501,
+      "learning_rate": 1.93419886496892e-05,
+      "loss": 0.9906,
+      "step": 230
+    },
+    {
+      "epoch": 2.143712574850299,
+      "grad_norm": 0.8745118379592896,
+      "learning_rate": 1.9225198848324687e-05,
+      "loss": 1.05,
+      "step": 240
+    },
+    {
+      "epoch": 2.2335329341317367,
+      "grad_norm": 0.7089764475822449,
+      "learning_rate": 1.909928665530757e-05,
+      "loss": 1.043,
+      "step": 250
+    },
+    {
+      "epoch": 2.3233532934131738,
+      "grad_norm": 0.4864867031574249,
+      "learning_rate": 1.896437657964382e-05,
+      "loss": 1.0463,
+      "step": 260
+    },
+    {
+      "epoch": 2.413173652694611,
+      "grad_norm": 0.971626341342926,
+      "learning_rate": 1.8820602027948112e-05,
+      "loss": 1.0418,
+      "step": 270
+    },
+    {
+      "epoch": 2.502994011976048,
+      "grad_norm": 0.699500322341919,
+      "learning_rate": 1.866810517252393e-05,
+      "loss": 1.038,
+      "step": 280
+    },
+    {
+      "epoch": 2.592814371257485,
+      "grad_norm": 0.9161490797996521,
+      "learning_rate": 1.8507036810775617e-05,
+      "loss": 1.0338,
+      "step": 290
+    },
+    {
+      "epoch": 2.682634730538922,
+      "grad_norm": 0.6857994198799133,
+      "learning_rate": 1.833755621609152e-05,
+      "loss": 1.0231,
+      "step": 300
+    },
+    {
+      "epoch": 2.772455089820359,
+      "grad_norm": 0.7041919827461243,
+      "learning_rate": 1.815983098034555e-05,
+      "loss": 1.0218,
+      "step": 310
+    },
+    {
+      "epoch": 2.8622754491017965,
+      "grad_norm": 0.9268773794174194,
+      "learning_rate": 1.7974036848172992e-05,
+      "loss": 1.0229,
+      "step": 320
+    },
+    {
+      "epoch": 2.9520958083832336,
+      "grad_norm": 0.7882820963859558,
+      "learning_rate": 1.7780357543184396e-05,
+      "loss": 1.0199,
+      "step": 330
+    },
+    {
+      "epoch": 3.035928143712575,
+      "grad_norm": 0.7048642635345459,
+      "learning_rate": 1.757898458628941e-05,
+      "loss": 0.9551,
+      "step": 340
+    },
+    {
+      "epoch": 3.125748502994012,
+      "grad_norm": 0.5380260348320007,
+      "learning_rate": 1.7370117106310216e-05,
+      "loss": 1.0078,
+      "step": 350
+    },
+    {
+      "epoch": 3.215568862275449,
+      "grad_norm": 0.9133287668228149,
+      "learning_rate": 1.715396164307182e-05,
+      "loss": 1.0026,
+      "step": 360
+    },
+    {
+      "epoch": 3.305389221556886,
+      "grad_norm": 0.8086357712745667,
+      "learning_rate": 1.6930731943163975e-05,
+      "loss": 1.0082,
+      "step": 370
+    },
+    {
+      "epoch": 3.3952095808383236,
+      "grad_norm": 0.7032626271247864,
+      "learning_rate": 1.6700648748576577e-05,
+      "loss": 1.0025,
+      "step": 380
+    },
+    {
+      "epoch": 3.4850299401197606,
+      "grad_norm": 0.7610228657722473,
+      "learning_rate": 1.6463939578417695e-05,
+      "loss": 0.9943,
+      "step": 390
+    },
+    {
+      "epoch": 3.5748502994011977,
+      "grad_norm": 0.7735270261764526,
+      "learning_rate": 1.622083850392996e-05,
+      "loss": 1.0014,
+      "step": 400
+    },
+    {
+      "epoch": 3.6646706586826348,
+      "grad_norm": 0.5382483005523682,
+      "learning_rate": 1.5971585917027864e-05,
+      "loss": 0.9961,
+      "step": 410
+    },
+    {
+      "epoch": 3.754491017964072,
+      "grad_norm": 0.6216614246368408,
+      "learning_rate": 1.5716428292584788e-05,
+      "loss": 0.992,
+      "step": 420
+    },
+    {
+      "epoch": 3.844311377245509,
+      "grad_norm": 0.5743616819381714,
+      "learning_rate": 1.545561794470492e-05,
+      "loss": 0.9861,
+      "step": 430
+    },
+    {
+      "epoch": 3.934131736526946,
+      "grad_norm": 0.7634334564208984,
+      "learning_rate": 1.518941277722096e-05,
+      "loss": 0.9881,
+      "step": 440
+    },
+    {
+      "epoch": 4.017964071856287,
+      "grad_norm": 0.7453029751777649,
+      "learning_rate": 1.491807602866442e-05,
+      "loss": 0.9172,
+      "step": 450
+    },
+    {
+      "epoch": 4.107784431137724,
+      "grad_norm": 1.0462350845336914,
+      "learning_rate": 1.4641876011960661e-05,
+      "loss": 0.9798,
+      "step": 460
+    },
+    {
+      "epoch": 4.197604790419161,
+      "grad_norm": 0.8113179206848145,
+      "learning_rate": 1.436108584910611e-05,
+      "loss": 0.9799,
+      "step": 470
+    },
+    {
+      "epoch": 4.287425149700598,
+      "grad_norm": 0.6361674070358276,
+      "learning_rate": 1.4075983201089964e-05,
+      "loss": 0.9654,
+      "step": 480
+    },
+    {
+      "epoch": 4.3772455089820355,
+      "grad_norm": 0.6291260123252869,
+      "learning_rate": 1.3786849993327503e-05,
+      "loss": 0.9631,
+      "step": 490
+    },
+    {
+      "epoch": 4.467065868263473,
+      "grad_norm": 0.988298773765564,
+      "learning_rate": 1.349397213687651e-05,
+      "loss": 0.9729,
+      "step": 500
+    },
+    {
+      "epoch": 4.5568862275449105,
+      "grad_norm": 1.0734843015670776,
+      "learning_rate": 1.3197639245712454e-05,
+      "loss": 0.963,
+      "step": 510
+    },
+    {
+      "epoch": 4.6467065868263475,
+      "grad_norm": 0.834682047367096,
+      "learning_rate": 1.2898144350342015e-05,
+      "loss": 0.9538,
+      "step": 520
+    },
+    {
+      "epoch": 4.736526946107785,
+      "grad_norm": 0.5939741134643555,
+      "learning_rate": 1.2595783608038157e-05,
+      "loss": 0.9623,
+      "step": 530
+    },
+    {
+      "epoch": 4.826347305389222,
+      "grad_norm": 0.8625423908233643,
+      "learning_rate": 1.22908560099833e-05,
+      "loss": 0.9557,
+      "step": 540
+    },
+    {
+      "epoch": 4.916167664670659,
+      "grad_norm": 0.8925888538360596,
+      "learning_rate": 1.198366308561013e-05,
+      "loss": 0.9419,
+      "step": 550
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.3238130807876587,
+      "learning_rate": 1.1674508604432464e-05,
+      "loss": 0.8782,
+      "step": 560
+    },
+    {
+      "epoch": 5.089820359281437,
+      "grad_norm": 0.5171638131141663,
+      "learning_rate": 1.1363698275661002e-05,
+      "loss": 0.9256,
+      "step": 570
+    },
+    {
+      "epoch": 5.179640718562874,
+      "grad_norm": 1.136551022529602,
+      "learning_rate": 1.1051539445900982e-05,
+      "loss": 0.9282,
+      "step": 580
+    },
+    {
+      "epoch": 5.269461077844311,
+      "grad_norm": 0.9350560307502747,
+      "learning_rate": 1.0738340795230722e-05,
+      "loss": 0.9316,
+      "step": 590
+    },
+    {
+      "epoch": 5.359281437125748,
+      "grad_norm": 1.0158970355987549,
+      "learning_rate": 1.0424412031961485e-05,
+      "loss": 0.9381,
+      "step": 600
+    },
+    {
+      "epoch": 5.449101796407185,
+      "grad_norm": 1.0037592649459839,
+      "learning_rate": 1.0110063586380647e-05,
+      "loss": 0.9288,
+      "step": 610
+    },
+    {
+      "epoch": 5.538922155688622,
+      "grad_norm": 0.6334489583969116,
+      "learning_rate": 9.795606303780885e-06,
+      "loss": 0.9272,
+      "step": 620
+    },
+    {
+      "epoch": 5.62874251497006,
+      "grad_norm": 0.7240671515464783,
+      "learning_rate": 9.48135113707899e-06,
+      "loss": 0.9318,
+      "step": 630
+    },
+    {
+      "epoch": 5.718562874251497,
+      "grad_norm": 0.9315741658210754,
+      "learning_rate": 9.167608839328273e-06,
+      "loss": 0.9297,
+      "step": 640
+    },
+    {
+      "epoch": 5.808383233532934,
+      "grad_norm": 0.7542333602905273,
+      "learning_rate": 8.854689656428591e-06,
+      "loss": 0.9119,
+      "step": 650
+    },
+    {
+      "epoch": 5.8982035928143715,
+      "grad_norm": 0.864987313747406,
+      "learning_rate": 8.542903020337887e-06,
+      "loss": 0.919,
+      "step": 660
+    },
+    {
+      "epoch": 5.9880239520958085,
+      "grad_norm": 0.5868083834648132,
+      "learning_rate": 8.232557243088585e-06,
+      "loss": 0.9136,
+      "step": 670
+    },
+    {
+      "epoch": 6.07185628742515,
+      "grad_norm": 0.8045146465301514,
+      "learning_rate": 7.923959211911448e-06,
+      "loss": 0.8452,
+      "step": 680
+    },
+    {
+      "epoch": 6.161676646706587,
+      "grad_norm": 0.9145955443382263,
+      "learning_rate": 7.617414085768352e-06,
+      "loss": 0.9,
+      "step": 690
+    },
+    {
+      "epoch": 6.251497005988024,
+      "grad_norm": 0.6515654921531677,
+      "learning_rate": 7.313224993594057e-06,
+      "loss": 0.8946,
+      "step": 700
+    },
+    {
+      "epoch": 6.341317365269461,
+      "grad_norm": 0.6843001246452332,
+      "learning_rate": 7.011692734545403e-06,
+      "loss": 0.8994,
+      "step": 710
+    },
+    {
+      "epoch": 6.431137724550898,
+      "grad_norm": 0.8299969434738159,
+      "learning_rate": 6.713115480554313e-06,
+      "loss": 0.894,
+      "step": 720
+    },
+    {
+      "epoch": 6.520958083832335,
+      "grad_norm": 1.121025800704956,
+      "learning_rate": 6.4177884814787284e-06,
+      "loss": 0.8982,
+      "step": 730
+    },
+    {
+      "epoch": 6.610778443113772,
+      "grad_norm": 1.1040045022964478,
+      "learning_rate": 6.126003773143072e-06,
+      "loss": 0.8985,
+      "step": 740
+    },
+    {
+      "epoch": 6.700598802395209,
+      "grad_norm": 0.711075484752655,
+      "learning_rate": 5.8380498885569246e-06,
+      "loss": 0.8923,
+      "step": 750
+    },
+    {
+      "epoch": 6.790419161676647,
+      "grad_norm": 0.8444594740867615,
+      "learning_rate": 5.554211572597477e-06,
+      "loss": 0.8989,
+      "step": 760
+    },
+    {
+      "epoch": 6.880239520958084,
+      "grad_norm": 0.9748265743255615,
+      "learning_rate": 5.274769500437882e-06,
+      "loss": 0.8956,
+      "step": 770
+    },
+    {
+      "epoch": 6.970059880239521,
+      "grad_norm": 0.8513533473014832,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.8906,
+      "step": 780
+    },
+    {
+      "epoch": 7.053892215568863,
+      "grad_norm": 1.3123410940170288,
+      "learning_rate": 4.730174778705909e-06,
+      "loss": 0.8249,
+      "step": 790
+    },
+    {
+      "epoch": 7.1437125748503,
+      "grad_norm": 1.0771753787994385,
+      "learning_rate": 4.4655606547984165e-06,
+      "loss": 0.8777,
+      "step": 800
+    },
+    {
+      "epoch": 7.233532934131737,
+      "grad_norm": 0.8778141736984253,
+      "learning_rate": 4.206419293496333e-06,
+      "loss": 0.8832,
+      "step": 810
+    },
+    {
+      "epoch": 7.323353293413174,
+      "grad_norm": 1.0552406311035156,
+      "learning_rate": 3.953006948245247e-06,
+      "loss": 0.872,
+      "step": 820
+    },
+    {
+      "epoch": 7.413173652694611,
+      "grad_norm": 0.6986867785453796,
+      "learning_rate": 3.705574207319844e-06,
+      "loss": 0.8807,
+      "step": 830
+    },
+    {
+      "epoch": 7.502994011976048,
+      "grad_norm": 0.7952435612678528,
+      "learning_rate": 3.4643657460282078e-06,
+      "loss": 0.8793,
+      "step": 840
+    },
+    {
+      "epoch": 7.592814371257485,
+      "grad_norm": 0.9549069404602051,
+      "learning_rate": 3.2296200847632376e-06,
+      "loss": 0.8751,
+      "step": 850
+    },
+    {
+      "epoch": 7.682634730538922,
+      "grad_norm": 0.6770684719085693,
+      "learning_rate": 3.001569353140347e-06,
+      "loss": 0.8772,
+      "step": 860
+    },
+    {
+      "epoch": 7.772455089820359,
+      "grad_norm": 0.8119450211524963,
+      "learning_rate": 2.780439060454756e-06,
+      "loss": 0.8721,
+      "step": 870
+    },
+    {
+      "epoch": 7.862275449101796,
+      "grad_norm": 0.7255963087081909,
+      "learning_rate": 2.566447872685298e-06,
+      "loss": 0.8734,
+      "step": 880
+    },
+    {
+      "epoch": 7.952095808383233,
+      "grad_norm": 0.6024225950241089,
+      "learning_rate": 2.359807396265307e-06,
+      "loss": 0.8779,
+      "step": 890
+    },
+    {
+      "epoch": 8.035928143712574,
+      "grad_norm": 0.6504734754562378,
+      "learning_rate": 2.160721968834344e-06,
+      "loss": 0.8174,
+      "step": 900
+    },
+    {
+      "epoch": 8.125748502994012,
+      "grad_norm": 0.8142725825309753,
+      "learning_rate": 1.969388457177743e-06,
+      "loss": 0.863,
+      "step": 910
+    },
+    {
+      "epoch": 8.215568862275449,
+      "grad_norm": 0.8136929869651794,
+      "learning_rate": 1.7859960625537476e-06,
+      "loss": 0.8677,
+      "step": 920
+    },
+    {
+      "epoch": 8.305389221556887,
+      "grad_norm": 0.6553688049316406,
+      "learning_rate": 1.6107261336007284e-06,
+      "loss": 0.853,
+      "step": 930
+    },
+    {
+      "epoch": 8.395209580838323,
+      "grad_norm": 0.8645008206367493,
+      "learning_rate": 1.443751987009533e-06,
+      "loss": 0.8569,
+      "step": 940
+    },
+    {
+      "epoch": 8.48502994011976,
+      "grad_norm": 0.7802151441574097,
+      "learning_rate": 1.2852387361382768e-06,
+      "loss": 0.8608,
+      "step": 950
+    },
+    {
+      "epoch": 8.574850299401197,
+      "grad_norm": 0.8659719824790955,
+      "learning_rate": 1.1353431277390125e-06,
+      "loss": 0.8723,
+      "step": 960
+    },
+    {
+      "epoch": 8.664670658682635,
+      "grad_norm": 1.073027491569519,
+      "learning_rate": 9.942133869578164e-07,
+      "loss": 0.8538,
+      "step": 970
+    },
+    {
+      "epoch": 8.754491017964071,
+      "grad_norm": 0.8132328391075134,
+      "learning_rate": 8.619890707614687e-07,
+      "loss": 0.8552,
+      "step": 980
+    },
+    {
+      "epoch": 8.844311377245509,
+      "grad_norm": 0.959922730922699,
+      "learning_rate": 7.388009299357412e-07,
+      "loss": 0.8658,
+      "step": 990
+    },
+    {
+      "epoch": 8.934131736526947,
+      "grad_norm": 0.8655376434326172,
+      "learning_rate": 6.247707797917257e-07,
+      "loss": 0.8522,
+      "step": 1000
+    },
+    {
+      "epoch": 9.017964071856287,
+      "grad_norm": 0.8419204950332642,
+      "learning_rate": 5.200113797080464e-07,
+      "loss": 0.7919,
+      "step": 1010
+    },
+    {
+      "epoch": 9.107784431137725,
+      "grad_norm": 0.9591242074966431,
+      "learning_rate": 4.2462632162809103e-07,
+      "loss": 0.857,
+      "step": 1020
+    },
+    {
+      "epoch": 9.197604790419161,
+      "grad_norm": 0.4990997016429901,
+      "learning_rate": 3.387099276225214e-07,
+      "loss": 0.8503,
+      "step": 1030
+    },
+    {
+      "epoch": 9.2874251497006,
+      "grad_norm": 0.9034556150436401,
+      "learning_rate": 2.623471566183322e-07,
+      "loss": 0.8465,
+      "step": 1040
+    },
+    {
+      "epoch": 9.377245508982035,
+      "grad_norm": 0.8334706425666809,
+      "learning_rate": 1.9561352038673264e-07,
+      "loss": 0.8576,
+      "step": 1050
+    },
+    {
+      "epoch": 9.467065868263473,
+      "grad_norm": 0.6150113344192505,
+      "learning_rate": 1.3857500887288544e-07,
+      "loss": 0.8544,
+      "step": 1060
+    },
+    {
+      "epoch": 9.55688622754491,
+      "grad_norm": 0.7956252098083496,
+      "learning_rate": 9.12880249413628e-08,
+      "loss": 0.8488,
+      "step": 1070
+    },
+    {
+      "epoch": 9.646706586826348,
+      "grad_norm": 0.755624532699585,
+      "learning_rate": 5.379932860185122e-08,
+      "loss": 0.8512,
+      "step": 1080
+    },
+    {
+      "epoch": 9.736526946107784,
+      "grad_norm": 0.6398297548294067,
+      "learning_rate": 2.6145990770238827e-08,
+      "loss": 0.8559,
+      "step": 1090
+    },
+    {
+      "epoch": 9.826347305389222,
+      "grad_norm": 0.9212434887886047,
+      "learning_rate": 8.355356610822984e-09,
+      "loss": 0.8499,
+      "step": 1100
+    },
+    {
+      "epoch": 9.91616766467066,
+      "grad_norm": 0.868816614151001,
+      "learning_rate": 4.4501849589040357e-10,
+      "loss": 0.8618,
+      "step": 1110
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1110,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 10000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.0002693815874355e+17,
+  "train_batch_size": 3,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1110/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bb8babb02cb0454945f3aa7e37edae61d4ecc706b4e073e96dd6ef8a6224536
+size 5752

checkpoint-1110/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

runs/May09_18-22-54_0a7143ac4fc3/events.out.tfevents.1746815275.0a7143ac4fc3.138.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:069b43a332381d3a7e05715c55d7f7ab44c9ae3a8fc374ab92aa38a41ab1dcc7
+size 30410

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 9.848,
-    "total_flos": 2.117785669819433e+17,
-    "train_loss": 0.48659542481745444,
-    "train_runtime": 31064.4118,
-    "train_samples_per_second": 0.644,
-    "train_steps_per_second": 0.02
 }

 {
+    "epoch": 9.91616766467066,
+    "total_flos": 3.0002693815874355e+17,
+    "train_loss": 1.1883513411960087,
+    "train_runtime": 36141.346,
+    "train_samples_per_second": 0.553,
+    "train_steps_per_second": 0.031
 }

trainer_log.jsonl CHANGED Viewed

@@ -1,63 +1,112 @@
-{"current_steps": 10, "total_steps": 620, "loss": 2.0828, "lr": 3.225806451612903e-06, "epoch": 0.16, "percentage": 1.61, "elapsed_time": "0:08:11", "remaining_time": "8:19:30"}
-{"current_steps": 20, "total_steps": 620, "loss": 1.4787, "lr": 6.451612903225806e-06, "epoch": 0.32, "percentage": 3.23, "elapsed_time": "0:16:36", "remaining_time": "8:18:02"}
-{"current_steps": 30, "total_steps": 620, "loss": 1.3156, "lr": 9.67741935483871e-06, "epoch": 0.48, "percentage": 4.84, "elapsed_time": "0:25:00", "remaining_time": "8:11:50"}
-{"current_steps": 40, "total_steps": 620, "loss": 1.1692, "lr": 1.2903225806451613e-05, "epoch": 0.64, "percentage": 6.45, "elapsed_time": "0:33:26", "remaining_time": "8:04:47"}
-{"current_steps": 50, "total_steps": 620, "loss": 1.1055, "lr": 1.6129032258064517e-05, "epoch": 0.8, "percentage": 8.06, "elapsed_time": "0:41:51", "remaining_time": "7:57:14"}
-{"current_steps": 60, "total_steps": 620, "loss": 1.0751, "lr": 1.935483870967742e-05, "epoch": 0.96, "percentage": 9.68, "elapsed_time": "0:50:16", "remaining_time": "7:49:14"}
-{"current_steps": 70, "total_steps": 620, "loss": 0.9454, "lr": 1.9989858366670475e-05, "epoch": 1.112, "percentage": 11.29, "elapsed_time": "0:58:16", "remaining_time": "7:37:51"}
-{"current_steps": 80, "total_steps": 620, "loss": 0.9386, "lr": 1.994869323391895e-05, "epoch": 1.272, "percentage": 12.9, "elapsed_time": "1:06:41", "remaining_time": "7:30:10"}
-{"current_steps": 90, "total_steps": 620, "loss": 0.9624, "lr": 1.9876001099813018e-05, "epoch": 1.432, "percentage": 14.52, "elapsed_time": "1:15:06", "remaining_time": "7:22:17"}
-{"current_steps": 100, "total_steps": 620, "loss": 0.9408, "lr": 1.977201232274814e-05, "epoch": 1.592, "percentage": 16.13, "elapsed_time": "1:23:31", "remaining_time": "7:14:19"}
-{"current_steps": 110, "total_steps": 620, "loss": 0.9316, "lr": 1.963705643889941e-05, "epoch": 1.752, "percentage": 17.74, "elapsed_time": "1:31:56", "remaining_time": "7:06:15"}
-{"current_steps": 120, "total_steps": 620, "loss": 0.9286, "lr": 1.947156111793487e-05, "epoch": 1.912, "percentage": 19.35, "elapsed_time": "1:40:20", "remaining_time": "6:58:06"}
-{"current_steps": 130, "total_steps": 620, "loss": 0.8039, "lr": 1.9276050807747878e-05, "epoch": 2.064, "percentage": 20.97, "elapsed_time": "1:48:19", "remaining_time": "6:48:19"}
-{"current_steps": 140, "total_steps": 620, "loss": 0.7758, "lr": 1.9051145072503216e-05, "epoch": 2.224, "percentage": 22.58, "elapsed_time": "1:56:44", "remaining_time": "6:40:14"}
-{"current_steps": 150, "total_steps": 620, "loss": 0.7719, "lr": 1.8797556629263603e-05, "epoch": 2.384, "percentage": 24.19, "elapsed_time": "2:05:09", "remaining_time": "6:32:10"}
-{"current_steps": 160, "total_steps": 620, "loss": 0.7735, "lr": 1.851608908941855e-05, "epoch": 2.544, "percentage": 25.81, "elapsed_time": "2:13:34", "remaining_time": "6:24:01"}
-{"current_steps": 170, "total_steps": 620, "loss": 0.7807, "lr": 1.8207634412072765e-05, "epoch": 2.7039999999999997, "percentage": 27.42, "elapsed_time": "2:21:59", "remaining_time": "6:15:51"}
-{"current_steps": 180, "total_steps": 620, "loss": 0.7859, "lr": 1.7873170077464285e-05, "epoch": 2.864, "percentage": 29.03, "elapsed_time": "2:30:23", "remaining_time": "6:07:38"}
-{"current_steps": 190, "total_steps": 620, "loss": 0.6971, "lr": 1.7513755989369636e-05, "epoch": 3.016, "percentage": 30.65, "elapsed_time": "2:38:23", "remaining_time": "5:58:28"}
-{"current_steps": 200, "total_steps": 620, "loss": 0.619, "lr": 1.7130531116312202e-05, "epoch": 3.176, "percentage": 32.26, "elapsed_time": "2:46:48", "remaining_time": "5:50:17"}
-{"current_steps": 210, "total_steps": 620, "loss": 0.5998, "lr": 1.6724709882217606e-05, "epoch": 3.336, "percentage": 33.87, "elapsed_time": "2:55:13", "remaining_time": "5:42:05"}
-{"current_steps": 220, "total_steps": 620, "loss": 0.6066, "lr": 1.6297578317954025e-05, "epoch": 3.496, "percentage": 35.48, "elapsed_time": "3:03:37", "remaining_time": "5:33:52"}
-{"current_steps": 230, "total_steps": 620, "loss": 0.6351, "lr": 1.5850489985953076e-05, "epoch": 3.656, "percentage": 37.1, "elapsed_time": "3:12:02", "remaining_time": "5:25:37"}
-{"current_steps": 240, "total_steps": 620, "loss": 0.6003, "lr": 1.538486169082589e-05, "epoch": 3.816, "percentage": 38.71, "elapsed_time": "3:20:27", "remaining_time": "5:17:23"}
-{"current_steps": 250, "total_steps": 620, "loss": 0.6382, "lr": 1.4902168989567335e-05, "epoch": 3.976, "percentage": 40.32, "elapsed_time": "3:28:51", "remaining_time": "5:09:06"}
-{"current_steps": 260, "total_steps": 620, "loss": 0.4597, "lr": 1.4403941515576344e-05, "epoch": 4.128, "percentage": 41.94, "elapsed_time": "3:36:50", "remaining_time": "5:00:15"}
-{"current_steps": 270, "total_steps": 620, "loss": 0.444, "lr": 1.3891758131310329e-05, "epoch": 4.288, "percentage": 43.55, "elapsed_time": "3:45:14", "remaining_time": "4:51:59"}
-{"current_steps": 280, "total_steps": 620, "loss": 0.4541, "lr": 1.3367241924934715e-05, "epoch": 4.448, "percentage": 45.16, "elapsed_time": "3:53:39", "remaining_time": "4:43:43"}
-{"current_steps": 290, "total_steps": 620, "loss": 0.4532, "lr": 1.283205506682304e-05, "epoch": 4.608, "percentage": 46.77, "elapsed_time": "4:02:04", "remaining_time": "4:35:27"}
-{"current_steps": 300, "total_steps": 620, "loss": 0.4454, "lr": 1.2287893542207122e-05, "epoch": 4.768, "percentage": 48.39, "elapsed_time": "4:10:29", "remaining_time": "4:27:11"}
-{"current_steps": 310, "total_steps": 620, "loss": 0.4547, "lr": 1.1736481776669307e-05, "epoch": 4.928, "percentage": 50.0, "elapsed_time": "4:18:54", "remaining_time": "4:18:54"}
-{"current_steps": 320, "total_steps": 620, "loss": 0.3733, "lr": 1.1179567171508463e-05, "epoch": 5.08, "percentage": 51.61, "elapsed_time": "4:26:54", "remaining_time": "4:10:13"}
-{"current_steps": 330, "total_steps": 620, "loss": 0.2988, "lr": 1.061891456629682e-05, "epoch": 5.24, "percentage": 53.23, "elapsed_time": "4:35:19", "remaining_time": "4:01:56"}
-{"current_steps": 340, "total_steps": 620, "loss": 0.3001, "lr": 1.0056300646175661e-05, "epoch": 5.4, "percentage": 54.84, "elapsed_time": "4:43:44", "remaining_time": "3:53:40"}
-{"current_steps": 350, "total_steps": 620, "loss": 0.2894, "lr": 9.493508311612874e-06, "epoch": 5.5600000000000005, "percentage": 56.45, "elapsed_time": "4:52:09", "remaining_time": "3:45:22"}
-{"current_steps": 360, "total_steps": 620, "loss": 0.2931, "lr": 8.932321028464412e-06, "epoch": 5.72, "percentage": 58.06, "elapsed_time": "5:00:34", "remaining_time": "3:37:04"}
-{"current_steps": 370, "total_steps": 620, "loss": 0.3003, "lr": 8.374517176244038e-06, "epoch": 5.88, "percentage": 59.68, "elapsed_time": "5:08:59", "remaining_time": "3:28:46"}
-{"current_steps": 380, "total_steps": 620, "loss": 0.2594, "lr": 7.821864412511485e-06, "epoch": 6.032, "percentage": 61.29, "elapsed_time": "5:16:58", "remaining_time": "3:20:11"}
-{"current_steps": 390, "total_steps": 620, "loss": 0.1877, "lr": 7.276114071238069e-06, "epoch": 6.192, "percentage": 62.9, "elapsed_time": "5:25:23", "remaining_time": "3:11:54"}
-{"current_steps": 400, "total_steps": 620, "loss": 0.1846, "lr": 6.7389956129010516e-06, "epoch": 6.352, "percentage": 64.52, "elapsed_time": "5:33:48", "remaining_time": "3:03:35"}
-{"current_steps": 410, "total_steps": 620, "loss": 0.1728, "lr": 6.21221114389424e-06, "epoch": 6.5120000000000005, "percentage": 66.13, "elapsed_time": "5:42:13", "remaining_time": "2:55:16"}
-{"current_steps": 420, "total_steps": 620, "loss": 0.1726, "lr": 5.697430022622542e-06, "epoch": 6.672, "percentage": 67.74, "elapsed_time": "5:50:38", "remaining_time": "2:46:58"}
-{"current_steps": 430, "total_steps": 620, "loss": 0.1707, "lr": 5.1962835693735506e-06, "epoch": 6.832, "percentage": 69.35, "elapsed_time": "5:59:03", "remaining_time": "2:38:39"}
-{"current_steps": 440, "total_steps": 620, "loss": 0.1764, "lr": 4.710359896730379e-06, "epoch": 6.992, "percentage": 70.97, "elapsed_time": "6:07:29", "remaining_time": "2:30:20"}
-{"current_steps": 450, "total_steps": 620, "loss": 0.0992, "lr": 4.241198876907936e-06, "epoch": 7.144, "percentage": 72.58, "elapsed_time": "6:15:30", "remaining_time": "2:21:51"}
-{"current_steps": 460, "total_steps": 620, "loss": 0.0986, "lr": 3.790287261960953e-06, "epoch": 7.304, "percentage": 74.19, "elapsed_time": "6:23:54", "remaining_time": "2:13:32"}
-{"current_steps": 470, "total_steps": 620, "loss": 0.1039, "lr": 3.3590539723276083e-06, "epoch": 7.464, "percentage": 75.81, "elapsed_time": "6:32:19", "remaining_time": "2:05:12"}
-{"current_steps": 480, "total_steps": 620, "loss": 0.1062, "lr": 2.9488655686392086e-06, "epoch": 7.624, "percentage": 77.42, "elapsed_time": "6:40:43", "remaining_time": "1:56:52"}
-{"current_steps": 490, "total_steps": 620, "loss": 0.1029, "lr": 2.56102192114549e-06, "epoch": 7.784, "percentage": 79.03, "elapsed_time": "6:49:08", "remaining_time": "1:48:32"}
-{"current_steps": 500, "total_steps": 620, "loss": 0.0997, "lr": 2.196752090479083e-06, "epoch": 7.944, "percentage": 80.65, "elapsed_time": "6:57:34", "remaining_time": "1:40:12"}
-{"current_steps": 510, "total_steps": 620, "loss": 0.0687, "lr": 1.8572104328126738e-06, "epoch": 8.096, "percentage": 82.26, "elapsed_time": "7:05:34", "remaining_time": "1:31:47"}
-{"current_steps": 520, "total_steps": 620, "loss": 0.0625, "lr": 1.5434729417516049e-06, "epoch": 8.256, "percentage": 83.87, "elapsed_time": "7:13:59", "remaining_time": "1:23:27"}
-{"current_steps": 530, "total_steps": 620, "loss": 0.0647, "lr": 1.2565338385541792e-06, "epoch": 8.416, "percentage": 85.48, "elapsed_time": "7:22:24", "remaining_time": "1:15:07"}
-{"current_steps": 540, "total_steps": 620, "loss": 0.0659, "lr": 9.973024214852567e-07, "epoch": 8.576, "percentage": 87.1, "elapsed_time": "7:30:49", "remaining_time": "1:06:47"}
-{"current_steps": 550, "total_steps": 620, "loss": 0.0648, "lr": 7.666001842872639e-07, "epoch": 8.736, "percentage": 88.71, "elapsed_time": "7:39:14", "remaining_time": "0:58:26"}
-{"current_steps": 560, "total_steps": 620, "loss": 0.0628, "lr": 5.651582129001987e-07, "epoch": 8.896, "percentage": 90.32, "elapsed_time": "7:47:38", "remaining_time": "0:50:06"}
-{"current_steps": 570, "total_steps": 620, "loss": 0.0579, "lr": 3.936148686802077e-07, "epoch": 9.048, "percentage": 91.94, "elapsed_time": "7:55:37", "remaining_time": "0:41:43"}
-{"current_steps": 580, "total_steps": 620, "loss": 0.0508, "lr": 2.525137654586185e-07, "epoch": 9.208, "percentage": 93.55, "elapsed_time": "8:04:02", "remaining_time": "0:33:22"}
-{"current_steps": 590, "total_steps": 620, "loss": 0.0516, "lr": 1.4230204685196202e-07, "epoch": 9.368, "percentage": 95.16, "elapsed_time": "8:12:27", "remaining_time": "0:25:02"}
-{"current_steps": 600, "total_steps": 620, "loss": 0.0517, "lr": 6.332896928217258e-08, "epoch": 9.528, "percentage": 96.77, "elapsed_time": "8:20:51", "remaining_time": "0:16:41"}
-{"current_steps": 610, "total_steps": 620, "loss": 0.0518, "lr": 1.5844795197285102e-08, "epoch": 9.688, "percentage": 98.39, "elapsed_time": "8:29:16", "remaining_time": "0:08:20"}
-{"current_steps": 620, "total_steps": 620, "loss": 0.0527, "lr": 0.0, "epoch": 9.848, "percentage": 100.0, "elapsed_time": "8:37:41", "remaining_time": "0:00:00"}
-{"current_steps": 620, "total_steps": 620, "epoch": 9.848, "percentage": 100.0, "elapsed_time": "8:37:43", "remaining_time": "0:00:00"}

+{"current_steps": 10, "total_steps": 1110, "loss": 8.7467, "lr": 1.4414414414414416e-06, "epoch": 0.08982035928143713, "percentage": 0.9, "elapsed_time": "0:05:21", "remaining_time": "9:49:28"}
+{"current_steps": 20, "total_steps": 1110, "loss": 5.5972, "lr": 3.063063063063063e-06, "epoch": 0.17964071856287425, "percentage": 1.8, "elapsed_time": "0:10:43", "remaining_time": "9:44:22"}
+{"current_steps": 30, "total_steps": 1110, "loss": 4.1239, "lr": 4.864864864864866e-06, "epoch": 0.2694610778443114, "percentage": 2.7, "elapsed_time": "0:16:05", "remaining_time": "9:39:28"}
+{"current_steps": 40, "total_steps": 1110, "loss": 3.3473, "lr": 6.666666666666667e-06, "epoch": 0.3592814371257485, "percentage": 3.6, "elapsed_time": "0:21:27", "remaining_time": "9:33:51"}
+{"current_steps": 50, "total_steps": 1110, "loss": 2.843, "lr": 8.46846846846847e-06, "epoch": 0.4491017964071856, "percentage": 4.5, "elapsed_time": "0:26:59", "remaining_time": "9:32:13"}
+{"current_steps": 60, "total_steps": 1110, "loss": 2.5158, "lr": 1.027027027027027e-05, "epoch": 0.5389221556886228, "percentage": 5.41, "elapsed_time": "0:32:31", "remaining_time": "9:29:16"}
+{"current_steps": 70, "total_steps": 1110, "loss": 2.1371, "lr": 1.2072072072072074e-05, "epoch": 0.6287425149700598, "percentage": 6.31, "elapsed_time": "0:38:05", "remaining_time": "9:25:54"}
+{"current_steps": 80, "total_steps": 1110, "loss": 1.9438, "lr": 1.3873873873873875e-05, "epoch": 0.718562874251497, "percentage": 7.21, "elapsed_time": "0:43:28", "remaining_time": "9:19:39"}
+{"current_steps": 90, "total_steps": 1110, "loss": 1.7556, "lr": 1.5675675675675676e-05, "epoch": 0.8083832335329342, "percentage": 8.11, "elapsed_time": "0:48:58", "remaining_time": "9:15:03"}
+{"current_steps": 100, "total_steps": 1110, "loss": 1.6005, "lr": 1.7477477477477477e-05, "epoch": 0.8982035928143712, "percentage": 9.01, "elapsed_time": "0:54:33", "remaining_time": "9:10:58"}
+{"current_steps": 110, "total_steps": 1110, "loss": 1.5588, "lr": 1.927927927927928e-05, "epoch": 0.9880239520958084, "percentage": 9.91, "elapsed_time": "1:00:04", "remaining_time": "9:06:07"}
+{"current_steps": 120, "total_steps": 1110, "loss": 1.4294, "lr": 1.9998219965624736e-05, "epoch": 1.0718562874251496, "percentage": 10.81, "elapsed_time": "1:05:02", "remaining_time": "8:56:37"}
+{"current_steps": 130, "total_steps": 1110, "loss": 1.4837, "lr": 1.9987344272588007e-05, "epoch": 1.1616766467065869, "percentage": 11.71, "elapsed_time": "1:10:21", "remaining_time": "8:50:20"}
+{"current_steps": 140, "total_steps": 1110, "loss": 1.453, "lr": 1.9966592535953532e-05, "epoch": 1.251497005988024, "percentage": 12.61, "elapsed_time": "1:15:58", "remaining_time": "8:46:21"}
+{"current_steps": 150, "total_steps": 1110, "loss": 1.3837, "lr": 1.9935985276197033e-05, "epoch": 1.341317365269461, "percentage": 13.51, "elapsed_time": "1:21:15", "remaining_time": "8:40:05"}
+{"current_steps": 160, "total_steps": 1110, "loss": 1.3152, "lr": 1.989555275948572e-05, "epoch": 1.4311377245508983, "percentage": 14.41, "elapsed_time": "1:26:37", "remaining_time": "8:34:21"}
+{"current_steps": 170, "total_steps": 1110, "loss": 1.1961, "lr": 1.984533496774942e-05, "epoch": 1.5209580838323353, "percentage": 15.32, "elapsed_time": "1:32:01", "remaining_time": "8:28:48"}
+{"current_steps": 180, "total_steps": 1110, "loss": 1.1209, "lr": 1.9785381559144196e-05, "epoch": 1.6107784431137726, "percentage": 16.22, "elapsed_time": "1:37:36", "remaining_time": "8:24:20"}
+{"current_steps": 190, "total_steps": 1110, "loss": 1.1056, "lr": 1.9715751818947603e-05, "epoch": 1.7005988023952097, "percentage": 17.12, "elapsed_time": "1:43:03", "remaining_time": "8:18:59"}
+{"current_steps": 200, "total_steps": 1110, "loss": 1.0827, "lr": 1.963651460093409e-05, "epoch": 1.7904191616766467, "percentage": 18.02, "elapsed_time": "1:48:38", "remaining_time": "8:14:17"}
+{"current_steps": 210, "total_steps": 1110, "loss": 1.0787, "lr": 1.9547748259288536e-05, "epoch": 1.8802395209580838, "percentage": 18.92, "elapsed_time": "1:54:01", "remaining_time": "8:08:41"}
+{"current_steps": 220, "total_steps": 1110, "loss": 1.0597, "lr": 1.9449540571125284e-05, "epoch": 1.9700598802395208, "percentage": 19.82, "elapsed_time": "1:59:33", "remaining_time": "8:03:38"}
+{"current_steps": 230, "total_steps": 1110, "loss": 0.9906, "lr": 1.93419886496892e-05, "epoch": 2.053892215568862, "percentage": 20.72, "elapsed_time": "2:04:35", "remaining_time": "7:56:41"}
+{"current_steps": 240, "total_steps": 1110, "loss": 1.05, "lr": 1.9225198848324687e-05, "epoch": 2.143712574850299, "percentage": 21.62, "elapsed_time": "2:09:59", "remaining_time": "7:51:13"}
+{"current_steps": 250, "total_steps": 1110, "loss": 1.043, "lr": 1.909928665530757e-05, "epoch": 2.2335329341317367, "percentage": 22.52, "elapsed_time": "2:15:28", "remaining_time": "7:46:01"}
+{"current_steps": 260, "total_steps": 1110, "loss": 1.0463, "lr": 1.896437657964382e-05, "epoch": 2.3233532934131738, "percentage": 23.42, "elapsed_time": "2:21:00", "remaining_time": "7:40:57"}
+{"current_steps": 270, "total_steps": 1110, "loss": 1.0418, "lr": 1.8820602027948112e-05, "epoch": 2.413173652694611, "percentage": 24.32, "elapsed_time": "2:26:20", "remaining_time": "7:35:15"}
+{"current_steps": 280, "total_steps": 1110, "loss": 1.038, "lr": 1.866810517252393e-05, "epoch": 2.502994011976048, "percentage": 25.23, "elapsed_time": "2:31:52", "remaining_time": "7:30:11"}
+{"current_steps": 290, "total_steps": 1110, "loss": 1.0338, "lr": 1.8507036810775617e-05, "epoch": 2.592814371257485, "percentage": 26.13, "elapsed_time": "2:37:03", "remaining_time": "7:24:05"}
+{"current_steps": 300, "total_steps": 1110, "loss": 1.0231, "lr": 1.833755621609152e-05, "epoch": 2.682634730538922, "percentage": 27.03, "elapsed_time": "2:42:38", "remaining_time": "7:19:07"}
+{"current_steps": 310, "total_steps": 1110, "loss": 1.0218, "lr": 1.815983098034555e-05, "epoch": 2.772455089820359, "percentage": 27.93, "elapsed_time": "2:48:15", "remaining_time": "7:14:12"}
+{"current_steps": 320, "total_steps": 1110, "loss": 1.0229, "lr": 1.7974036848172992e-05, "epoch": 2.8622754491017965, "percentage": 28.83, "elapsed_time": "2:53:46", "remaining_time": "7:09:01"}
+{"current_steps": 330, "total_steps": 1110, "loss": 1.0199, "lr": 1.7780357543184396e-05, "epoch": 2.9520958083832336, "percentage": 29.73, "elapsed_time": "2:59:07", "remaining_time": "7:03:22"}
+{"current_steps": 340, "total_steps": 1110, "loss": 0.9551, "lr": 1.757898458628941e-05, "epoch": 3.035928143712575, "percentage": 30.63, "elapsed_time": "3:04:15", "remaining_time": "6:57:18"}
+{"current_steps": 350, "total_steps": 1110, "loss": 1.0078, "lr": 1.7370117106310216e-05, "epoch": 3.125748502994012, "percentage": 31.53, "elapsed_time": "3:09:55", "remaining_time": "6:52:23"}
+{"current_steps": 360, "total_steps": 1110, "loss": 1.0026, "lr": 1.715396164307182e-05, "epoch": 3.215568862275449, "percentage": 32.43, "elapsed_time": "3:15:22", "remaining_time": "6:47:02"}
+{"current_steps": 370, "total_steps": 1110, "loss": 1.0082, "lr": 1.6930731943163975e-05, "epoch": 3.305389221556886, "percentage": 33.33, "elapsed_time": "3:20:42", "remaining_time": "6:41:24"}
+{"current_steps": 380, "total_steps": 1110, "loss": 1.0025, "lr": 1.6700648748576577e-05, "epoch": 3.3952095808383236, "percentage": 34.23, "elapsed_time": "3:26:10", "remaining_time": "6:36:03"}
+{"current_steps": 390, "total_steps": 1110, "loss": 0.9943, "lr": 1.6463939578417695e-05, "epoch": 3.4850299401197606, "percentage": 35.14, "elapsed_time": "3:31:43", "remaining_time": "6:30:51"}
+{"current_steps": 400, "total_steps": 1110, "loss": 1.0014, "lr": 1.622083850392996e-05, "epoch": 3.5748502994011977, "percentage": 36.04, "elapsed_time": "3:37:09", "remaining_time": "6:25:27"}
+{"current_steps": 410, "total_steps": 1110, "loss": 0.9961, "lr": 1.5971585917027864e-05, "epoch": 3.6646706586826348, "percentage": 36.94, "elapsed_time": "3:42:26", "remaining_time": "6:19:46"}
+{"current_steps": 420, "total_steps": 1110, "loss": 0.992, "lr": 1.5716428292584788e-05, "epoch": 3.754491017964072, "percentage": 37.84, "elapsed_time": "3:47:57", "remaining_time": "6:14:29"}
+{"current_steps": 430, "total_steps": 1110, "loss": 0.9861, "lr": 1.545561794470492e-05, "epoch": 3.844311377245509, "percentage": 38.74, "elapsed_time": "3:53:26", "remaining_time": "6:09:09"}
+{"current_steps": 440, "total_steps": 1110, "loss": 0.9881, "lr": 1.518941277722096e-05, "epoch": 3.934131736526946, "percentage": 39.64, "elapsed_time": "3:58:47", "remaining_time": "6:03:36"}
+{"current_steps": 450, "total_steps": 1110, "loss": 0.9172, "lr": 1.491807602866442e-05, "epoch": 4.017964071856287, "percentage": 40.54, "elapsed_time": "4:04:05", "remaining_time": "5:58:00"}
+{"current_steps": 460, "total_steps": 1110, "loss": 0.9798, "lr": 1.4641876011960661e-05, "epoch": 4.107784431137724, "percentage": 41.44, "elapsed_time": "4:09:33", "remaining_time": "5:52:37"}
+{"current_steps": 470, "total_steps": 1110, "loss": 0.9799, "lr": 1.436108584910611e-05, "epoch": 4.197604790419161, "percentage": 42.34, "elapsed_time": "4:15:02", "remaining_time": "5:47:17"}
+{"current_steps": 480, "total_steps": 1110, "loss": 0.9654, "lr": 1.4075983201089964e-05, "epoch": 4.287425149700598, "percentage": 43.24, "elapsed_time": "4:20:30", "remaining_time": "5:41:54"}
+{"current_steps": 490, "total_steps": 1110, "loss": 0.9631, "lr": 1.3786849993327503e-05, "epoch": 4.3772455089820355, "percentage": 44.14, "elapsed_time": "4:25:53", "remaining_time": "5:36:25"}
+{"current_steps": 500, "total_steps": 1110, "loss": 0.9729, "lr": 1.349397213687651e-05, "epoch": 4.467065868263473, "percentage": 45.05, "elapsed_time": "4:31:19", "remaining_time": "5:31:00"}
+{"current_steps": 510, "total_steps": 1110, "loss": 0.963, "lr": 1.3197639245712454e-05, "epoch": 4.5568862275449105, "percentage": 45.95, "elapsed_time": "4:36:45", "remaining_time": "5:25:35"}
+{"current_steps": 520, "total_steps": 1110, "loss": 0.9538, "lr": 1.2898144350342015e-05, "epoch": 4.6467065868263475, "percentage": 46.85, "elapsed_time": "4:42:06", "remaining_time": "5:20:05"}
+{"current_steps": 530, "total_steps": 1110, "loss": 0.9623, "lr": 1.2595783608038157e-05, "epoch": 4.736526946107785, "percentage": 47.75, "elapsed_time": "4:47:29", "remaining_time": "5:14:36"}
+{"current_steps": 540, "total_steps": 1110, "loss": 0.9557, "lr": 1.22908560099833e-05, "epoch": 4.826347305389222, "percentage": 48.65, "elapsed_time": "4:53:08", "remaining_time": "5:09:25"}
+{"current_steps": 550, "total_steps": 1110, "loss": 0.9419, "lr": 1.198366308561013e-05, "epoch": 4.916167664670659, "percentage": 49.55, "elapsed_time": "4:58:36", "remaining_time": "5:04:02"}
+{"current_steps": 560, "total_steps": 1110, "loss": 0.8782, "lr": 1.1674508604432464e-05, "epoch": 5.0, "percentage": 50.45, "elapsed_time": "5:03:45", "remaining_time": "4:58:20"}
+{"current_steps": 570, "total_steps": 1110, "loss": 0.9256, "lr": 1.1363698275661002e-05, "epoch": 5.089820359281437, "percentage": 51.35, "elapsed_time": "5:09:07", "remaining_time": "4:52:51"}
+{"current_steps": 580, "total_steps": 1110, "loss": 0.9282, "lr": 1.1051539445900982e-05, "epoch": 5.179640718562874, "percentage": 52.25, "elapsed_time": "5:14:23", "remaining_time": "4:47:16"}
+{"current_steps": 590, "total_steps": 1110, "loss": 0.9316, "lr": 1.0738340795230722e-05, "epoch": 5.269461077844311, "percentage": 53.15, "elapsed_time": "5:19:52", "remaining_time": "4:41:55"}
+{"current_steps": 600, "total_steps": 1110, "loss": 0.9381, "lr": 1.0424412031961485e-05, "epoch": 5.359281437125748, "percentage": 54.05, "elapsed_time": "5:25:13", "remaining_time": "4:36:26"}
+{"current_steps": 610, "total_steps": 1110, "loss": 0.9288, "lr": 1.0110063586380647e-05, "epoch": 5.449101796407185, "percentage": 54.95, "elapsed_time": "5:30:36", "remaining_time": "4:30:59"}
+{"current_steps": 620, "total_steps": 1110, "loss": 0.9272, "lr": 9.795606303780885e-06, "epoch": 5.538922155688622, "percentage": 55.86, "elapsed_time": "5:36:05", "remaining_time": "4:25:37"}
+{"current_steps": 630, "total_steps": 1110, "loss": 0.9318, "lr": 9.48135113707899e-06, "epoch": 5.62874251497006, "percentage": 56.76, "elapsed_time": "5:41:33", "remaining_time": "4:20:13"}
+{"current_steps": 640, "total_steps": 1110, "loss": 0.9297, "lr": 9.167608839328273e-06, "epoch": 5.718562874251497, "percentage": 57.66, "elapsed_time": "5:46:56", "remaining_time": "4:14:47"}
+{"current_steps": 650, "total_steps": 1110, "loss": 0.9119, "lr": 8.854689656428591e-06, "epoch": 5.808383233532934, "percentage": 58.56, "elapsed_time": "5:52:32", "remaining_time": "4:09:29"}
+{"current_steps": 660, "total_steps": 1110, "loss": 0.919, "lr": 8.542903020337887e-06, "epoch": 5.8982035928143715, "percentage": 59.46, "elapsed_time": "5:58:04", "remaining_time": "4:04:08"}
+{"current_steps": 670, "total_steps": 1110, "loss": 0.9136, "lr": 8.232557243088585e-06, "epoch": 5.9880239520958085, "percentage": 60.36, "elapsed_time": "6:03:39", "remaining_time": "3:58:49"}
+{"current_steps": 680, "total_steps": 1110, "loss": 0.8452, "lr": 7.923959211911448e-06, "epoch": 6.07185628742515, "percentage": 61.26, "elapsed_time": "6:08:49", "remaining_time": "3:53:13"}
+{"current_steps": 690, "total_steps": 1110, "loss": 0.9, "lr": 7.617414085768352e-06, "epoch": 6.161676646706587, "percentage": 62.16, "elapsed_time": "6:14:10", "remaining_time": "3:47:45"}
+{"current_steps": 700, "total_steps": 1110, "loss": 0.8946, "lr": 7.313224993594057e-06, "epoch": 6.251497005988024, "percentage": 63.06, "elapsed_time": "6:19:44", "remaining_time": "3:42:25"}
+{"current_steps": 710, "total_steps": 1110, "loss": 0.8994, "lr": 7.011692734545403e-06, "epoch": 6.341317365269461, "percentage": 63.96, "elapsed_time": "6:25:17", "remaining_time": "3:37:04"}
+{"current_steps": 720, "total_steps": 1110, "loss": 0.894, "lr": 6.713115480554313e-06, "epoch": 6.431137724550898, "percentage": 64.86, "elapsed_time": "6:30:52", "remaining_time": "3:31:43"}
+{"current_steps": 730, "total_steps": 1110, "loss": 0.8982, "lr": 6.4177884814787284e-06, "epoch": 6.520958083832335, "percentage": 65.77, "elapsed_time": "6:36:26", "remaining_time": "3:26:21"}
+{"current_steps": 740, "total_steps": 1110, "loss": 0.8985, "lr": 6.126003773143072e-06, "epoch": 6.610778443113772, "percentage": 66.67, "elapsed_time": "6:41:43", "remaining_time": "3:20:51"}
+{"current_steps": 750, "total_steps": 1110, "loss": 0.8923, "lr": 5.8380498885569246e-06, "epoch": 6.700598802395209, "percentage": 67.57, "elapsed_time": "6:47:06", "remaining_time": "3:15:24"}
+{"current_steps": 760, "total_steps": 1110, "loss": 0.8989, "lr": 5.554211572597477e-06, "epoch": 6.790419161676647, "percentage": 68.47, "elapsed_time": "6:52:22", "remaining_time": "3:09:54"}
+{"current_steps": 770, "total_steps": 1110, "loss": 0.8956, "lr": 5.274769500437882e-06, "epoch": 6.880239520958084, "percentage": 69.37, "elapsed_time": "6:57:43", "remaining_time": "3:04:27"}
+{"current_steps": 780, "total_steps": 1110, "loss": 0.8906, "lr": 5.000000000000003e-06, "epoch": 6.970059880239521, "percentage": 70.27, "elapsed_time": "7:03:12", "remaining_time": "2:59:03"}
+{"current_steps": 790, "total_steps": 1110, "loss": 0.8249, "lr": 4.730174778705909e-06, "epoch": 7.053892215568863, "percentage": 71.17, "elapsed_time": "7:08:26", "remaining_time": "2:53:32"}
+{"current_steps": 800, "total_steps": 1110, "loss": 0.8777, "lr": 4.4655606547984165e-06, "epoch": 7.1437125748503, "percentage": 72.07, "elapsed_time": "7:14:01", "remaining_time": "2:48:11"}
+{"current_steps": 810, "total_steps": 1110, "loss": 0.8832, "lr": 4.206419293496333e-06, "epoch": 7.233532934131737, "percentage": 72.97, "elapsed_time": "7:19:35", "remaining_time": "2:42:48"}
+{"current_steps": 820, "total_steps": 1110, "loss": 0.872, "lr": 3.953006948245247e-06, "epoch": 7.323353293413174, "percentage": 73.87, "elapsed_time": "7:25:09", "remaining_time": "2:37:26"}
+{"current_steps": 830, "total_steps": 1110, "loss": 0.8807, "lr": 3.705574207319844e-06, "epoch": 7.413173652694611, "percentage": 74.77, "elapsed_time": "7:30:36", "remaining_time": "2:32:00"}
+{"current_steps": 840, "total_steps": 1110, "loss": 0.8793, "lr": 3.4643657460282078e-06, "epoch": 7.502994011976048, "percentage": 75.68, "elapsed_time": "7:36:05", "remaining_time": "2:26:36"}
+{"current_steps": 850, "total_steps": 1110, "loss": 0.8751, "lr": 3.2296200847632376e-06, "epoch": 7.592814371257485, "percentage": 76.58, "elapsed_time": "7:41:33", "remaining_time": "2:21:10"}
+{"current_steps": 860, "total_steps": 1110, "loss": 0.8772, "lr": 3.001569353140347e-06, "epoch": 7.682634730538922, "percentage": 77.48, "elapsed_time": "7:46:57", "remaining_time": "2:15:44"}
+{"current_steps": 870, "total_steps": 1110, "loss": 0.8721, "lr": 2.780439060454756e-06, "epoch": 7.772455089820359, "percentage": 78.38, "elapsed_time": "7:52:28", "remaining_time": "2:10:20"}
+{"current_steps": 880, "total_steps": 1110, "loss": 0.8734, "lr": 2.566447872685298e-06, "epoch": 7.862275449101796, "percentage": 79.28, "elapsed_time": "7:57:53", "remaining_time": "2:04:54"}
+{"current_steps": 890, "total_steps": 1110, "loss": 0.8779, "lr": 2.359807396265307e-06, "epoch": 7.952095808383233, "percentage": 80.18, "elapsed_time": "8:03:12", "remaining_time": "1:59:26"}
+{"current_steps": 900, "total_steps": 1110, "loss": 0.8174, "lr": 2.160721968834344e-06, "epoch": 8.035928143712574, "percentage": 81.08, "elapsed_time": "8:08:12", "remaining_time": "1:53:54"}
+{"current_steps": 910, "total_steps": 1110, "loss": 0.863, "lr": 1.969388457177743e-06, "epoch": 8.125748502994012, "percentage": 81.98, "elapsed_time": "8:13:41", "remaining_time": "1:48:30"}
+{"current_steps": 920, "total_steps": 1110, "loss": 0.8677, "lr": 1.7859960625537476e-06, "epoch": 8.215568862275449, "percentage": 82.88, "elapsed_time": "8:19:09", "remaining_time": "1:43:05"}
+{"current_steps": 930, "total_steps": 1110, "loss": 0.853, "lr": 1.6107261336007284e-06, "epoch": 8.305389221556887, "percentage": 83.78, "elapsed_time": "8:24:38", "remaining_time": "1:37:40"}
+{"current_steps": 940, "total_steps": 1110, "loss": 0.8569, "lr": 1.443751987009533e-06, "epoch": 8.395209580838323, "percentage": 84.68, "elapsed_time": "8:30:11", "remaining_time": "1:32:16"}
+{"current_steps": 950, "total_steps": 1110, "loss": 0.8608, "lr": 1.2852387361382768e-06, "epoch": 8.48502994011976, "percentage": 85.59, "elapsed_time": "8:35:49", "remaining_time": "1:26:52"}
+{"current_steps": 960, "total_steps": 1110, "loss": 0.8723, "lr": 1.1353431277390125e-06, "epoch": 8.574850299401197, "percentage": 86.49, "elapsed_time": "8:41:12", "remaining_time": "1:21:26"}
+{"current_steps": 970, "total_steps": 1110, "loss": 0.8538, "lr": 9.942133869578164e-07, "epoch": 8.664670658682635, "percentage": 87.39, "elapsed_time": "8:46:27", "remaining_time": "1:15:59"}
+{"current_steps": 980, "total_steps": 1110, "loss": 0.8552, "lr": 8.619890707614687e-07, "epoch": 8.754491017964071, "percentage": 88.29, "elapsed_time": "8:51:52", "remaining_time": "1:10:33"}
+{"current_steps": 990, "total_steps": 1110, "loss": 0.8658, "lr": 7.388009299357412e-07, "epoch": 8.844311377245509, "percentage": 89.19, "elapsed_time": "8:57:17", "remaining_time": "1:05:07"}
+{"current_steps": 1000, "total_steps": 1110, "loss": 0.8522, "lr": 6.247707797917257e-07, "epoch": 8.934131736526947, "percentage": 90.09, "elapsed_time": "9:02:46", "remaining_time": "0:59:42"}
+{"current_steps": 1010, "total_steps": 1110, "loss": 0.7919, "lr": 5.200113797080464e-07, "epoch": 9.017964071856287, "percentage": 90.99, "elapsed_time": "9:07:51", "remaining_time": "0:54:14"}
+{"current_steps": 1020, "total_steps": 1110, "loss": 0.857, "lr": 4.2462632162809103e-07, "epoch": 9.107784431137725, "percentage": 91.89, "elapsed_time": "9:13:04", "remaining_time": "0:48:48"}
+{"current_steps": 1030, "total_steps": 1110, "loss": 0.8503, "lr": 3.387099276225214e-07, "epoch": 9.197604790419161, "percentage": 92.79, "elapsed_time": "9:18:37", "remaining_time": "0:43:23"}
+{"current_steps": 1040, "total_steps": 1110, "loss": 0.8465, "lr": 2.623471566183322e-07, "epoch": 9.2874251497006, "percentage": 93.69, "elapsed_time": "9:24:00", "remaining_time": "0:37:57"}
+{"current_steps": 1050, "total_steps": 1110, "loss": 0.8576, "lr": 1.9561352038673264e-07, "epoch": 9.377245508982035, "percentage": 94.59, "elapsed_time": "9:29:31", "remaining_time": "0:32:32"}
+{"current_steps": 1060, "total_steps": 1110, "loss": 0.8544, "lr": 1.3857500887288544e-07, "epoch": 9.467065868263473, "percentage": 95.5, "elapsed_time": "9:34:54", "remaining_time": "0:27:07"}
+{"current_steps": 1070, "total_steps": 1110, "loss": 0.8488, "lr": 9.12880249413628e-08, "epoch": 9.55688622754491, "percentage": 96.4, "elapsed_time": "9:40:24", "remaining_time": "0:21:41"}
+{"current_steps": 1080, "total_steps": 1110, "loss": 0.8512, "lr": 5.379932860185122e-08, "epoch": 9.646706586826348, "percentage": 97.3, "elapsed_time": "9:45:55", "remaining_time": "0:16:16"}
+{"current_steps": 1090, "total_steps": 1110, "loss": 0.8559, "lr": 2.6145990770238827e-08, "epoch": 9.736526946107784, "percentage": 98.2, "elapsed_time": "9:51:17", "remaining_time": "0:10:50"}
+{"current_steps": 1100, "total_steps": 1110, "loss": 0.8499, "lr": 8.355356610822984e-09, "epoch": 9.826347305389222, "percentage": 99.1, "elapsed_time": "9:56:50", "remaining_time": "0:05:25"}
+{"current_steps": 1110, "total_steps": 1110, "loss": 0.8618, "lr": 4.4501849589040357e-10, "epoch": 9.91616766467066, "percentage": 100.0, "elapsed_time": "10:02:18", "remaining_time": "0:00:00"}
+{"current_steps": 1110, "total_steps": 1110, "epoch": 9.91616766467066, "percentage": 100.0, "elapsed_time": "10:02:19", "remaining_time": "0:00:00"}

trainer_state.json CHANGED Viewed

@@ -2,462 +2,805 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.848,
   "eval_steps": 500,
-  "global_step": 620,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.16,
-      "grad_norm": 12.881609916687012,
-      "learning_rate": 3.225806451612903e-06,
-      "loss": 2.0828,
       "step": 10
     },
     {
-      "epoch": 0.32,
-      "grad_norm": 7.486210823059082,
-      "learning_rate": 6.451612903225806e-06,
-      "loss": 1.4787,
       "step": 20
     },
     {
-      "epoch": 0.48,
-      "grad_norm": 5.486098289489746,
-      "learning_rate": 9.67741935483871e-06,
-      "loss": 1.3156,
       "step": 30
     },
     {
-      "epoch": 0.64,
-      "grad_norm": 4.403397083282471,
-      "learning_rate": 1.2903225806451613e-05,
-      "loss": 1.1692,
       "step": 40
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 4.133569240570068,
-      "learning_rate": 1.6129032258064517e-05,
-      "loss": 1.1055,
       "step": 50
     },
     {
-      "epoch": 0.96,
-      "grad_norm": 3.2612862586975098,
-      "learning_rate": 1.935483870967742e-05,
-      "loss": 1.0751,
       "step": 60
     },
     {
-      "epoch": 1.112,
-      "grad_norm": 2.8362364768981934,
-      "learning_rate": 1.9989858366670475e-05,
-      "loss": 0.9454,
       "step": 70
     },
     {
-      "epoch": 1.272,
-      "grad_norm": 2.404646396636963,
-      "learning_rate": 1.994869323391895e-05,
-      "loss": 0.9386,
       "step": 80
     },
     {
-      "epoch": 1.432,
-      "grad_norm": 2.6535897254943848,
-      "learning_rate": 1.9876001099813018e-05,
-      "loss": 0.9624,
       "step": 90
     },
     {
-      "epoch": 1.592,
-      "grad_norm": 2.9908246994018555,
-      "learning_rate": 1.977201232274814e-05,
-      "loss": 0.9408,
       "step": 100
     },
     {
-      "epoch": 1.752,
-      "grad_norm": 2.08085298538208,
-      "learning_rate": 1.963705643889941e-05,
-      "loss": 0.9316,
       "step": 110
     },
     {
-      "epoch": 1.912,
-      "grad_norm": 2.0934102535247803,
-      "learning_rate": 1.947156111793487e-05,
-      "loss": 0.9286,
       "step": 120
     },
     {
-      "epoch": 2.064,
-      "grad_norm": 2.122586727142334,
-      "learning_rate": 1.9276050807747878e-05,
-      "loss": 0.8039,
       "step": 130
     },
     {
-      "epoch": 2.224,
-      "grad_norm": 2.289278268814087,
-      "learning_rate": 1.9051145072503216e-05,
-      "loss": 0.7758,
       "step": 140
     },
     {
-      "epoch": 2.384,
-      "grad_norm": 2.2588486671447754,
-      "learning_rate": 1.8797556629263603e-05,
-      "loss": 0.7719,
       "step": 150
     },
     {
-      "epoch": 2.544,
-      "grad_norm": 2.52738356590271,
-      "learning_rate": 1.851608908941855e-05,
-      "loss": 0.7735,
       "step": 160
     },
     {
-      "epoch": 2.7039999999999997,
-      "grad_norm": 2.1543173789978027,
-      "learning_rate": 1.8207634412072765e-05,
-      "loss": 0.7807,
       "step": 170
     },
     {
-      "epoch": 2.864,
-      "grad_norm": 2.3994810581207275,
-      "learning_rate": 1.7873170077464285e-05,
-      "loss": 0.7859,
       "step": 180
     },
     {
-      "epoch": 3.016,
-      "grad_norm": 2.4878721237182617,
-      "learning_rate": 1.7513755989369636e-05,
-      "loss": 0.6971,
       "step": 190
     },
     {
-      "epoch": 3.176,
-      "grad_norm": 2.379432439804077,
-      "learning_rate": 1.7130531116312202e-05,
-      "loss": 0.619,
       "step": 200
     },
     {
-      "epoch": 3.336,
-      "grad_norm": 2.209932565689087,
-      "learning_rate": 1.6724709882217606e-05,
-      "loss": 0.5998,
       "step": 210
     },
     {
-      "epoch": 3.496,
-      "grad_norm": 2.7859106063842773,
-      "learning_rate": 1.6297578317954025e-05,
-      "loss": 0.6066,
       "step": 220
     },
     {
-      "epoch": 3.656,
-      "grad_norm": 2.6925034523010254,
-      "learning_rate": 1.5850489985953076e-05,
-      "loss": 0.6351,
       "step": 230
     },
     {
-      "epoch": 3.816,
-      "grad_norm": 2.7933480739593506,
-      "learning_rate": 1.538486169082589e-05,
-      "loss": 0.6003,
       "step": 240
     },
     {
-      "epoch": 3.976,
-      "grad_norm": 2.7974672317504883,
-      "learning_rate": 1.4902168989567335e-05,
-      "loss": 0.6382,
       "step": 250
     },
     {
-      "epoch": 4.128,
-      "grad_norm": 2.982576608657837,
-      "learning_rate": 1.4403941515576344e-05,
-      "loss": 0.4597,
       "step": 260
     },
     {
-      "epoch": 4.288,
-      "grad_norm": 2.571833610534668,
-      "learning_rate": 1.3891758131310329e-05,
-      "loss": 0.444,
       "step": 270
     },
     {
-      "epoch": 4.448,
-      "grad_norm": 2.4135894775390625,
-      "learning_rate": 1.3367241924934715e-05,
-      "loss": 0.4541,
       "step": 280
     },
     {
-      "epoch": 4.608,
-      "grad_norm": 2.8163669109344482,
-      "learning_rate": 1.283205506682304e-05,
-      "loss": 0.4532,
       "step": 290
     },
     {
-      "epoch": 4.768,
-      "grad_norm": 2.9105963706970215,
-      "learning_rate": 1.2287893542207122e-05,
-      "loss": 0.4454,
       "step": 300
     },
     {
-      "epoch": 4.928,
-      "grad_norm": 2.6453466415405273,
-      "learning_rate": 1.1736481776669307e-05,
-      "loss": 0.4547,
       "step": 310
     },
     {
-      "epoch": 5.08,
-      "grad_norm": 3.0081467628479004,
-      "learning_rate": 1.1179567171508463e-05,
-      "loss": 0.3733,
       "step": 320
     },
     {
-      "epoch": 5.24,
-      "grad_norm": 3.0316622257232666,
-      "learning_rate": 1.061891456629682e-05,
-      "loss": 0.2988,
       "step": 330
     },
     {
-      "epoch": 5.4,
-      "grad_norm": 2.4374618530273438,
-      "learning_rate": 1.0056300646175661e-05,
-      "loss": 0.3001,
       "step": 340
     },
     {
-      "epoch": 5.5600000000000005,
-      "grad_norm": 2.4697585105895996,
-      "learning_rate": 9.493508311612874e-06,
-      "loss": 0.2894,
       "step": 350
     },
     {
-      "epoch": 5.72,
-      "grad_norm": 2.9103164672851562,
-      "learning_rate": 8.932321028464412e-06,
-      "loss": 0.2931,
       "step": 360
     },
     {
-      "epoch": 5.88,
-      "grad_norm": 2.7394156455993652,
-      "learning_rate": 8.374517176244038e-06,
-      "loss": 0.3003,
       "step": 370
     },
     {
-      "epoch": 6.032,
-      "grad_norm": 2.1789660453796387,
-      "learning_rate": 7.821864412511485e-06,
-      "loss": 0.2594,
       "step": 380
     },
     {
-      "epoch": 6.192,
-      "grad_norm": 3.0000176429748535,
-      "learning_rate": 7.276114071238069e-06,
-      "loss": 0.1877,
       "step": 390
     },
     {
-      "epoch": 6.352,
-      "grad_norm": 2.3748111724853516,
-      "learning_rate": 6.7389956129010516e-06,
-      "loss": 0.1846,
       "step": 400
     },
     {
-      "epoch": 6.5120000000000005,
-      "grad_norm": 2.3044967651367188,
-      "learning_rate": 6.21221114389424e-06,
-      "loss": 0.1728,
       "step": 410
     },
     {
-      "epoch": 6.672,
-      "grad_norm": 2.2465269565582275,
-      "learning_rate": 5.697430022622542e-06,
-      "loss": 0.1726,
       "step": 420
     },
     {
-      "epoch": 6.832,
-      "grad_norm": 2.356623888015747,
-      "learning_rate": 5.1962835693735506e-06,
-      "loss": 0.1707,
       "step": 430
     },
     {
-      "epoch": 6.992,
-      "grad_norm": 2.5909860134124756,
-      "learning_rate": 4.710359896730379e-06,
-      "loss": 0.1764,
       "step": 440
     },
     {
-      "epoch": 7.144,
-      "grad_norm": 1.7320761680603027,
-      "learning_rate": 4.241198876907936e-06,
-      "loss": 0.0992,
       "step": 450
     },
     {
-      "epoch": 7.304,
-      "grad_norm": 1.5438932180404663,
-      "learning_rate": 3.790287261960953e-06,
-      "loss": 0.0986,
       "step": 460
     },
     {
-      "epoch": 7.464,
-      "grad_norm": 1.8166850805282593,
-      "learning_rate": 3.3590539723276083e-06,
-      "loss": 0.1039,
       "step": 470
     },
     {
-      "epoch": 7.624,
-      "grad_norm": 1.8122446537017822,
-      "learning_rate": 2.9488655686392086e-06,
-      "loss": 0.1062,
       "step": 480
     },
     {
-      "epoch": 7.784,
-      "grad_norm": 1.9146348237991333,
-      "learning_rate": 2.56102192114549e-06,
-      "loss": 0.1029,
       "step": 490
     },
     {
-      "epoch": 7.944,
-      "grad_norm": 1.5483825206756592,
-      "learning_rate": 2.196752090479083e-06,
-      "loss": 0.0997,
       "step": 500
     },
     {
-      "epoch": 8.096,
-      "grad_norm": 0.9715578556060791,
-      "learning_rate": 1.8572104328126738e-06,
-      "loss": 0.0687,
       "step": 510
     },
     {
-      "epoch": 8.256,
-      "grad_norm": 1.1563620567321777,
-      "learning_rate": 1.5434729417516049e-06,
-      "loss": 0.0625,
       "step": 520
     },
     {
-      "epoch": 8.416,
-      "grad_norm": 1.2092530727386475,
-      "learning_rate": 1.2565338385541792e-06,
-      "loss": 0.0647,
       "step": 530
     },
     {
-      "epoch": 8.576,
-      "grad_norm": 1.2118881940841675,
-      "learning_rate": 9.973024214852567e-07,
-      "loss": 0.0659,
       "step": 540
     },
     {
-      "epoch": 8.736,
-      "grad_norm": 1.1171401739120483,
-      "learning_rate": 7.666001842872639e-07,
-      "loss": 0.0648,
       "step": 550
     },
     {
-      "epoch": 8.896,
-      "grad_norm": 1.0178390741348267,
-      "learning_rate": 5.651582129001987e-07,
-      "loss": 0.0628,
       "step": 560
     },
     {
-      "epoch": 9.048,
-      "grad_norm": 0.854426383972168,
-      "learning_rate": 3.936148686802077e-07,
-      "loss": 0.0579,
       "step": 570
     },
     {
-      "epoch": 9.208,
-      "grad_norm": 0.9751760363578796,
-      "learning_rate": 2.525137654586185e-07,
-      "loss": 0.0508,
       "step": 580
     },
     {
-      "epoch": 9.368,
-      "grad_norm": 0.9072787165641785,
-      "learning_rate": 1.4230204685196202e-07,
-      "loss": 0.0516,
       "step": 590
     },
     {
-      "epoch": 9.528,
-      "grad_norm": 1.0727787017822266,
-      "learning_rate": 6.332896928217258e-08,
-      "loss": 0.0517,
       "step": 600
     },
     {
-      "epoch": 9.688,
-      "grad_norm": 0.8716169595718384,
-      "learning_rate": 1.5844795197285102e-08,
-      "loss": 0.0518,
       "step": 610
     },
     {
-      "epoch": 9.848,
-      "grad_norm": 0.9439557790756226,
-      "learning_rate": 0.0,
-      "loss": 0.0527,
       "step": 620
     },
     {
-      "epoch": 9.848,
-      "step": 620,
-      "total_flos": 2.117785669819433e+17,
-      "train_loss": 0.48659542481745444,
-      "train_runtime": 31064.4118,
-      "train_samples_per_second": 0.644,
-      "train_steps_per_second": 0.02
     }
   ],
   "logging_steps": 10,
-  "max_steps": 620,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
-  "save_steps": 1000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -470,8 +813,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.117785669819433e+17,
-  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 9.91616766467066,
   "eval_steps": 500,
+  "global_step": 1110,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08982035928143713,
+      "grad_norm": 49.68221664428711,
+      "learning_rate": 1.4414414414414416e-06,
+      "loss": 8.7467,
       "step": 10
     },
     {
+      "epoch": 0.17964071856287425,
+      "grad_norm": 22.61308479309082,
+      "learning_rate": 3.063063063063063e-06,
+      "loss": 5.5972,
       "step": 20
     },
     {
+      "epoch": 0.2694610778443114,
+      "grad_norm": 11.650931358337402,
+      "learning_rate": 4.864864864864866e-06,
+      "loss": 4.1239,
       "step": 30
     },
     {
+      "epoch": 0.3592814371257485,
+      "grad_norm": 11.040465354919434,
+      "learning_rate": 6.666666666666667e-06,
+      "loss": 3.3473,
       "step": 40
     },
     {
+      "epoch": 0.4491017964071856,
+      "grad_norm": 21.185564041137695,
+      "learning_rate": 8.46846846846847e-06,
+      "loss": 2.843,
       "step": 50
     },
     {
+      "epoch": 0.5389221556886228,
+      "grad_norm": 6.222358226776123,
+      "learning_rate": 1.027027027027027e-05,
+      "loss": 2.5158,
       "step": 60
     },
     {
+      "epoch": 0.6287425149700598,
+      "grad_norm": 12.189018249511719,
+      "learning_rate": 1.2072072072072074e-05,
+      "loss": 2.1371,
       "step": 70
     },
     {
+      "epoch": 0.718562874251497,
+      "grad_norm": 17.56637191772461,
+      "learning_rate": 1.3873873873873875e-05,
+      "loss": 1.9438,
       "step": 80
     },
     {
+      "epoch": 0.8083832335329342,
+      "grad_norm": 5.583638668060303,
+      "learning_rate": 1.5675675675675676e-05,
+      "loss": 1.7556,
       "step": 90
     },
     {
+      "epoch": 0.8982035928143712,
+      "grad_norm": 3.642561197280884,
+      "learning_rate": 1.7477477477477477e-05,
+      "loss": 1.6005,
       "step": 100
     },
     {
+      "epoch": 0.9880239520958084,
+      "grad_norm": 2.80586314201355,
+      "learning_rate": 1.927927927927928e-05,
+      "loss": 1.5588,
       "step": 110
     },
     {
+      "epoch": 1.0718562874251496,
+      "grad_norm": 2.6551783084869385,
+      "learning_rate": 1.9998219965624736e-05,
+      "loss": 1.4294,
       "step": 120
     },
     {
+      "epoch": 1.1616766467065869,
+      "grad_norm": 2.895826578140259,
+      "learning_rate": 1.9987344272588007e-05,
+      "loss": 1.4837,
       "step": 130
     },
     {
+      "epoch": 1.251497005988024,
+      "grad_norm": 2.8669326305389404,
+      "learning_rate": 1.9966592535953532e-05,
+      "loss": 1.453,
       "step": 140
     },
     {
+      "epoch": 1.341317365269461,
+      "grad_norm": 2.1909446716308594,
+      "learning_rate": 1.9935985276197033e-05,
+      "loss": 1.3837,
       "step": 150
     },
     {
+      "epoch": 1.4311377245508983,
+      "grad_norm": 3.2299187183380127,
+      "learning_rate": 1.989555275948572e-05,
+      "loss": 1.3152,
       "step": 160
     },
     {
+      "epoch": 1.5209580838323353,
+      "grad_norm": 1.9108384847640991,
+      "learning_rate": 1.984533496774942e-05,
+      "loss": 1.1961,
       "step": 170
     },
     {
+      "epoch": 1.6107784431137726,
+      "grad_norm": 1.1921658515930176,
+      "learning_rate": 1.9785381559144196e-05,
+      "loss": 1.1209,
       "step": 180
     },
     {
+      "epoch": 1.7005988023952097,
+      "grad_norm": 0.8914986848831177,
+      "learning_rate": 1.9715751818947603e-05,
+      "loss": 1.1056,
       "step": 190
     },
     {
+      "epoch": 1.7904191616766467,
+      "grad_norm": 0.9408266544342041,
+      "learning_rate": 1.963651460093409e-05,
+      "loss": 1.0827,
       "step": 200
     },
     {
+      "epoch": 1.8802395209580838,
+      "grad_norm": 0.8248458504676819,
+      "learning_rate": 1.9547748259288536e-05,
+      "loss": 1.0787,
       "step": 210
     },
     {
+      "epoch": 1.9700598802395208,
+      "grad_norm": 0.9938483238220215,
+      "learning_rate": 1.9449540571125284e-05,
+      "loss": 1.0597,
       "step": 220
     },
     {
+      "epoch": 2.053892215568862,
+      "grad_norm": 0.9142336249351501,
+      "learning_rate": 1.93419886496892e-05,
+      "loss": 0.9906,
       "step": 230
     },
     {
+      "epoch": 2.143712574850299,
+      "grad_norm": 0.8745118379592896,
+      "learning_rate": 1.9225198848324687e-05,
+      "loss": 1.05,
       "step": 240
     },
     {
+      "epoch": 2.2335329341317367,
+      "grad_norm": 0.7089764475822449,
+      "learning_rate": 1.909928665530757e-05,
+      "loss": 1.043,
       "step": 250
     },
     {
+      "epoch": 2.3233532934131738,
+      "grad_norm": 0.4864867031574249,
+      "learning_rate": 1.896437657964382e-05,
+      "loss": 1.0463,
       "step": 260
     },
     {
+      "epoch": 2.413173652694611,
+      "grad_norm": 0.971626341342926,
+      "learning_rate": 1.8820602027948112e-05,
+      "loss": 1.0418,
       "step": 270
     },
     {
+      "epoch": 2.502994011976048,
+      "grad_norm": 0.699500322341919,
+      "learning_rate": 1.866810517252393e-05,
+      "loss": 1.038,
       "step": 280
     },
     {
+      "epoch": 2.592814371257485,
+      "grad_norm": 0.9161490797996521,
+      "learning_rate": 1.8507036810775617e-05,
+      "loss": 1.0338,
       "step": 290
     },
     {
+      "epoch": 2.682634730538922,
+      "grad_norm": 0.6857994198799133,
+      "learning_rate": 1.833755621609152e-05,
+      "loss": 1.0231,
       "step": 300
     },
     {
+      "epoch": 2.772455089820359,
+      "grad_norm": 0.7041919827461243,
+      "learning_rate": 1.815983098034555e-05,
+      "loss": 1.0218,
       "step": 310
     },
     {
+      "epoch": 2.8622754491017965,
+      "grad_norm": 0.9268773794174194,
+      "learning_rate": 1.7974036848172992e-05,
+      "loss": 1.0229,
       "step": 320
     },
     {
+      "epoch": 2.9520958083832336,
+      "grad_norm": 0.7882820963859558,
+      "learning_rate": 1.7780357543184396e-05,
+      "loss": 1.0199,
       "step": 330
     },
     {
+      "epoch": 3.035928143712575,
+      "grad_norm": 0.7048642635345459,
+      "learning_rate": 1.757898458628941e-05,
+      "loss": 0.9551,
       "step": 340
     },
     {
+      "epoch": 3.125748502994012,
+      "grad_norm": 0.5380260348320007,
+      "learning_rate": 1.7370117106310216e-05,
+      "loss": 1.0078,
       "step": 350
     },
     {
+      "epoch": 3.215568862275449,
+      "grad_norm": 0.9133287668228149,
+      "learning_rate": 1.715396164307182e-05,
+      "loss": 1.0026,
       "step": 360
     },
     {
+      "epoch": 3.305389221556886,
+      "grad_norm": 0.8086357712745667,
+      "learning_rate": 1.6930731943163975e-05,
+      "loss": 1.0082,
       "step": 370
     },
     {
+      "epoch": 3.3952095808383236,
+      "grad_norm": 0.7032626271247864,
+      "learning_rate": 1.6700648748576577e-05,
+      "loss": 1.0025,
       "step": 380
     },
     {
+      "epoch": 3.4850299401197606,
+      "grad_norm": 0.7610228657722473,
+      "learning_rate": 1.6463939578417695e-05,
+      "loss": 0.9943,
       "step": 390
     },
     {
+      "epoch": 3.5748502994011977,
+      "grad_norm": 0.7735270261764526,
+      "learning_rate": 1.622083850392996e-05,
+      "loss": 1.0014,
       "step": 400
     },
     {
+      "epoch": 3.6646706586826348,
+      "grad_norm": 0.5382483005523682,
+      "learning_rate": 1.5971585917027864e-05,
+      "loss": 0.9961,
       "step": 410
     },
     {
+      "epoch": 3.754491017964072,
+      "grad_norm": 0.6216614246368408,
+      "learning_rate": 1.5716428292584788e-05,
+      "loss": 0.992,
       "step": 420
     },
     {
+      "epoch": 3.844311377245509,
+      "grad_norm": 0.5743616819381714,
+      "learning_rate": 1.545561794470492e-05,
+      "loss": 0.9861,
       "step": 430
     },
     {
+      "epoch": 3.934131736526946,
+      "grad_norm": 0.7634334564208984,
+      "learning_rate": 1.518941277722096e-05,
+      "loss": 0.9881,
       "step": 440
     },
     {
+      "epoch": 4.017964071856287,
+      "grad_norm": 0.7453029751777649,
+      "learning_rate": 1.491807602866442e-05,
+      "loss": 0.9172,
       "step": 450
     },
     {
+      "epoch": 4.107784431137724,
+      "grad_norm": 1.0462350845336914,
+      "learning_rate": 1.4641876011960661e-05,
+      "loss": 0.9798,
       "step": 460
     },
     {
+      "epoch": 4.197604790419161,
+      "grad_norm": 0.8113179206848145,
+      "learning_rate": 1.436108584910611e-05,
+      "loss": 0.9799,
       "step": 470
     },
     {
+      "epoch": 4.287425149700598,
+      "grad_norm": 0.6361674070358276,
+      "learning_rate": 1.4075983201089964e-05,
+      "loss": 0.9654,
       "step": 480
     },
     {
+      "epoch": 4.3772455089820355,
+      "grad_norm": 0.6291260123252869,
+      "learning_rate": 1.3786849993327503e-05,
+      "loss": 0.9631,
       "step": 490
     },
     {
+      "epoch": 4.467065868263473,
+      "grad_norm": 0.988298773765564,
+      "learning_rate": 1.349397213687651e-05,
+      "loss": 0.9729,
       "step": 500
     },
     {
+      "epoch": 4.5568862275449105,
+      "grad_norm": 1.0734843015670776,
+      "learning_rate": 1.3197639245712454e-05,
+      "loss": 0.963,
       "step": 510
     },
     {
+      "epoch": 4.6467065868263475,
+      "grad_norm": 0.834682047367096,
+      "learning_rate": 1.2898144350342015e-05,
+      "loss": 0.9538,
       "step": 520
     },
     {
+      "epoch": 4.736526946107785,
+      "grad_norm": 0.5939741134643555,
+      "learning_rate": 1.2595783608038157e-05,
+      "loss": 0.9623,
       "step": 530
     },
     {
+      "epoch": 4.826347305389222,
+      "grad_norm": 0.8625423908233643,
+      "learning_rate": 1.22908560099833e-05,
+      "loss": 0.9557,
       "step": 540
     },
     {
+      "epoch": 4.916167664670659,
+      "grad_norm": 0.8925888538360596,
+      "learning_rate": 1.198366308561013e-05,
+      "loss": 0.9419,
       "step": 550
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 0.3238130807876587,
+      "learning_rate": 1.1674508604432464e-05,
+      "loss": 0.8782,
       "step": 560
     },
     {
+      "epoch": 5.089820359281437,
+      "grad_norm": 0.5171638131141663,
+      "learning_rate": 1.1363698275661002e-05,
+      "loss": 0.9256,
       "step": 570
     },
     {
+      "epoch": 5.179640718562874,
+      "grad_norm": 1.136551022529602,
+      "learning_rate": 1.1051539445900982e-05,
+      "loss": 0.9282,
       "step": 580
     },
     {
+      "epoch": 5.269461077844311,
+      "grad_norm": 0.9350560307502747,
+      "learning_rate": 1.0738340795230722e-05,
+      "loss": 0.9316,
       "step": 590
     },
     {
+      "epoch": 5.359281437125748,
+      "grad_norm": 1.0158970355987549,
+      "learning_rate": 1.0424412031961485e-05,
+      "loss": 0.9381,
       "step": 600
     },
     {
+      "epoch": 5.449101796407185,
+      "grad_norm": 1.0037592649459839,
+      "learning_rate": 1.0110063586380647e-05,
+      "loss": 0.9288,
       "step": 610
     },
     {
+      "epoch": 5.538922155688622,
+      "grad_norm": 0.6334489583969116,
+      "learning_rate": 9.795606303780885e-06,
+      "loss": 0.9272,
       "step": 620
     },
     {
+      "epoch": 5.62874251497006,
+      "grad_norm": 0.7240671515464783,
+      "learning_rate": 9.48135113707899e-06,
+      "loss": 0.9318,
+      "step": 630
+    },
+    {
+      "epoch": 5.718562874251497,
+      "grad_norm": 0.9315741658210754,
+      "learning_rate": 9.167608839328273e-06,
+      "loss": 0.9297,
+      "step": 640
+    },
+    {
+      "epoch": 5.808383233532934,
+      "grad_norm": 0.7542333602905273,
+      "learning_rate": 8.854689656428591e-06,
+      "loss": 0.9119,
+      "step": 650
+    },
+    {
+      "epoch": 5.8982035928143715,
+      "grad_norm": 0.864987313747406,
+      "learning_rate": 8.542903020337887e-06,
+      "loss": 0.919,
+      "step": 660
+    },
+    {
+      "epoch": 5.9880239520958085,
+      "grad_norm": 0.5868083834648132,
+      "learning_rate": 8.232557243088585e-06,
+      "loss": 0.9136,
+      "step": 670
+    },
+    {
+      "epoch": 6.07185628742515,
+      "grad_norm": 0.8045146465301514,
+      "learning_rate": 7.923959211911448e-06,
+      "loss": 0.8452,
+      "step": 680
+    },
+    {
+      "epoch": 6.161676646706587,
+      "grad_norm": 0.9145955443382263,
+      "learning_rate": 7.617414085768352e-06,
+      "loss": 0.9,
+      "step": 690
+    },
+    {
+      "epoch": 6.251497005988024,
+      "grad_norm": 0.6515654921531677,
+      "learning_rate": 7.313224993594057e-06,
+      "loss": 0.8946,
+      "step": 700
+    },
+    {
+      "epoch": 6.341317365269461,
+      "grad_norm": 0.6843001246452332,
+      "learning_rate": 7.011692734545403e-06,
+      "loss": 0.8994,
+      "step": 710
+    },
+    {
+      "epoch": 6.431137724550898,
+      "grad_norm": 0.8299969434738159,
+      "learning_rate": 6.713115480554313e-06,
+      "loss": 0.894,
+      "step": 720
+    },
+    {
+      "epoch": 6.520958083832335,
+      "grad_norm": 1.121025800704956,
+      "learning_rate": 6.4177884814787284e-06,
+      "loss": 0.8982,
+      "step": 730
+    },
+    {
+      "epoch": 6.610778443113772,
+      "grad_norm": 1.1040045022964478,
+      "learning_rate": 6.126003773143072e-06,
+      "loss": 0.8985,
+      "step": 740
+    },
+    {
+      "epoch": 6.700598802395209,
+      "grad_norm": 0.711075484752655,
+      "learning_rate": 5.8380498885569246e-06,
+      "loss": 0.8923,
+      "step": 750
+    },
+    {
+      "epoch": 6.790419161676647,
+      "grad_norm": 0.8444594740867615,
+      "learning_rate": 5.554211572597477e-06,
+      "loss": 0.8989,
+      "step": 760
+    },
+    {
+      "epoch": 6.880239520958084,
+      "grad_norm": 0.9748265743255615,
+      "learning_rate": 5.274769500437882e-06,
+      "loss": 0.8956,
+      "step": 770
+    },
+    {
+      "epoch": 6.970059880239521,
+      "grad_norm": 0.8513533473014832,
+      "learning_rate": 5.000000000000003e-06,
+      "loss": 0.8906,
+      "step": 780
+    },
+    {
+      "epoch": 7.053892215568863,
+      "grad_norm": 1.3123410940170288,
+      "learning_rate": 4.730174778705909e-06,
+      "loss": 0.8249,
+      "step": 790
+    },
+    {
+      "epoch": 7.1437125748503,
+      "grad_norm": 1.0771753787994385,
+      "learning_rate": 4.4655606547984165e-06,
+      "loss": 0.8777,
+      "step": 800
+    },
+    {
+      "epoch": 7.233532934131737,
+      "grad_norm": 0.8778141736984253,
+      "learning_rate": 4.206419293496333e-06,
+      "loss": 0.8832,
+      "step": 810
+    },
+    {
+      "epoch": 7.323353293413174,
+      "grad_norm": 1.0552406311035156,
+      "learning_rate": 3.953006948245247e-06,
+      "loss": 0.872,
+      "step": 820
+    },
+    {
+      "epoch": 7.413173652694611,
+      "grad_norm": 0.6986867785453796,
+      "learning_rate": 3.705574207319844e-06,
+      "loss": 0.8807,
+      "step": 830
+    },
+    {
+      "epoch": 7.502994011976048,
+      "grad_norm": 0.7952435612678528,
+      "learning_rate": 3.4643657460282078e-06,
+      "loss": 0.8793,
+      "step": 840
+    },
+    {
+      "epoch": 7.592814371257485,
+      "grad_norm": 0.9549069404602051,
+      "learning_rate": 3.2296200847632376e-06,
+      "loss": 0.8751,
+      "step": 850
+    },
+    {
+      "epoch": 7.682634730538922,
+      "grad_norm": 0.6770684719085693,
+      "learning_rate": 3.001569353140347e-06,
+      "loss": 0.8772,
+      "step": 860
+    },
+    {
+      "epoch": 7.772455089820359,
+      "grad_norm": 0.8119450211524963,
+      "learning_rate": 2.780439060454756e-06,
+      "loss": 0.8721,
+      "step": 870
+    },
+    {
+      "epoch": 7.862275449101796,
+      "grad_norm": 0.7255963087081909,
+      "learning_rate": 2.566447872685298e-06,
+      "loss": 0.8734,
+      "step": 880
+    },
+    {
+      "epoch": 7.952095808383233,
+      "grad_norm": 0.6024225950241089,
+      "learning_rate": 2.359807396265307e-06,
+      "loss": 0.8779,
+      "step": 890
+    },
+    {
+      "epoch": 8.035928143712574,
+      "grad_norm": 0.6504734754562378,
+      "learning_rate": 2.160721968834344e-06,
+      "loss": 0.8174,
+      "step": 900
+    },
+    {
+      "epoch": 8.125748502994012,
+      "grad_norm": 0.8142725825309753,
+      "learning_rate": 1.969388457177743e-06,
+      "loss": 0.863,
+      "step": 910
+    },
+    {
+      "epoch": 8.215568862275449,
+      "grad_norm": 0.8136929869651794,
+      "learning_rate": 1.7859960625537476e-06,
+      "loss": 0.8677,
+      "step": 920
+    },
+    {
+      "epoch": 8.305389221556887,
+      "grad_norm": 0.6553688049316406,
+      "learning_rate": 1.6107261336007284e-06,
+      "loss": 0.853,
+      "step": 930
+    },
+    {
+      "epoch": 8.395209580838323,
+      "grad_norm": 0.8645008206367493,
+      "learning_rate": 1.443751987009533e-06,
+      "loss": 0.8569,
+      "step": 940
+    },
+    {
+      "epoch": 8.48502994011976,
+      "grad_norm": 0.7802151441574097,
+      "learning_rate": 1.2852387361382768e-06,
+      "loss": 0.8608,
+      "step": 950
+    },
+    {
+      "epoch": 8.574850299401197,
+      "grad_norm": 0.8659719824790955,
+      "learning_rate": 1.1353431277390125e-06,
+      "loss": 0.8723,
+      "step": 960
+    },
+    {
+      "epoch": 8.664670658682635,
+      "grad_norm": 1.073027491569519,
+      "learning_rate": 9.942133869578164e-07,
+      "loss": 0.8538,
+      "step": 970
+    },
+    {
+      "epoch": 8.754491017964071,
+      "grad_norm": 0.8132328391075134,
+      "learning_rate": 8.619890707614687e-07,
+      "loss": 0.8552,
+      "step": 980
+    },
+    {
+      "epoch": 8.844311377245509,
+      "grad_norm": 0.959922730922699,
+      "learning_rate": 7.388009299357412e-07,
+      "loss": 0.8658,
+      "step": 990
+    },
+    {
+      "epoch": 8.934131736526947,
+      "grad_norm": 0.8655376434326172,
+      "learning_rate": 6.247707797917257e-07,
+      "loss": 0.8522,
+      "step": 1000
+    },
+    {
+      "epoch": 9.017964071856287,
+      "grad_norm": 0.8419204950332642,
+      "learning_rate": 5.200113797080464e-07,
+      "loss": 0.7919,
+      "step": 1010
+    },
+    {
+      "epoch": 9.107784431137725,
+      "grad_norm": 0.9591242074966431,
+      "learning_rate": 4.2462632162809103e-07,
+      "loss": 0.857,
+      "step": 1020
+    },
+    {
+      "epoch": 9.197604790419161,
+      "grad_norm": 0.4990997016429901,
+      "learning_rate": 3.387099276225214e-07,
+      "loss": 0.8503,
+      "step": 1030
+    },
+    {
+      "epoch": 9.2874251497006,
+      "grad_norm": 0.9034556150436401,
+      "learning_rate": 2.623471566183322e-07,
+      "loss": 0.8465,
+      "step": 1040
+    },
+    {
+      "epoch": 9.377245508982035,
+      "grad_norm": 0.8334706425666809,
+      "learning_rate": 1.9561352038673264e-07,
+      "loss": 0.8576,
+      "step": 1050
+    },
+    {
+      "epoch": 9.467065868263473,
+      "grad_norm": 0.6150113344192505,
+      "learning_rate": 1.3857500887288544e-07,
+      "loss": 0.8544,
+      "step": 1060
+    },
+    {
+      "epoch": 9.55688622754491,
+      "grad_norm": 0.7956252098083496,
+      "learning_rate": 9.12880249413628e-08,
+      "loss": 0.8488,
+      "step": 1070
+    },
+    {
+      "epoch": 9.646706586826348,
+      "grad_norm": 0.755624532699585,
+      "learning_rate": 5.379932860185122e-08,
+      "loss": 0.8512,
+      "step": 1080
+    },
+    {
+      "epoch": 9.736526946107784,
+      "grad_norm": 0.6398297548294067,
+      "learning_rate": 2.6145990770238827e-08,
+      "loss": 0.8559,
+      "step": 1090
+    },
+    {
+      "epoch": 9.826347305389222,
+      "grad_norm": 0.9212434887886047,
+      "learning_rate": 8.355356610822984e-09,
+      "loss": 0.8499,
+      "step": 1100
+    },
+    {
+      "epoch": 9.91616766467066,
+      "grad_norm": 0.868816614151001,
+      "learning_rate": 4.4501849589040357e-10,
+      "loss": 0.8618,
+      "step": 1110
+    },
+    {
+      "epoch": 9.91616766467066,
+      "step": 1110,
+      "total_flos": 3.0002693815874355e+17,
+      "train_loss": 1.1883513411960087,
+      "train_runtime": 36141.346,
+      "train_samples_per_second": 0.553,
+      "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1110,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
+  "save_steps": 10000,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 3.0002693815874355e+17,
+  "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8679129aad6efc54177edfebfe7b8f12c2a44794d1347f1d72c78ddfc60b1a3a
-size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:9bb8babb02cb0454945f3aa7e37edae61d4ecc706b4e073e96dd6ef8a6224536
+size 5752