CesarChaMal commited on Oct 5, 2025

Commit

fa07f00

verified ·

1 Parent(s): af6613d

Upload folder using huggingface_hub

Browse files

Files changed (19) hide show

checkpoint-200/chat_template.jinja +1 -0
checkpoint-200/config.json +37 -0
checkpoint-200/generation_config.json +6 -0
checkpoint-200/merges.txt +0 -0
checkpoint-200/model.safetensors +3 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/rng_state.pth +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/special_tokens_map.json +24 -0
checkpoint-200/tokenizer.json +0 -0
checkpoint-200/tokenizer_config.json +23 -0
checkpoint-200/trainer_state.json +314 -0
checkpoint-200/training_args.bin +3 -0
checkpoint-200/vocab.json +0 -0
config.json +1 -1
model.safetensors +2 -2
tokenizer.json +2 -16
training_args.bin +1 -1
training_log.json +277 -18

checkpoint-200/chat_template.jinja ADDED Viewed

	@@ -0,0 +1 @@


1	+ {% for message in messages %}{{ message.content }}{{ eos_token }}{% endfor %}

checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "dtype": "float32",
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1280,
+  "n_head": 20,
+  "n_inner": null,
+  "n_layer": 36,
+  "n_positions": 1024,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "conversational": {
+      "max_length": 1000
+    }
+  },
+  "transformers_version": "4.56.2",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-200/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.56.2"
+}

checkpoint-200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b26f8a5e38ece067ae146b07ba63859238b470cfc62f7710e7b3052ec331fca8
+size 3096165928

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2779c85323bc78b26d7c7adc894bfdf22bc64cb38abd17dc35786c440fb43a70
+size 6192618087

checkpoint-200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d9b43dacea68535bc4c04dcf4476712b33787fff1df295403444e3a9eea04f1e
+size 14645

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7fa296abc5d84df05f0c53a8649e3e3fcb24d63cdc9ca21aa4cdd6ecf1b15277
+size 1465

checkpoint-200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "<|endoftext|>",
+  "unk_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,314 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 8.0,
+  "eval_steps": 500,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "grad_norm": 10.956440925598145,
+      "learning_rate": 2e-05,
+      "loss": 8.4858,
+      "step": 5
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 7.161553382873535,
+      "learning_rate": 4.5e-05,
+      "loss": 6.9312,
+      "step": 10
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 6.012239456176758,
+      "learning_rate": 4.8947368421052635e-05,
+      "loss": 5.9262,
+      "step": 15
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 4.727581024169922,
+      "learning_rate": 4.7631578947368424e-05,
+      "loss": 4.2748,
+      "step": 20
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 4.418272018432617,
+      "learning_rate": 4.6315789473684214e-05,
+      "loss": 4.3024,
+      "step": 25
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 88.75386810302734,
+      "learning_rate": 4.5e-05,
+      "loss": 3.4231,
+      "step": 30
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 4.03700590133667,
+      "learning_rate": 4.368421052631579e-05,
+      "loss": 3.2013,
+      "step": 35
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 4.357565879821777,
+      "learning_rate": 4.236842105263158e-05,
+      "loss": 2.7781,
+      "step": 40
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 3.961747169494629,
+      "learning_rate": 4.105263157894737e-05,
+      "loss": 2.6868,
+      "step": 45
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 4.623239040374756,
+      "learning_rate": 3.973684210526316e-05,
+      "loss": 2.625,
+      "step": 50
+    },
+    {
+      "epoch": 2.2,
+      "grad_norm": 3.8357508182525635,
+      "learning_rate": 3.842105263157895e-05,
+      "loss": 2.253,
+      "step": 55
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 3.983182907104492,
+      "learning_rate": 3.710526315789474e-05,
+      "loss": 1.7868,
+      "step": 60
+    },
+    {
+      "epoch": 2.6,
+      "grad_norm": 4.157156944274902,
+      "learning_rate": 3.578947368421053e-05,
+      "loss": 2.158,
+      "step": 65
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 3.965906858444214,
+      "learning_rate": 3.447368421052632e-05,
+      "loss": 2.1846,
+      "step": 70
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 2.782144546508789,
+      "learning_rate": 3.3157894736842106e-05,
+      "loss": 2.1961,
+      "step": 75
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 3.1297521591186523,
+      "learning_rate": 3.1842105263157895e-05,
+      "loss": 1.4554,
+      "step": 80
+    },
+    {
+      "epoch": 3.4,
+      "grad_norm": 3.906054735183716,
+      "learning_rate": 3.0526315789473684e-05,
+      "loss": 1.6128,
+      "step": 85
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 4.510481834411621,
+      "learning_rate": 2.9210526315789477e-05,
+      "loss": 1.4562,
+      "step": 90
+    },
+    {
+      "epoch": 3.8,
+      "grad_norm": 3.879499673843384,
+      "learning_rate": 2.7894736842105263e-05,
+      "loss": 1.5626,
+      "step": 95
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 3.139321804046631,
+      "learning_rate": 2.6578947368421052e-05,
+      "loss": 1.5182,
+      "step": 100
+    },
+    {
+      "epoch": 4.2,
+      "grad_norm": 4.304155349731445,
+      "learning_rate": 2.5263157894736845e-05,
+      "loss": 1.2072,
+      "step": 105
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 3.2858364582061768,
+      "learning_rate": 2.394736842105263e-05,
+      "loss": 1.1877,
+      "step": 110
+    },
+    {
+      "epoch": 4.6,
+      "grad_norm": 3.662776231765747,
+      "learning_rate": 2.2631578947368423e-05,
+      "loss": 1.1419,
+      "step": 115
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 3.3753128051757812,
+      "learning_rate": 2.1315789473684212e-05,
+      "loss": 1.0726,
+      "step": 120
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 3.4297780990600586,
+      "learning_rate": 2e-05,
+      "loss": 1.16,
+      "step": 125
+    },
+    {
+      "epoch": 5.2,
+      "grad_norm": 3.373642921447754,
+      "learning_rate": 1.868421052631579e-05,
+      "loss": 1.1555,
+      "step": 130
+    },
+    {
+      "epoch": 5.4,
+      "grad_norm": 3.190053701400757,
+      "learning_rate": 1.736842105263158e-05,
+      "loss": 1.0915,
+      "step": 135
+    },
+    {
+      "epoch": 5.6,
+      "grad_norm": 3.1136105060577393,
+      "learning_rate": 1.605263157894737e-05,
+      "loss": 0.6836,
+      "step": 140
+    },
+    {
+      "epoch": 5.8,
+      "grad_norm": 4.21175479888916,
+      "learning_rate": 1.4736842105263157e-05,
+      "loss": 0.8947,
+      "step": 145
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 3.606748342514038,
+      "learning_rate": 1.3421052631578948e-05,
+      "loss": 1.0125,
+      "step": 150
+    },
+    {
+      "epoch": 6.2,
+      "grad_norm": 2.8370039463043213,
+      "learning_rate": 1.2105263157894737e-05,
+      "loss": 0.6748,
+      "step": 155
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 5.026889801025391,
+      "learning_rate": 1.0789473684210526e-05,
+      "loss": 0.7417,
+      "step": 160
+    },
+    {
+      "epoch": 6.6,
+      "grad_norm": 4.09874153137207,
+      "learning_rate": 9.473684210526317e-06,
+      "loss": 0.836,
+      "step": 165
+    },
+    {
+      "epoch": 6.8,
+      "grad_norm": 3.5339722633361816,
+      "learning_rate": 8.157894736842106e-06,
+      "loss": 0.7355,
+      "step": 170
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 3.718662738800049,
+      "learning_rate": 6.842105263157896e-06,
+      "loss": 0.817,
+      "step": 175
+    },
+    {
+      "epoch": 7.2,
+      "grad_norm": 2.443586826324463,
+      "learning_rate": 5.526315789473684e-06,
+      "loss": 0.6803,
+      "step": 180
+    },
+    {
+      "epoch": 7.4,
+      "grad_norm": 4.012761116027832,
+      "learning_rate": 4.210526315789474e-06,
+      "loss": 0.644,
+      "step": 185
+    },
+    {
+      "epoch": 7.6,
+      "grad_norm": 2.8739984035491943,
+      "learning_rate": 2.8947368421052634e-06,
+      "loss": 0.5224,
+      "step": 190
+    },
+    {
+      "epoch": 7.8,
+      "grad_norm": 3.989027261734009,
+      "learning_rate": 1.5789473684210528e-06,
+      "loss": 0.6857,
+      "step": 195
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 4.327380180358887,
+      "learning_rate": 2.6315789473684213e-07,
+      "loss": 0.7937,
+      "step": 200
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 25,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2611410370560000.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fb2039870addd20c9c46968fda9ef3ee921b26ae73c3d39d7d352148d2dec5c2
+size 5777

checkpoint-200/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

config.json CHANGED Viewed

@@ -5,7 +5,7 @@
   ],
   "attn_pdrop": 0.1,
   "bos_token_id": 50256,
-  "dtype": "float16",
   "embd_pdrop": 0.1,
   "eos_token_id": 50256,
   "initializer_range": 0.02,

   ],
   "attn_pdrop": 0.1,
   "bos_token_id": 50256,
+  "dtype": "float32",
   "embd_pdrop": 0.1,
   "eos_token_id": 50256,
   "initializer_range": 0.02,

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dae6a24423332f62a0b844e5b48d562159c5b800726ad4cb9ee29299d6ead2c1
-size 1548105416

 version https://git-lfs.github.com/spec/v1
+oid sha256:b26f8a5e38ece067ae146b07ba63859238b470cfc62f7710e7b3052ec331fca8
+size 3096165928

tokenizer.json CHANGED Viewed

@@ -1,21 +1,7 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 768,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
-  "padding": {
-    "strategy": {
-      "Fixed": 768
-    },
-    "direction": "Right",
-    "pad_to_multiple_of": null,
-    "pad_id": 50256,
-    "pad_type_id": 0,
-    "pad_token": "<|endoftext|>"
-  },
   "added_tokens": [
     {
       "id": 50256,

 {
   "version": "1.0",
+  "truncation": null,
+  "padding": null,
   "added_tokens": [
     {
       "id": 50256,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727c690971fc5ec923ae6674f94581184a426a8d33ff9d1b0381b9e5b434b81f
 size 5777

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb2039870addd20c9c46968fda9ef3ee921b26ae73c3d39d7d352148d2dec5c2
 size 5777

training_log.json CHANGED Viewed

@@ -1,32 +1,291 @@
 [
   {
-    "loss": 684.0879,
-    "grad_norm": NaN,
-    "learning_rate": 2.7e-06,
-    "epoch": 0.8,
     "step": 10
   },
   {
-    "loss": 0.0,
-    "grad_norm": NaN,
-    "learning_rate": 5.7000000000000005e-06,
-    "epoch": 1.56,
     "step": 20
   },
   {
-    "loss": 0.0,
-    "grad_norm": NaN,
-    "learning_rate": 8.7e-06,
-    "epoch": 2.32,
     "step": 30
   },
   {
-    "train_runtime": 105.4702,
-    "train_samples_per_second": 2.844,
-    "train_steps_per_second": 0.37,
-    "total_flos": 979278888960000.0,
-    "train_loss": 175.40715144230768,
     "epoch": 3.0,
-    "step": 39
   }
 ]

 [
   {
+    "loss": 8.4858,
+    "grad_norm": 10.956440925598145,
+    "learning_rate": 2e-05,
+    "epoch": 0.2,
+    "step": 5
+  },
+  {
+    "loss": 6.9312,
+    "grad_norm": 7.161553382873535,
+    "learning_rate": 4.5e-05,
+    "epoch": 0.4,
     "step": 10
   },
   {
+    "loss": 5.9262,
+    "grad_norm": 6.012239456176758,
+    "learning_rate": 4.8947368421052635e-05,
+    "epoch": 0.6,
+    "step": 15
+  },
+  {
+    "loss": 4.2748,
+    "grad_norm": 4.727581024169922,
+    "learning_rate": 4.7631578947368424e-05,
+    "epoch": 0.8,
     "step": 20
   },
   {
+    "loss": 4.3024,
+    "grad_norm": 4.418272018432617,
+    "learning_rate": 4.6315789473684214e-05,
+    "epoch": 1.0,
+    "step": 25
+  },
+  {
+    "loss": 3.4231,
+    "grad_norm": 88.75386810302734,
+    "learning_rate": 4.5e-05,
+    "epoch": 1.2,
     "step": 30
   },
   {
+    "loss": 3.2013,
+    "grad_norm": 4.03700590133667,
+    "learning_rate": 4.368421052631579e-05,
+    "epoch": 1.4,
+    "step": 35
+  },
+  {
+    "loss": 2.7781,
+    "grad_norm": 4.357565879821777,
+    "learning_rate": 4.236842105263158e-05,
+    "epoch": 1.6,
+    "step": 40
+  },
+  {
+    "loss": 2.6868,
+    "grad_norm": 3.961747169494629,
+    "learning_rate": 4.105263157894737e-05,
+    "epoch": 1.8,
+    "step": 45
+  },
+  {
+    "loss": 2.625,
+    "grad_norm": 4.623239040374756,
+    "learning_rate": 3.973684210526316e-05,
+    "epoch": 2.0,
+    "step": 50
+  },
+  {
+    "loss": 2.253,
+    "grad_norm": 3.8357508182525635,
+    "learning_rate": 3.842105263157895e-05,
+    "epoch": 2.2,
+    "step": 55
+  },
+  {
+    "loss": 1.7868,
+    "grad_norm": 3.983182907104492,
+    "learning_rate": 3.710526315789474e-05,
+    "epoch": 2.4,
+    "step": 60
+  },
+  {
+    "loss": 2.158,
+    "grad_norm": 4.157156944274902,
+    "learning_rate": 3.578947368421053e-05,
+    "epoch": 2.6,
+    "step": 65
+  },
+  {
+    "loss": 2.1846,
+    "grad_norm": 3.965906858444214,
+    "learning_rate": 3.447368421052632e-05,
+    "epoch": 2.8,
+    "step": 70
+  },
+  {
+    "loss": 2.1961,
+    "grad_norm": 2.782144546508789,
+    "learning_rate": 3.3157894736842106e-05,
     "epoch": 3.0,
+    "step": 75
+  },
+  {
+    "loss": 1.4554,
+    "grad_norm": 3.1297521591186523,
+    "learning_rate": 3.1842105263157895e-05,
+    "epoch": 3.2,
+    "step": 80
+  },
+  {
+    "loss": 1.6128,
+    "grad_norm": 3.906054735183716,
+    "learning_rate": 3.0526315789473684e-05,
+    "epoch": 3.4,
+    "step": 85
+  },
+  {
+    "loss": 1.4562,
+    "grad_norm": 4.510481834411621,
+    "learning_rate": 2.9210526315789477e-05,
+    "epoch": 3.6,
+    "step": 90
+  },
+  {
+    "loss": 1.5626,
+    "grad_norm": 3.879499673843384,
+    "learning_rate": 2.7894736842105263e-05,
+    "epoch": 3.8,
+    "step": 95
+  },
+  {
+    "loss": 1.5182,
+    "grad_norm": 3.139321804046631,
+    "learning_rate": 2.6578947368421052e-05,
+    "epoch": 4.0,
+    "step": 100
+  },
+  {
+    "loss": 1.2072,
+    "grad_norm": 4.304155349731445,
+    "learning_rate": 2.5263157894736845e-05,
+    "epoch": 4.2,
+    "step": 105
+  },
+  {
+    "loss": 1.1877,
+    "grad_norm": 3.2858364582061768,
+    "learning_rate": 2.394736842105263e-05,
+    "epoch": 4.4,
+    "step": 110
+  },
+  {
+    "loss": 1.1419,
+    "grad_norm": 3.662776231765747,
+    "learning_rate": 2.2631578947368423e-05,
+    "epoch": 4.6,
+    "step": 115
+  },
+  {
+    "loss": 1.0726,
+    "grad_norm": 3.3753128051757812,
+    "learning_rate": 2.1315789473684212e-05,
+    "epoch": 4.8,
+    "step": 120
+  },
+  {
+    "loss": 1.16,
+    "grad_norm": 3.4297780990600586,
+    "learning_rate": 2e-05,
+    "epoch": 5.0,
+    "step": 125
+  },
+  {
+    "loss": 1.1555,
+    "grad_norm": 3.373642921447754,
+    "learning_rate": 1.868421052631579e-05,
+    "epoch": 5.2,
+    "step": 130
+  },
+  {
+    "loss": 1.0915,
+    "grad_norm": 3.190053701400757,
+    "learning_rate": 1.736842105263158e-05,
+    "epoch": 5.4,
+    "step": 135
+  },
+  {
+    "loss": 0.6836,
+    "grad_norm": 3.1136105060577393,
+    "learning_rate": 1.605263157894737e-05,
+    "epoch": 5.6,
+    "step": 140
+  },
+  {
+    "loss": 0.8947,
+    "grad_norm": 4.21175479888916,
+    "learning_rate": 1.4736842105263157e-05,
+    "epoch": 5.8,
+    "step": 145
+  },
+  {
+    "loss": 1.0125,
+    "grad_norm": 3.606748342514038,
+    "learning_rate": 1.3421052631578948e-05,
+    "epoch": 6.0,
+    "step": 150
+  },
+  {
+    "loss": 0.6748,
+    "grad_norm": 2.8370039463043213,
+    "learning_rate": 1.2105263157894737e-05,
+    "epoch": 6.2,
+    "step": 155
+  },
+  {
+    "loss": 0.7417,
+    "grad_norm": 5.026889801025391,
+    "learning_rate": 1.0789473684210526e-05,
+    "epoch": 6.4,
+    "step": 160
+  },
+  {
+    "loss": 0.836,
+    "grad_norm": 4.09874153137207,
+    "learning_rate": 9.473684210526317e-06,
+    "epoch": 6.6,
+    "step": 165
+  },
+  {
+    "loss": 0.7355,
+    "grad_norm": 3.5339722633361816,
+    "learning_rate": 8.157894736842106e-06,
+    "epoch": 6.8,
+    "step": 170
+  },
+  {
+    "loss": 0.817,
+    "grad_norm": 3.718662738800049,
+    "learning_rate": 6.842105263157896e-06,
+    "epoch": 7.0,
+    "step": 175
+  },
+  {
+    "loss": 0.6803,
+    "grad_norm": 2.443586826324463,
+    "learning_rate": 5.526315789473684e-06,
+    "epoch": 7.2,
+    "step": 180
+  },
+  {
+    "loss": 0.644,
+    "grad_norm": 4.012761116027832,
+    "learning_rate": 4.210526315789474e-06,
+    "epoch": 7.4,
+    "step": 185
+  },
+  {
+    "loss": 0.5224,
+    "grad_norm": 2.8739984035491943,
+    "learning_rate": 2.8947368421052634e-06,
+    "epoch": 7.6,
+    "step": 190
+  },
+  {
+    "loss": 0.6857,
+    "grad_norm": 3.989027261734009,
+    "learning_rate": 1.5789473684210528e-06,
+    "epoch": 7.8,
+    "step": 195
+  },
+  {
+    "loss": 0.7937,
+    "grad_norm": 4.327380180358887,
+    "learning_rate": 2.6315789473684213e-07,
+    "epoch": 8.0,
+    "step": 200
+  },
+  {
+    "train_runtime": 12626.9237,
+    "train_samples_per_second": 0.063,
+    "train_steps_per_second": 0.016,
+    "total_flos": 2611410370560000.0,
+    "train_loss": 2.0139254927635193,
+    "epoch": 8.0,
+    "step": 200
   }
 ]