Rubywong123 commited on Aug 6, 2025

Commit

92af847

verified ·

1 Parent(s): 016ea25

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

all_results.json +6 -6
checkpoint-80/global_step79/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-80/global_step79/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-80/global_step79/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-80/global_step79/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-80/model-00001-of-00004.safetensors +1 -1
checkpoint-80/model-00002-of-00004.safetensors +1 -1
checkpoint-80/model-00003-of-00004.safetensors +1 -1
checkpoint-80/model-00004-of-00004.safetensors +1 -1
checkpoint-80/trainer_state.json +43 -43
checkpoint-80/training_args.bin +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +48 -48
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.9709543568464731,
-    "total_flos": 2.029407915034542e+17,
-    "train_loss": 0.3740218333899975,
-    "train_runtime": 1097.5227,
-    "train_samples": 1927,
-    "train_samples_per_second": 3.512,
-    "train_steps_per_second": 0.073
 }

 {
     "epoch": 1.9709543568464731,
+    "total_flos": 2.0214124294176768e+17,
+    "train_loss": 0.371533726900816,
+    "train_runtime": 1201.5473,
+    "train_samples": 1925,
+    "train_samples_per_second": 3.204,
+    "train_steps_per_second": 0.067
 }

checkpoint-80/global_step79/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:62b22a56d979b4c26809ef202f3631defcfde36d400e4794095dfdac4dbcaf57
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2257005a35eb6d2d6b80dadf25283d732569dedbe0117a1fd209082a4199ece
 size 24090788620

checkpoint-80/global_step79/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce8eec1c04ea7a3a40461c28a5208b9da782c17fb174d40403c11755ac4c16ab
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:d50510026f065bb8f101221bfd4cfb205989c018ee21ad2e1786f56e906249f7
 size 24090788620

checkpoint-80/global_step79/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7d8b55ce4d7849ab53b38fdd082214f0990ac6e08874b6fe1419fd218df73cb
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3d4cef230b9d567afef3f5aca67f19ec0b7348a8ecad6764fe048271e596a9a
 size 24090788620

checkpoint-80/global_step79/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:637628d474355549e029cbfbc43763a302b3a79f4be352e4b39261d861d3cb41
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:c796d4ff1b19adbb43b0f5473fc2c42696a6a1b5cb8f3cfb02b7ea5926abc375
 size 24090788620

checkpoint-80/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38e418375f069dc0a6e22dbe1f9fe2e9c1a35326401000926e39618012daef28
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c6e909727e20263eb587685655ef8609a2f4b6e653cb0678f747e2125b76fb7
 size 4976698672

checkpoint-80/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d20cd5d2b6d4fb439d5605863c4c5c974add43f60501ccb272f77d725ea63a9e
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ba713efd72a7e5a23af5094c271658a5e9f240179cda56d6144a6e43ec878c2
 size 4999802720

checkpoint-80/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baf527bb1b8e21c120d29d08c1f65101e6dae78a7f16b082b592f156b54cde5d
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:5925b2fee006cee5ccc1d208289db4b40b34930bb14ff7f78e0519a6d71dafb5
 size 4915916176

checkpoint-80/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2a64cb51e1a2804c06ce816c5c8aaf83f6f2b8cc3fbd1a4ad85549c3c263fe5
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:fba94e44e7c61f5667b9542de32dde71b1e571b4291a68a5b4baa5e905aea305
 size 1168138808

checkpoint-80/trainer_state.json CHANGED Viewed

@@ -10,137 +10,137 @@
   "log_history": [
     {
       "epoch": 0.024896265560165973,
-      "grad_norm": 0.09802406423206611,
       "learning_rate": 1.25e-06,
-      "loss": 0.4475,
       "step": 1
     },
     {
       "epoch": 0.12448132780082988,
-      "grad_norm": 0.06629266158913129,
       "learning_rate": 6.25e-06,
-      "loss": 0.4034,
       "step": 5
     },
     {
       "epoch": 0.24896265560165975,
-      "grad_norm": 0.07682971594488436,
       "learning_rate": 9.980973490458728e-06,
-      "loss": 0.447,
       "step": 10
     },
     {
       "epoch": 0.37344398340248963,
-      "grad_norm": 0.06952920500301711,
       "learning_rate": 9.768584753741134e-06,
-      "loss": 0.4512,
       "step": 15
     },
     {
       "epoch": 0.4979253112033195,
-      "grad_norm": 0.05665883883073202,
       "learning_rate": 9.330127018922195e-06,
-      "loss": 0.4115,
       "step": 20
     },
     {
       "epoch": 0.6224066390041494,
-      "grad_norm": 0.05543531120968404,
       "learning_rate": 8.68638668405062e-06,
-      "loss": 0.4224,
       "step": 25
     },
     {
       "epoch": 0.7468879668049793,
-      "grad_norm": 0.05055338657549615,
       "learning_rate": 7.86788218175523e-06,
-      "loss": 0.3645,
       "step": 30
     },
     {
       "epoch": 0.8713692946058091,
-      "grad_norm": 0.04640618215423049,
       "learning_rate": 6.913417161825449e-06,
-      "loss": 0.3693,
       "step": 35
     },
     {
       "epoch": 0.995850622406639,
-      "grad_norm": 0.04834379140546879,
       "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.3722,
       "step": 40
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.4088011085987091,
-      "eval_runtime": 28.7977,
-      "eval_samples_per_second": 19.064,
-      "eval_steps_per_second": 4.792,
       "step": 41
     },
     {
       "epoch": 1.099585062240664,
-      "grad_norm": 0.0437345911401945,
       "learning_rate": 4.781903063173321e-06,
-      "loss": 0.3264,
       "step": 45
     },
     {
       "epoch": 1.2240663900414939,
-      "grad_norm": 0.0435343363130576,
       "learning_rate": 3.705904774487396e-06,
-      "loss": 0.3432,
       "step": 50
     },
     {
       "epoch": 1.3485477178423237,
-      "grad_norm": 0.038958225706696346,
       "learning_rate": 2.6912569338248317e-06,
-      "loss": 0.3608,
       "step": 55
     },
     {
       "epoch": 1.4730290456431536,
-      "grad_norm": 0.043127252621560926,
       "learning_rate": 1.7860619515673034e-06,
-      "loss": 0.3517,
       "step": 60
     },
     {
       "epoch": 1.5975103734439835,
-      "grad_norm": 0.040329157413075245,
       "learning_rate": 1.0332332985438248e-06,
-      "loss": 0.3471,
       "step": 65
     },
     {
       "epoch": 1.7219917012448134,
-      "grad_norm": 0.041243372965840595,
       "learning_rate": 4.6846106481675035e-07,
-      "loss": 0.3397,
       "step": 70
     },
     {
       "epoch": 1.8464730290456433,
-      "grad_norm": 0.03676264140179849,
       "learning_rate": 1.185199644003332e-07,
-      "loss": 0.3206,
       "step": 75
     },
     {
       "epoch": 1.9709543568464731,
-      "grad_norm": 0.0398501802157299,
       "learning_rate": 0.0,
-      "loss": 0.3444,
       "step": 80
     },
     {
       "epoch": 1.9709543568464731,
-      "eval_loss": 0.40992262959480286,
-      "eval_runtime": 28.1962,
-      "eval_samples_per_second": 19.471,
-      "eval_steps_per_second": 4.894,
       "step": 80
     }
   ],
@@ -161,7 +161,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.029407915034542e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.024896265560165973,
+      "grad_norm": 0.11021283446475846,
       "learning_rate": 1.25e-06,
+      "loss": 0.4278,
       "step": 1
     },
     {
       "epoch": 0.12448132780082988,
+      "grad_norm": 0.0774790715838221,
       "learning_rate": 6.25e-06,
+      "loss": 0.4499,
       "step": 5
     },
     {
       "epoch": 0.24896265560165975,
+      "grad_norm": 0.08040067775763293,
       "learning_rate": 9.980973490458728e-06,
+      "loss": 0.4082,
       "step": 10
     },
     {
       "epoch": 0.37344398340248963,
+      "grad_norm": 0.07045048232950048,
       "learning_rate": 9.768584753741134e-06,
+      "loss": 0.4303,
       "step": 15
     },
     {
       "epoch": 0.4979253112033195,
+      "grad_norm": 0.05522617085677978,
       "learning_rate": 9.330127018922195e-06,
+      "loss": 0.3962,
       "step": 20
     },
     {
       "epoch": 0.6224066390041494,
+      "grad_norm": 0.04920532366631061,
       "learning_rate": 8.68638668405062e-06,
+      "loss": 0.3735,
       "step": 25
     },
     {
       "epoch": 0.7468879668049793,
+      "grad_norm": 0.052532219713063856,
       "learning_rate": 7.86788218175523e-06,
+      "loss": 0.4016,
       "step": 30
     },
     {
       "epoch": 0.8713692946058091,
+      "grad_norm": 0.05694643147496267,
       "learning_rate": 6.913417161825449e-06,
+      "loss": 0.3946,
       "step": 35
     },
     {
       "epoch": 0.995850622406639,
+      "grad_norm": 0.04732918589868144,
       "learning_rate": 5.8682408883346535e-06,
+      "loss": 0.37,
       "step": 40
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.40875306725502014,
+      "eval_runtime": 29.4951,
+      "eval_samples_per_second": 18.613,
+      "eval_steps_per_second": 4.679,
       "step": 41
     },
     {
       "epoch": 1.099585062240664,
+      "grad_norm": 0.042329664384282324,
       "learning_rate": 4.781903063173321e-06,
+      "loss": 0.3745,
       "step": 45
     },
     {
       "epoch": 1.2240663900414939,
+      "grad_norm": 0.042311381287778824,
       "learning_rate": 3.705904774487396e-06,
+      "loss": 0.3656,
       "step": 50
     },
     {
       "epoch": 1.3485477178423237,
+      "grad_norm": 0.04211186999995547,
       "learning_rate": 2.6912569338248317e-06,
+      "loss": 0.3249,
       "step": 55
     },
     {
       "epoch": 1.4730290456431536,
+      "grad_norm": 0.03859377186467179,
       "learning_rate": 1.7860619515673034e-06,
+      "loss": 0.3478,
       "step": 60
     },
     {
       "epoch": 1.5975103734439835,
+      "grad_norm": 0.038411951194646604,
       "learning_rate": 1.0332332985438248e-06,
+      "loss": 0.3441,
       "step": 65
     },
     {
       "epoch": 1.7219917012448134,
+      "grad_norm": 0.036561598740802725,
       "learning_rate": 4.6846106481675035e-07,
+      "loss": 0.3186,
       "step": 70
     },
     {
       "epoch": 1.8464730290456433,
+      "grad_norm": 0.045523136033542085,
       "learning_rate": 1.185199644003332e-07,
+      "loss": 0.3124,
       "step": 75
     },
     {
       "epoch": 1.9709543568464731,
+      "grad_norm": 0.040621614883517274,
       "learning_rate": 0.0,
+      "loss": 0.3367,
       "step": 80
     },
     {
       "epoch": 1.9709543568464731,
+      "eval_loss": 0.4118167757987976,
+      "eval_runtime": 28.4832,
+      "eval_samples_per_second": 19.275,
+      "eval_steps_per_second": 4.845,
       "step": 80
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 2.0214124294176768e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-80/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa7e3d947f8f4edfc3f04cb89caba20dd5a6e20c1cb687a46d40fa5f37ff6853
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:5091113cdf164b227f0dadd0fa30c76a926f363fc1d6b142a3bca31ae85cc04f
 size 7352

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38e418375f069dc0a6e22dbe1f9fe2e9c1a35326401000926e39618012daef28
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c6e909727e20263eb587685655ef8609a2f4b6e653cb0678f747e2125b76fb7
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d20cd5d2b6d4fb439d5605863c4c5c974add43f60501ccb272f77d725ea63a9e
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ba713efd72a7e5a23af5094c271658a5e9f240179cda56d6144a6e43ec878c2
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:baf527bb1b8e21c120d29d08c1f65101e6dae78a7f16b082b592f156b54cde5d
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:5925b2fee006cee5ccc1d208289db4b40b34930bb14ff7f78e0519a6d71dafb5
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2a64cb51e1a2804c06ce816c5c8aaf83f6f2b8cc3fbd1a4ad85549c3c263fe5
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:fba94e44e7c61f5667b9542de32dde71b1e571b4291a68a5b4baa5e905aea305
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.9709543568464731,
-    "total_flos": 2.029407915034542e+17,
-    "train_loss": 0.3740218333899975,
-    "train_runtime": 1097.5227,
-    "train_samples": 1927,
-    "train_samples_per_second": 3.512,
-    "train_steps_per_second": 0.073
 }

 {
     "epoch": 1.9709543568464731,
+    "total_flos": 2.0214124294176768e+17,
+    "train_loss": 0.371533726900816,
+    "train_runtime": 1201.5473,
+    "train_samples": 1925,
+    "train_samples_per_second": 3.204,
+    "train_steps_per_second": 0.067
 }

trainer_state.json CHANGED Viewed

@@ -10,147 +10,147 @@
   "log_history": [
     {
       "epoch": 0.024896265560165973,
-      "grad_norm": 0.09802406423206611,
       "learning_rate": 1.25e-06,
-      "loss": 0.4475,
       "step": 1
     },
     {
       "epoch": 0.12448132780082988,
-      "grad_norm": 0.06629266158913129,
       "learning_rate": 6.25e-06,
-      "loss": 0.4034,
       "step": 5
     },
     {
       "epoch": 0.24896265560165975,
-      "grad_norm": 0.07682971594488436,
       "learning_rate": 9.980973490458728e-06,
-      "loss": 0.447,
       "step": 10
     },
     {
       "epoch": 0.37344398340248963,
-      "grad_norm": 0.06952920500301711,
       "learning_rate": 9.768584753741134e-06,
-      "loss": 0.4512,
       "step": 15
     },
     {
       "epoch": 0.4979253112033195,
-      "grad_norm": 0.05665883883073202,
       "learning_rate": 9.330127018922195e-06,
-      "loss": 0.4115,
       "step": 20
     },
     {
       "epoch": 0.6224066390041494,
-      "grad_norm": 0.05543531120968404,
       "learning_rate": 8.68638668405062e-06,
-      "loss": 0.4224,
       "step": 25
     },
     {
       "epoch": 0.7468879668049793,
-      "grad_norm": 0.05055338657549615,
       "learning_rate": 7.86788218175523e-06,
-      "loss": 0.3645,
       "step": 30
     },
     {
       "epoch": 0.8713692946058091,
-      "grad_norm": 0.04640618215423049,
       "learning_rate": 6.913417161825449e-06,
-      "loss": 0.3693,
       "step": 35
     },
     {
       "epoch": 0.995850622406639,
-      "grad_norm": 0.04834379140546879,
       "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.3722,
       "step": 40
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.4088011085987091,
-      "eval_runtime": 28.7977,
-      "eval_samples_per_second": 19.064,
-      "eval_steps_per_second": 4.792,
       "step": 41
     },
     {
       "epoch": 1.099585062240664,
-      "grad_norm": 0.0437345911401945,
       "learning_rate": 4.781903063173321e-06,
-      "loss": 0.3264,
       "step": 45
     },
     {
       "epoch": 1.2240663900414939,
-      "grad_norm": 0.0435343363130576,
       "learning_rate": 3.705904774487396e-06,
-      "loss": 0.3432,
       "step": 50
     },
     {
       "epoch": 1.3485477178423237,
-      "grad_norm": 0.038958225706696346,
       "learning_rate": 2.6912569338248317e-06,
-      "loss": 0.3608,
       "step": 55
     },
     {
       "epoch": 1.4730290456431536,
-      "grad_norm": 0.043127252621560926,
       "learning_rate": 1.7860619515673034e-06,
-      "loss": 0.3517,
       "step": 60
     },
     {
       "epoch": 1.5975103734439835,
-      "grad_norm": 0.040329157413075245,
       "learning_rate": 1.0332332985438248e-06,
-      "loss": 0.3471,
       "step": 65
     },
     {
       "epoch": 1.7219917012448134,
-      "grad_norm": 0.041243372965840595,
       "learning_rate": 4.6846106481675035e-07,
-      "loss": 0.3397,
       "step": 70
     },
     {
       "epoch": 1.8464730290456433,
-      "grad_norm": 0.03676264140179849,
       "learning_rate": 1.185199644003332e-07,
-      "loss": 0.3206,
       "step": 75
     },
     {
       "epoch": 1.9709543568464731,
-      "grad_norm": 0.0398501802157299,
       "learning_rate": 0.0,
-      "loss": 0.3444,
       "step": 80
     },
     {
       "epoch": 1.9709543568464731,
-      "eval_loss": 0.40992262959480286,
-      "eval_runtime": 28.1962,
-      "eval_samples_per_second": 19.471,
-      "eval_steps_per_second": 4.894,
       "step": 80
     },
     {
       "epoch": 1.9709543568464731,
       "step": 80,
-      "total_flos": 2.029407915034542e+17,
-      "train_loss": 0.3740218333899975,
-      "train_runtime": 1097.5227,
-      "train_samples_per_second": 3.512,
-      "train_steps_per_second": 0.073
     }
   ],
   "logging_steps": 5,
@@ -170,7 +170,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.029407915034542e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.024896265560165973,
+      "grad_norm": 0.11021283446475846,
       "learning_rate": 1.25e-06,
+      "loss": 0.4278,
       "step": 1
     },
     {
       "epoch": 0.12448132780082988,
+      "grad_norm": 0.0774790715838221,
       "learning_rate": 6.25e-06,
+      "loss": 0.4499,
       "step": 5
     },
     {
       "epoch": 0.24896265560165975,
+      "grad_norm": 0.08040067775763293,
       "learning_rate": 9.980973490458728e-06,
+      "loss": 0.4082,
       "step": 10
     },
     {
       "epoch": 0.37344398340248963,
+      "grad_norm": 0.07045048232950048,
       "learning_rate": 9.768584753741134e-06,
+      "loss": 0.4303,
       "step": 15
     },
     {
       "epoch": 0.4979253112033195,
+      "grad_norm": 0.05522617085677978,
       "learning_rate": 9.330127018922195e-06,
+      "loss": 0.3962,
       "step": 20
     },
     {
       "epoch": 0.6224066390041494,
+      "grad_norm": 0.04920532366631061,
       "learning_rate": 8.68638668405062e-06,
+      "loss": 0.3735,
       "step": 25
     },
     {
       "epoch": 0.7468879668049793,
+      "grad_norm": 0.052532219713063856,
       "learning_rate": 7.86788218175523e-06,
+      "loss": 0.4016,
       "step": 30
     },
     {
       "epoch": 0.8713692946058091,
+      "grad_norm": 0.05694643147496267,
       "learning_rate": 6.913417161825449e-06,
+      "loss": 0.3946,
       "step": 35
     },
     {
       "epoch": 0.995850622406639,
+      "grad_norm": 0.04732918589868144,
       "learning_rate": 5.8682408883346535e-06,
+      "loss": 0.37,
       "step": 40
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.40875306725502014,
+      "eval_runtime": 29.4951,
+      "eval_samples_per_second": 18.613,
+      "eval_steps_per_second": 4.679,
       "step": 41
     },
     {
       "epoch": 1.099585062240664,
+      "grad_norm": 0.042329664384282324,
       "learning_rate": 4.781903063173321e-06,
+      "loss": 0.3745,
       "step": 45
     },
     {
       "epoch": 1.2240663900414939,
+      "grad_norm": 0.042311381287778824,
       "learning_rate": 3.705904774487396e-06,
+      "loss": 0.3656,
       "step": 50
     },
     {
       "epoch": 1.3485477178423237,
+      "grad_norm": 0.04211186999995547,
       "learning_rate": 2.6912569338248317e-06,
+      "loss": 0.3249,
       "step": 55
     },
     {
       "epoch": 1.4730290456431536,
+      "grad_norm": 0.03859377186467179,
       "learning_rate": 1.7860619515673034e-06,
+      "loss": 0.3478,
       "step": 60
     },
     {
       "epoch": 1.5975103734439835,
+      "grad_norm": 0.038411951194646604,
       "learning_rate": 1.0332332985438248e-06,
+      "loss": 0.3441,
       "step": 65
     },
     {
       "epoch": 1.7219917012448134,
+      "grad_norm": 0.036561598740802725,
       "learning_rate": 4.6846106481675035e-07,
+      "loss": 0.3186,
       "step": 70
     },
     {
       "epoch": 1.8464730290456433,
+      "grad_norm": 0.045523136033542085,
       "learning_rate": 1.185199644003332e-07,
+      "loss": 0.3124,
       "step": 75
     },
     {
       "epoch": 1.9709543568464731,
+      "grad_norm": 0.040621614883517274,
       "learning_rate": 0.0,
+      "loss": 0.3367,
       "step": 80
     },
     {
       "epoch": 1.9709543568464731,
+      "eval_loss": 0.4118167757987976,
+      "eval_runtime": 28.4832,
+      "eval_samples_per_second": 19.275,
+      "eval_steps_per_second": 4.845,
       "step": 80
     },
     {
       "epoch": 1.9709543568464731,
       "step": 80,
+      "total_flos": 2.0214124294176768e+17,
+      "train_loss": 0.371533726900816,
+      "train_runtime": 1201.5473,
+      "train_samples_per_second": 3.204,
+      "train_steps_per_second": 0.067
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2.0214124294176768e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa7e3d947f8f4edfc3f04cb89caba20dd5a6e20c1cb687a46d40fa5f37ff6853
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:5091113cdf164b227f0dadd0fa30c76a926f363fc1d6b142a3bca31ae85cc04f
 size 7352