Rubywong123 commited on Aug 6, 2025

Commit

e715d4c

verified ·

1 Parent(s): 5b0ee6d

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

all_results.json +6 -6
checkpoint-82/global_step81/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
checkpoint-82/global_step81/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
checkpoint-82/global_step81/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
checkpoint-82/global_step81/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +1 -1
checkpoint-82/model-00001-of-00004.safetensors +1 -1
checkpoint-82/model-00002-of-00004.safetensors +1 -1
checkpoint-82/model-00003-of-00004.safetensors +1 -1
checkpoint-82/model-00004-of-00004.safetensors +1 -1
checkpoint-82/trainer_state.json +43 -43
checkpoint-82/training_args.bin +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +6 -6
trainer_state.json +48 -48
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.97165991902834,
-    "total_flos": 2.060122896507863e+17,
-    "train_loss": 0.3745692343246646,
-    "train_runtime": 1139.0785,
-    "train_samples": 1973,
-    "train_samples_per_second": 3.464,
-    "train_steps_per_second": 0.072
 }

 {
     "epoch": 1.97165991902834,
+    "total_flos": 2.0517622997476966e+17,
+    "train_loss": 0.37475141192354805,
+    "train_runtime": 2614.8185,
+    "train_samples": 1975,
+    "train_samples_per_second": 1.511,
+    "train_steps_per_second": 0.031
 }

checkpoint-82/global_step81/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:143394608decbe9339288031e9faceb467aa98b43f353d87525b1786d5e09332
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:772be605f016e386297e126ecd911a98b240109d72e4a8b97919ffb8eedfdd2d
 size 24090788620

checkpoint-82/global_step81/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:335146e66f1707b9b859c602dfd8e0c543c204505547b7a8b601e67d12d2f0e6
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3cb9e233ac73dbe5a67f97dec86d2c76ed1acbd4ca8ce3392a7e31772361dab
 size 24090788620

checkpoint-82/global_step81/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d3c23436c5666be9bd4adbf7c2763c464636b62b2118db073fd8f382465045e
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:02736f4157c8085c75b68cb549638ac5d39448b25ef04ea0377a4f804c8cff73
 size 24090788620

checkpoint-82/global_step81/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:661a4c40af871e41613b232059f1ab1ee64fd650f5f24c07f256fc7b5e0c69ba
 size 24090788620

 version https://git-lfs.github.com/spec/v1
+oid sha256:460c7a5d71d407d520aaefa94da8f760d17187f357666759932c09348b5bc2dc
 size 24090788620

checkpoint-82/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8da71067fd24903a5f239e83499aa649fb0b58e78a0a859b57168ff929a8c79
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:a58e68ae154c51fb0115916614d01959b36487afc2856929e63494251406ba18
 size 4976698672

checkpoint-82/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b26df981b0a4e517baf613afd3a2ab28e48bdc9161575bac6b6c62e992af4b5c
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:429d1ab50399348d9ac22648c8f785528d4e4c84e24cd5b295fbdd0656119bce
 size 4999802720

checkpoint-82/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8208a999548f9326ceea1d7e4c955f7e1f4213cc1dbf5464bbe280afa81fdc2a
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aa816c1409c3ea4825672525d1f7e14467e63e6bc3970d9a330c6af794dbbd1
 size 4915916176

checkpoint-82/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06694afd06a3dee719db9b30789880e2db55c0c76e35d1fd6bb5f9f00f4d259e
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:91585421d6f1c79a45c2b306b2310915478a949300d121910cb8f69856b08dee
 size 1168138808

checkpoint-82/trainer_state.json CHANGED Viewed

@@ -10,137 +10,137 @@
   "log_history": [
     {
       "epoch": 0.024291497975708502,
-      "grad_norm": 0.11209844991800896,
       "learning_rate": 1.111111111111111e-06,
-      "loss": 0.4775,
       "step": 1
     },
     {
       "epoch": 0.1214574898785425,
-      "grad_norm": 0.08382199120821986,
       "learning_rate": 5.555555555555557e-06,
-      "loss": 0.4599,
       "step": 5
     },
     {
       "epoch": 0.242914979757085,
-      "grad_norm": 0.07640751074808542,
       "learning_rate": 9.995370575511151e-06,
-      "loss": 0.3905,
       "step": 10
     },
     {
       "epoch": 0.3643724696356275,
-      "grad_norm": 0.07013064191404028,
       "learning_rate": 9.834239068026388e-06,
-      "loss": 0.4121,
       "step": 15
     },
     {
       "epoch": 0.48582995951417,
-      "grad_norm": 0.057718125703579023,
       "learning_rate": 9.450137882173385e-06,
-      "loss": 0.3976,
       "step": 20
     },
     {
       "epoch": 0.6072874493927125,
-      "grad_norm": 0.054712718743830574,
       "learning_rate": 8.860782922495821e-06,
-      "loss": 0.4166,
       "step": 25
     },
     {
       "epoch": 0.728744939271255,
-      "grad_norm": 0.05369672316503755,
       "learning_rate": 8.093357016312518e-06,
-      "loss": 0.4158,
       "step": 30
     },
     {
       "epoch": 0.8502024291497976,
-      "grad_norm": 0.059354108055340686,
       "learning_rate": 7.183256159780321e-06,
-      "loss": 0.3999,
       "step": 35
     },
     {
       "epoch": 0.97165991902834,
-      "grad_norm": 0.048784304812542124,
       "learning_rate": 6.1724569478520495e-06,
-      "loss": 0.3717,
       "step": 40
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.4079369306564331,
-      "eval_runtime": 28.3728,
-      "eval_samples_per_second": 19.35,
-      "eval_steps_per_second": 4.864,
       "step": 42
     },
     {
       "epoch": 1.0728744939271255,
-      "grad_norm": 0.04604995737556533,
       "learning_rate": 5.107580487181112e-06,
-      "loss": 0.3224,
       "step": 45
     },
     {
       "epoch": 1.194331983805668,
-      "grad_norm": 0.04192353362499278,
       "learning_rate": 4.037742090145851e-06,
-      "loss": 0.3723,
       "step": 50
     },
     {
       "epoch": 1.3157894736842106,
-      "grad_norm": 0.04224220843535167,
       "learning_rate": 3.0122859285872214e-06,
-      "loss": 0.3359,
       "step": 55
     },
     {
       "epoch": 1.4372469635627532,
-      "grad_norm": 0.048275248650347574,
       "learning_rate": 2.0785091318581577e-06,
-      "loss": 0.3142,
       "step": 60
     },
     {
       "epoch": 1.5587044534412957,
-      "grad_norm": 0.04406728850959383,
       "learning_rate": 1.2794803006431984e-06,
-      "loss": 0.3507,
       "step": 65
     },
     {
       "epoch": 1.680161943319838,
-      "grad_norm": 0.04494931344151913,
       "learning_rate": 6.52053053266945e-07,
-      "loss": 0.3408,
       "step": 70
     },
     {
       "epoch": 1.8016194331983806,
-      "grad_norm": 0.053669633291877746,
       "learning_rate": 2.2516622572372416e-07,
-      "loss": 0.3379,
       "step": 75
     },
     {
       "epoch": 1.9230769230769231,
-      "grad_norm": 0.0424593640450628,
       "learning_rate": 1.850912532696092e-08,
-      "loss": 0.3454,
       "step": 80
     },
     {
       "epoch": 1.97165991902834,
-      "eval_loss": 0.412166029214859,
-      "eval_runtime": 28.3377,
-      "eval_samples_per_second": 19.373,
-      "eval_steps_per_second": 4.87,
       "step": 82
     }
   ],
@@ -161,7 +161,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.060122896507863e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.024291497975708502,
+      "grad_norm": 0.09191887920247531,
       "learning_rate": 1.111111111111111e-06,
+      "loss": 0.4142,
       "step": 1
     },
     {
       "epoch": 0.1214574898785425,
+      "grad_norm": 0.09020457134242624,
       "learning_rate": 5.555555555555557e-06,
+      "loss": 0.4433,
       "step": 5
     },
     {
       "epoch": 0.242914979757085,
+      "grad_norm": 0.0766066808817807,
       "learning_rate": 9.995370575511151e-06,
+      "loss": 0.4128,
       "step": 10
     },
     {
       "epoch": 0.3643724696356275,
+      "grad_norm": 0.06441683314911666,
       "learning_rate": 9.834239068026388e-06,
+      "loss": 0.4322,
       "step": 15
     },
     {
       "epoch": 0.48582995951417,
+      "grad_norm": 0.055907229466585676,
       "learning_rate": 9.450137882173385e-06,
+      "loss": 0.4369,
       "step": 20
     },
     {
       "epoch": 0.6072874493927125,
+      "grad_norm": 0.04914388925866741,
       "learning_rate": 8.860782922495821e-06,
+      "loss": 0.3921,
       "step": 25
     },
     {
       "epoch": 0.728744939271255,
+      "grad_norm": 0.0453987667724486,
       "learning_rate": 8.093357016312518e-06,
+      "loss": 0.3694,
       "step": 30
     },
     {
       "epoch": 0.8502024291497976,
+      "grad_norm": 0.053149652003049455,
       "learning_rate": 7.183256159780321e-06,
+      "loss": 0.3811,
       "step": 35
     },
     {
       "epoch": 0.97165991902834,
+      "grad_norm": 0.04557625788490129,
       "learning_rate": 6.1724569478520495e-06,
+      "loss": 0.391,
       "step": 40
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.40577438473701477,
+      "eval_runtime": 89.9891,
+      "eval_samples_per_second": 6.101,
+      "eval_steps_per_second": 1.534,
       "step": 42
     },
     {
       "epoch": 1.0728744939271255,
+      "grad_norm": 0.04223782838268721,
       "learning_rate": 5.107580487181112e-06,
+      "loss": 0.3726,
       "step": 45
     },
     {
       "epoch": 1.194331983805668,
+      "grad_norm": 0.04745008341707443,
       "learning_rate": 4.037742090145851e-06,
+      "loss": 0.3255,
       "step": 50
     },
     {
       "epoch": 1.3157894736842106,
+      "grad_norm": 0.044998456767885005,
       "learning_rate": 3.0122859285872214e-06,
+      "loss": 0.2935,
       "step": 55
     },
     {
       "epoch": 1.4372469635627532,
+      "grad_norm": 0.047569447760125,
       "learning_rate": 2.0785091318581577e-06,
+      "loss": 0.3633,
       "step": 60
     },
     {
       "epoch": 1.5587044534412957,
+      "grad_norm": 0.042433025378520894,
       "learning_rate": 1.2794803006431984e-06,
+      "loss": 0.3413,
       "step": 65
     },
     {
       "epoch": 1.680161943319838,
+      "grad_norm": 0.04190184177466641,
       "learning_rate": 6.52053053266945e-07,
+      "loss": 0.3395,
       "step": 70
     },
     {
       "epoch": 1.8016194331983806,
+      "grad_norm": 0.043317378643889536,
       "learning_rate": 2.2516622572372416e-07,
+      "loss": 0.3358,
       "step": 75
     },
     {
       "epoch": 1.9230769230769231,
+      "grad_norm": 0.04222433691390119,
       "learning_rate": 1.850912532696092e-08,
+      "loss": 0.3539,
       "step": 80
     },
     {
       "epoch": 1.97165991902834,
+      "eval_loss": 0.41050779819488525,
+      "eval_runtime": 89.729,
+      "eval_samples_per_second": 6.118,
+      "eval_steps_per_second": 1.538,
       "step": 82
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 2.0517622997476966e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

checkpoint-82/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03e4bc04a3bba6a6d9b09b78696c097c266ac9301b7239ff4c31b2fd311ec38d
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b0a5ee5ef482c791ec4ed3e641536e91563b5072f53f5b35f73788e3114fef8
 size 7352

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a8da71067fd24903a5f239e83499aa649fb0b58e78a0a859b57168ff929a8c79
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:a58e68ae154c51fb0115916614d01959b36487afc2856929e63494251406ba18
 size 4976698672

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b26df981b0a4e517baf613afd3a2ab28e48bdc9161575bac6b6c62e992af4b5c
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:429d1ab50399348d9ac22648c8f785528d4e4c84e24cd5b295fbdd0656119bce
 size 4999802720

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8208a999548f9326ceea1d7e4c955f7e1f4213cc1dbf5464bbe280afa81fdc2a
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:6aa816c1409c3ea4825672525d1f7e14467e63e6bc3970d9a330c6af794dbbd1
 size 4915916176

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06694afd06a3dee719db9b30789880e2db55c0c76e35d1fd6bb5f9f00f4d259e
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:91585421d6f1c79a45c2b306b2310915478a949300d121910cb8f69856b08dee
 size 1168138808

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 1.97165991902834,
-    "total_flos": 2.060122896507863e+17,
-    "train_loss": 0.3745692343246646,
-    "train_runtime": 1139.0785,
-    "train_samples": 1973,
-    "train_samples_per_second": 3.464,
-    "train_steps_per_second": 0.072
 }

 {
     "epoch": 1.97165991902834,
+    "total_flos": 2.0517622997476966e+17,
+    "train_loss": 0.37475141192354805,
+    "train_runtime": 2614.8185,
+    "train_samples": 1975,
+    "train_samples_per_second": 1.511,
+    "train_steps_per_second": 0.031
 }

trainer_state.json CHANGED Viewed

@@ -10,147 +10,147 @@
   "log_history": [
     {
       "epoch": 0.024291497975708502,
-      "grad_norm": 0.11209844991800896,
       "learning_rate": 1.111111111111111e-06,
-      "loss": 0.4775,
       "step": 1
     },
     {
       "epoch": 0.1214574898785425,
-      "grad_norm": 0.08382199120821986,
       "learning_rate": 5.555555555555557e-06,
-      "loss": 0.4599,
       "step": 5
     },
     {
       "epoch": 0.242914979757085,
-      "grad_norm": 0.07640751074808542,
       "learning_rate": 9.995370575511151e-06,
-      "loss": 0.3905,
       "step": 10
     },
     {
       "epoch": 0.3643724696356275,
-      "grad_norm": 0.07013064191404028,
       "learning_rate": 9.834239068026388e-06,
-      "loss": 0.4121,
       "step": 15
     },
     {
       "epoch": 0.48582995951417,
-      "grad_norm": 0.057718125703579023,
       "learning_rate": 9.450137882173385e-06,
-      "loss": 0.3976,
       "step": 20
     },
     {
       "epoch": 0.6072874493927125,
-      "grad_norm": 0.054712718743830574,
       "learning_rate": 8.860782922495821e-06,
-      "loss": 0.4166,
       "step": 25
     },
     {
       "epoch": 0.728744939271255,
-      "grad_norm": 0.05369672316503755,
       "learning_rate": 8.093357016312518e-06,
-      "loss": 0.4158,
       "step": 30
     },
     {
       "epoch": 0.8502024291497976,
-      "grad_norm": 0.059354108055340686,
       "learning_rate": 7.183256159780321e-06,
-      "loss": 0.3999,
       "step": 35
     },
     {
       "epoch": 0.97165991902834,
-      "grad_norm": 0.048784304812542124,
       "learning_rate": 6.1724569478520495e-06,
-      "loss": 0.3717,
       "step": 40
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.4079369306564331,
-      "eval_runtime": 28.3728,
-      "eval_samples_per_second": 19.35,
-      "eval_steps_per_second": 4.864,
       "step": 42
     },
     {
       "epoch": 1.0728744939271255,
-      "grad_norm": 0.04604995737556533,
       "learning_rate": 5.107580487181112e-06,
-      "loss": 0.3224,
       "step": 45
     },
     {
       "epoch": 1.194331983805668,
-      "grad_norm": 0.04192353362499278,
       "learning_rate": 4.037742090145851e-06,
-      "loss": 0.3723,
       "step": 50
     },
     {
       "epoch": 1.3157894736842106,
-      "grad_norm": 0.04224220843535167,
       "learning_rate": 3.0122859285872214e-06,
-      "loss": 0.3359,
       "step": 55
     },
     {
       "epoch": 1.4372469635627532,
-      "grad_norm": 0.048275248650347574,
       "learning_rate": 2.0785091318581577e-06,
-      "loss": 0.3142,
       "step": 60
     },
     {
       "epoch": 1.5587044534412957,
-      "grad_norm": 0.04406728850959383,
       "learning_rate": 1.2794803006431984e-06,
-      "loss": 0.3507,
       "step": 65
     },
     {
       "epoch": 1.680161943319838,
-      "grad_norm": 0.04494931344151913,
       "learning_rate": 6.52053053266945e-07,
-      "loss": 0.3408,
       "step": 70
     },
     {
       "epoch": 1.8016194331983806,
-      "grad_norm": 0.053669633291877746,
       "learning_rate": 2.2516622572372416e-07,
-      "loss": 0.3379,
       "step": 75
     },
     {
       "epoch": 1.9230769230769231,
-      "grad_norm": 0.0424593640450628,
       "learning_rate": 1.850912532696092e-08,
-      "loss": 0.3454,
       "step": 80
     },
     {
       "epoch": 1.97165991902834,
-      "eval_loss": 0.412166029214859,
-      "eval_runtime": 28.3377,
-      "eval_samples_per_second": 19.373,
-      "eval_steps_per_second": 4.87,
       "step": 82
     },
     {
       "epoch": 1.97165991902834,
       "step": 82,
-      "total_flos": 2.060122896507863e+17,
-      "train_loss": 0.3745692343246646,
-      "train_runtime": 1139.0785,
-      "train_samples_per_second": 3.464,
-      "train_steps_per_second": 0.072
     }
   ],
   "logging_steps": 5,
@@ -170,7 +170,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.060122896507863e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.024291497975708502,
+      "grad_norm": 0.09191887920247531,
       "learning_rate": 1.111111111111111e-06,
+      "loss": 0.4142,
       "step": 1
     },
     {
       "epoch": 0.1214574898785425,
+      "grad_norm": 0.09020457134242624,
       "learning_rate": 5.555555555555557e-06,
+      "loss": 0.4433,
       "step": 5
     },
     {
       "epoch": 0.242914979757085,
+      "grad_norm": 0.0766066808817807,
       "learning_rate": 9.995370575511151e-06,
+      "loss": 0.4128,
       "step": 10
     },
     {
       "epoch": 0.3643724696356275,
+      "grad_norm": 0.06441683314911666,
       "learning_rate": 9.834239068026388e-06,
+      "loss": 0.4322,
       "step": 15
     },
     {
       "epoch": 0.48582995951417,
+      "grad_norm": 0.055907229466585676,
       "learning_rate": 9.450137882173385e-06,
+      "loss": 0.4369,
       "step": 20
     },
     {
       "epoch": 0.6072874493927125,
+      "grad_norm": 0.04914388925866741,
       "learning_rate": 8.860782922495821e-06,
+      "loss": 0.3921,
       "step": 25
     },
     {
       "epoch": 0.728744939271255,
+      "grad_norm": 0.0453987667724486,
       "learning_rate": 8.093357016312518e-06,
+      "loss": 0.3694,
       "step": 30
     },
     {
       "epoch": 0.8502024291497976,
+      "grad_norm": 0.053149652003049455,
       "learning_rate": 7.183256159780321e-06,
+      "loss": 0.3811,
       "step": 35
     },
     {
       "epoch": 0.97165991902834,
+      "grad_norm": 0.04557625788490129,
       "learning_rate": 6.1724569478520495e-06,
+      "loss": 0.391,
       "step": 40
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.40577438473701477,
+      "eval_runtime": 89.9891,
+      "eval_samples_per_second": 6.101,
+      "eval_steps_per_second": 1.534,
       "step": 42
     },
     {
       "epoch": 1.0728744939271255,
+      "grad_norm": 0.04223782838268721,
       "learning_rate": 5.107580487181112e-06,
+      "loss": 0.3726,
       "step": 45
     },
     {
       "epoch": 1.194331983805668,
+      "grad_norm": 0.04745008341707443,
       "learning_rate": 4.037742090145851e-06,
+      "loss": 0.3255,
       "step": 50
     },
     {
       "epoch": 1.3157894736842106,
+      "grad_norm": 0.044998456767885005,
       "learning_rate": 3.0122859285872214e-06,
+      "loss": 0.2935,
       "step": 55
     },
     {
       "epoch": 1.4372469635627532,
+      "grad_norm": 0.047569447760125,
       "learning_rate": 2.0785091318581577e-06,
+      "loss": 0.3633,
       "step": 60
     },
     {
       "epoch": 1.5587044534412957,
+      "grad_norm": 0.042433025378520894,
       "learning_rate": 1.2794803006431984e-06,
+      "loss": 0.3413,
       "step": 65
     },
     {
       "epoch": 1.680161943319838,
+      "grad_norm": 0.04190184177466641,
       "learning_rate": 6.52053053266945e-07,
+      "loss": 0.3395,
       "step": 70
     },
     {
       "epoch": 1.8016194331983806,
+      "grad_norm": 0.043317378643889536,
       "learning_rate": 2.2516622572372416e-07,
+      "loss": 0.3358,
       "step": 75
     },
     {
       "epoch": 1.9230769230769231,
+      "grad_norm": 0.04222433691390119,
       "learning_rate": 1.850912532696092e-08,
+      "loss": 0.3539,
       "step": 80
     },
     {
       "epoch": 1.97165991902834,
+      "eval_loss": 0.41050779819488525,
+      "eval_runtime": 89.729,
+      "eval_samples_per_second": 6.118,
+      "eval_steps_per_second": 1.538,
       "step": 82
     },
     {
       "epoch": 1.97165991902834,
       "step": 82,
+      "total_flos": 2.0517622997476966e+17,
+      "train_loss": 0.37475141192354805,
+      "train_runtime": 2614.8185,
+      "train_samples_per_second": 1.511,
+      "train_steps_per_second": 0.031
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 2.0517622997476966e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03e4bc04a3bba6a6d9b09b78696c097c266ac9301b7239ff4c31b2fd311ec38d
 size 7352

 version https://git-lfs.github.com/spec/v1
+oid sha256:7b0a5ee5ef482c791ec4ed3e641536e91563b5072f53f5b35f73788e3114fef8
 size 7352