Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

checkpoint-200/adapter_config.json +5 -5
checkpoint-200/adapter_model.safetensors +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/trainer_state.json +57 -57
checkpoint-200/training_args.bin +1 -1
checkpoint-222/adapter_config.json +5 -5
checkpoint-222/adapter_model.safetensors +1 -1
checkpoint-222/optimizer.pt +1 -1
checkpoint-222/trainer_state.json +61 -61
checkpoint-222/training_args.bin +1 -1

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -33,13 +33,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "down_proj",
     "gate_proj",
-    "k_proj",
-    "o_proj",
     "up_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
     "up_proj",
+    "q_proj",
+    "v_proj",
+    "o_proj",
+    "down_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-200/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0282772951453353736e0967b4ea89d7b47e2ecf8554536515db6c05fff1217
 size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:690bee4aed13f9e6515c2ea4fe6300ecc7f09058ad387f2333222aa4f27413a3
 size 528550256

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc39461c6f26c6d4ed2eaaa4d956f7e72506a2d24323a9aeb533f6acb3ec15f4
 size 1057397963

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b382ba39fd819716ef66a215bd75da5b3e16911fd10cca93e7cfd5783eadbd8
 size 1057397963

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -11,174 +11,174 @@
   "log_history": [
     {
       "epoch": 0.04509582863585118,
-      "grad_norm": 6.922087050043046e-05,
       "learning_rate": 3.9130434782608694e-07,
-      "loss": 1.6552,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
-      "grad_norm": 5.8874407841358334e-05,
       "learning_rate": 8.260869565217391e-07,
-      "loss": 1.7092,
       "step": 20
     },
     {
       "epoch": 0.13528748590755355,
-      "grad_norm": 6.833599763922393e-05,
       "learning_rate": 9.97758641300553e-07,
-      "loss": 1.6897,
       "step": 30
     },
     {
       "epoch": 0.18038331454340473,
-      "grad_norm": 5.440233871922828e-05,
       "learning_rate": 9.841341526992535e-07,
-      "loss": 1.9093,
       "step": 40
     },
     {
       "epoch": 0.2254791431792559,
-      "grad_norm": 4.8365614929934964e-05,
       "learning_rate": 9.584688140963944e-07,
-      "loss": 1.5903,
       "step": 50
     },
     {
       "epoch": 0.2254791431792559,
-      "eval_loss": 1.7812488079071045,
-      "eval_runtime": 44.931,
-      "eval_samples_per_second": 4.162,
-      "eval_steps_per_second": 2.092,
       "step": 50
     },
     {
       "epoch": 0.2705749718151071,
-      "grad_norm": 4.5753618906019256e-05,
       "learning_rate": 9.214009454506752e-07,
-      "loss": 1.5573,
       "step": 60
     },
     {
       "epoch": 0.3156708004509583,
-      "grad_norm": 5.378713467507623e-05,
       "learning_rate": 8.738524578558546e-07,
-      "loss": 1.6925,
       "step": 70
     },
     {
       "epoch": 0.36076662908680945,
-      "grad_norm": 4.737311974167824e-05,
       "learning_rate": 8.170059247861193e-07,
-      "loss": 1.6041,
       "step": 80
     },
     {
       "epoch": 0.40586245772266066,
-      "grad_norm": 3.957717854063958e-05,
       "learning_rate": 7.522751704345887e-07,
-      "loss": 1.4225,
       "step": 90
     },
     {
       "epoch": 0.4509582863585118,
-      "grad_norm": 4.50208863185253e-05,
       "learning_rate": 6.812701066393123e-07,
-      "loss": 1.5622,
       "step": 100
     },
     {
       "epoch": 0.4509582863585118,
-      "eval_loss": 1.6484966278076172,
-      "eval_runtime": 44.8144,
-      "eval_samples_per_second": 4.173,
-      "eval_steps_per_second": 2.098,
       "step": 100
     },
     {
       "epoch": 0.496054114994363,
-      "grad_norm": 3.848442429443821e-05,
       "learning_rate": 6.057566929339095e-07,
-      "loss": 1.4544,
       "step": 110
     },
     {
       "epoch": 0.5411499436302142,
-      "grad_norm": 4.51727319159545e-05,
       "learning_rate": 5.27613015552254e-07,
-      "loss": 1.5298,
       "step": 120
     },
     {
       "epoch": 0.5862457722660653,
-      "grad_norm": 1.8444205124978907e-05,
       "learning_rate": 4.4878257774169345e-07,
-      "loss": 1.4496,
       "step": 130
     },
     {
       "epoch": 0.6313416009019166,
-      "grad_norm": 3.5619468690129e-05,
       "learning_rate": 3.7122596309655174e-07,
-      "loss": 1.4476,
       "step": 140
     },
     {
       "epoch": 0.6764374295377678,
-      "grad_norm": 2.6366453312220983e-05,
       "learning_rate": 2.9687207408810555e-07,
-      "loss": 1.4962,
       "step": 150
     },
     {
       "epoch": 0.6764374295377678,
-      "eval_loss": 1.5979645252227783,
-      "eval_runtime": 45.0918,
-      "eval_samples_per_second": 4.147,
-      "eval_steps_per_second": 2.085,
       "step": 150
     },
     {
       "epoch": 0.7215332581736189,
-      "grad_norm": 3.0969211366027594e-05,
       "learning_rate": 2.275701585324649e-07,
-      "loss": 1.374,
       "step": 160
     },
     {
       "epoch": 0.7666290868094702,
-      "grad_norm": 3.294655471108854e-05,
       "learning_rate": 1.6504381714107252e-07,
-      "loss": 1.4554,
       "step": 170
     },
     {
       "epoch": 0.8117249154453213,
-      "grad_norm": 2.8370055588311516e-05,
       "learning_rate": 1.1084813602723514e-07,
-      "loss": 1.4978,
       "step": 180
     },
     {
       "epoch": 0.8568207440811725,
-      "grad_norm": 3.117798769380897e-05,
       "learning_rate": 6.633101032164273e-08,
-      "loss": 1.5816,
       "step": 190
     },
     {
       "epoch": 0.9019165727170236,
-      "grad_norm": 2.8335167371551506e-05,
       "learning_rate": 3.2599620813200835e-08,
-      "loss": 1.484,
       "step": 200
     },
     {
       "epoch": 0.9019165727170236,
-      "eval_loss": 1.5858721733093262,
-      "eval_runtime": 45.0617,
-      "eval_samples_per_second": 4.15,
-      "eval_steps_per_second": 2.086,
       "step": 200
     }
   ],
@@ -199,7 +199,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.1184814522587136e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.04509582863585118,
+      "grad_norm": 7.656381058041006e-05,
       "learning_rate": 3.9130434782608694e-07,
+      "loss": 1.6138,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
+      "grad_norm": 6.489222141681239e-05,
       "learning_rate": 8.260869565217391e-07,
+      "loss": 1.6747,
       "step": 20
     },
     {
       "epoch": 0.13528748590755355,
+      "grad_norm": 6.760261749150231e-05,
       "learning_rate": 9.97758641300553e-07,
+      "loss": 1.6401,
       "step": 30
     },
     {
       "epoch": 0.18038331454340473,
+      "grad_norm": 5.8056666603079066e-05,
       "learning_rate": 9.841341526992535e-07,
+      "loss": 1.8594,
       "step": 40
     },
     {
       "epoch": 0.2254791431792559,
+      "grad_norm": 4.639743929146789e-05,
       "learning_rate": 9.584688140963944e-07,
+      "loss": 1.5358,
       "step": 50
     },
     {
       "epoch": 0.2254791431792559,
+      "eval_loss": 1.7225253582000732,
+      "eval_runtime": 54.904,
+      "eval_samples_per_second": 3.406,
+      "eval_steps_per_second": 1.712,
       "step": 50
     },
     {
       "epoch": 0.2705749718151071,
+      "grad_norm": 4.406080552143976e-05,
       "learning_rate": 9.214009454506752e-07,
+      "loss": 1.5081,
       "step": 60
     },
     {
       "epoch": 0.3156708004509583,
+      "grad_norm": 4.9922884500119835e-05,
       "learning_rate": 8.738524578558546e-07,
+      "loss": 1.6377,
       "step": 70
     },
     {
       "epoch": 0.36076662908680945,
+      "grad_norm": 4.485138924792409e-05,
       "learning_rate": 8.170059247861193e-07,
+      "loss": 1.5535,
       "step": 80
     },
     {
       "epoch": 0.40586245772266066,
+      "grad_norm": 3.757755985134281e-05,
       "learning_rate": 7.522751704345887e-07,
+      "loss": 1.3739,
       "step": 90
     },
     {
       "epoch": 0.4509582863585118,
+      "grad_norm": 4.152490146225318e-05,
       "learning_rate": 6.812701066393123e-07,
+      "loss": 1.5175,
       "step": 100
     },
     {
       "epoch": 0.4509582863585118,
+      "eval_loss": 1.597386360168457,
+      "eval_runtime": 54.3789,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.729,
       "step": 100
     },
     {
       "epoch": 0.496054114994363,
+      "grad_norm": 3.326448131701909e-05,
       "learning_rate": 6.057566929339095e-07,
+      "loss": 1.414,
       "step": 110
     },
     {
       "epoch": 0.5411499436302142,
+      "grad_norm": 3.826636020676233e-05,
       "learning_rate": 5.27613015552254e-07,
+      "loss": 1.4865,
       "step": 120
     },
     {
       "epoch": 0.5862457722660653,
+      "grad_norm": 3.5070326703134924e-05,
       "learning_rate": 4.4878257774169345e-07,
+      "loss": 1.4087,
       "step": 130
     },
     {
       "epoch": 0.6313416009019166,
+      "grad_norm": 3.05857029161416e-05,
       "learning_rate": 3.7122596309655174e-07,
+      "loss": 1.4122,
       "step": 140
     },
     {
       "epoch": 0.6764374295377678,
+      "grad_norm": 2.6550629627308808e-05,
       "learning_rate": 2.9687207408810555e-07,
+      "loss": 1.4691,
       "step": 150
     },
     {
       "epoch": 0.6764374295377678,
+      "eval_loss": 1.5566362142562866,
+      "eval_runtime": 54.2124,
+      "eval_samples_per_second": 3.449,
+      "eval_steps_per_second": 1.734,
       "step": 150
     },
     {
       "epoch": 0.7215332581736189,
+      "grad_norm": 2.8728065444738604e-05,
       "learning_rate": 2.275701585324649e-07,
+      "loss": 1.3447,
       "step": 160
     },
     {
       "epoch": 0.7666290868094702,
+      "grad_norm": 2.87340644717915e-05,
       "learning_rate": 1.6504381714107252e-07,
+      "loss": 1.4244,
       "step": 170
     },
     {
       "epoch": 0.8117249154453213,
+      "grad_norm": 2.3698501536273398e-05,
       "learning_rate": 1.1084813602723514e-07,
+      "loss": 1.4641,
       "step": 180
     },
     {
       "epoch": 0.8568207440811725,
+      "grad_norm": 2.6557932869764045e-05,
       "learning_rate": 6.633101032164273e-08,
+      "loss": 1.5457,
       "step": 190
     },
     {
       "epoch": 0.9019165727170236,
+      "grad_norm": 2.557658990554046e-05,
       "learning_rate": 3.2599620813200835e-08,
+      "loss": 1.4515,
       "step": 200
     },
     {
       "epoch": 0.9019165727170236,
+      "eval_loss": 1.547265648841858,
+      "eval_runtime": 54.2134,
+      "eval_samples_per_second": 3.449,
+      "eval_steps_per_second": 1.734,
       "step": 200
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3.249236263099392e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a42faaba2ea3bd09475b07d4ab88bb954ecf8f4575151097cfb39ccca6d6b99e
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:1577259edf2dee39c9253dceded37e554842038d7b13fec3632015f49fce31ff
 size 5841

checkpoint-222/adapter_config.json CHANGED Viewed

@@ -33,13 +33,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "down_proj",
     "gate_proj",
-    "k_proj",
-    "o_proj",
     "up_proj",
-    "q_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "gate_proj",
     "up_proj",
+    "q_proj",
+    "v_proj",
+    "o_proj",
+    "down_proj",
+    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

checkpoint-222/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:572cffd8bf978a8d938709d8aba0f8a4575a2fc54e01ac992d85aa1d9f07ebb6
 size 528550256

 version https://git-lfs.github.com/spec/v1
+oid sha256:54713618def6179ffa198ff7434de6345a660583c2f65327261f7ab176e0b09d
 size 528550256

checkpoint-222/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa032174334a9133b4c1841cd532fbf420567e2af5c02694172ea7c4b2c831af
 size 1057397963

 version https://git-lfs.github.com/spec/v1
+oid sha256:14b148d42d2443efc60568edc8f2969ee97dd7fd938c699d3e6700a7f798b979
 size 1057397963

checkpoint-222/trainer_state.json CHANGED Viewed

@@ -11,188 +11,188 @@
   "log_history": [
     {
       "epoch": 0.04509582863585118,
-      "grad_norm": 6.922087050043046e-05,
       "learning_rate": 3.9130434782608694e-07,
-      "loss": 1.6552,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
-      "grad_norm": 5.8874407841358334e-05,
       "learning_rate": 8.260869565217391e-07,
-      "loss": 1.7092,
       "step": 20
     },
     {
       "epoch": 0.13528748590755355,
-      "grad_norm": 6.833599763922393e-05,
       "learning_rate": 9.97758641300553e-07,
-      "loss": 1.6897,
       "step": 30
     },
     {
       "epoch": 0.18038331454340473,
-      "grad_norm": 5.440233871922828e-05,
       "learning_rate": 9.841341526992535e-07,
-      "loss": 1.9093,
       "step": 40
     },
     {
       "epoch": 0.2254791431792559,
-      "grad_norm": 4.8365614929934964e-05,
       "learning_rate": 9.584688140963944e-07,
-      "loss": 1.5903,
       "step": 50
     },
     {
       "epoch": 0.2254791431792559,
-      "eval_loss": 1.7812488079071045,
-      "eval_runtime": 44.931,
-      "eval_samples_per_second": 4.162,
-      "eval_steps_per_second": 2.092,
       "step": 50
     },
     {
       "epoch": 0.2705749718151071,
-      "grad_norm": 4.5753618906019256e-05,
       "learning_rate": 9.214009454506752e-07,
-      "loss": 1.5573,
       "step": 60
     },
     {
       "epoch": 0.3156708004509583,
-      "grad_norm": 5.378713467507623e-05,
       "learning_rate": 8.738524578558546e-07,
-      "loss": 1.6925,
       "step": 70
     },
     {
       "epoch": 0.36076662908680945,
-      "grad_norm": 4.737311974167824e-05,
       "learning_rate": 8.170059247861193e-07,
-      "loss": 1.6041,
       "step": 80
     },
     {
       "epoch": 0.40586245772266066,
-      "grad_norm": 3.957717854063958e-05,
       "learning_rate": 7.522751704345887e-07,
-      "loss": 1.4225,
       "step": 90
     },
     {
       "epoch": 0.4509582863585118,
-      "grad_norm": 4.50208863185253e-05,
       "learning_rate": 6.812701066393123e-07,
-      "loss": 1.5622,
       "step": 100
     },
     {
       "epoch": 0.4509582863585118,
-      "eval_loss": 1.6484966278076172,
-      "eval_runtime": 44.8144,
-      "eval_samples_per_second": 4.173,
-      "eval_steps_per_second": 2.098,
       "step": 100
     },
     {
       "epoch": 0.496054114994363,
-      "grad_norm": 3.848442429443821e-05,
       "learning_rate": 6.057566929339095e-07,
-      "loss": 1.4544,
       "step": 110
     },
     {
       "epoch": 0.5411499436302142,
-      "grad_norm": 4.51727319159545e-05,
       "learning_rate": 5.27613015552254e-07,
-      "loss": 1.5298,
       "step": 120
     },
     {
       "epoch": 0.5862457722660653,
-      "grad_norm": 1.8444205124978907e-05,
       "learning_rate": 4.4878257774169345e-07,
-      "loss": 1.4496,
       "step": 130
     },
     {
       "epoch": 0.6313416009019166,
-      "grad_norm": 3.5619468690129e-05,
       "learning_rate": 3.7122596309655174e-07,
-      "loss": 1.4476,
       "step": 140
     },
     {
       "epoch": 0.6764374295377678,
-      "grad_norm": 2.6366453312220983e-05,
       "learning_rate": 2.9687207408810555e-07,
-      "loss": 1.4962,
       "step": 150
     },
     {
       "epoch": 0.6764374295377678,
-      "eval_loss": 1.5979645252227783,
-      "eval_runtime": 45.0918,
-      "eval_samples_per_second": 4.147,
-      "eval_steps_per_second": 2.085,
       "step": 150
     },
     {
       "epoch": 0.7215332581736189,
-      "grad_norm": 3.0969211366027594e-05,
       "learning_rate": 2.275701585324649e-07,
-      "loss": 1.374,
       "step": 160
     },
     {
       "epoch": 0.7666290868094702,
-      "grad_norm": 3.294655471108854e-05,
       "learning_rate": 1.6504381714107252e-07,
-      "loss": 1.4554,
       "step": 170
     },
     {
       "epoch": 0.8117249154453213,
-      "grad_norm": 2.8370055588311516e-05,
       "learning_rate": 1.1084813602723514e-07,
-      "loss": 1.4978,
       "step": 180
     },
     {
       "epoch": 0.8568207440811725,
-      "grad_norm": 3.117798769380897e-05,
       "learning_rate": 6.633101032164273e-08,
-      "loss": 1.5816,
       "step": 190
     },
     {
       "epoch": 0.9019165727170236,
-      "grad_norm": 2.8335167371551506e-05,
       "learning_rate": 3.2599620813200835e-08,
-      "loss": 1.484,
       "step": 200
     },
     {
       "epoch": 0.9019165727170236,
-      "eval_loss": 1.5858721733093262,
-      "eval_runtime": 45.0617,
-      "eval_samples_per_second": 4.15,
-      "eval_steps_per_second": 2.086,
       "step": 200
     },
     {
       "epoch": 0.9470124013528749,
-      "grad_norm": 3.576183371478692e-05,
       "learning_rate": 1.0492897371142728e-08,
-      "loss": 1.3657,
       "step": 210
     },
     {
       "epoch": 0.992108229988726,
-      "grad_norm": 3.1967378163244575e-05,
       "learning_rate": 5.606540077782162e-10,
-      "loss": 1.5348,
       "step": 220
     }
   ],
@@ -213,7 +213,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.4466834382336e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.04509582863585118,
+      "grad_norm": 7.656381058041006e-05,
       "learning_rate": 3.9130434782608694e-07,
+      "loss": 1.6138,
       "step": 10
     },
     {
       "epoch": 0.09019165727170236,
+      "grad_norm": 6.489222141681239e-05,
       "learning_rate": 8.260869565217391e-07,
+      "loss": 1.6747,
       "step": 20
     },
     {
       "epoch": 0.13528748590755355,
+      "grad_norm": 6.760261749150231e-05,
       "learning_rate": 9.97758641300553e-07,
+      "loss": 1.6401,
       "step": 30
     },
     {
       "epoch": 0.18038331454340473,
+      "grad_norm": 5.8056666603079066e-05,
       "learning_rate": 9.841341526992535e-07,
+      "loss": 1.8594,
       "step": 40
     },
     {
       "epoch": 0.2254791431792559,
+      "grad_norm": 4.639743929146789e-05,
       "learning_rate": 9.584688140963944e-07,
+      "loss": 1.5358,
       "step": 50
     },
     {
       "epoch": 0.2254791431792559,
+      "eval_loss": 1.7225253582000732,
+      "eval_runtime": 54.904,
+      "eval_samples_per_second": 3.406,
+      "eval_steps_per_second": 1.712,
       "step": 50
     },
     {
       "epoch": 0.2705749718151071,
+      "grad_norm": 4.406080552143976e-05,
       "learning_rate": 9.214009454506752e-07,
+      "loss": 1.5081,
       "step": 60
     },
     {
       "epoch": 0.3156708004509583,
+      "grad_norm": 4.9922884500119835e-05,
       "learning_rate": 8.738524578558546e-07,
+      "loss": 1.6377,
       "step": 70
     },
     {
       "epoch": 0.36076662908680945,
+      "grad_norm": 4.485138924792409e-05,
       "learning_rate": 8.170059247861193e-07,
+      "loss": 1.5535,
       "step": 80
     },
     {
       "epoch": 0.40586245772266066,
+      "grad_norm": 3.757755985134281e-05,
       "learning_rate": 7.522751704345887e-07,
+      "loss": 1.3739,
       "step": 90
     },
     {
       "epoch": 0.4509582863585118,
+      "grad_norm": 4.152490146225318e-05,
       "learning_rate": 6.812701066393123e-07,
+      "loss": 1.5175,
       "step": 100
     },
     {
       "epoch": 0.4509582863585118,
+      "eval_loss": 1.597386360168457,
+      "eval_runtime": 54.3789,
+      "eval_samples_per_second": 3.439,
+      "eval_steps_per_second": 1.729,
       "step": 100
     },
     {
       "epoch": 0.496054114994363,
+      "grad_norm": 3.326448131701909e-05,
       "learning_rate": 6.057566929339095e-07,
+      "loss": 1.414,
       "step": 110
     },
     {
       "epoch": 0.5411499436302142,
+      "grad_norm": 3.826636020676233e-05,
       "learning_rate": 5.27613015552254e-07,
+      "loss": 1.4865,
       "step": 120
     },
     {
       "epoch": 0.5862457722660653,
+      "grad_norm": 3.5070326703134924e-05,
       "learning_rate": 4.4878257774169345e-07,
+      "loss": 1.4087,
       "step": 130
     },
     {
       "epoch": 0.6313416009019166,
+      "grad_norm": 3.05857029161416e-05,
       "learning_rate": 3.7122596309655174e-07,
+      "loss": 1.4122,
       "step": 140
     },
     {
       "epoch": 0.6764374295377678,
+      "grad_norm": 2.6550629627308808e-05,
       "learning_rate": 2.9687207408810555e-07,
+      "loss": 1.4691,
       "step": 150
     },
     {
       "epoch": 0.6764374295377678,
+      "eval_loss": 1.5566362142562866,
+      "eval_runtime": 54.2124,
+      "eval_samples_per_second": 3.449,
+      "eval_steps_per_second": 1.734,
       "step": 150
     },
     {
       "epoch": 0.7215332581736189,
+      "grad_norm": 2.8728065444738604e-05,
       "learning_rate": 2.275701585324649e-07,
+      "loss": 1.3447,
       "step": 160
     },
     {
       "epoch": 0.7666290868094702,
+      "grad_norm": 2.87340644717915e-05,
       "learning_rate": 1.6504381714107252e-07,
+      "loss": 1.4244,
       "step": 170
     },
     {
       "epoch": 0.8117249154453213,
+      "grad_norm": 2.3698501536273398e-05,
       "learning_rate": 1.1084813602723514e-07,
+      "loss": 1.4641,
       "step": 180
     },
     {
       "epoch": 0.8568207440811725,
+      "grad_norm": 2.6557932869764045e-05,
       "learning_rate": 6.633101032164273e-08,
+      "loss": 1.5457,
       "step": 190
     },
     {
       "epoch": 0.9019165727170236,
+      "grad_norm": 2.557658990554046e-05,
       "learning_rate": 3.2599620813200835e-08,
+      "loss": 1.4515,
       "step": 200
     },
     {
       "epoch": 0.9019165727170236,
+      "eval_loss": 1.547265648841858,
+      "eval_runtime": 54.2134,
+      "eval_samples_per_second": 3.449,
+      "eval_steps_per_second": 1.734,
       "step": 200
     },
     {
       "epoch": 0.9470124013528749,
+      "grad_norm": 2.975752249767538e-05,
       "learning_rate": 1.0492897371142728e-08,
+      "loss": 1.3338,
       "step": 210
     },
     {
       "epoch": 0.992108229988726,
+      "grad_norm": 2.890920586651191e-05,
       "learning_rate": 5.606540077782162e-10,
+      "loss": 1.5025,
       "step": 220
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 3.5912091671706624e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

checkpoint-222/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a42faaba2ea3bd09475b07d4ab88bb954ecf8f4575151097cfb39ccca6d6b99e
 size 5841

 version https://git-lfs.github.com/spec/v1
+oid sha256:1577259edf2dee39c9253dceded37e554842038d7b13fec3632015f49fce31ff
 size 5841