Upload checkpoint-10

Browse files

Files changed (4) hide show

model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
trainer_state.json +44 -44
training_args.bin +1 -1

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4721a01483f7065db72b29b30aa41a3725f3f05915222afc01df7d6721252a2e
 size 4967215360

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b0616d6995cb0a2d8a87cb072d6b0443d270c09c33ae0344998125b465437f2
 size 4967215360

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7289f6a4e673567a87134a0317484d859a53f28e3b7f77992c12b15f7a3b8fa
 size 3077766632

 version https://git-lfs.github.com/spec/v1
+oid sha256:eca23c3679dd115d780573bc11162be9b0ddf6a3e882df94185b6353054704cf
 size 3077766632

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.583941605839416,
   "eval_steps": 1000,
   "global_step": 10,
   "is_hyper_param_search": false,
@@ -10,80 +10,80 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.058394160583941604,
-      "grad_norm": 4.656690719780717,
       "learning_rate": 0.0,
-      "loss": 0.4427,
       "step": 1
     },
     {
-      "epoch": 0.11678832116788321,
-      "grad_norm": 4.86023891396574,
-      "learning_rate": 1.6666666666666667e-06,
-      "loss": 0.4479,
       "step": 2
     },
     {
-      "epoch": 0.17518248175182483,
-      "grad_norm": 4.720432036194861,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.438,
       "step": 3
     },
     {
-      "epoch": 0.23357664233576642,
-      "grad_norm": 2.7065388639758448,
-      "learning_rate": 5e-06,
-      "loss": 0.4169,
       "step": 4
     },
     {
-      "epoch": 0.291970802919708,
-      "grad_norm": 2.1869690387653904,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.4031,
       "step": 5
     },
     {
-      "epoch": 0.35036496350364965,
-      "grad_norm": 1.6374910771466962,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.3685,
       "step": 6
     },
     {
-      "epoch": 0.40875912408759124,
-      "grad_norm": 1.5026227694746652,
-      "learning_rate": 1e-05,
-      "loss": 0.3638,
       "step": 7
     },
     {
-      "epoch": 0.46715328467153283,
-      "grad_norm": 1.7874379044083826,
-      "learning_rate": 9.987820251299121e-06,
-      "loss": 0.3384,
       "step": 8
     },
     {
-      "epoch": 0.5255474452554745,
-      "grad_norm": 1.399545646496995,
-      "learning_rate": 9.951340343707852e-06,
-      "loss": 0.3199,
       "step": 9
     },
     {
-      "epoch": 0.583941605839416,
-      "grad_norm": 0.9591867357924391,
-      "learning_rate": 9.890738003669029e-06,
-      "loss": 0.3052,
       "step": 10
     }
   ],
   "logging_steps": 1,
-  "max_steps": 51,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -97,8 +97,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 24520370946048.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.03707136237256719,
   "eval_steps": 1000,
   "global_step": 10,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0037071362372567192,
+      "grad_norm": 4.805793835959296,
       "learning_rate": 0.0,
+      "loss": 0.4732,
       "step": 1
     },
     {
+      "epoch": 0.0074142724745134385,
+      "grad_norm": 4.999676761082255,
+      "learning_rate": 1.8518518518518518e-07,
+      "loss": 0.5107,
       "step": 2
     },
     {
+      "epoch": 0.011121408711770158,
+      "grad_norm": 4.864588159866656,
+      "learning_rate": 3.7037037037037036e-07,
+      "loss": 0.4708,
       "step": 3
     },
     {
+      "epoch": 0.014828544949026877,
+      "grad_norm": 5.136331269447859,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 0.5024,
       "step": 4
     },
     {
+      "epoch": 0.018535681186283594,
+      "grad_norm": 4.731519955515801,
+      "learning_rate": 7.407407407407407e-07,
+      "loss": 0.4598,
       "step": 5
     },
     {
+      "epoch": 0.022242817423540315,
+      "grad_norm": 4.567784280784228,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.4717,
       "step": 6
     },
     {
+      "epoch": 0.025949953660797033,
+      "grad_norm": 4.522993398842187,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.4649,
       "step": 7
     },
     {
+      "epoch": 0.029657089898053754,
+      "grad_norm": 2.864282407749261,
+      "learning_rate": 1.2962962962962962e-06,
+      "loss": 0.4499,
       "step": 8
     },
     {
+      "epoch": 0.033364226135310475,
+      "grad_norm": 2.781272716749165,
+      "learning_rate": 1.4814814814814815e-06,
+      "loss": 0.4952,
       "step": 9
     },
     {
+      "epoch": 0.03707136237256719,
+      "grad_norm": 2.546317122615437,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.4487,
       "step": 10
     }
   ],
   "logging_steps": 1,
+  "max_steps": 538,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 2880521601024.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53c6f4efddf302c1bffd66ab18844ca3866955a21ba82011ba2b03f6c0e75c9d
 size 7672

 version https://git-lfs.github.com/spec/v1
+oid sha256:a64ffa12d6705d8296a8b6f2566b231894f0a3dd59a90b16aa729e1533fd4fa8
 size 7672