Training in progress, step 400, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +124 -4

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e518767161c6b3fd6ef8ef726dc7bf3af87f7bb1519146c47dd7d0c283186f5b
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:67708b17aa8ae31fb85a04177716cbfbb8b7425f052006d954bae0522c6f8bee
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20237dae51bbcf7eaa43919889030f143f9e8a15e84b1f5cf442d4a825a7f70b
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee66416d8bfe4367c4aeb4cf6600df9a1ca0e261e23a542692948c4fb197ec85
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 96.0,
   "eval_steps": 16,
-  "global_step": 384,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2888,6 +2888,126 @@
       "eval_samples_per_second": 17.094,
       "eval_steps_per_second": 17.094,
       "step": 384
     }
   ],
   "logging_steps": 1,
@@ -2902,12 +3022,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.2878715456847872e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 100.0,
   "eval_steps": 16,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.094,
       "eval_steps_per_second": 17.094,
       "step": 384
+    },
+    {
+      "epoch": 96.2909090909091,
+      "grad_norm": 3.1493375301361084,
+      "learning_rate": 1.0437936906629333e-08,
+      "loss": 0.5571,
+      "step": 385
+    },
+    {
+      "epoch": 96.58181818181818,
+      "grad_norm": 3.1544456481933594,
+      "learning_rate": 1.0384981238178533e-08,
+      "loss": 0.7043,
+      "step": 386
+    },
+    {
+      "epoch": 96.87272727272727,
+      "grad_norm": 3.5196638107299805,
+      "learning_rate": 1.033542317614051e-08,
+      "loss": 0.6956,
+      "step": 387
+    },
+    {
+      "epoch": 97.0,
+      "grad_norm": 2.829664707183838,
+      "learning_rate": 1.0289266494553564e-08,
+      "loss": 0.5839,
+      "step": 388
+    },
+    {
+      "epoch": 97.2909090909091,
+      "grad_norm": 3.240220308303833,
+      "learning_rate": 1.0246514708427701e-08,
+      "loss": 0.629,
+      "step": 389
+    },
+    {
+      "epoch": 97.58181818181818,
+      "grad_norm": 3.419234275817871,
+      "learning_rate": 1.0207171073476952e-08,
+      "loss": 0.7125,
+      "step": 390
+    },
+    {
+      "epoch": 97.87272727272727,
+      "grad_norm": 3.266242742538452,
+      "learning_rate": 1.017123858587145e-08,
+      "loss": 0.7004,
+      "step": 391
+    },
+    {
+      "epoch": 98.0,
+      "grad_norm": 2.8885867595672607,
+      "learning_rate": 1.0138719982009241e-08,
+      "loss": 0.4986,
+      "step": 392
+    },
+    {
+      "epoch": 98.2909090909091,
+      "grad_norm": 3.4574053287506104,
+      "learning_rate": 1.0109617738307912e-08,
+      "loss": 0.7095,
+      "step": 393
+    },
+    {
+      "epoch": 98.58181818181818,
+      "grad_norm": 3.2674267292022705,
+      "learning_rate": 1.0083934071015988e-08,
+      "loss": 0.5806,
+      "step": 394
+    },
+    {
+      "epoch": 98.87272727272727,
+      "grad_norm": 2.897749423980713,
+      "learning_rate": 1.0061670936044179e-08,
+      "loss": 0.6434,
+      "step": 395
+    },
+    {
+      "epoch": 99.0,
+      "grad_norm": 3.9228150844573975,
+      "learning_rate": 1.0042830028816398e-08,
+      "loss": 0.7094,
+      "step": 396
+    },
+    {
+      "epoch": 99.2909090909091,
+      "grad_norm": 2.946876287460327,
+      "learning_rate": 1.002741278414069e-08,
+      "loss": 0.5678,
+      "step": 397
+    },
+    {
+      "epoch": 99.58181818181818,
+      "grad_norm": 2.9825222492218018,
+      "learning_rate": 1.0015420376099922e-08,
+      "loss": 0.6347,
+      "step": 398
+    },
+    {
+      "epoch": 99.87272727272727,
+      "grad_norm": 3.46803879737854,
+      "learning_rate": 1.0006853717962394e-08,
+      "loss": 0.7428,
+      "step": 399
+    },
+    {
+      "epoch": 100.0,
+      "grad_norm": 4.149415969848633,
+      "learning_rate": 1.0001713462112291e-08,
+      "loss": 0.6465,
+      "step": 400
+    },
+    {
+      "epoch": 100.0,
+      "eval_loss": 0.6363555192947388,
+      "eval_runtime": 0.7511,
+      "eval_samples_per_second": 17.308,
+      "eval_steps_per_second": 17.308,
+      "step": 400
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.34153286008832e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null