Training in progress, epoch 15, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e19f56a69991588cb05378ec22af5531354d51618ec45fbad1470b122a478388
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:66200acd6c20b3e5f776dd34d1dce04a462cff382acb5ae4670ee560518aaaf9
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d70aa541c9d83a3fda726ee09a4073e42bbb9f06c77938a3a47dfd850c4aea4b
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:d55fa5ee514060d7787608dec3a888a028a7841ddb0bd524977d24948976b24e
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efabaf885831c104861d60c36c90e19e984eff0917f39feee04c399b9ccb139a
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc091a107ead0fd888fc4fea93ea268674953a0350c819218e401bfc73856e7d
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80c2e7e0c05972926e0ae596907bef103bc8973ac4008bedc0435f6468576df4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:89399495261c74d8cccbea129b463394fdf91e1c31568f5b62fa945b79a3648c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 14.997999636297509,
   "eval_steps": 50,
-  "global_step": 5145,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1537,6 +1537,111 @@
       "eval_samples_per_second": 41.361,
       "eval_steps_per_second": 20.681,
       "step": 5100
     }
   ],
   "logging_steps": 50,
@@ -1556,7 +1661,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3400806487312302e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 15.997999636297509,
   "eval_steps": 50,
+  "global_step": 5488,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.361,
       "eval_steps_per_second": 20.681,
       "step": 5100
+    },
+    {
+      "epoch": 15.014548099654483,
+      "grad_norm": 63.07834243774414,
+      "learning_rate": 2.492711370262391e-05,
+      "loss": 0.7085,
+      "step": 5150
+    },
+    {
+      "epoch": 15.014548099654483,
+      "eval_loss": 0.6828727722167969,
+      "eval_runtime": 117.6601,
+      "eval_samples_per_second": 41.016,
+      "eval_steps_per_second": 20.508,
+      "step": 5150
+    },
+    {
+      "epoch": 15.16002909619931,
+      "grad_norm": 47.388702392578125,
+      "learning_rate": 2.4198250728862976e-05,
+      "loss": 0.6936,
+      "step": 5200
+    },
+    {
+      "epoch": 15.16002909619931,
+      "eval_loss": 0.6810610294342041,
+      "eval_runtime": 116.7247,
+      "eval_samples_per_second": 41.345,
+      "eval_steps_per_second": 20.673,
+      "step": 5200
+    },
+    {
+      "epoch": 15.305510092744136,
+      "grad_norm": 52.29343032836914,
+      "learning_rate": 2.3469387755102043e-05,
+      "loss": 0.6988,
+      "step": 5250
+    },
+    {
+      "epoch": 15.305510092744136,
+      "eval_loss": 0.6771013736724854,
+      "eval_runtime": 116.5346,
+      "eval_samples_per_second": 41.413,
+      "eval_steps_per_second": 20.706,
+      "step": 5250
+    },
+    {
+      "epoch": 15.450991089288962,
+      "grad_norm": 52.001590728759766,
+      "learning_rate": 2.2740524781341106e-05,
+      "loss": 0.6969,
+      "step": 5300
+    },
+    {
+      "epoch": 15.450991089288962,
+      "eval_loss": 0.6796217560768127,
+      "eval_runtime": 116.7294,
+      "eval_samples_per_second": 41.343,
+      "eval_steps_per_second": 20.672,
+      "step": 5300
+    },
+    {
+      "epoch": 15.596472085833788,
+      "grad_norm": 64.73352813720703,
+      "learning_rate": 2.2011661807580177e-05,
+      "loss": 0.6955,
+      "step": 5350
+    },
+    {
+      "epoch": 15.596472085833788,
+      "eval_loss": 0.6759679317474365,
+      "eval_runtime": 116.3825,
+      "eval_samples_per_second": 41.467,
+      "eval_steps_per_second": 20.733,
+      "step": 5350
+    },
+    {
+      "epoch": 15.741953082378615,
+      "grad_norm": 44.738739013671875,
+      "learning_rate": 2.1282798833819244e-05,
+      "loss": 0.6985,
+      "step": 5400
+    },
+    {
+      "epoch": 15.741953082378615,
+      "eval_loss": 0.6740979552268982,
+      "eval_runtime": 116.6554,
+      "eval_samples_per_second": 41.37,
+      "eval_steps_per_second": 20.685,
+      "step": 5400
+    },
+    {
+      "epoch": 15.887434078923441,
+      "grad_norm": 97.4302749633789,
+      "learning_rate": 2.055393586005831e-05,
+      "loss": 0.6959,
+      "step": 5450
+    },
+    {
+      "epoch": 15.887434078923441,
+      "eval_loss": 0.6725562810897827,
+      "eval_runtime": 116.2903,
+      "eval_samples_per_second": 41.5,
+      "eval_steps_per_second": 20.75,
+      "step": 5450
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.42943403473109e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null