Training in progress, step 139000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:294d2d3cfce69d5bcc552541aff1b1d0c5c39d6adabe16e718423a5d850f0d32
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:6173b4bc562c2e11366705c8c76e7d31698b3a60389b9a754914d9b8842cf90f
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57a69c4accd4194b5ef200a371a59ef019db1dfd38dcb87b64dd42832f583b7c
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3048a59b63da999ae8fc02b473b5d2a50c2be60b98f1004a6c79f0035ac60f1
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdb15604f71f08bf635b865cf27878158a353a64f3dcaa6e5902e3e52c7eb375
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ef3d8a81eedcecdd331f8207cd63df8c3721e9e06bbee141ce7de5f7de358d9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d87ee32367beeb896fbea0e404a77621c8cd628a4eb1251b30dc94e06f2eb792
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0f0628bbbac738b6a9aa97ca88652280d641a00de879a3f6b83636f7c99513d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.316529329692214,
   "eval_steps": 500,
-  "global_step": 138000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -24572,11 +24572,189 @@
       "eval_steps_per_second": 15.219,
       "num_input_tokens_seen": 72340003200,
       "step": 138000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 72340003200,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -24591,7 +24769,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2802861084741632e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3260693800159795,
   "eval_steps": 500,
+  "global_step": 139000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.219,
       "num_input_tokens_seen": 72340003200,
       "step": 138000
+    },
+    {
+      "epoch": 1.3170063322084025,
+      "grad_norm": 0.11734651029109955,
+      "learning_rate": 1.191954812408308e-05,
+      "loss": 2.0241,
+      "num_input_tokens_seen": 72366217600,
+      "step": 138050
+    },
+    {
+      "epoch": 1.3174833347245907,
+      "grad_norm": 0.11315104365348816,
+      "learning_rate": 1.1318413143740436e-05,
+      "loss": 2.0195,
+      "num_input_tokens_seen": 72392425632,
+      "step": 138100
+    },
+    {
+      "epoch": 1.3179603372407789,
+      "grad_norm": 0.11212780326604843,
+      "learning_rate": 1.0732657886902309e-05,
+      "loss": 2.0379,
+      "num_input_tokens_seen": 72418637536,
+      "step": 138150
+    },
+    {
+      "epoch": 1.3184373397569673,
+      "grad_norm": 0.11390957236289978,
+      "learning_rate": 1.0162300788382261e-05,
+      "loss": 2.0245,
+      "num_input_tokens_seen": 72444850752,
+      "step": 138200
+    },
+    {
+      "epoch": 1.3189143422731555,
+      "grad_norm": 0.11521212011575699,
+      "learning_rate": 9.607359798384786e-06,
+      "loss": 2.0313,
+      "num_input_tokens_seen": 72471060032,
+      "step": 138250
+    },
+    {
+      "epoch": 1.3193913447893437,
+      "grad_norm": 0.11375854164361954,
+      "learning_rate": 9.0678523819408e-06,
+      "loss": 2.0313,
+      "num_input_tokens_seen": 72497274432,
+      "step": 138300
+    },
+    {
+      "epoch": 1.319868347305532,
+      "grad_norm": 0.11399056017398834,
+      "learning_rate": 8.543795518357766e-06,
+      "loss": 2.0256,
+      "num_input_tokens_seen": 72523485952,
+      "step": 138350
+    },
+    {
+      "epoch": 1.3203453498217204,
+      "grad_norm": 0.11128194630146027,
+      "learning_rate": 8.035205700685167e-06,
+      "loss": 2.0338,
+      "num_input_tokens_seen": 72549700352,
+      "step": 138400
+    },
+    {
+      "epoch": 1.3208223523379086,
+      "grad_norm": 0.11179857701063156,
+      "learning_rate": 7.542098935195918e-06,
+      "loss": 2.0362,
+      "num_input_tokens_seen": 72575912992,
+      "step": 138450
+    },
+    {
+      "epoch": 1.3212993548540968,
+      "grad_norm": 0.11500924825668335,
+      "learning_rate": 7.064490740882057e-06,
+      "loss": 2.0285,
+      "num_input_tokens_seen": 72602127392,
+      "step": 138500
+    },
+    {
+      "epoch": 1.3212993548540968,
+      "eval_loss": 1.951123833656311,
+      "eval_runtime": 82.6672,
+      "eval_samples_per_second": 60.484,
+      "eval_steps_per_second": 15.121,
+      "num_input_tokens_seen": 72602127392,
+      "step": 138500
+    },
+    {
+      "epoch": 1.3217763573702852,
+      "grad_norm": 0.1176285520195961,
+      "learning_rate": 6.602396148966794e-06,
+      "loss": 2.0295,
+      "num_input_tokens_seen": 72628340704,
+      "step": 138550
+    },
+    {
+      "epoch": 1.3222533598864734,
+      "grad_norm": 0.11359469592571259,
+      "learning_rate": 6.15582970243117e-06,
+      "loss": 2.0206,
+      "num_input_tokens_seen": 72654548704,
+      "step": 138600
+    },
+    {
+      "epoch": 1.3227303624026616,
+      "grad_norm": 0.11230379343032837,
+      "learning_rate": 5.72480545555637e-06,
+      "loss": 2.0285,
+      "num_input_tokens_seen": 72680760704,
+      "step": 138650
+    },
+    {
+      "epoch": 1.3232073649188498,
+      "grad_norm": 0.11325126886367798,
+      "learning_rate": 5.309336973481682e-06,
+      "loss": 2.0316,
+      "num_input_tokens_seen": 72706975104,
+      "step": 138700
+    },
+    {
+      "epoch": 1.3236843674350383,
+      "grad_norm": 0.11530512571334839,
+      "learning_rate": 4.909437331777178e-06,
+      "loss": 2.0295,
+      "num_input_tokens_seen": 72733189504,
+      "step": 138750
+    },
+    {
+      "epoch": 1.3241613699512265,
+      "grad_norm": 0.11637042462825775,
+      "learning_rate": 4.52511911603265e-06,
+      "loss": 2.0358,
+      "num_input_tokens_seen": 72759403904,
+      "step": 138800
+    },
+    {
+      "epoch": 1.324638372467415,
+      "grad_norm": 0.11307495832443237,
+      "learning_rate": 4.15639442146093e-06,
+      "loss": 2.0256,
+      "num_input_tokens_seen": 72785609280,
+      "step": 138850
+    },
+    {
+      "epoch": 1.325115374983603,
+      "grad_norm": 0.11408944427967072,
+      "learning_rate": 3.803274852517968e-06,
+      "loss": 2.0432,
+      "num_input_tokens_seen": 72811823680,
+      "step": 138900
+    },
+    {
+      "epoch": 1.3255923774997913,
+      "grad_norm": 0.11304306238889694,
+      "learning_rate": 3.4657715225368535e-06,
+      "loss": 2.0342,
+      "num_input_tokens_seen": 72838035008,
+      "step": 138950
+    },
+    {
+      "epoch": 1.3260693800159795,
+      "grad_norm": 0.11682960391044617,
+      "learning_rate": 3.143895053378698e-06,
+      "loss": 2.0353,
+      "num_input_tokens_seen": 72864248896,
+      "step": 139000
+    },
+    {
+      "epoch": 1.3260693800159795,
+      "eval_loss": 1.9510550498962402,
+      "eval_runtime": 82.5623,
+      "eval_samples_per_second": 60.56,
+      "eval_steps_per_second": 15.14,
+      "num_input_tokens_seen": 72864248896,
+      "step": 139000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 72864248896,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2895643010692137e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null