Training in progress, step 123000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81b6085fb8cdb1171b74b00e5808748cf92ce0ddf8ba548a106b9e635e652ce5
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:cef5b67a6a8ef1b7b03d42987cf14119de3a2a743fc8652bcc28538e2c6f502f
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2584540bb683d62bf86744736defc5b1b50bc3492f528f85e121c6574fb37a99
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:03925e5e99d9cbfffe2f6300cf8385c7fca65c8ed5a96f6e0b64b1da83665e80
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3efcdbc541e421955fc1801cd719c72805694f44c64389ef735698f77e94dcbf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:057702d02e4981608a0b19960ab61ff20cc438831297a4986309cdb565b1c450
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd02e3ed8ffd9c6d891f91758bb97fdbe6142d1b35a6390b66d152313f44683b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e98c7489b04ae19323aa5fe9264a9e2511b478d8f623351ee3b05babc6a227f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1638885245119668,
   "eval_steps": 500,
-  "global_step": 122000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21724,11 +21724,189 @@
       "eval_steps_per_second": 15.195,
       "num_input_tokens_seen": 63952872768,
       "step": 122000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 63952872768,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -21743,7 +21921,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1318491979536712e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1734285748357323,
   "eval_steps": 500,
+  "global_step": 123000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.195,
       "num_input_tokens_seen": 63952872768,
       "step": 122000
+    },
+    {
+      "epoch": 1.164365527028155,
+      "grad_norm": 0.13863904774188995,
+      "learning_rate": 0.0007144112572668733,
+      "loss": 2.0703,
+      "num_input_tokens_seen": 63979084224,
+      "step": 122050
+    },
+    {
+      "epoch": 1.1648425295443434,
+      "grad_norm": 0.1426379680633545,
+      "learning_rate": 0.0007118738970516943,
+      "loss": 2.0766,
+      "num_input_tokens_seen": 64005286944,
+      "step": 122100
+    },
+    {
+      "epoch": 1.1653195320605316,
+      "grad_norm": 0.13977181911468506,
+      "learning_rate": 0.0007093298687687141,
+      "loss": 2.0692,
+      "num_input_tokens_seen": 64031487744,
+      "step": 122150
+    },
+    {
+      "epoch": 1.1657965345767198,
+      "grad_norm": 0.1425238400697708,
+      "learning_rate": 0.0007067792524832604,
+      "loss": 2.0662,
+      "num_input_tokens_seen": 64057695552,
+      "step": 122200
+    },
+    {
+      "epoch": 1.1662735370929083,
+      "grad_norm": 0.15061677992343903,
+      "learning_rate": 0.0007042221284679982,
+      "loss": 2.0781,
+      "num_input_tokens_seen": 64083893664,
+      "step": 122250
+    },
+    {
+      "epoch": 1.1667505396090965,
+      "grad_norm": 0.12374892085790634,
+      "learning_rate": 0.0007016585772004026,
+      "loss": 2.0745,
+      "num_input_tokens_seen": 64110107392,
+      "step": 122300
+    },
+    {
+      "epoch": 1.1672275421252847,
+      "grad_norm": 0.1427278071641922,
+      "learning_rate": 0.0006990886793602267,
+      "loss": 2.0861,
+      "num_input_tokens_seen": 64136321792,
+      "step": 122350
+    },
+    {
+      "epoch": 1.1677045446414729,
+      "grad_norm": 0.15141050517559052,
+      "learning_rate": 0.0006965125158269618,
+      "loss": 2.0767,
+      "num_input_tokens_seen": 64162534656,
+      "step": 122400
+    },
+    {
+      "epoch": 1.1681815471576613,
+      "grad_norm": 0.13262976706027985,
+      "learning_rate": 0.0006939301676772927,
+      "loss": 2.0662,
+      "num_input_tokens_seen": 64188740064,
+      "step": 122450
+    },
+    {
+      "epoch": 1.1686585496738495,
+      "grad_norm": 0.13390204310417175,
+      "learning_rate": 0.000691341716182545,
+      "loss": 2.0684,
+      "num_input_tokens_seen": 64214942816,
+      "step": 122500
+    },
+    {
+      "epoch": 1.1686585496738495,
+      "eval_loss": 1.9892343282699585,
+      "eval_runtime": 81.7351,
+      "eval_samples_per_second": 61.173,
+      "eval_steps_per_second": 15.293,
+      "num_input_tokens_seen": 64214942816,
+      "step": 122500
+    },
+    {
+      "epoch": 1.1691355521900377,
+      "grad_norm": 0.14351387321949005,
+      "learning_rate": 0.0006887472428061285,
+      "loss": 2.0611,
+      "num_input_tokens_seen": 64241151872,
+      "step": 122550
+    },
+    {
+      "epoch": 1.1696125547062262,
+      "grad_norm": 0.1321556568145752,
+      "learning_rate": 0.0006861468292009726,
+      "loss": 2.0726,
+      "num_input_tokens_seen": 64267354176,
+      "step": 122600
+    },
+    {
+      "epoch": 1.1700895572224144,
+      "grad_norm": 0.12825502455234528,
+      "learning_rate": 0.0006835405572069572,
+      "loss": 2.0703,
+      "num_input_tokens_seen": 64293568544,
+      "step": 122650
+    },
+    {
+      "epoch": 1.1705665597386026,
+      "grad_norm": 0.1376345157623291,
+      "learning_rate": 0.0006809285088483361,
+      "loss": 2.0789,
+      "num_input_tokens_seen": 64319782944,
+      "step": 122700
+    },
+    {
+      "epoch": 1.1710435622547908,
+      "grad_norm": 0.14178837835788727,
+      "learning_rate": 0.0006783107663311565,
+      "loss": 2.0755,
+      "num_input_tokens_seen": 64345996064,
+      "step": 122750
+    },
+    {
+      "epoch": 1.1715205647709792,
+      "grad_norm": 0.1475340873003006,
+      "learning_rate": 0.0006756874120406714,
+      "loss": 2.0668,
+      "num_input_tokens_seen": 64372202944,
+      "step": 122800
+    },
+    {
+      "epoch": 1.1719975672871674,
+      "grad_norm": 0.13012921810150146,
+      "learning_rate": 0.0006730585285387465,
+      "loss": 2.0618,
+      "num_input_tokens_seen": 64398414944,
+      "step": 122850
+    },
+    {
+      "epoch": 1.1724745698033556,
+      "grad_norm": 0.13203522562980652,
+      "learning_rate": 0.0006704241985612625,
+      "loss": 2.0712,
+      "num_input_tokens_seen": 64424627264,
+      "step": 122900
+    },
+    {
+      "epoch": 1.172951572319544,
+      "grad_norm": 0.13648848235607147,
+      "learning_rate": 0.0006677845050155106,
+      "loss": 2.0694,
+      "num_input_tokens_seen": 64450839392,
+      "step": 122950
+    },
+    {
+      "epoch": 1.1734285748357323,
+      "grad_norm": 0.1383182257413864,
+      "learning_rate": 0.0006651395309775837,
+      "loss": 2.0564,
+      "num_input_tokens_seen": 64477051392,
+      "step": 123000
+    },
+    {
+      "epoch": 1.1734285748357323,
+      "eval_loss": 1.9881237745285034,
+      "eval_runtime": 82.9953,
+      "eval_samples_per_second": 60.244,
+      "eval_steps_per_second": 15.061,
+      "num_input_tokens_seen": 64477051392,
+      "step": 123000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 64477051392,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.141126203496661e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null