Training in progress, step 115000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b778ecb426d78f0896855e8fb4aad5b0ed64f4bb1e53aede2d8069fdd044f83f
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4052b3f6dee6acc6e8461ad996dfa79e27245712edf2d1f3321a44a85660ffc
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e40a86136eefe7a52f906d32b10df1f61bc2559012b7bd8d21fd2f6358ab1422
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:0922c14e94c809f8792d25d931657f0739836f8872958cc36e36c78337b7886b
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f9d7695201cafd8e529bbb705c4e86352c97146b7f2c1d17b903edf259b2912
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:db41ee9f728a0f615e34c377aa1f203a61ceeaf873404658f962d92e3c5c6285
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a3df12db58d0a78ce660a6cf049d113e8861e8aa8611c9714bf603dc61fb3a9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e98ce821f7f40a728bc6b049ace38a924402d0d066809b7215e9faa83ce3c45c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0875681219218432,
   "eval_steps": 500,
-  "global_step": 114000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20300,11 +20300,189 @@
       "eval_steps_per_second": 15.134,
       "num_input_tokens_seen": 59759249088,
       "step": 114000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 59759249088,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -20319,7 +20497,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0576297079872635e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0971081722456086,
   "eval_steps": 500,
+  "global_step": 115000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.134,
       "num_input_tokens_seen": 59759249088,
       "step": 114000
+    },
+    {
+      "epoch": 1.0880451244380314,
+      "grad_norm": 0.1358513981103897,
+      "learning_rate": 0.0009868321189035196,
+      "loss": 2.1057,
+      "num_input_tokens_seen": 59785457920,
+      "step": 114050
+    },
+    {
+      "epoch": 1.0885221269542198,
+      "grad_norm": 0.14738275110721588,
+      "learning_rate": 0.0009861849601988384,
+      "loss": 2.099,
+      "num_input_tokens_seen": 59811672288,
+      "step": 114100
+    },
+    {
+      "epoch": 1.088999129470408,
+      "grad_norm": 0.16324234008789062,
+      "learning_rate": 0.0009855225003441628,
+      "loss": 2.0952,
+      "num_input_tokens_seen": 59837885600,
+      "step": 114150
+    },
+    {
+      "epoch": 1.0894761319865962,
+      "grad_norm": 0.15156808495521545,
+      "learning_rate": 0.0009848447601883434,
+      "loss": 2.1014,
+      "num_input_tokens_seen": 59864099392,
+      "step": 114200
+    },
+    {
+      "epoch": 1.0899531345027844,
+      "grad_norm": 0.14273667335510254,
+      "learning_rate": 0.0009841517610611307,
+      "loss": 2.0898,
+      "num_input_tokens_seen": 59890311072,
+      "step": 114250
+    },
+    {
+      "epoch": 1.0904301370189728,
+      "grad_norm": 0.1409289538860321,
+      "learning_rate": 0.0009834435247725033,
+      "loss": 2.0798,
+      "num_input_tokens_seen": 59916523776,
+      "step": 114300
+    },
+    {
+      "epoch": 1.090907139535161,
+      "grad_norm": 0.13659177720546722,
+      "learning_rate": 0.0009827200736119814,
+      "loss": 2.084,
+      "num_input_tokens_seen": 59942727744,
+      "step": 114350
+    },
+    {
+      "epoch": 1.0913841420513493,
+      "grad_norm": 0.14861910045146942,
+      "learning_rate": 0.0009819814303479266,
+      "loss": 2.1021,
+      "num_input_tokens_seen": 59968942144,
+      "step": 114400
+    },
+    {
+      "epoch": 1.0918611445675377,
+      "grad_norm": 0.13872170448303223,
+      "learning_rate": 0.0009812276182268236,
+      "loss": 2.1001,
+      "num_input_tokens_seen": 59995154848,
+      "step": 114450
+    },
+    {
+      "epoch": 1.092338147083726,
+      "grad_norm": 0.14306657016277313,
+      "learning_rate": 0.00098045866097255,
+      "loss": 2.0837,
+      "num_input_tokens_seen": 60021363392,
+      "step": 114500
+    },
+    {
+      "epoch": 1.092338147083726,
+      "eval_loss": 2.0082569122314453,
+      "eval_runtime": 82.8417,
+      "eval_samples_per_second": 60.356,
+      "eval_steps_per_second": 15.089,
+      "num_input_tokens_seen": 60021363392,
+      "step": 114500
+    },
+    {
+      "epoch": 1.092815149599914,
+      "grad_norm": 0.1300678551197052,
+      "learning_rate": 0.000979674582785628,
+      "loss": 2.0904,
+      "num_input_tokens_seen": 60047570880,
+      "step": 114550
+    },
+    {
+      "epoch": 1.0932921521161023,
+      "grad_norm": 0.1488349586725235,
+      "learning_rate": 0.0009788754083424652,
+      "loss": 2.0969,
+      "num_input_tokens_seen": 60073778944,
+      "step": 114600
+    },
+    {
+      "epoch": 1.0937691546322907,
+      "grad_norm": 0.14389395713806152,
+      "learning_rate": 0.000978061162794576,
+      "loss": 2.0956,
+      "num_input_tokens_seen": 60099993344,
+      "step": 114650
+    },
+    {
+      "epoch": 1.094246157148479,
+      "grad_norm": 0.13556672632694244,
+      "learning_rate": 0.0009772318717677904,
+      "loss": 2.0856,
+      "num_input_tokens_seen": 60126204832,
+      "step": 114700
+    },
+    {
+      "epoch": 1.0947231596646672,
+      "grad_norm": 0.14573290944099426,
+      "learning_rate": 0.0009763875613614481,
+      "loss": 2.083,
+      "num_input_tokens_seen": 60152411456,
+      "step": 114750
+    },
+    {
+      "epoch": 1.0952001621808556,
+      "grad_norm": 0.14349648356437683,
+      "learning_rate": 0.0009755282581475768,
+      "loss": 2.099,
+      "num_input_tokens_seen": 60178616832,
+      "step": 114800
+    },
+    {
+      "epoch": 1.0956771646970438,
+      "grad_norm": 0.1363336592912674,
+      "learning_rate": 0.0009746539891700557,
+      "loss": 2.0941,
+      "num_input_tokens_seen": 60204821568,
+      "step": 114850
+    },
+    {
+      "epoch": 1.096154167213232,
+      "grad_norm": 0.14463187754154205,
+      "learning_rate": 0.0009737647819437645,
+      "loss": 2.0987,
+      "num_input_tokens_seen": 60231035968,
+      "step": 114900
+    },
+    {
+      "epoch": 1.0966311697294202,
+      "grad_norm": 0.14132525026798248,
+      "learning_rate": 0.0009728606644537177,
+      "loss": 2.0954,
+      "num_input_tokens_seen": 60257250368,
+      "step": 114950
+    },
+    {
+      "epoch": 1.0971081722456086,
+      "grad_norm": 0.14640025794506073,
+      "learning_rate": 0.0009719416651541838,
+      "loss": 2.0992,
+      "num_input_tokens_seen": 60283464768,
+      "step": 115000
+    },
+    {
+      "epoch": 1.0971081722456086,
+      "eval_loss": 2.007655620574951,
+      "eval_runtime": 82.4937,
+      "eval_samples_per_second": 60.611,
+      "eval_steps_per_second": 15.153,
+      "num_input_tokens_seen": 60283464768,
+      "step": 115000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 60283464768,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0669073693538632e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null