Training in progress, step 31000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +184 -6
last-checkpoint/training_args.bin +2 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc13ffa23a1f5210f44d10669aa87f3ec7bfb7a2664786f76ce56132b042639e
 size 563074920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5bbb33796637d85d181dd86914f0d0b2932daf04a02e2d42b0e675ffd28388a
 size 563074920

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c2acc68a1693942d243837338503be83794d69c0b95c32e490c2e11f4c4406e
 size 1125916346

 version https://git-lfs.github.com/spec/v1
+oid sha256:404568263d026535dcc44bb135fbb61c7e3760b5962c18e72f460d9b5076b3b1
 size 1125916346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a5f9d2ea250bcd3507c62c8571a114db63d14fdd2d31f9df1da7534fe6e55434
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f9232b4b974a65603075b06bb82ca61a1267905abb281ba5363cf0b0ac176db
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:492390519daa872425f50793597ce5e74ef972fc3d656ffa5ca614e3b949a837
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a0aa4aa16ed53784eb6010613ed4115c7bfda9657643c7abb9d4d9e40642eb9e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.20179496622456752,
   "eval_steps": 500,
-  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5348,11 +5348,189 @@
       "eval_steps_per_second": 8.76,
       "num_input_tokens_seen": 7864320000,
       "step": 30000
     }
   ],
   "logging_steps": 50,
-  "max_steps": 30000,
-  "num_input_tokens_seen": 7864320000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -5362,12 +5540,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.0112805994496e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.20852146509871977,
   "eval_steps": 500,
+  "global_step": 31000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 8.76,
       "num_input_tokens_seen": 7864320000,
       "step": 30000
+    },
+    {
+      "epoch": 0.20213129116827513,
+      "grad_norm": 0.7275823950767517,
+      "learning_rate": 0.0002881031482247361,
+      "loss": 12.0089,
+      "num_input_tokens_seen": 7877427200,
+      "step": 30050
+    },
+    {
+      "epoch": 0.20246761611198275,
+      "grad_norm": 0.7593051195144653,
+      "learning_rate": 0.0002904816199505797,
+      "loss": 12.0389,
+      "num_input_tokens_seen": 7890534400,
+      "step": 30100
+    },
+    {
+      "epoch": 0.20280394105569036,
+      "grad_norm": 0.7933290004730225,
+      "learning_rate": 0.00029286069073616763,
+      "loss": 12.0537,
+      "num_input_tokens_seen": 7903641600,
+      "step": 30150
+    },
+    {
+      "epoch": 0.20314026599939797,
+      "grad_norm": 0.736951470375061,
+      "learning_rate": 0.0002952402108495577,
+      "loss": 12.0687,
+      "num_input_tokens_seen": 7916748800,
+      "step": 30200
+    },
+    {
+      "epoch": 0.20347659094310558,
+      "grad_norm": 0.7448037266731262,
+      "learning_rate": 0.0002976200305305268,
+      "loss": 12.0549,
+      "num_input_tokens_seen": 7929856000,
+      "step": 30250
+    },
+    {
+      "epoch": 0.2038129158868132,
+      "grad_norm": 0.7063918113708496,
+      "learning_rate": 0.0002999999999999999,
+      "loss": 12.0769,
+      "num_input_tokens_seen": 7942963200,
+      "step": 30300
+    },
+    {
+      "epoch": 0.20414924083052083,
+      "grad_norm": 0.7379609942436218,
+      "learning_rate": 0.000302379969469473,
+      "loss": 12.1145,
+      "num_input_tokens_seen": 7956070400,
+      "step": 30350
+    },
+    {
+      "epoch": 0.20448556577422844,
+      "grad_norm": 0.7159172892570496,
+      "learning_rate": 0.0003047597891504424,
+      "loss": 12.1304,
+      "num_input_tokens_seen": 7969177600,
+      "step": 30400
+    },
+    {
+      "epoch": 0.20482189071793605,
+      "grad_norm": 0.759340226650238,
+      "learning_rate": 0.00030713930926383194,
+      "loss": 12.1011,
+      "num_input_tokens_seen": 7982284800,
+      "step": 30450
+    },
+    {
+      "epoch": 0.20515821566164366,
+      "grad_norm": 0.782768189907074,
+      "learning_rate": 0.00030951838004942016,
+      "loss": 12.1276,
+      "num_input_tokens_seen": 7995392000,
+      "step": 30500
+    },
+    {
+      "epoch": 0.20515821566164366,
+      "eval_loss": 2.9330999851226807,
+      "eval_runtime": 143.3174,
+      "eval_samples_per_second": 34.888,
+      "eval_steps_per_second": 8.722,
+      "num_input_tokens_seen": 7995392000,
+      "step": 30500
+    },
+    {
+      "epoch": 0.20549454060535127,
+      "grad_norm": 0.7521361112594604,
+      "learning_rate": 0.00031189685177526375,
+      "loss": 12.1475,
+      "num_input_tokens_seen": 8008499200,
+      "step": 30550
+    },
+    {
+      "epoch": 0.20583086554905888,
+      "grad_norm": 0.752306342124939,
+      "learning_rate": 0.00031427457474712264,
+      "loss": 12.0914,
+      "num_input_tokens_seen": 8021606400,
+      "step": 30600
+    },
+    {
+      "epoch": 0.2061671904927665,
+      "grad_norm": 0.6963069438934326,
+      "learning_rate": 0.0003166513993178817,
+      "loss": 12.1272,
+      "num_input_tokens_seen": 8034713600,
+      "step": 30650
+    },
+    {
+      "epoch": 0.2065035154364741,
+      "grad_norm": 0.7007436752319336,
+      "learning_rate": 0.0003190271758969692,
+      "loss": 12.1085,
+      "num_input_tokens_seen": 8047820800,
+      "step": 30700
+    },
+    {
+      "epoch": 0.20683984038018172,
+      "grad_norm": 0.7034767270088196,
+      "learning_rate": 0.00032140175495976947,
+      "loss": 12.1114,
+      "num_input_tokens_seen": 8060928000,
+      "step": 30750
+    },
+    {
+      "epoch": 0.20717616532388933,
+      "grad_norm": 0.7317435145378113,
+      "learning_rate": 0.0003237749870570365,
+      "loss": 12.0728,
+      "num_input_tokens_seen": 8074035200,
+      "step": 30800
+    },
+    {
+      "epoch": 0.20751249026759694,
+      "grad_norm": 0.665651261806488,
+      "learning_rate": 0.0003261467228242976,
+      "loss": 12.1099,
+      "num_input_tokens_seen": 8087142400,
+      "step": 30850
+    },
+    {
+      "epoch": 0.20784881521130455,
+      "grad_norm": 0.7023760080337524,
+      "learning_rate": 0.0003285168129912546,
+      "loss": 12.1188,
+      "num_input_tokens_seen": 8100249600,
+      "step": 30900
+    },
+    {
+      "epoch": 0.20818514015501216,
+      "grad_norm": 0.7026780247688293,
+      "learning_rate": 0.00033088510839118004,
+      "loss": 12.0884,
+      "num_input_tokens_seen": 8113356800,
+      "step": 30950
+    },
+    {
+      "epoch": 0.20852146509871977,
+      "grad_norm": 0.7397706508636475,
+      "learning_rate": 0.00033325145997030323,
+      "loss": 12.0894,
+      "num_input_tokens_seen": 8126464000,
+      "step": 31000
+    },
+    {
+      "epoch": 0.20852146509871977,
+      "eval_loss": 2.9383528232574463,
+      "eval_runtime": 144.6078,
+      "eval_samples_per_second": 34.576,
+      "eval_steps_per_second": 8.644,
+      "num_input_tokens_seen": 8126464000,
+      "step": 31000
     }
   ],
   "logging_steps": 50,
+  "max_steps": 60000,
+  "num_input_tokens_seen": 8126464000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.17832328609792e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c535587179e528588509a5683a599c692165045d10114ebf77f1f94172c77e9
-size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:37300a576f29a5a8ddf81ea75e13d6c1ee5bf582f11fc6860569d8fcc97499d1
+size 6008