Training in progress, step 119000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cb226fadbf28661b9371114993dc12e49ac5975cdb3cc0b050988cda066eda63
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:423179ea0149a7aaeacb5ccaa10149a8392d7f119d23b5e82ddb6e09d76ee4bf
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:619f8c200e9aaadfdae5aad82237b7f7ba5a625617b8275ba58c98a0a1cd45f8
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:b71ae6a920aee5962a410d286e3547ba68e15be1375e1283ae48d23a63cbab16
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eadabea5b840d3b07e42e9e423397807b167316e75ece7076e65c7e1fda35503
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b8f8fb2244d43602b2b223fa5f88e945c708dd60e4c4c5e962793b5f1f77fe7b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c77e72696edbb72e0b5c20319181466e8d1ea3a266d160a365b8e9afc9f97b0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a469da166349e663b52b425176faaf03bae4cb82a5020b6687129f2f779fc711
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1257283232169049,
   "eval_steps": 500,
-  "global_step": 118000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21012,11 +21012,189 @@
       "eval_steps_per_second": 15.111,
       "num_input_tokens_seen": 61856020192,
       "step": 118000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 61856020192,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -21031,7 +21209,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0947387320175698e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1352683735406703,
   "eval_steps": 500,
+  "global_step": 119000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.111,
       "num_input_tokens_seen": 61856020192,
       "step": 118000
+    },
+    {
+      "epoch": 1.1262053257330933,
+      "grad_norm": 0.15097704529762268,
+      "learning_rate": 0.0008891607141781631,
+      "loss": 2.0857,
+      "num_input_tokens_seen": 61882234592,
+      "step": 118050
+    },
+    {
+      "epoch": 1.1266823282492815,
+      "grad_norm": 0.1383848935365677,
+      "learning_rate": 0.0008873934395068005,
+      "loss": 2.0858,
+      "num_input_tokens_seen": 61908441120,
+      "step": 118100
+    },
+    {
+      "epoch": 1.1271593307654697,
+      "grad_norm": 0.14688968658447266,
+      "learning_rate": 0.0008856139728393666,
+      "loss": 2.085,
+      "num_input_tokens_seen": 61934653984,
+      "step": 118150
+    },
+    {
+      "epoch": 1.1276363332816581,
+      "grad_norm": 0.14446312189102173,
+      "learning_rate": 0.0008838223701790055,
+      "loss": 2.0765,
+      "num_input_tokens_seen": 61960867808,
+      "step": 118200
+    },
+    {
+      "epoch": 1.1281133357978463,
+      "grad_norm": 0.1389646828174591,
+      "learning_rate": 0.0008820186879108038,
+      "loss": 2.0816,
+      "num_input_tokens_seen": 61987070336,
+      "step": 118250
+    },
+    {
+      "epoch": 1.1285903383140345,
+      "grad_norm": 0.14348453283309937,
+      "learning_rate": 0.0008802029828000156,
+      "loss": 2.0875,
+      "num_input_tokens_seen": 62013276640,
+      "step": 118300
+    },
+    {
+      "epoch": 1.129067340830223,
+      "grad_norm": 0.14246419072151184,
+      "learning_rate": 0.0008783753119902765,
+      "loss": 2.0828,
+      "num_input_tokens_seen": 62039490144,
+      "step": 118350
+    },
+    {
+      "epoch": 1.1295443433464112,
+      "grad_norm": 0.13848936557769775,
+      "learning_rate": 0.0008765357330018055,
+      "loss": 2.0895,
+      "num_input_tokens_seen": 62065704544,
+      "step": 118400
+    },
+    {
+      "epoch": 1.1300213458625994,
+      "grad_norm": 0.14894653856754303,
+      "learning_rate": 0.0008746843037295936,
+      "loss": 2.079,
+      "num_input_tokens_seen": 62091916704,
+      "step": 118450
+    },
+    {
+      "epoch": 1.1304983483787878,
+      "grad_norm": 0.1354195922613144,
+      "learning_rate": 0.0008728210824415827,
+      "loss": 2.0836,
+      "num_input_tokens_seen": 62118128864,
+      "step": 118500
+    },
+    {
+      "epoch": 1.1304983483787878,
+      "eval_loss": 2.004451274871826,
+      "eval_runtime": 82.4857,
+      "eval_samples_per_second": 60.617,
+      "eval_steps_per_second": 15.154,
+      "num_input_tokens_seen": 62118128864,
+      "step": 118500
+    },
+    {
+      "epoch": 1.130975350894976,
+      "grad_norm": 0.14576098322868347,
+      "learning_rate": 0.0008709461277768318,
+      "loss": 2.0912,
+      "num_input_tokens_seen": 62144343264,
+      "step": 118550
+    },
+    {
+      "epoch": 1.1314523534111642,
+      "grad_norm": 0.14351360499858856,
+      "learning_rate": 0.0008690594987436704,
+      "loss": 2.0777,
+      "num_input_tokens_seen": 62170554112,
+      "step": 118600
+    },
+    {
+      "epoch": 1.1319293559273524,
+      "grad_norm": 0.14756879210472107,
+      "learning_rate": 0.0008671612547178428,
+      "loss": 2.0907,
+      "num_input_tokens_seen": 62196764384,
+      "step": 118650
+    },
+    {
+      "epoch": 1.1324063584435409,
+      "grad_norm": 0.15026496350765228,
+      "learning_rate": 0.0008652514554406388,
+      "loss": 2.0857,
+      "num_input_tokens_seen": 62222966592,
+      "step": 118700
+    },
+    {
+      "epoch": 1.132883360959729,
+      "grad_norm": 0.13817134499549866,
+      "learning_rate": 0.0008633301610170136,
+      "loss": 2.0851,
+      "num_input_tokens_seen": 62249176192,
+      "step": 118750
+    },
+    {
+      "epoch": 1.1333603634759173,
+      "grad_norm": 0.13346219062805176,
+      "learning_rate": 0.0008613974319136957,
+      "loss": 2.0856,
+      "num_input_tokens_seen": 62275388064,
+      "step": 118800
+    },
+    {
+      "epoch": 1.1338373659921057,
+      "grad_norm": 0.14300605654716492,
+      "learning_rate": 0.0008594533289572853,
+      "loss": 2.0835,
+      "num_input_tokens_seen": 62301602464,
+      "step": 118850
+    },
+    {
+      "epoch": 1.134314368508294,
+      "grad_norm": 0.13790345191955566,
+      "learning_rate": 0.0008574979133323377,
+      "loss": 2.0811,
+      "num_input_tokens_seen": 62327812128,
+      "step": 118900
+    },
+    {
+      "epoch": 1.1347913710244821,
+      "grad_norm": 0.1419474184513092,
+      "learning_rate": 0.0008555312465794402,
+      "loss": 2.0783,
+      "num_input_tokens_seen": 62354024288,
+      "step": 118950
+    },
+    {
+      "epoch": 1.1352683735406703,
+      "grad_norm": 0.15154699981212616,
+      "learning_rate": 0.0008535533905932737,
+      "loss": 2.0858,
+      "num_input_tokens_seen": 62380238112,
+      "step": 119000
+    },
+    {
+      "epoch": 1.1352683735406703,
+      "eval_loss": 2.0006425380706787,
+      "eval_runtime": 82.1764,
+      "eval_samples_per_second": 60.845,
+      "eval_steps_per_second": 15.211,
+      "num_input_tokens_seen": 62380238112,
+      "step": 119000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 62380238112,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1040164330280837e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null