Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +203 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b3c0e1cfdfa2dffb8d4b7855449842127299042621fb9cb40bf905c5361df76
 size 174663600

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd2ce83fb862336b4729018afc8e291aa4c2d38ce3b3b5625756b6a68e191913
 size 174663600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3e0d22c235547201bf15c44946ffcac705d25f40204672dfcd89d6375fe45e0
 size 177908997

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c4a1c0542d95372b9b98cd04e9e19b1d3278913800f038cdb84306140c9e0f5
 size 177908997

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03d5ae5345e6508f9972971a93fe179fa2979377ba4d65fe51dc8554de4896a7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b03751160f25dd1f7c08604bdbd7711f070d950dfb96d9acede0b0ccf333222
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fad64f681b15ebe2c8020dfe218c4c9cf164f2a3132754563c82640e0ca97129
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9803335b183336349e91b866e4b2332f37cecb5e5bd9cf6a14b120c0067b5d71
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2362111727884729,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -208,6 +208,206 @@
       "mean_token_accuracy": 0.8954069356620312,
       "num_tokens": 8271560.0,
       "step": 500
     }
   ],
   "logging_steps": 25,
@@ -227,7 +427,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.283874067165597e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4724223455769458,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8954069356620312,
       "num_tokens": 8271560.0,
       "step": 500
+    },
+    {
+      "entropy": 0.3849054877832532,
+      "epoch": 0.24802173142789655,
+      "grad_norm": 0.298828125,
+      "learning_rate": 8.238993710691824e-05,
+      "loss": 0.3863,
+      "mean_token_accuracy": 0.8975082874298096,
+      "num_tokens": 8681455.0,
+      "step": 525
+    },
+    {
+      "entropy": 0.3748340607620776,
+      "epoch": 0.25983229006732017,
+      "grad_norm": 0.26171875,
+      "learning_rate": 8.632075471698113e-05,
+      "loss": 0.3758,
+      "mean_token_accuracy": 0.9003522478044033,
+      "num_tokens": 9087910.0,
+      "step": 550
+    },
+    {
+      "entropy": 0.37765146313235165,
+      "epoch": 0.2716428487067438,
+      "grad_norm": 0.2890625,
+      "learning_rate": 9.025157232704403e-05,
+      "loss": 0.3797,
+      "mean_token_accuracy": 0.8989867885410786,
+      "num_tokens": 9515141.0,
+      "step": 575
+    },
+    {
+      "entropy": 0.3586317488178611,
+      "epoch": 0.2834534073461675,
+      "grad_norm": 0.310546875,
+      "learning_rate": 9.418238993710692e-05,
+      "loss": 0.3581,
+      "mean_token_accuracy": 0.9045962546765804,
+      "num_tokens": 9930880.0,
+      "step": 600
+    },
+    {
+      "entropy": 0.352232004404068,
+      "epoch": 0.2952639659855911,
+      "grad_norm": 0.283203125,
+      "learning_rate": 9.811320754716981e-05,
+      "loss": 0.3548,
+      "mean_token_accuracy": 0.9052738857269287,
+      "num_tokens": 10342008.0,
+      "step": 625
+    },
+    {
+      "entropy": 0.3356729177199304,
+      "epoch": 0.3070745246250148,
+      "grad_norm": 0.345703125,
+      "learning_rate": 9.99987232903501e-05,
+      "loss": 0.3366,
+      "mean_token_accuracy": 0.9096107052266598,
+      "num_tokens": 10752059.0,
+      "step": 650
+    },
+    {
+      "entropy": 0.325265455506742,
+      "epoch": 0.31888508326443843,
+      "grad_norm": 0.3359375,
+      "learning_rate": 9.998909165950179e-05,
+      "loss": 0.3265,
+      "mean_token_accuracy": 0.9125442025065422,
+      "num_tokens": 11171710.0,
+      "step": 675
+    },
+    {
+      "entropy": 0.3302194595709443,
+      "epoch": 0.330695641903862,
+      "grad_norm": 0.275390625,
+      "learning_rate": 9.997001907852635e-05,
+      "loss": 0.3284,
+      "mean_token_accuracy": 0.9123465406894684,
+      "num_tokens": 11591328.0,
+      "step": 700
+    },
+    {
+      "entropy": 0.3197361998446286,
+      "epoch": 0.3425062005432857,
+      "grad_norm": 0.333984375,
+      "learning_rate": 9.994150914947533e-05,
+      "loss": 0.3189,
+      "mean_token_accuracy": 0.9138493274152278,
+      "num_tokens": 12007445.0,
+      "step": 725
+    },
+    {
+      "entropy": 0.30230416195467114,
+      "epoch": 0.35431675918270933,
+      "grad_norm": 0.29296875,
+      "learning_rate": 9.990356725673984e-05,
+      "loss": 0.3,
+      "mean_token_accuracy": 0.9195481817424297,
+      "num_tokens": 12410123.0,
+      "step": 750
+    },
+    {
+      "entropy": 0.28528838012367486,
+      "epoch": 0.366127317822133,
+      "grad_norm": 0.37109375,
+      "learning_rate": 9.985620056603348e-05,
+      "loss": 0.2833,
+      "mean_token_accuracy": 0.9226957756280899,
+      "num_tokens": 12817735.0,
+      "step": 775
+    },
+    {
+      "entropy": 0.2931415150873363,
+      "epoch": 0.37793787646155663,
+      "grad_norm": 0.26171875,
+      "learning_rate": 9.979941802303922e-05,
+      "loss": 0.2925,
+      "mean_token_accuracy": 0.9212754264473915,
+      "num_tokens": 13239923.0,
+      "step": 800
+    },
+    {
+      "entropy": 0.28012413138523695,
+      "epoch": 0.3897484351009803,
+      "grad_norm": 0.322265625,
+      "learning_rate": 9.973323035171982e-05,
+      "loss": 0.2757,
+      "mean_token_accuracy": 0.9254035331308842,
+      "num_tokens": 13656664.0,
+      "step": 825
+    },
+    {
+      "entropy": 0.2714027400501072,
+      "epoch": 0.40155899374040394,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 9.965765005229248e-05,
+      "loss": 0.2694,
+      "mean_token_accuracy": 0.9276439958810806,
+      "num_tokens": 14067791.0,
+      "step": 850
+    },
+    {
+      "entropy": 0.2834288664162159,
+      "epoch": 0.4133695523798276,
+      "grad_norm": 0.333984375,
+      "learning_rate": 9.957269139886808e-05,
+      "loss": 0.2804,
+      "mean_token_accuracy": 0.9238070417940617,
+      "num_tokens": 14467768.0,
+      "step": 875
+    },
+    {
+      "entropy": 0.2719649145565927,
+      "epoch": 0.4251801110192512,
+      "grad_norm": 0.267578125,
+      "learning_rate": 9.947837043675537e-05,
+      "loss": 0.2668,
+      "mean_token_accuracy": 0.9286511231958866,
+      "num_tokens": 14885985.0,
+      "step": 900
+    },
+    {
+      "entropy": 0.2586036479100585,
+      "epoch": 0.43699066965867484,
+      "grad_norm": 0.353515625,
+      "learning_rate": 9.937470497943064e-05,
+      "loss": 0.255,
+      "mean_token_accuracy": 0.931592576354742,
+      "num_tokens": 15291855.0,
+      "step": 925
+    },
+    {
+      "entropy": 0.2572586870100349,
+      "epoch": 0.4488012282980985,
+      "grad_norm": 0.302734375,
+      "learning_rate": 9.926171460517348e-05,
+      "loss": 0.2541,
+      "mean_token_accuracy": 0.9317594549059868,
+      "num_tokens": 15697297.0,
+      "step": 950
+    },
+    {
+      "entropy": 0.2428761958517134,
+      "epoch": 0.46061178693752214,
+      "grad_norm": 0.287109375,
+      "learning_rate": 9.913942065336921e-05,
+      "loss": 0.2381,
+      "mean_token_accuracy": 0.9357545764744282,
+      "num_tokens": 16112052.0,
+      "step": 975
+    },
+    {
+      "entropy": 0.2368166291434318,
+      "epoch": 0.4724223455769458,
+      "grad_norm": 0.296875,
+      "learning_rate": 9.90078462204787e-05,
+      "loss": 0.2316,
+      "mean_token_accuracy": 0.9370592629909515,
+      "num_tokens": 16532116.0,
+      "step": 1000
     }
   ],
   "logging_steps": 25,
       "attributes": {}
     }
   },
+  "total_flos": 1.0567860712982623e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null