Training in progress, step 4500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17ab6fbe9c97d82ef7dac860e0afd63f233555e8f23a9fd5286c2c92aa0de809
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:84f66cc33d9cd5915476a96d4590c19f424c7a30752f1c8fbfea7813b99ddcec
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2fdccc0924c16c14bbca889730272d2d9adcc2fdeb5cc2188b22634e6a65ba6
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff96785f117afab51789d3a95126f7a57e937335d9e00258dde9f7269e32c788
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b9d0e16227a53d102f718b321b6ebc380604ad5e862513fc6df0711cea1a67f
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:b42a9ebffc25267408092ad255514977530cb80117fd8185edcad8326726d7b8
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8059641345960105,
   "eval_steps": 500,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3608,6 +3608,456 @@
       "mean_token_accuracy": 0.7772108554840088,
       "num_tokens": 4430041.0,
       "step": 4000
     }
   ],
   "logging_steps": 10,
@@ -3627,7 +4077,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5359648531077120.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9067096514205117,
   "eval_steps": 500,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7772108554840088,
       "num_tokens": 4430041.0,
       "step": 4000
+    },
+    {
+      "epoch": 0.8079790449325005,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.461481630734099e-05,
+      "loss": 0.803,
+      "mean_token_accuracy": 0.7974342584609986,
+      "num_tokens": 4440795.0,
+      "step": 4010
+    },
+    {
+      "epoch": 0.8099939552689905,
+      "grad_norm": 9.625,
+      "learning_rate": 1.460138357176439e-05,
+      "loss": 0.885,
+      "mean_token_accuracy": 0.7806336939334869,
+      "num_tokens": 4452744.0,
+      "step": 4020
+    },
+    {
+      "epoch": 0.8120088656054806,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.458795083618779e-05,
+      "loss": 0.9102,
+      "mean_token_accuracy": 0.7730875134468078,
+      "num_tokens": 4463539.0,
+      "step": 4030
+    },
+    {
+      "epoch": 0.8140237759419706,
+      "grad_norm": 11.0,
+      "learning_rate": 1.457451810061119e-05,
+      "loss": 0.8561,
+      "mean_token_accuracy": 0.7935479283332825,
+      "num_tokens": 4474515.0,
+      "step": 4040
+    },
+    {
+      "epoch": 0.8160386862784607,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.456108536503459e-05,
+      "loss": 0.9461,
+      "mean_token_accuracy": 0.7769980370998383,
+      "num_tokens": 4485302.0,
+      "step": 4050
+    },
+    {
+      "epoch": 0.8180535966149506,
+      "grad_norm": 11.125,
+      "learning_rate": 1.4547652629457991e-05,
+      "loss": 0.9002,
+      "mean_token_accuracy": 0.7809113264083862,
+      "num_tokens": 4497764.0,
+      "step": 4060
+    },
+    {
+      "epoch": 0.8200685069514406,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.453421989388139e-05,
+      "loss": 0.8366,
+      "mean_token_accuracy": 0.798139876127243,
+      "num_tokens": 4508154.0,
+      "step": 4070
+    },
+    {
+      "epoch": 0.8220834172879307,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.452078715830479e-05,
+      "loss": 0.8682,
+      "mean_token_accuracy": 0.790400379896164,
+      "num_tokens": 4518543.0,
+      "step": 4080
+    },
+    {
+      "epoch": 0.8240983276244207,
+      "grad_norm": 10.5625,
+      "learning_rate": 1.4507354422728191e-05,
+      "loss": 0.9201,
+      "mean_token_accuracy": 0.7755493521690369,
+      "num_tokens": 4529945.0,
+      "step": 4090
+    },
+    {
+      "epoch": 0.8261132379609107,
+      "grad_norm": 12.625,
+      "learning_rate": 1.4493921687151588e-05,
+      "loss": 0.891,
+      "mean_token_accuracy": 0.7825681924819946,
+      "num_tokens": 4542358.0,
+      "step": 4100
+    },
+    {
+      "epoch": 0.8281281482974008,
+      "grad_norm": 11.25,
+      "learning_rate": 1.4480488951574989e-05,
+      "loss": 0.9354,
+      "mean_token_accuracy": 0.7727735102176666,
+      "num_tokens": 4553817.0,
+      "step": 4110
+    },
+    {
+      "epoch": 0.8301430586338908,
+      "grad_norm": 10.75,
+      "learning_rate": 1.446705621599839e-05,
+      "loss": 0.7511,
+      "mean_token_accuracy": 0.8066883027553559,
+      "num_tokens": 4563944.0,
+      "step": 4120
+    },
+    {
+      "epoch": 0.8321579689703809,
+      "grad_norm": 12.75,
+      "learning_rate": 1.445362348042179e-05,
+      "loss": 0.8766,
+      "mean_token_accuracy": 0.7842302858829499,
+      "num_tokens": 4574025.0,
+      "step": 4130
+    },
+    {
+      "epoch": 0.8341728793068709,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.4440190744845189e-05,
+      "loss": 0.8223,
+      "mean_token_accuracy": 0.8018840789794922,
+      "num_tokens": 4584261.0,
+      "step": 4140
+    },
+    {
+      "epoch": 0.8361877896433608,
+      "grad_norm": 13.375,
+      "learning_rate": 1.442675800926859e-05,
+      "loss": 0.7998,
+      "mean_token_accuracy": 0.7976557493209839,
+      "num_tokens": 4594866.0,
+      "step": 4150
+    },
+    {
+      "epoch": 0.8382026999798509,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.441332527369199e-05,
+      "loss": 0.9108,
+      "mean_token_accuracy": 0.7819365322589874,
+      "num_tokens": 4605638.0,
+      "step": 4160
+    },
+    {
+      "epoch": 0.8402176103163409,
+      "grad_norm": 11.125,
+      "learning_rate": 1.4399892538115387e-05,
+      "loss": 0.8475,
+      "mean_token_accuracy": 0.7921322703361511,
+      "num_tokens": 4617406.0,
+      "step": 4170
+    },
+    {
+      "epoch": 0.8422325206528309,
+      "grad_norm": 12.875,
+      "learning_rate": 1.4386459802538787e-05,
+      "loss": 0.9156,
+      "mean_token_accuracy": 0.7791644930839539,
+      "num_tokens": 4628983.0,
+      "step": 4180
+    },
+    {
+      "epoch": 0.844247430989321,
+      "grad_norm": 12.75,
+      "learning_rate": 1.4373027066962188e-05,
+      "loss": 0.8978,
+      "mean_token_accuracy": 0.7813169062137604,
+      "num_tokens": 4640524.0,
+      "step": 4190
+    },
+    {
+      "epoch": 0.846262341325811,
+      "grad_norm": 12.25,
+      "learning_rate": 1.4359594331385587e-05,
+      "loss": 0.8205,
+      "mean_token_accuracy": 0.7985609114170075,
+      "num_tokens": 4650666.0,
+      "step": 4200
+    },
+    {
+      "epoch": 0.8482772516623011,
+      "grad_norm": 10.625,
+      "learning_rate": 1.4346161595808987e-05,
+      "loss": 0.9088,
+      "mean_token_accuracy": 0.7806391000747681,
+      "num_tokens": 4662823.0,
+      "step": 4210
+    },
+    {
+      "epoch": 0.8502921619987911,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.4332728860232388e-05,
+      "loss": 0.7677,
+      "mean_token_accuracy": 0.8117966473102569,
+      "num_tokens": 4672839.0,
+      "step": 4220
+    },
+    {
+      "epoch": 0.8523070723352811,
+      "grad_norm": 12.1875,
+      "learning_rate": 1.4319296124655788e-05,
+      "loss": 0.8908,
+      "mean_token_accuracy": 0.785522049665451,
+      "num_tokens": 4684351.0,
+      "step": 4230
+    },
+    {
+      "epoch": 0.8543219826717711,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.4305863389079187e-05,
+      "loss": 0.8259,
+      "mean_token_accuracy": 0.7945611894130706,
+      "num_tokens": 4695517.0,
+      "step": 4240
+    },
+    {
+      "epoch": 0.8563368930082611,
+      "grad_norm": 11.75,
+      "learning_rate": 1.4292430653502588e-05,
+      "loss": 0.8182,
+      "mean_token_accuracy": 0.7957002699375153,
+      "num_tokens": 4706066.0,
+      "step": 4250
+    },
+    {
+      "epoch": 0.8583518033447511,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.4278997917925988e-05,
+      "loss": 0.8748,
+      "mean_token_accuracy": 0.7866592228412628,
+      "num_tokens": 4717128.0,
+      "step": 4260
+    },
+    {
+      "epoch": 0.8603667136812412,
+      "grad_norm": 12.125,
+      "learning_rate": 1.4265565182349385e-05,
+      "loss": 0.847,
+      "mean_token_accuracy": 0.7929592907428742,
+      "num_tokens": 4727372.0,
+      "step": 4270
+    },
+    {
+      "epoch": 0.8623816240177312,
+      "grad_norm": 13.5,
+      "learning_rate": 1.4252132446772786e-05,
+      "loss": 0.8527,
+      "mean_token_accuracy": 0.7962908685207367,
+      "num_tokens": 4739316.0,
+      "step": 4280
+    },
+    {
+      "epoch": 0.8643965343542213,
+      "grad_norm": 13.5,
+      "learning_rate": 1.4238699711196186e-05,
+      "loss": 0.9276,
+      "mean_token_accuracy": 0.7727067172527313,
+      "num_tokens": 4750907.0,
+      "step": 4290
+    },
+    {
+      "epoch": 0.8664114446907113,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.4225266975619587e-05,
+      "loss": 0.8325,
+      "mean_token_accuracy": 0.7947500467300415,
+      "num_tokens": 4761642.0,
+      "step": 4300
+    },
+    {
+      "epoch": 0.8684263550272013,
+      "grad_norm": 12.6875,
+      "learning_rate": 1.4211834240042986e-05,
+      "loss": 0.9264,
+      "mean_token_accuracy": 0.7780522584915162,
+      "num_tokens": 4772339.0,
+      "step": 4310
+    },
+    {
+      "epoch": 0.8704412653636913,
+      "grad_norm": 10.9375,
+      "learning_rate": 1.4198401504466386e-05,
+      "loss": 0.8859,
+      "mean_token_accuracy": 0.7833628177642822,
+      "num_tokens": 4782957.0,
+      "step": 4320
+    },
+    {
+      "epoch": 0.8724561757001813,
+      "grad_norm": 10.375,
+      "learning_rate": 1.4184968768889787e-05,
+      "loss": 0.9069,
+      "mean_token_accuracy": 0.776193904876709,
+      "num_tokens": 4794205.0,
+      "step": 4330
+    },
+    {
+      "epoch": 0.8744710860366713,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.4171536033313184e-05,
+      "loss": 0.8802,
+      "mean_token_accuracy": 0.7828757107257843,
+      "num_tokens": 4805198.0,
+      "step": 4340
+    },
+    {
+      "epoch": 0.8764859963731614,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.4158103297736585e-05,
+      "loss": 0.8658,
+      "mean_token_accuracy": 0.7872898876667023,
+      "num_tokens": 4815383.0,
+      "step": 4350
+    },
+    {
+      "epoch": 0.8785009067096514,
+      "grad_norm": 11.3125,
+      "learning_rate": 1.4144670562159985e-05,
+      "loss": 0.8317,
+      "mean_token_accuracy": 0.7920398592948914,
+      "num_tokens": 4825473.0,
+      "step": 4360
+    },
+    {
+      "epoch": 0.8805158170461415,
+      "grad_norm": 12.625,
+      "learning_rate": 1.4131237826583384e-05,
+      "loss": 0.8622,
+      "mean_token_accuracy": 0.7888808488845825,
+      "num_tokens": 4836736.0,
+      "step": 4370
+    },
+    {
+      "epoch": 0.8825307273826315,
+      "grad_norm": 10.625,
+      "learning_rate": 1.4117805091006784e-05,
+      "loss": 0.9218,
+      "mean_token_accuracy": 0.7805340230464936,
+      "num_tokens": 4847997.0,
+      "step": 4380
+    },
+    {
+      "epoch": 0.8845456377191215,
+      "grad_norm": 10.8125,
+      "learning_rate": 1.4104372355430185e-05,
+      "loss": 0.8248,
+      "mean_token_accuracy": 0.7985675752162933,
+      "num_tokens": 4858799.0,
+      "step": 4390
+    },
+    {
+      "epoch": 0.8865605480556116,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.4090939619853585e-05,
+      "loss": 0.8753,
+      "mean_token_accuracy": 0.7870100736618042,
+      "num_tokens": 4870150.0,
+      "step": 4400
+    },
+    {
+      "epoch": 0.8885754583921015,
+      "grad_norm": 11.0,
+      "learning_rate": 1.4077506884276984e-05,
+      "loss": 0.858,
+      "mean_token_accuracy": 0.7853298187255859,
+      "num_tokens": 4881976.0,
+      "step": 4410
+    },
+    {
+      "epoch": 0.8905903687285915,
+      "grad_norm": 10.625,
+      "learning_rate": 1.4064074148700385e-05,
+      "loss": 0.827,
+      "mean_token_accuracy": 0.7916330635547638,
+      "num_tokens": 4893088.0,
+      "step": 4420
+    },
+    {
+      "epoch": 0.8926052790650816,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.4050641413123784e-05,
+      "loss": 0.918,
+      "mean_token_accuracy": 0.7799353480339051,
+      "num_tokens": 4904993.0,
+      "step": 4430
+    },
+    {
+      "epoch": 0.8946201894015716,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.4037208677547183e-05,
+      "loss": 0.8315,
+      "mean_token_accuracy": 0.7943594753742218,
+      "num_tokens": 4915216.0,
+      "step": 4440
+    },
+    {
+      "epoch": 0.8966350997380617,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.4023775941970583e-05,
+      "loss": 0.9096,
+      "mean_token_accuracy": 0.7769247710704803,
+      "num_tokens": 4925551.0,
+      "step": 4450
+    },
+    {
+      "epoch": 0.8986500100745517,
+      "grad_norm": 11.6875,
+      "learning_rate": 1.4010343206393984e-05,
+      "loss": 0.8555,
+      "mean_token_accuracy": 0.7878253519535064,
+      "num_tokens": 4936738.0,
+      "step": 4460
+    },
+    {
+      "epoch": 0.9006649204110417,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.3996910470817384e-05,
+      "loss": 0.8728,
+      "mean_token_accuracy": 0.7859396934509277,
+      "num_tokens": 4947725.0,
+      "step": 4470
+    },
+    {
+      "epoch": 0.9026798307475318,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.3983477735240783e-05,
+      "loss": 0.7828,
+      "mean_token_accuracy": 0.7994441330432892,
+      "num_tokens": 4958978.0,
+      "step": 4480
+    },
+    {
+      "epoch": 0.9046947410840218,
+      "grad_norm": 10.0625,
+      "learning_rate": 1.3970044999664183e-05,
+      "loss": 0.856,
+      "mean_token_accuracy": 0.7900491297245026,
+      "num_tokens": 4970121.0,
+      "step": 4490
+    },
+    {
+      "epoch": 0.9067096514205117,
+      "grad_norm": 8.0625,
+      "learning_rate": 1.3956612264087584e-05,
+      "loss": 0.7457,
+      "mean_token_accuracy": 0.8125901579856872,
+      "num_tokens": 4982012.0,
+      "step": 4500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6031407455969280.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null