Training in progress, step 2500, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +453 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07298ce60c7d8cb3c6e42c406800f94fe196f562e78c3b7b1b241dde9eb2a84a
 size 536223056

 version https://git-lfs.github.com/spec/v1
+oid sha256:6323430495422b2f5e9b7844076fda108d2adbed4d0037f47d6e99938d8fca29
 size 536223056

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27ee21889421d66393ba1ec9978f870de383bd198e67267eebcf4f41f26ae0d1
 size 1072594443

 version https://git-lfs.github.com/spec/v1
+oid sha256:23e6291f28b6db5850e454b2320b2900c167fefe5276101f07b3b0cce8757420
 size 1072594443

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff72c43fe4ca3fcf70d83ca8f9e37fa2293fdb34dea33c1c2460b564dd80a06f
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:37b2e328f1145450725e3266f16e300be997471c44b08eae4fb08a4a11d9367a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.40298206729800523,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1808,6 +1808,456 @@
       "mean_token_accuracy": 0.7935750424861908,
       "num_tokens": 2208982.0,
       "step": 2000
     }
   ],
   "logging_steps": 10,
@@ -1827,7 +2277,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2679210270320640.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.5037275841225065,
   "eval_steps": 500,
+  "global_step": 2500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.7935750424861908,
       "num_tokens": 2208982.0,
       "step": 2000
+    },
+    {
+      "epoch": 0.40499697763449527,
+      "grad_norm": 17.875,
+      "learning_rate": 1.7301363422661027e-05,
+      "loss": 0.9803,
+      "mean_token_accuracy": 0.7665176451206207,
+      "num_tokens": 2219728.0,
+      "step": 2010
+    },
+    {
+      "epoch": 0.4070118879709853,
+      "grad_norm": 12.0,
+      "learning_rate": 1.7287930687084426e-05,
+      "loss": 0.9941,
+      "mean_token_accuracy": 0.7633516311645507,
+      "num_tokens": 2230087.0,
+      "step": 2020
+    },
+    {
+      "epoch": 0.4090267983074753,
+      "grad_norm": 11.0625,
+      "learning_rate": 1.7274497951507828e-05,
+      "loss": 0.8946,
+      "mean_token_accuracy": 0.786914736032486,
+      "num_tokens": 2240723.0,
+      "step": 2030
+    },
+    {
+      "epoch": 0.41104170864396533,
+      "grad_norm": 11.0,
+      "learning_rate": 1.7261065215931227e-05,
+      "loss": 0.8631,
+      "mean_token_accuracy": 0.7922929883003235,
+      "num_tokens": 2250999.0,
+      "step": 2040
+    },
+    {
+      "epoch": 0.41305661898045537,
+      "grad_norm": 12.0625,
+      "learning_rate": 1.7247632480354626e-05,
+      "loss": 0.8731,
+      "mean_token_accuracy": 0.7846612274646759,
+      "num_tokens": 2261138.0,
+      "step": 2050
+    },
+    {
+      "epoch": 0.4150715293169454,
+      "grad_norm": 10.125,
+      "learning_rate": 1.7234199744778028e-05,
+      "loss": 0.885,
+      "mean_token_accuracy": 0.7879790186882019,
+      "num_tokens": 2271083.0,
+      "step": 2060
+    },
+    {
+      "epoch": 0.41708643965343545,
+      "grad_norm": 11.375,
+      "learning_rate": 1.7220767009201423e-05,
+      "loss": 0.9247,
+      "mean_token_accuracy": 0.7802027463912964,
+      "num_tokens": 2282490.0,
+      "step": 2070
+    },
+    {
+      "epoch": 0.41910134998992543,
+      "grad_norm": 10.625,
+      "learning_rate": 1.7207334273624825e-05,
+      "loss": 0.953,
+      "mean_token_accuracy": 0.7730051100254058,
+      "num_tokens": 2293586.0,
+      "step": 2080
+    },
+    {
+      "epoch": 0.42111626032641547,
+      "grad_norm": 11.625,
+      "learning_rate": 1.7193901538048224e-05,
+      "loss": 1.0067,
+      "mean_token_accuracy": 0.7572938621044158,
+      "num_tokens": 2304802.0,
+      "step": 2090
+    },
+    {
+      "epoch": 0.4231311706629055,
+      "grad_norm": 12.3125,
+      "learning_rate": 1.7180468802471623e-05,
+      "loss": 0.9289,
+      "mean_token_accuracy": 0.7806627154350281,
+      "num_tokens": 2315105.0,
+      "step": 2100
+    },
+    {
+      "epoch": 0.42514608099939555,
+      "grad_norm": 12.9375,
+      "learning_rate": 1.7167036066895025e-05,
+      "loss": 0.8419,
+      "mean_token_accuracy": 0.7955414175987243,
+      "num_tokens": 2326101.0,
+      "step": 2110
+    },
+    {
+      "epoch": 0.42716099133588553,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.7153603331318424e-05,
+      "loss": 0.9516,
+      "mean_token_accuracy": 0.7715274512767791,
+      "num_tokens": 2337205.0,
+      "step": 2120
+    },
+    {
+      "epoch": 0.42917590167237557,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.7140170595741826e-05,
+      "loss": 0.8855,
+      "mean_token_accuracy": 0.7864199817180634,
+      "num_tokens": 2349394.0,
+      "step": 2130
+    },
+    {
+      "epoch": 0.4311908120088656,
+      "grad_norm": 11.1875,
+      "learning_rate": 1.7126737860165222e-05,
+      "loss": 0.9328,
+      "mean_token_accuracy": 0.7836083233356476,
+      "num_tokens": 2360556.0,
+      "step": 2140
+    },
+    {
+      "epoch": 0.43320572234535565,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.7113305124588624e-05,
+      "loss": 0.9885,
+      "mean_token_accuracy": 0.7649979829788208,
+      "num_tokens": 2371734.0,
+      "step": 2150
+    },
+    {
+      "epoch": 0.43522063268184563,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.7099872389012023e-05,
+      "loss": 0.9407,
+      "mean_token_accuracy": 0.7679962277412414,
+      "num_tokens": 2382510.0,
+      "step": 2160
+    },
+    {
+      "epoch": 0.43723554301833567,
+      "grad_norm": 12.625,
+      "learning_rate": 1.708643965343542e-05,
+      "loss": 0.9365,
+      "mean_token_accuracy": 0.7730210840702056,
+      "num_tokens": 2395814.0,
+      "step": 2170
+    },
+    {
+      "epoch": 0.4392504533548257,
+      "grad_norm": 14.4375,
+      "learning_rate": 1.7073006917858824e-05,
+      "loss": 0.9407,
+      "mean_token_accuracy": 0.773440134525299,
+      "num_tokens": 2407124.0,
+      "step": 2180
+    },
+    {
+      "epoch": 0.44126536369131575,
+      "grad_norm": 11.375,
+      "learning_rate": 1.7059574182282223e-05,
+      "loss": 0.9601,
+      "mean_token_accuracy": 0.7624564170837402,
+      "num_tokens": 2418793.0,
+      "step": 2190
+    },
+    {
+      "epoch": 0.4432802740278058,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.7046141446705625e-05,
+      "loss": 0.8615,
+      "mean_token_accuracy": 0.7828535497188568,
+      "num_tokens": 2430231.0,
+      "step": 2200
+    },
+    {
+      "epoch": 0.44529518436429577,
+      "grad_norm": 13.0625,
+      "learning_rate": 1.7032708711129024e-05,
+      "loss": 0.994,
+      "mean_token_accuracy": 0.7661273539066314,
+      "num_tokens": 2441407.0,
+      "step": 2210
+    },
+    {
+      "epoch": 0.4473100947007858,
+      "grad_norm": 14.4375,
+      "learning_rate": 1.7019275975552423e-05,
+      "loss": 0.975,
+      "mean_token_accuracy": 0.7622927308082581,
+      "num_tokens": 2453109.0,
+      "step": 2220
+    },
+    {
+      "epoch": 0.44932500503727585,
+      "grad_norm": 8.875,
+      "learning_rate": 1.7005843239975825e-05,
+      "loss": 0.9016,
+      "mean_token_accuracy": 0.7804525554180145,
+      "num_tokens": 2463823.0,
+      "step": 2230
+    },
+    {
+      "epoch": 0.4513399153737659,
+      "grad_norm": 13.8125,
+      "learning_rate": 1.699241050439922e-05,
+      "loss": 0.8886,
+      "mean_token_accuracy": 0.7791055798530578,
+      "num_tokens": 2474062.0,
+      "step": 2240
+    },
+    {
+      "epoch": 0.45335482571025587,
+      "grad_norm": 12.5625,
+      "learning_rate": 1.6978977768822623e-05,
+      "loss": 0.8376,
+      "mean_token_accuracy": 0.791073453426361,
+      "num_tokens": 2485012.0,
+      "step": 2250
+    },
+    {
+      "epoch": 0.4553697360467459,
+      "grad_norm": 12.4375,
+      "learning_rate": 1.696554503324602e-05,
+      "loss": 0.9526,
+      "mean_token_accuracy": 0.7676692366600036,
+      "num_tokens": 2497094.0,
+      "step": 2260
+    },
+    {
+      "epoch": 0.45738464638323595,
+      "grad_norm": 10.75,
+      "learning_rate": 1.695211229766942e-05,
+      "loss": 1.0348,
+      "mean_token_accuracy": 0.7595704078674317,
+      "num_tokens": 2509251.0,
+      "step": 2270
+    },
+    {
+      "epoch": 0.459399556719726,
+      "grad_norm": 11.375,
+      "learning_rate": 1.6938679562092822e-05,
+      "loss": 0.8975,
+      "mean_token_accuracy": 0.7786314010620117,
+      "num_tokens": 2519167.0,
+      "step": 2280
+    },
+    {
+      "epoch": 0.46141446705621597,
+      "grad_norm": 10.5,
+      "learning_rate": 1.692524682651622e-05,
+      "loss": 0.931,
+      "mean_token_accuracy": 0.780303293466568,
+      "num_tokens": 2530095.0,
+      "step": 2290
+    },
+    {
+      "epoch": 0.463429377392706,
+      "grad_norm": 10.0,
+      "learning_rate": 1.6911814090939623e-05,
+      "loss": 0.9055,
+      "mean_token_accuracy": 0.7792095363140106,
+      "num_tokens": 2542753.0,
+      "step": 2300
+    },
+    {
+      "epoch": 0.46544428772919605,
+      "grad_norm": 12.625,
+      "learning_rate": 1.689838135536302e-05,
+      "loss": 0.8634,
+      "mean_token_accuracy": 0.7921158850193024,
+      "num_tokens": 2553761.0,
+      "step": 2310
+    },
+    {
+      "epoch": 0.4674591980656861,
+      "grad_norm": 10.75,
+      "learning_rate": 1.688494861978642e-05,
+      "loss": 0.8504,
+      "mean_token_accuracy": 0.7890695691108703,
+      "num_tokens": 2564639.0,
+      "step": 2320
+    },
+    {
+      "epoch": 0.4694741084021761,
+      "grad_norm": 13.4375,
+      "learning_rate": 1.687151588420982e-05,
+      "loss": 0.9293,
+      "mean_token_accuracy": 0.7696837067604065,
+      "num_tokens": 2576449.0,
+      "step": 2330
+    },
+    {
+      "epoch": 0.4714890187386661,
+      "grad_norm": 12.375,
+      "learning_rate": 1.685808314863322e-05,
+      "loss": 0.867,
+      "mean_token_accuracy": 0.7936202645301819,
+      "num_tokens": 2588236.0,
+      "step": 2340
+    },
+    {
+      "epoch": 0.47350392907515615,
+      "grad_norm": 12.875,
+      "learning_rate": 1.684465041305662e-05,
+      "loss": 0.8259,
+      "mean_token_accuracy": 0.7961400330066681,
+      "num_tokens": 2599720.0,
+      "step": 2350
+    },
+    {
+      "epoch": 0.4755188394116462,
+      "grad_norm": 12.875,
+      "learning_rate": 1.683121767748002e-05,
+      "loss": 0.9056,
+      "mean_token_accuracy": 0.780539608001709,
+      "num_tokens": 2609396.0,
+      "step": 2360
+    },
+    {
+      "epoch": 0.4775337497481362,
+      "grad_norm": 11.625,
+      "learning_rate": 1.681778494190342e-05,
+      "loss": 0.9019,
+      "mean_token_accuracy": 0.7818064391613007,
+      "num_tokens": 2621392.0,
+      "step": 2370
+    },
+    {
+      "epoch": 0.4795486600846262,
+      "grad_norm": 10.75,
+      "learning_rate": 1.680435220632682e-05,
+      "loss": 0.7993,
+      "mean_token_accuracy": 0.8025827884674073,
+      "num_tokens": 2633038.0,
+      "step": 2380
+    },
+    {
+      "epoch": 0.48156357042111625,
+      "grad_norm": 11.4375,
+      "learning_rate": 1.679091947075022e-05,
+      "loss": 0.9316,
+      "mean_token_accuracy": 0.7733452200889588,
+      "num_tokens": 2644078.0,
+      "step": 2390
+    },
+    {
+      "epoch": 0.4835784807576063,
+      "grad_norm": 9.5625,
+      "learning_rate": 1.6777486735173622e-05,
+      "loss": 0.8044,
+      "mean_token_accuracy": 0.8011213660240173,
+      "num_tokens": 2655374.0,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4855933910940963,
+      "grad_norm": 11.8125,
+      "learning_rate": 1.6764053999597017e-05,
+      "loss": 0.8751,
+      "mean_token_accuracy": 0.7866755127906799,
+      "num_tokens": 2665838.0,
+      "step": 2410
+    },
+    {
+      "epoch": 0.48760830143058637,
+      "grad_norm": 10.125,
+      "learning_rate": 1.675062126402042e-05,
+      "loss": 0.827,
+      "mean_token_accuracy": 0.7927514970302582,
+      "num_tokens": 2675934.0,
+      "step": 2420
+    },
+    {
+      "epoch": 0.48962321176707635,
+      "grad_norm": 12.8125,
+      "learning_rate": 1.673718852844382e-05,
+      "loss": 0.9346,
+      "mean_token_accuracy": 0.7792349219322204,
+      "num_tokens": 2687584.0,
+      "step": 2430
+    },
+    {
+      "epoch": 0.4916381221035664,
+      "grad_norm": 11.875,
+      "learning_rate": 1.6723755792867217e-05,
+      "loss": 0.8867,
+      "mean_token_accuracy": 0.7851879954338074,
+      "num_tokens": 2697927.0,
+      "step": 2440
+    },
+    {
+      "epoch": 0.4936530324400564,
+      "grad_norm": 11.75,
+      "learning_rate": 1.671032305729062e-05,
+      "loss": 0.8585,
+      "mean_token_accuracy": 0.7973346531391143,
+      "num_tokens": 2708092.0,
+      "step": 2450
+    },
+    {
+      "epoch": 0.49566794277654647,
+      "grad_norm": 14.25,
+      "learning_rate": 1.669689032171402e-05,
+      "loss": 0.9075,
+      "mean_token_accuracy": 0.7788807570934295,
+      "num_tokens": 2719293.0,
+      "step": 2460
+    },
+    {
+      "epoch": 0.49768285311303645,
+      "grad_norm": 9.875,
+      "learning_rate": 1.668345758613742e-05,
+      "loss": 0.8931,
+      "mean_token_accuracy": 0.7861545145511627,
+      "num_tokens": 2730531.0,
+      "step": 2470
+    },
+    {
+      "epoch": 0.4996977634495265,
+      "grad_norm": 10.4375,
+      "learning_rate": 1.6670024850560816e-05,
+      "loss": 0.9438,
+      "mean_token_accuracy": 0.7664293229579926,
+      "num_tokens": 2741732.0,
+      "step": 2480
+    },
+    {
+      "epoch": 0.5017126737860165,
+      "grad_norm": 11.125,
+      "learning_rate": 1.6656592114984218e-05,
+      "loss": 0.8719,
+      "mean_token_accuracy": 0.7909434497356415,
+      "num_tokens": 2753005.0,
+      "step": 2490
+    },
+    {
+      "epoch": 0.5037275841225065,
+      "grad_norm": 11.25,
+      "learning_rate": 1.6643159379407617e-05,
+      "loss": 0.8739,
+      "mean_token_accuracy": 0.7839685261249543,
+      "num_tokens": 2765568.0,
+      "step": 2500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3352572806252544.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null