Training in progress, step 2400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +315 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9e46ae2720088669da0e7f9e660e9df21b3f13cd814ef2c054173a76a40c0a8
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:d4ddfdb9e3869897cc8e2c794340a2005ba76c5f50e34e53325b8ac99f6dc318
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76b3121a237388d42068dd86668509dc36abd8695d8ccbfd6fb7b924e1a73d7f
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e830b2069082bb840c6d5f287e7770c0cf0e2e3f80198ae73bbef00b14811db
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6df16b3659f33d85607b74fb7cdd42ccb03ca1d0dc5313a9352883e092924860
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e39d866cd1fc861fe2c47687364cde08217b0454e6f5ff3c9a3af4b1571fdbed
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ed5fdd6f9fe5f0de5d43635eeeee3253ccf660833d7fe6d9be640b40bec6bbe
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:137d8a11890df77c4e1b6a4687bee089955dbcdddb421d49b265e762ccebb1d2
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc835731ce73222513c24c9953cdc95225ff0e18509f3befa431f270d3d03450
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a3c006c2c7c0bc33914c8e11069f53d495f2eafa42ba0a076cb7cebbe066c7a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
-  "epoch": 3.36,
   "eval_steps": 300,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2252,6 +2252,318 @@
       "eval_samples_per_second": 2.3,
       "eval_steps_per_second": 0.575,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -2271,7 +2583,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.6234506980141056e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
+  "epoch": 3.84,
   "eval_steps": 300,
+  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.3,
       "eval_steps_per_second": 0.575,
       "step": 2100
+    },
+    {
+      "entropy": 0.3517730229534209,
+      "epoch": 3.376,
+      "grad_norm": 0.6908054947853088,
+      "learning_rate": 3.2544000000000006e-05,
+      "loss": 0.3057,
+      "mean_token_accuracy": 0.9103573642671108,
+      "num_tokens": 266432.0,
+      "step": 2110
+    },
+    {
+      "entropy": 0.38618900515139104,
+      "epoch": 3.392,
+      "grad_norm": 0.9056383967399597,
+      "learning_rate": 3.2224e-05,
+      "loss": 0.3188,
+      "mean_token_accuracy": 0.9076898027211427,
+      "num_tokens": 282655.0,
+      "step": 2120
+    },
+    {
+      "entropy": 0.3537537831813097,
+      "epoch": 3.408,
+      "grad_norm": 0.48644715547561646,
+      "learning_rate": 3.1904e-05,
+      "loss": 0.2886,
+      "mean_token_accuracy": 0.9162093725055456,
+      "num_tokens": 310801.0,
+      "step": 2130
+    },
+    {
+      "entropy": 0.26729877749457953,
+      "epoch": 3.424,
+      "grad_norm": 0.6074755787849426,
+      "learning_rate": 3.1584e-05,
+      "loss": 0.2371,
+      "mean_token_accuracy": 0.9263024788349867,
+      "num_tokens": 343555.0,
+      "step": 2140
+    },
+    {
+      "entropy": 0.25955253606662154,
+      "epoch": 3.44,
+      "grad_norm": 0.8773949146270752,
+      "learning_rate": 3.1264e-05,
+      "loss": 0.2227,
+      "mean_token_accuracy": 0.9337353933602571,
+      "num_tokens": 369134.0,
+      "step": 2150
+    },
+    {
+      "entropy": 0.27338800597935914,
+      "epoch": 3.456,
+      "grad_norm": 0.7504522204399109,
+      "learning_rate": 3.0975999999999996e-05,
+      "loss": 0.2261,
+      "mean_token_accuracy": 0.9332862004637719,
+      "num_tokens": 390152.0,
+      "step": 2160
+    },
+    {
+      "entropy": 0.30181694105267526,
+      "epoch": 3.472,
+      "grad_norm": 0.8649200201034546,
+      "learning_rate": 3.0656e-05,
+      "loss": 0.2289,
+      "mean_token_accuracy": 0.9334215141832829,
+      "num_tokens": 406222.0,
+      "step": 2170
+    },
+    {
+      "entropy": 0.28406244921498003,
+      "epoch": 3.488,
+      "grad_norm": 1.9269925355911255,
+      "learning_rate": 3.0336000000000002e-05,
+      "loss": 0.2353,
+      "mean_token_accuracy": 0.9303826864808797,
+      "num_tokens": 434767.0,
+      "step": 2180
+    },
+    {
+      "entropy": 0.2358154426328838,
+      "epoch": 3.504,
+      "grad_norm": 0.7775760293006897,
+      "learning_rate": 3.0016e-05,
+      "loss": 0.2277,
+      "mean_token_accuracy": 0.9293628957122564,
+      "num_tokens": 467498.0,
+      "step": 2190
+    },
+    {
+      "entropy": 0.2596265008673072,
+      "epoch": 3.52,
+      "grad_norm": 0.7286163568496704,
+      "learning_rate": 2.9696e-05,
+      "loss": 0.2266,
+      "mean_token_accuracy": 0.9321592267602682,
+      "num_tokens": 493146.0,
+      "step": 2200
+    },
+    {
+      "entropy": 0.28550293026492,
+      "epoch": 3.536,
+      "grad_norm": 0.7693914175033569,
+      "learning_rate": 2.9376000000000005e-05,
+      "loss": 0.2291,
+      "mean_token_accuracy": 0.9351058643311262,
+      "num_tokens": 513926.0,
+      "step": 2210
+    },
+    {
+      "entropy": 0.2885140863247216,
+      "epoch": 3.552,
+      "grad_norm": 1.1927505731582642,
+      "learning_rate": 2.9056e-05,
+      "loss": 0.219,
+      "mean_token_accuracy": 0.9396381825208664,
+      "num_tokens": 530263.0,
+      "step": 2220
+    },
+    {
+      "entropy": 0.283741835039109,
+      "epoch": 3.568,
+      "grad_norm": 0.6537899971008301,
+      "learning_rate": 2.8736e-05,
+      "loss": 0.2324,
+      "mean_token_accuracy": 0.9302929677069187,
+      "num_tokens": 559791.0,
+      "step": 2230
+    },
+    {
+      "entropy": 0.2369093818590045,
+      "epoch": 3.584,
+      "grad_norm": 0.793480396270752,
+      "learning_rate": 2.8416000000000004e-05,
+      "loss": 0.2165,
+      "mean_token_accuracy": 0.9320364937186241,
+      "num_tokens": 592398.0,
+      "step": 2240
+    },
+    {
+      "entropy": 0.264733817987144,
+      "epoch": 3.6,
+      "grad_norm": 0.7945203185081482,
+      "learning_rate": 2.8096e-05,
+      "loss": 0.2337,
+      "mean_token_accuracy": 0.9294226188212633,
+      "num_tokens": 617982.0,
+      "step": 2250
+    },
+    {
+      "entropy": 0.2889886857941747,
+      "epoch": 3.616,
+      "grad_norm": 0.7558261752128601,
+      "learning_rate": 2.7776000000000003e-05,
+      "loss": 0.2305,
+      "mean_token_accuracy": 0.9317790925502777,
+      "num_tokens": 639115.0,
+      "step": 2260
+    },
+    {
+      "entropy": 0.28708559228107333,
+      "epoch": 3.632,
+      "grad_norm": 0.6877163648605347,
+      "learning_rate": 2.7456000000000003e-05,
+      "loss": 0.2215,
+      "mean_token_accuracy": 0.9357377961277962,
+      "num_tokens": 655709.0,
+      "step": 2270
+    },
+    {
+      "entropy": 0.28660596534609795,
+      "epoch": 3.648,
+      "grad_norm": 0.6599491238594055,
+      "learning_rate": 2.7136e-05,
+      "loss": 0.2363,
+      "mean_token_accuracy": 0.928611570596695,
+      "num_tokens": 684500.0,
+      "step": 2280
+    },
+    {
+      "entropy": 0.23836621949449183,
+      "epoch": 3.664,
+      "grad_norm": 0.7436323165893555,
+      "learning_rate": 2.6816000000000002e-05,
+      "loss": 0.2194,
+      "mean_token_accuracy": 0.9314162913709879,
+      "num_tokens": 717271.0,
+      "step": 2290
+    },
+    {
+      "entropy": 0.27099227644503115,
+      "epoch": 3.68,
+      "grad_norm": 0.7519745826721191,
+      "learning_rate": 2.6496e-05,
+      "loss": 0.2369,
+      "mean_token_accuracy": 0.9278060872107744,
+      "num_tokens": 743068.0,
+      "step": 2300
+    },
+    {
+      "entropy": 0.282380092702806,
+      "epoch": 3.6959999999999997,
+      "grad_norm": 0.7645207643508911,
+      "learning_rate": 2.6176e-05,
+      "loss": 0.2175,
+      "mean_token_accuracy": 0.9372334524989128,
+      "num_tokens": 763925.0,
+      "step": 2310
+    },
+    {
+      "entropy": 0.2850790939293802,
+      "epoch": 3.7119999999999997,
+      "grad_norm": 0.9016556143760681,
+      "learning_rate": 2.5856e-05,
+      "loss": 0.217,
+      "mean_token_accuracy": 0.9392455574125051,
+      "num_tokens": 780111.0,
+      "step": 2320
+    },
+    {
+      "entropy": 0.2691464308649302,
+      "epoch": 3.7279999999999998,
+      "grad_norm": 0.77091383934021,
+      "learning_rate": 2.5535999999999997e-05,
+      "loss": 0.2334,
+      "mean_token_accuracy": 0.929338139295578,
+      "num_tokens": 808661.0,
+      "step": 2330
+    },
+    {
+      "entropy": 0.2395469973795116,
+      "epoch": 3.7439999999999998,
+      "grad_norm": 0.7632396221160889,
+      "learning_rate": 2.5216e-05,
+      "loss": 0.2148,
+      "mean_token_accuracy": 0.9322273649275303,
+      "num_tokens": 840932.0,
+      "step": 2340
+    },
+    {
+      "entropy": 0.2645680231973529,
+      "epoch": 3.76,
+      "grad_norm": 0.819273054599762,
+      "learning_rate": 2.4896e-05,
+      "loss": 0.226,
+      "mean_token_accuracy": 0.930556321516633,
+      "num_tokens": 866564.0,
+      "step": 2350
+    },
+    {
+      "entropy": 0.2808503101579845,
+      "epoch": 3.776,
+      "grad_norm": 0.8598120808601379,
+      "learning_rate": 2.4576000000000003e-05,
+      "loss": 0.2215,
+      "mean_token_accuracy": 0.9356644533574581,
+      "num_tokens": 887527.0,
+      "step": 2360
+    },
+    {
+      "entropy": 0.28694011168554423,
+      "epoch": 3.792,
+      "grad_norm": 1.0404748916625977,
+      "learning_rate": 2.4256e-05,
+      "loss": 0.214,
+      "mean_token_accuracy": 0.9388030290603637,
+      "num_tokens": 903688.0,
+      "step": 2370
+    },
+    {
+      "entropy": 0.2774578414391726,
+      "epoch": 3.808,
+      "grad_norm": 1.2308194637298584,
+      "learning_rate": 2.3936e-05,
+      "loss": 0.2328,
+      "mean_token_accuracy": 0.929581755027175,
+      "num_tokens": 932975.0,
+      "step": 2380
+    },
+    {
+      "entropy": 0.2381771973334253,
+      "epoch": 3.824,
+      "grad_norm": 0.7983541488647461,
+      "learning_rate": 2.3616000000000002e-05,
+      "loss": 0.2177,
+      "mean_token_accuracy": 0.9316004611551761,
+      "num_tokens": 965221.0,
+      "step": 2390
+    },
+    {
+      "entropy": 0.2579630766995251,
+      "epoch": 3.84,
+      "grad_norm": 0.8867554068565369,
+      "learning_rate": 2.3296000000000002e-05,
+      "loss": 0.2221,
+      "mean_token_accuracy": 0.9320516049861908,
+      "num_tokens": 990859.0,
+      "step": 2400
+    },
+    {
+      "epoch": 3.84,
+      "eval_accuracy": 0.02676376698545462,
+      "eval_entropy": 0.3534155045747757,
+      "eval_loss": 0.6058897972106934,
+      "eval_mean_token_accuracy": 0.8553497910499572,
+      "eval_num_tokens": 990859.0,
+      "eval_runtime": 869.2088,
+      "eval_samples_per_second": 2.301,
+      "eval_steps_per_second": 0.575,
+      "step": 2400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.143800723056128e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null