Training in progress, step 2700, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +315 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d4ddfdb9e3869897cc8e2c794340a2005ba76c5f50e34e53325b8ac99f6dc318
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:df0b3c057589426de11702e8aa51f40578fbdc1c16b5298b4df1b3741a358543
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e830b2069082bb840c6d5f287e7770c0cf0e2e3f80198ae73bbef00b14811db
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:7e1a2a35f3f40624f11f416233f78a070b1dea29da95a3a90a9a787a9173de3d
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e39d866cd1fc861fe2c47687364cde08217b0454e6f5ff3c9a3af4b1571fdbed
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:54ee403e6e7f52e165fb91ab2843ca4f38ca3d3c64d81b59c5a39f9e4c098413
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:137d8a11890df77c4e1b6a4687bee089955dbcdddb421d49b265e762ccebb1d2
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:88be0f049d620e88b111c309644f5ca8c552ca0e64dbf5a41f67ac4dd14016eb
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a3c006c2c7c0bc33914c8e11069f53d495f2eafa42ba0a076cb7cebbe066c7a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:6abcf0c15a7ba90c608cb1903d96b4ad18eb9806fb694a46be4e23a52b64410b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
-  "epoch": 3.84,
   "eval_steps": 300,
-  "global_step": 2400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2564,6 +2564,318 @@
       "eval_samples_per_second": 2.301,
       "eval_steps_per_second": 0.575,
       "step": 2400
     }
   ],
   "logging_steps": 10,
@@ -2583,7 +2895,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.143800723056128e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
+  "epoch": 4.32,
   "eval_steps": 300,
+  "global_step": 2700,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.301,
       "eval_steps_per_second": 0.575,
       "step": 2400
+    },
+    {
+      "entropy": 0.2655953477136791,
+      "epoch": 3.856,
+      "grad_norm": 0.8277497291564941,
+      "learning_rate": 2.2976e-05,
+      "loss": 0.2109,
+      "mean_token_accuracy": 0.9393812574446201,
+      "num_tokens": 1011268.0,
+      "step": 2410
+    },
+    {
+      "entropy": 0.2920296056661755,
+      "epoch": 3.872,
+      "grad_norm": 1.015434980392456,
+      "learning_rate": 2.2656e-05,
+      "loss": 0.2243,
+      "mean_token_accuracy": 0.9357186656445264,
+      "num_tokens": 1026942.0,
+      "step": 2420
+    },
+    {
+      "entropy": 0.2859017666429281,
+      "epoch": 3.888,
+      "grad_norm": 0.6656726002693176,
+      "learning_rate": 2.2336e-05,
+      "loss": 0.2389,
+      "mean_token_accuracy": 0.9283736657351256,
+      "num_tokens": 1053937.0,
+      "step": 2430
+    },
+    {
+      "entropy": 0.24961302392184734,
+      "epoch": 3.904,
+      "grad_norm": 0.8390278816223145,
+      "learning_rate": 2.2016e-05,
+      "loss": 0.2211,
+      "mean_token_accuracy": 0.9312011521309614,
+      "num_tokens": 1084820.0,
+      "step": 2440
+    },
+    {
+      "entropy": 0.2519187033176422,
+      "epoch": 3.92,
+      "grad_norm": 0.8542287349700928,
+      "learning_rate": 2.1696e-05,
+      "loss": 0.2126,
+      "mean_token_accuracy": 0.9375488836318254,
+      "num_tokens": 1109943.0,
+      "step": 2450
+    },
+    {
+      "entropy": 0.27277124775573613,
+      "epoch": 3.936,
+      "grad_norm": 0.9245595335960388,
+      "learning_rate": 2.1376e-05,
+      "loss": 0.2161,
+      "mean_token_accuracy": 0.9364014331251382,
+      "num_tokens": 1130543.0,
+      "step": 2460
+    },
+    {
+      "entropy": 0.28273853762075307,
+      "epoch": 3.952,
+      "grad_norm": 0.9764724969863892,
+      "learning_rate": 2.1056e-05,
+      "loss": 0.2217,
+      "mean_token_accuracy": 0.9356040749698877,
+      "num_tokens": 1146676.0,
+      "step": 2470
+    },
+    {
+      "entropy": 0.2879827093333006,
+      "epoch": 3.968,
+      "grad_norm": 0.7532303929328918,
+      "learning_rate": 2.0736e-05,
+      "loss": 0.2413,
+      "mean_token_accuracy": 0.9290374431759119,
+      "num_tokens": 1172078.0,
+      "step": 2480
+    },
+    {
+      "entropy": 0.2530561724677682,
+      "epoch": 3.984,
+      "grad_norm": 0.8568546175956726,
+      "learning_rate": 2.0416000000000002e-05,
+      "loss": 0.2177,
+      "mean_token_accuracy": 0.9337470591068268,
+      "num_tokens": 1197464.0,
+      "step": 2490
+    },
+    {
+      "entropy": 0.3038310568779707,
+      "epoch": 4.0,
+      "grad_norm": 0.9622617959976196,
+      "learning_rate": 2.0096000000000002e-05,
+      "loss": 0.2368,
+      "mean_token_accuracy": 0.9296225290745497,
+      "num_tokens": 1212204.0,
+      "step": 2500
+    },
+    {
+      "entropy": 0.24809251818805933,
+      "epoch": 4.016,
+      "grad_norm": 0.8197008371353149,
+      "learning_rate": 1.9776000000000002e-05,
+      "loss": 0.2395,
+      "mean_token_accuracy": 0.928604032099247,
+      "num_tokens": 1253458.0,
+      "step": 2510
+    },
+    {
+      "entropy": 0.24905966678634286,
+      "epoch": 4.032,
+      "grad_norm": 0.8056384921073914,
+      "learning_rate": 1.9456e-05,
+      "loss": 0.2301,
+      "mean_token_accuracy": 0.9330911111086607,
+      "num_tokens": 1282365.0,
+      "step": 2520
+    },
+    {
+      "entropy": 0.26601817598566413,
+      "epoch": 4.048,
+      "grad_norm": 0.9766417145729065,
+      "learning_rate": 1.9136e-05,
+      "loss": 0.2237,
+      "mean_token_accuracy": 0.9384452097117901,
+      "num_tokens": 1305420.0,
+      "step": 2530
+    },
+    {
+      "entropy": 0.28673125999048354,
+      "epoch": 4.064,
+      "grad_norm": 1.2241604328155518,
+      "learning_rate": 1.8816e-05,
+      "loss": 0.2615,
+      "mean_token_accuracy": 0.9268214203417301,
+      "num_tokens": 1323367.0,
+      "step": 2540
+    },
+    {
+      "entropy": 0.3297149523161352,
+      "epoch": 4.08,
+      "grad_norm": 1.2444630861282349,
+      "learning_rate": 1.8496000000000004e-05,
+      "loss": 0.266,
+      "mean_token_accuracy": 0.9285014558583498,
+      "num_tokens": 1335370.0,
+      "step": 2550
+    },
+    {
+      "entropy": 0.25180468857288363,
+      "epoch": 4.096,
+      "grad_norm": 0.6901214718818665,
+      "learning_rate": 1.8176e-05,
+      "loss": 0.2242,
+      "mean_token_accuracy": 0.9317782554775477,
+      "num_tokens": 1374567.0,
+      "step": 2560
+    },
+    {
+      "entropy": 0.25819407450035214,
+      "epoch": 4.112,
+      "grad_norm": 0.8702373504638672,
+      "learning_rate": 1.7856e-05,
+      "loss": 0.2344,
+      "mean_token_accuracy": 0.9326971143484115,
+      "num_tokens": 1402608.0,
+      "step": 2570
+    },
+    {
+      "entropy": 0.26549670435488226,
+      "epoch": 4.128,
+      "grad_norm": 0.7631207704544067,
+      "learning_rate": 1.7536e-05,
+      "loss": 0.2297,
+      "mean_token_accuracy": 0.9365796335041523,
+      "num_tokens": 1425524.0,
+      "step": 2580
+    },
+    {
+      "entropy": 0.26975566176697613,
+      "epoch": 4.144,
+      "grad_norm": 1.1718668937683105,
+      "learning_rate": 1.7216000000000003e-05,
+      "loss": 0.221,
+      "mean_token_accuracy": 0.9397962510585784,
+      "num_tokens": 1444092.0,
+      "step": 2590
+    },
+    {
+      "entropy": 0.3168819394893944,
+      "epoch": 4.16,
+      "grad_norm": 1.0534077882766724,
+      "learning_rate": 1.6896000000000002e-05,
+      "loss": 0.2544,
+      "mean_token_accuracy": 0.9319371480494738,
+      "num_tokens": 1456844.0,
+      "step": 2600
+    },
+    {
+      "entropy": 0.25265237540006635,
+      "epoch": 4.176,
+      "grad_norm": 0.7592364549636841,
+      "learning_rate": 1.6576e-05,
+      "loss": 0.2395,
+      "mean_token_accuracy": 0.9289916418492794,
+      "num_tokens": 1496545.0,
+      "step": 2610
+    },
+    {
+      "entropy": 0.2543726827017963,
+      "epoch": 4.192,
+      "grad_norm": 0.9639586210250854,
+      "learning_rate": 1.6256e-05,
+      "loss": 0.2351,
+      "mean_token_accuracy": 0.9337568439543247,
+      "num_tokens": 1525103.0,
+      "step": 2620
+    },
+    {
+      "entropy": 0.26547051025554536,
+      "epoch": 4.208,
+      "grad_norm": 0.9620559215545654,
+      "learning_rate": 1.5936e-05,
+      "loss": 0.2382,
+      "mean_token_accuracy": 0.9348125293850899,
+      "num_tokens": 1548306.0,
+      "step": 2630
+    },
+    {
+      "entropy": 0.27369030360132457,
+      "epoch": 4.224,
+      "grad_norm": 0.8373218774795532,
+      "learning_rate": 1.5616e-05,
+      "loss": 0.2254,
+      "mean_token_accuracy": 0.9375662509351969,
+      "num_tokens": 1566990.0,
+      "step": 2640
+    },
+    {
+      "entropy": 0.3024815677665174,
+      "epoch": 4.24,
+      "grad_norm": 1.3148176670074463,
+      "learning_rate": 1.5296e-05,
+      "loss": 0.2391,
+      "mean_token_accuracy": 0.9351990919560194,
+      "num_tokens": 1580065.0,
+      "step": 2650
+    },
+    {
+      "entropy": 0.2600595161318779,
+      "epoch": 4.256,
+      "grad_norm": 0.6774656176567078,
+      "learning_rate": 1.4976000000000002e-05,
+      "loss": 0.2377,
+      "mean_token_accuracy": 0.9274554952979088,
+      "num_tokens": 1619083.0,
+      "step": 2660
+    },
+    {
+      "entropy": 0.26013899641111493,
+      "epoch": 4.272,
+      "grad_norm": 0.9727310538291931,
+      "learning_rate": 1.4656e-05,
+      "loss": 0.2294,
+      "mean_token_accuracy": 0.934112536534667,
+      "num_tokens": 1646970.0,
+      "step": 2670
+    },
+    {
+      "entropy": 0.25867203902453184,
+      "epoch": 4.288,
+      "grad_norm": 0.9198706150054932,
+      "learning_rate": 1.4336e-05,
+      "loss": 0.2184,
+      "mean_token_accuracy": 0.9373745564371347,
+      "num_tokens": 1669364.0,
+      "step": 2680
+    },
+    {
+      "entropy": 0.26432402124628424,
+      "epoch": 4.304,
+      "grad_norm": 0.9908862709999084,
+      "learning_rate": 1.4016000000000001e-05,
+      "loss": 0.2195,
+      "mean_token_accuracy": 0.9392576098442078,
+      "num_tokens": 1687812.0,
+      "step": 2690
+    },
+    {
+      "entropy": 0.30741472546942533,
+      "epoch": 4.32,
+      "grad_norm": 1.0388495922088623,
+      "learning_rate": 1.3696e-05,
+      "loss": 0.2503,
+      "mean_token_accuracy": 0.9325483400374651,
+      "num_tokens": 1700598.0,
+      "step": 2700
+    },
+    {
+      "epoch": 4.32,
+      "eval_accuracy": 0.02638358121882313,
+      "eval_entropy": 0.3719751555919647,
+      "eval_loss": 0.5846644043922424,
+      "eval_mean_token_accuracy": 0.8568292667865753,
+      "eval_num_tokens": 1700598.0,
+      "eval_runtime": 869.8497,
+      "eval_samples_per_second": 2.299,
+      "eval_steps_per_second": 0.575,
+      "step": 2700
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.639214588564275e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null