Training in progress, step 2000, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +414 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77864d7ace62f55fcbe208c5c6cc9569911a12ecbe57a926751f2480a79a7478
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:875e11864c60557b1ce9d0f4a3628b1921ba20dcfcb047f1194317ca21dd647e
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:553992435fdf55426ab458eda8e9db075c22e880e11057d7f404b4f226f4da3c
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:de1ef9fce3501f8a10d1279e16882931ece02414376645b57e1c3a181bf8a440
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09e3d60ceb3ec023b42a6d0f77950b69a5e873e6b5919f241bc8e0c4924179ee
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:b9eb46347e03fd2a32788474d53b64aa40655ea04df926d70dd4416068652168
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e1e49fbc13ff4dff3b2612346e8d196bc4a3ce59dde53156624e6f6d7be85f6
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:61bb68517c2e5d425f2cd920b30f02d4e60fd1e393f4dd6c263b9f530746bef3
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:97a3149368ea0f621c90dcd07b776f1cf4a2f4481e2102c7e3a6f76293bad34e
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cbbe8c194b3272da66f1fba8ab4ba395d75f317a59ad44137b928cbb13dbc0e
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
-  "epoch": 2.56,
   "eval_steps": 400,
-  "global_step": 1600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1729,6 +1729,417 @@
       "eval_samples_per_second": 2.039,
       "eval_steps_per_second": 0.51,
       "step": 1600
     }
   ],
   "logging_steps": 10,
@@ -1748,7 +2159,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.7526863451364352e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
+  "epoch": 3.2,
   "eval_steps": 400,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.039,
       "eval_steps_per_second": 0.51,
       "step": 1600
+    },
+    {
+      "entropy": 0.27413347605615856,
+      "epoch": 2.576,
+      "grad_norm": 0.6262645125389099,
+      "learning_rate": 4.8544e-05,
+      "loss": 0.291,
+      "mean_token_accuracy": 0.909802608937025,
+      "num_tokens": 289137.0,
+      "step": 1610
+    },
+    {
+      "entropy": 0.3372902118600905,
+      "epoch": 2.592,
+      "grad_norm": 0.6019719243049622,
+      "learning_rate": 4.8224000000000004e-05,
+      "loss": 0.3089,
+      "mean_token_accuracy": 0.9065854378044605,
+      "num_tokens": 317789.0,
+      "step": 1620
+    },
+    {
+      "entropy": 0.37745234509930015,
+      "epoch": 2.608,
+      "grad_norm": 0.6852167248725891,
+      "learning_rate": 4.790400000000001e-05,
+      "loss": 0.3237,
+      "mean_token_accuracy": 0.9017773322761059,
+      "num_tokens": 340977.0,
+      "step": 1630
+    },
+    {
+      "entropy": 0.3725322958081961,
+      "epoch": 2.624,
+      "grad_norm": 0.7118895053863525,
+      "learning_rate": 4.7584000000000004e-05,
+      "loss": 0.3207,
+      "mean_token_accuracy": 0.9077424634248018,
+      "num_tokens": 360098.0,
+      "step": 1640
+    },
+    {
+      "entropy": 0.4033573804423213,
+      "epoch": 2.64,
+      "grad_norm": 1.0586738586425781,
+      "learning_rate": 4.7264e-05,
+      "loss": 0.3174,
+      "mean_token_accuracy": 0.9044062152504921,
+      "num_tokens": 373200.0,
+      "step": 1650
+    },
+    {
+      "entropy": 0.2776737127453089,
+      "epoch": 2.656,
+      "grad_norm": 0.6017902493476868,
+      "learning_rate": 4.6944e-05,
+      "loss": 0.2942,
+      "mean_token_accuracy": 0.9093959752470255,
+      "num_tokens": 413938.0,
+      "step": 1660
+    },
+    {
+      "entropy": 0.33967588590458037,
+      "epoch": 2.672,
+      "grad_norm": 0.6162438988685608,
+      "learning_rate": 4.6624e-05,
+      "loss": 0.3075,
+      "mean_token_accuracy": 0.905268831551075,
+      "num_tokens": 442794.0,
+      "step": 1670
+    },
+    {
+      "entropy": 0.37314077839255333,
+      "epoch": 2.6879999999999997,
+      "grad_norm": 0.6455461382865906,
+      "learning_rate": 4.6304e-05,
+      "loss": 0.312,
+      "mean_token_accuracy": 0.9044175367802382,
+      "num_tokens": 465992.0,
+      "step": 1680
+    },
+    {
+      "entropy": 0.3640971322543919,
+      "epoch": 2.7039999999999997,
+      "grad_norm": 0.7681553959846497,
+      "learning_rate": 4.5984000000000006e-05,
+      "loss": 0.3049,
+      "mean_token_accuracy": 0.9096171893179417,
+      "num_tokens": 484580.0,
+      "step": 1690
+    },
+    {
+      "entropy": 0.39063505809754134,
+      "epoch": 2.7199999999999998,
+      "grad_norm": 0.9511684775352478,
+      "learning_rate": 4.5664e-05,
+      "loss": 0.3225,
+      "mean_token_accuracy": 0.9034549340605735,
+      "num_tokens": 497612.0,
+      "step": 1700
+    },
+    {
+      "entropy": 0.2883146867156029,
+      "epoch": 2.7359999999999998,
+      "grad_norm": 0.6692296862602234,
+      "learning_rate": 4.5344000000000005e-05,
+      "loss": 0.2935,
+      "mean_token_accuracy": 0.9078109141439199,
+      "num_tokens": 537755.0,
+      "step": 1710
+    },
+    {
+      "entropy": 0.34244058514013886,
+      "epoch": 2.752,
+      "grad_norm": 0.5983220934867859,
+      "learning_rate": 4.5024e-05,
+      "loss": 0.3076,
+      "mean_token_accuracy": 0.9057810723781585,
+      "num_tokens": 566325.0,
+      "step": 1720
+    },
+    {
+      "entropy": 0.3659200777299702,
+      "epoch": 2.768,
+      "grad_norm": 0.7049655318260193,
+      "learning_rate": 4.4704000000000004e-05,
+      "loss": 0.3059,
+      "mean_token_accuracy": 0.9072589132934809,
+      "num_tokens": 589517.0,
+      "step": 1730
+    },
+    {
+      "entropy": 0.35552563723176717,
+      "epoch": 2.784,
+      "grad_norm": 0.7242270112037659,
+      "learning_rate": 4.4384e-05,
+      "loss": 0.3013,
+      "mean_token_accuracy": 0.912841784581542,
+      "num_tokens": 608224.0,
+      "step": 1740
+    },
+    {
+      "entropy": 0.4027377144433558,
+      "epoch": 2.8,
+      "grad_norm": 1.5430299043655396,
+      "learning_rate": 4.4064e-05,
+      "loss": 0.3223,
+      "mean_token_accuracy": 0.9028574671596289,
+      "num_tokens": 621051.0,
+      "step": 1750
+    },
+    {
+      "entropy": 0.2703737439122051,
+      "epoch": 2.816,
+      "grad_norm": 0.7151817083358765,
+      "learning_rate": 4.3744e-05,
+      "loss": 0.2894,
+      "mean_token_accuracy": 0.9102732315659523,
+      "num_tokens": 662133.0,
+      "step": 1760
+    },
+    {
+      "entropy": 0.32695954395458104,
+      "epoch": 2.832,
+      "grad_norm": 0.6097021698951721,
+      "learning_rate": 4.3424e-05,
+      "loss": 0.2967,
+      "mean_token_accuracy": 0.9080837737768889,
+      "num_tokens": 690682.0,
+      "step": 1770
+    },
+    {
+      "entropy": 0.36010922444984317,
+      "epoch": 2.848,
+      "grad_norm": 0.7698465585708618,
+      "learning_rate": 4.3104e-05,
+      "loss": 0.3064,
+      "mean_token_accuracy": 0.9076121047139167,
+      "num_tokens": 713519.0,
+      "step": 1780
+    },
+    {
+      "entropy": 0.369490017183125,
+      "epoch": 2.864,
+      "grad_norm": 0.997474730014801,
+      "learning_rate": 4.2784e-05,
+      "loss": 0.3153,
+      "mean_token_accuracy": 0.9070124924182892,
+      "num_tokens": 731712.0,
+      "step": 1790
+    },
+    {
+      "entropy": 0.41184745989739896,
+      "epoch": 2.88,
+      "grad_norm": 0.9906476736068726,
+      "learning_rate": 4.2464000000000005e-05,
+      "loss": 0.3325,
+      "mean_token_accuracy": 0.9020481187850237,
+      "num_tokens": 744149.0,
+      "step": 1800
+    },
+    {
+      "entropy": 0.28201086847111584,
+      "epoch": 2.896,
+      "grad_norm": 0.6134458184242249,
+      "learning_rate": 4.2144e-05,
+      "loss": 0.2988,
+      "mean_token_accuracy": 0.9069436389952898,
+      "num_tokens": 782193.0,
+      "step": 1810
+    },
+    {
+      "entropy": 0.33303718706592916,
+      "epoch": 2.912,
+      "grad_norm": 0.6062189936637878,
+      "learning_rate": 4.1824000000000005e-05,
+      "loss": 0.3086,
+      "mean_token_accuracy": 0.9056244477629661,
+      "num_tokens": 809927.0,
+      "step": 1820
+    },
+    {
+      "entropy": 0.3643056120723486,
+      "epoch": 2.928,
+      "grad_norm": 0.6338886618614197,
+      "learning_rate": 4.1504e-05,
+      "loss": 0.3035,
+      "mean_token_accuracy": 0.911867779865861,
+      "num_tokens": 832745.0,
+      "step": 1830
+    },
+    {
+      "entropy": 0.35973973935469983,
+      "epoch": 2.944,
+      "grad_norm": 0.8483228087425232,
+      "learning_rate": 4.1184e-05,
+      "loss": 0.3084,
+      "mean_token_accuracy": 0.9093430683016777,
+      "num_tokens": 851193.0,
+      "step": 1840
+    },
+    {
+      "entropy": 0.4053435407578945,
+      "epoch": 2.96,
+      "grad_norm": 0.9516308903694153,
+      "learning_rate": 4.0864e-05,
+      "loss": 0.332,
+      "mean_token_accuracy": 0.8999160658568144,
+      "num_tokens": 863867.0,
+      "step": 1850
+    },
+    {
+      "entropy": 0.2989065528847277,
+      "epoch": 2.976,
+      "grad_norm": 0.6929520964622498,
+      "learning_rate": 4.0544000000000003e-05,
+      "loss": 0.2943,
+      "mean_token_accuracy": 0.9087879080325365,
+      "num_tokens": 898118.0,
+      "step": 1860
+    },
+    {
+      "entropy": 0.3597102670930326,
+      "epoch": 2.992,
+      "grad_norm": 0.7972533106803894,
+      "learning_rate": 4.0224e-05,
+      "loss": 0.3215,
+      "mean_token_accuracy": 0.902438759058714,
+      "num_tokens": 918026.0,
+      "step": 1870
+    },
+    {
+      "entropy": 0.3693191984202713,
+      "epoch": 3.008,
+      "grad_norm": 0.4952141344547272,
+      "learning_rate": 3.9904e-05,
+      "loss": 0.3109,
+      "mean_token_accuracy": 0.9047053713351488,
+      "num_tokens": 946468.0,
+      "step": 1880
+    },
+    {
+      "entropy": 0.30884325662627815,
+      "epoch": 3.024,
+      "grad_norm": 0.6402750015258789,
+      "learning_rate": 3.9584000000000006e-05,
+      "loss": 0.287,
+      "mean_token_accuracy": 0.9127614002674818,
+      "num_tokens": 978498.0,
+      "step": 1890
+    },
+    {
+      "entropy": 0.3251019007526338,
+      "epoch": 3.04,
+      "grad_norm": 0.7701610326766968,
+      "learning_rate": 3.9264e-05,
+      "loss": 0.3012,
+      "mean_token_accuracy": 0.9117080509662628,
+      "num_tokens": 1004128.0,
+      "step": 1900
+    },
+    {
+      "entropy": 0.3512966329231858,
+      "epoch": 3.056,
+      "grad_norm": 0.934260368347168,
+      "learning_rate": 3.8944000000000005e-05,
+      "loss": 0.2996,
+      "mean_token_accuracy": 0.9139776781201363,
+      "num_tokens": 1025136.0,
+      "step": 1910
+    },
+    {
+      "entropy": 0.36649829614907503,
+      "epoch": 3.072,
+      "grad_norm": 1.147735357284546,
+      "learning_rate": 3.8624e-05,
+      "loss": 0.3172,
+      "mean_token_accuracy": 0.90965236723423,
+      "num_tokens": 1041157.0,
+      "step": 1920
+    },
+    {
+      "entropy": 0.33526935083791615,
+      "epoch": 3.088,
+      "grad_norm": 0.6278552412986755,
+      "learning_rate": 3.8304e-05,
+      "loss": 0.294,
+      "mean_token_accuracy": 0.914416927471757,
+      "num_tokens": 1069401.0,
+      "step": 1930
+    },
+    {
+      "entropy": 0.2916401638649404,
+      "epoch": 3.104,
+      "grad_norm": 0.7106419205665588,
+      "learning_rate": 3.7984e-05,
+      "loss": 0.2833,
+      "mean_token_accuracy": 0.9128728475421667,
+      "num_tokens": 1101705.0,
+      "step": 1940
+    },
+    {
+      "entropy": 0.31783650666475294,
+      "epoch": 3.12,
+      "grad_norm": 0.6372864246368408,
+      "learning_rate": 3.7664e-05,
+      "loss": 0.2808,
+      "mean_token_accuracy": 0.9190873377025127,
+      "num_tokens": 1127173.0,
+      "step": 1950
+    },
+    {
+      "entropy": 0.33883463945239783,
+      "epoch": 3.136,
+      "grad_norm": 0.7593994736671448,
+      "learning_rate": 3.7344e-05,
+      "loss": 0.2932,
+      "mean_token_accuracy": 0.9133320480585099,
+      "num_tokens": 1147878.0,
+      "step": 1960
+    },
+    {
+      "entropy": 0.36267717741429806,
+      "epoch": 3.152,
+      "grad_norm": 0.9578737616539001,
+      "learning_rate": 3.7024e-05,
+      "loss": 0.3018,
+      "mean_token_accuracy": 0.9135202784091234,
+      "num_tokens": 1164084.0,
+      "step": 1970
+    },
+    {
+      "entropy": 0.33903956757858394,
+      "epoch": 3.168,
+      "grad_norm": 0.5553727746009827,
+      "learning_rate": 3.6704e-05,
+      "loss": 0.2962,
+      "mean_token_accuracy": 0.9128197953104973,
+      "num_tokens": 1192486.0,
+      "step": 1980
+    },
+    {
+      "entropy": 0.2897605660371482,
+      "epoch": 3.184,
+      "grad_norm": 0.7067289352416992,
+      "learning_rate": 3.6384e-05,
+      "loss": 0.2867,
+      "mean_token_accuracy": 0.9137052699923516,
+      "num_tokens": 1224540.0,
+      "step": 1990
+    },
+    {
+      "entropy": 0.32448912151157855,
+      "epoch": 3.2,
+      "grad_norm": 0.7603920102119446,
+      "learning_rate": 3.6064000000000006e-05,
+      "loss": 0.2908,
+      "mean_token_accuracy": 0.9150090869516134,
+      "num_tokens": 1249827.0,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_entropy": 0.4150727687478066,
+      "eval_loss": 0.5455561280250549,
+      "eval_mean_token_accuracy": 0.857409807562828,
+      "eval_num_tokens": 1249827.0,
+      "eval_runtime": 982.2461,
+      "eval_samples_per_second": 2.036,
+      "eval_steps_per_second": 0.509,
+      "step": 2000
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 3.452158742886605e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null