Training in progress, epoch 3, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_config.json +4 -4
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +455 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -29,13 +29,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "o_proj",
-    "k_proj",
-    "up_proj",
     "v_proj",
     "q_proj",
     "down_proj",
-    "gate_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "v_proj",
     "q_proj",
+    "k_proj",
+    "o_proj",
     "down_proj",
+    "gate_proj",
+    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad737a62d5e6dd3601ece9ec89b866a23dce6e9660089db12fbc69ce938d925e
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:f46c590a365bafa0b811513437da5e7d8483ece074035b6cb7866f4b8fa0ddbf
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0dfe45f7e8553ab326b74acce24981ad2310a19952e96422e10cdcd05d9f3261
-size 116484839

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbb191c56fba3604be8448d5e0ca5afff0e43237919a55146c2466867049b7a1
+size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4ff3bd83efcc74d45f6dc982dfad42de943c268219c0ad0ee388295c41e8e02
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:a47775446b1df475bf207a2642f3554e36380c6e365e872a57468d80ab3dc781
 size 14709

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4cb6f523fe7cbe7ec261f5a7daf8f68472cbad6a063d529646d1f827a9ef9fd3
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:fca1b27ac585e87f33a001c7dfb0adbdfb56b4d914009fde4324a9b10df26171
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53f409af08acb24ba2f85422d6d830e93fdc97a01268b4582a53eec3cbfeb20a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:57dbcaa4c36dfe8b1884cd38afdda1f50d97d5b0660c412d604e987f28a13d71
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 438,
   "best_metric": 1.2615772485733032,
   "best_model_checkpoint": "./adapter-phase2/checkpoint-438",
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 876,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -902,6 +902,458 @@
       "eval_samples_per_second": 3.451,
       "eval_steps_per_second": 0.864,
       "step": 876
     }
   ],
   "logging_steps": 10,
@@ -921,7 +1373,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.880058660122624e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 438,
   "best_metric": 1.2615772485733032,
   "best_model_checkpoint": "./adapter-phase2/checkpoint-438",
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1314,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.451,
       "eval_steps_per_second": 0.864,
       "step": 876
+    },
+    {
+      "entropy": 0.5898892944678664,
+      "epoch": 2.0091428571428573,
+      "grad_norm": 1.3116419315338135,
+      "learning_rate": 5.990867579908676e-06,
+      "loss": 0.5677,
+      "mean_token_accuracy": 0.8516398537904024,
+      "num_tokens": 7804.0,
+      "step": 880
+    },
+    {
+      "entropy": 0.6767458073794842,
+      "epoch": 2.032,
+      "grad_norm": 1.4093241691589355,
+      "learning_rate": 5.945205479452055e-06,
+      "loss": 0.6416,
+      "mean_token_accuracy": 0.8335339192301034,
+      "num_tokens": 21400.0,
+      "step": 890
+    },
+    {
+      "entropy": 0.7389240754768253,
+      "epoch": 2.0548571428571427,
+      "grad_norm": 1.8839222192764282,
+      "learning_rate": 5.8995433789954336e-06,
+      "loss": 0.6714,
+      "mean_token_accuracy": 0.8232478138059378,
+      "num_tokens": 31986.0,
+      "step": 900
+    },
+    {
+      "entropy": 0.8426970480009913,
+      "epoch": 2.077714285714286,
+      "grad_norm": 2.546990394592285,
+      "learning_rate": 5.853881278538813e-06,
+      "loss": 0.773,
+      "mean_token_accuracy": 0.7947055101394653,
+      "num_tokens": 39598.0,
+      "step": 910
+    },
+    {
+      "entropy": 0.9150473427027463,
+      "epoch": 2.1005714285714285,
+      "grad_norm": 2.7457187175750732,
+      "learning_rate": 5.8082191780821915e-06,
+      "loss": 0.8326,
+      "mean_token_accuracy": 0.7829385627061128,
+      "num_tokens": 45726.0,
+      "step": 920
+    },
+    {
+      "entropy": 0.7779074914753437,
+      "epoch": 2.123428571428571,
+      "grad_norm": 1.6818033456802368,
+      "learning_rate": 5.762557077625572e-06,
+      "loss": 0.6953,
+      "mean_token_accuracy": 0.8222391355782748,
+      "num_tokens": 55996.0,
+      "step": 930
+    },
+    {
+      "entropy": 0.6338619258254766,
+      "epoch": 2.1462857142857144,
+      "grad_norm": 1.8489398956298828,
+      "learning_rate": 5.716894977168949e-06,
+      "loss": 0.5875,
+      "mean_token_accuracy": 0.8410690952092409,
+      "num_tokens": 69720.0,
+      "step": 940
+    },
+    {
+      "entropy": 0.7125289073213935,
+      "epoch": 2.169142857142857,
+      "grad_norm": 1.8807828426361084,
+      "learning_rate": 5.6712328767123296e-06,
+      "loss": 0.6763,
+      "mean_token_accuracy": 0.8223242565989495,
+      "num_tokens": 80327.0,
+      "step": 950
+    },
+    {
+      "entropy": 0.8898364685475826,
+      "epoch": 2.192,
+      "grad_norm": 2.358139753341675,
+      "learning_rate": 5.625570776255708e-06,
+      "loss": 0.8491,
+      "mean_token_accuracy": 0.7844949930906295,
+      "num_tokens": 88242.0,
+      "step": 960
+    },
+    {
+      "entropy": 0.8897234506905078,
+      "epoch": 2.214857142857143,
+      "grad_norm": 2.5401251316070557,
+      "learning_rate": 5.5799086757990874e-06,
+      "loss": 0.786,
+      "mean_token_accuracy": 0.795602411031723,
+      "num_tokens": 94381.0,
+      "step": 970
+    },
+    {
+      "entropy": 0.7333379179239273,
+      "epoch": 2.2377142857142855,
+      "grad_norm": 1.7071613073349,
+      "learning_rate": 5.534246575342466e-06,
+      "loss": 0.665,
+      "mean_token_accuracy": 0.8248766608536243,
+      "num_tokens": 105014.0,
+      "step": 980
+    },
+    {
+      "entropy": 0.6419918712228536,
+      "epoch": 2.2605714285714287,
+      "grad_norm": 1.5552293062210083,
+      "learning_rate": 5.488584474885845e-06,
+      "loss": 0.6026,
+      "mean_token_accuracy": 0.8414491657167673,
+      "num_tokens": 118550.0,
+      "step": 990
+    },
+    {
+      "entropy": 0.7310339482501149,
+      "epoch": 2.2834285714285714,
+      "grad_norm": 2.278031587600708,
+      "learning_rate": 5.442922374429224e-06,
+      "loss": 0.6805,
+      "mean_token_accuracy": 0.8224124182015657,
+      "num_tokens": 128693.0,
+      "step": 1000
+    },
+    {
+      "entropy": 0.880455293878913,
+      "epoch": 2.306285714285714,
+      "grad_norm": 2.459608554840088,
+      "learning_rate": 5.397260273972603e-06,
+      "loss": 0.8336,
+      "mean_token_accuracy": 0.7825992915779352,
+      "num_tokens": 136122.0,
+      "step": 1010
+    },
+    {
+      "entropy": 0.8820295415818691,
+      "epoch": 2.329142857142857,
+      "grad_norm": 2.6355550289154053,
+      "learning_rate": 5.351598173515982e-06,
+      "loss": 0.7887,
+      "mean_token_accuracy": 0.7964828334748745,
+      "num_tokens": 142194.0,
+      "step": 1020
+    },
+    {
+      "entropy": 0.7468231266364456,
+      "epoch": 2.352,
+      "grad_norm": 1.3787378072738647,
+      "learning_rate": 5.305936073059361e-06,
+      "loss": 0.6603,
+      "mean_token_accuracy": 0.8238665115088224,
+      "num_tokens": 152715.0,
+      "step": 1030
+    },
+    {
+      "entropy": 0.6317665258422493,
+      "epoch": 2.374857142857143,
+      "grad_norm": 1.7379688024520874,
+      "learning_rate": 5.26027397260274e-06,
+      "loss": 0.6007,
+      "mean_token_accuracy": 0.8413413379341363,
+      "num_tokens": 166545.0,
+      "step": 1040
+    },
+    {
+      "entropy": 0.7211008200421929,
+      "epoch": 2.3977142857142857,
+      "grad_norm": 2.5596601963043213,
+      "learning_rate": 5.214611872146119e-06,
+      "loss": 0.656,
+      "mean_token_accuracy": 0.8258481413125992,
+      "num_tokens": 177411.0,
+      "step": 1050
+    },
+    {
+      "entropy": 0.8763142567127943,
+      "epoch": 2.420571428571429,
+      "grad_norm": 2.739737033843994,
+      "learning_rate": 5.1689497716894975e-06,
+      "loss": 0.8354,
+      "mean_token_accuracy": 0.7820440270006657,
+      "num_tokens": 185340.0,
+      "step": 1060
+    },
+    {
+      "entropy": 0.8908181961625814,
+      "epoch": 2.4434285714285715,
+      "grad_norm": 3.223233222961426,
+      "learning_rate": 5.123287671232877e-06,
+      "loss": 0.7972,
+      "mean_token_accuracy": 0.79459448158741,
+      "num_tokens": 191540.0,
+      "step": 1070
+    },
+    {
+      "entropy": 0.7510069858282804,
+      "epoch": 2.466285714285714,
+      "grad_norm": 1.703507661819458,
+      "learning_rate": 5.077625570776255e-06,
+      "loss": 0.6854,
+      "mean_token_accuracy": 0.8139259118586779,
+      "num_tokens": 201907.0,
+      "step": 1080
+    },
+    {
+      "entropy": 0.6569937597960234,
+      "epoch": 2.4891428571428573,
+      "grad_norm": 1.7559291124343872,
+      "learning_rate": 5.031963470319635e-06,
+      "loss": 0.6111,
+      "mean_token_accuracy": 0.84332409016788,
+      "num_tokens": 215231.0,
+      "step": 1090
+    },
+    {
+      "entropy": 0.7254189381375908,
+      "epoch": 2.512,
+      "grad_norm": 1.9119453430175781,
+      "learning_rate": 4.986301369863014e-06,
+      "loss": 0.6814,
+      "mean_token_accuracy": 0.8200360022485256,
+      "num_tokens": 225539.0,
+      "step": 1100
+    },
+    {
+      "entropy": 0.8703744746744633,
+      "epoch": 2.5348571428571427,
+      "grad_norm": 2.812936305999756,
+      "learning_rate": 4.9406392694063935e-06,
+      "loss": 0.8006,
+      "mean_token_accuracy": 0.7889351420104503,
+      "num_tokens": 233013.0,
+      "step": 1110
+    },
+    {
+      "entropy": 0.8793116342276335,
+      "epoch": 2.557714285714286,
+      "grad_norm": 3.227419137954712,
+      "learning_rate": 4.894977168949772e-06,
+      "loss": 0.7693,
+      "mean_token_accuracy": 0.7998475536704064,
+      "num_tokens": 238974.0,
+      "step": 1120
+    },
+    {
+      "entropy": 0.7303921280428767,
+      "epoch": 2.5805714285714285,
+      "grad_norm": 1.6300448179244995,
+      "learning_rate": 4.849315068493151e-06,
+      "loss": 0.6538,
+      "mean_token_accuracy": 0.8278157886117696,
+      "num_tokens": 249037.0,
+      "step": 1130
+    },
+    {
+      "entropy": 0.6417382193729282,
+      "epoch": 2.603428571428571,
+      "grad_norm": 1.6912339925765991,
+      "learning_rate": 4.80365296803653e-06,
+      "loss": 0.6108,
+      "mean_token_accuracy": 0.8381971474736929,
+      "num_tokens": 262395.0,
+      "step": 1140
+    },
+    {
+      "entropy": 0.7339965717867016,
+      "epoch": 2.6262857142857143,
+      "grad_norm": 2.330716371536255,
+      "learning_rate": 4.757990867579909e-06,
+      "loss": 0.6772,
+      "mean_token_accuracy": 0.8194692388176918,
+      "num_tokens": 272694.0,
+      "step": 1150
+    },
+    {
+      "entropy": 0.8351591594517231,
+      "epoch": 2.649142857142857,
+      "grad_norm": 2.8293557167053223,
+      "learning_rate": 4.712328767123288e-06,
+      "loss": 0.7642,
+      "mean_token_accuracy": 0.7966304961591959,
+      "num_tokens": 280231.0,
+      "step": 1160
+    },
+    {
+      "entropy": 0.8861342877149582,
+      "epoch": 2.672,
+      "grad_norm": 2.9575674533843994,
+      "learning_rate": 4.666666666666667e-06,
+      "loss": 0.7999,
+      "mean_token_accuracy": 0.7918535027652979,
+      "num_tokens": 286161.0,
+      "step": 1170
+    },
+    {
+      "entropy": 0.7180219950154424,
+      "epoch": 2.694857142857143,
+      "grad_norm": 1.5886666774749756,
+      "learning_rate": 4.6210045662100465e-06,
+      "loss": 0.6434,
+      "mean_token_accuracy": 0.8283716265112162,
+      "num_tokens": 296388.0,
+      "step": 1180
+    },
+    {
+      "entropy": 0.6133397184312344,
+      "epoch": 2.717714285714286,
+      "grad_norm": 1.8250149488449097,
+      "learning_rate": 4.575342465753425e-06,
+      "loss": 0.6059,
+      "mean_token_accuracy": 0.8467012654989958,
+      "num_tokens": 310217.0,
+      "step": 1190
+    },
+    {
+      "entropy": 0.6812281895428896,
+      "epoch": 2.7405714285714287,
+      "grad_norm": 2.336768627166748,
+      "learning_rate": 4.529680365296804e-06,
+      "loss": 0.6216,
+      "mean_token_accuracy": 0.8333451252430677,
+      "num_tokens": 320782.0,
+      "step": 1200
+    },
+    {
+      "entropy": 0.8352824920788408,
+      "epoch": 2.7634285714285713,
+      "grad_norm": 2.4751791954040527,
+      "learning_rate": 4.484018264840183e-06,
+      "loss": 0.7816,
+      "mean_token_accuracy": 0.7953334752470255,
+      "num_tokens": 328520.0,
+      "step": 1210
+    },
+    {
+      "entropy": 0.8553074564784765,
+      "epoch": 2.7862857142857145,
+      "grad_norm": 3.6519722938537598,
+      "learning_rate": 4.438356164383562e-06,
+      "loss": 0.7807,
+      "mean_token_accuracy": 0.7970743294805288,
+      "num_tokens": 334489.0,
+      "step": 1220
+    },
+    {
+      "entropy": 0.7267135815694928,
+      "epoch": 2.809142857142857,
+      "grad_norm": 1.6625852584838867,
+      "learning_rate": 4.392694063926941e-06,
+      "loss": 0.6521,
+      "mean_token_accuracy": 0.8255741696804761,
+      "num_tokens": 344543.0,
+      "step": 1230
+    },
+    {
+      "entropy": 0.6338536148890853,
+      "epoch": 2.832,
+      "grad_norm": 1.9026601314544678,
+      "learning_rate": 4.34703196347032e-06,
+      "loss": 0.5962,
+      "mean_token_accuracy": 0.8427884597331285,
+      "num_tokens": 357986.0,
+      "step": 1240
+    },
+    {
+      "entropy": 0.7158672915771603,
+      "epoch": 2.854857142857143,
+      "grad_norm": 2.288316488265991,
+      "learning_rate": 4.301369863013699e-06,
+      "loss": 0.6478,
+      "mean_token_accuracy": 0.8221574258059263,
+      "num_tokens": 368102.0,
+      "step": 1250
+    },
+    {
+      "entropy": 0.8342319210991264,
+      "epoch": 2.8777142857142857,
+      "grad_norm": 2.675821542739868,
+      "learning_rate": 4.255707762557078e-06,
+      "loss": 0.7634,
+      "mean_token_accuracy": 0.8008246626704931,
+      "num_tokens": 375682.0,
+      "step": 1260
+    },
+    {
+      "entropy": 0.8324337769299746,
+      "epoch": 2.9005714285714284,
+      "grad_norm": 3.794491767883301,
+      "learning_rate": 4.2100456621004574e-06,
+      "loss": 0.7409,
+      "mean_token_accuracy": 0.8102138575166464,
+      "num_tokens": 381707.0,
+      "step": 1270
+    },
+    {
+      "entropy": 0.7096458308398723,
+      "epoch": 2.9234285714285715,
+      "grad_norm": 1.945020318031311,
+      "learning_rate": 4.164383561643836e-06,
+      "loss": 0.6394,
+      "mean_token_accuracy": 0.8287061709910631,
+      "num_tokens": 391884.0,
+      "step": 1280
+    },
+    {
+      "entropy": 0.6416196620091796,
+      "epoch": 2.946285714285714,
+      "grad_norm": 2.1223883628845215,
+      "learning_rate": 4.118721461187215e-06,
+      "loss": 0.613,
+      "mean_token_accuracy": 0.837811603397131,
+      "num_tokens": 404730.0,
+      "step": 1290
+    },
+    {
+      "entropy": 0.7876641971990466,
+      "epoch": 2.9691428571428573,
+      "grad_norm": 3.030888795852661,
+      "learning_rate": 4.073059360730594e-06,
+      "loss": 0.7228,
+      "mean_token_accuracy": 0.8122910633683205,
+      "num_tokens": 413461.0,
+      "step": 1300
+    },
+    {
+      "entropy": 0.8694131746888161,
+      "epoch": 2.992,
+      "grad_norm": 2.9641623497009277,
+      "learning_rate": 4.027397260273973e-06,
+      "loss": 0.793,
+      "mean_token_accuracy": 0.7905130475759506,
+      "num_tokens": 419636.0,
+      "step": 1310
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.009547123623011015,
+      "eval_entropy": 0.8601508936826787,
+      "eval_loss": 1.4408637285232544,
+      "eval_mean_token_accuracy": 0.7276363938931792,
+      "eval_num_tokens": 421194.0,
+      "eval_runtime": 323.9597,
+      "eval_samples_per_second": 3.192,
+      "eval_steps_per_second": 0.799,
+      "step": 1314
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.820087990183936e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6397570b74b109fa363e6deebec3b410825df0b8fddd810637091c898cd86887
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:af1f15f9c776b8fd13191f98c1f119768de73cea6cded240bc06132c6f7b3d65
 size 6353