Training in progress, epoch 3, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +455 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -32,10 +32,10 @@
     "down_proj",
     "q_proj",
     "o_proj",
-    "v_proj",
-    "gate_proj",
     "up_proj",
-    "k_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

     "down_proj",
     "q_proj",
     "o_proj",
+    "k_proj",
     "up_proj",
+    "v_proj",
+    "gate_proj"
   ],
   "target_parameters": null,
   "task_type": "CAUSAL_LM",

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df1c1aa2916d5972f5efeb6284e8eab0c9c72f3782a534e72ebed006d4a326dc
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:42057458be0849df210a2b4c2241429197465f786f00b0c91791a8239fe63ce0
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84a3341db1ea0703a3a5bfb4c84d9c6f9c629d7ec814a41d47f66338b4b4316a
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:486a933a9db49920bfa89b88f3df33a30e37dd2e0d00f86eab85749749cfb1cd
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c823b36aa64ec6d5ba470435413c8fa628bdc36879db73fd6bcc786691658d3
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9624fb715f3fe663fa916439122fcd0c3a8e903cf9047d070921678e351f1695
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7db9931cd2bdb0cce107e4058673881f0e4939f11f21f05dabe6ed2ca0118fd7
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:0bc94b43794521e81946badd820ca495ec5676bcf0035e98e623d3832e5330ab
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53f409af08acb24ba2f85422d6d830e93fdc97a01268b4582a53eec3cbfeb20a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:57dbcaa4c36dfe8b1884cd38afdda1f50d97d5b0660c412d604e987f28a13d71
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 876,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -902,6 +902,458 @@
       "eval_samples_per_second": 1.409,
       "eval_steps_per_second": 0.353,
       "step": 876
     }
   ],
   "logging_steps": 10,
@@ -921,7 +1373,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.792626248603853e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 1314,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.409,
       "eval_steps_per_second": 0.353,
       "step": 876
+    },
+    {
+      "entropy": 0.07226648146752268,
+      "epoch": 2.0091428571428573,
+      "grad_norm": 0.19992968440055847,
+      "learning_rate": 5.990867579908676e-06,
+      "loss": 0.0549,
+      "mean_token_accuracy": 0.9871370224282146,
+      "num_tokens": 71651.0,
+      "step": 880
+    },
+    {
+      "entropy": 0.08760866427328437,
+      "epoch": 2.032,
+      "grad_norm": 1.5932085514068604,
+      "learning_rate": 5.945205479452055e-06,
+      "loss": 0.0778,
+      "mean_token_accuracy": 0.9797730926424265,
+      "num_tokens": 172012.0,
+      "step": 890
+    },
+    {
+      "entropy": 0.12492547524161637,
+      "epoch": 2.0548571428571427,
+      "grad_norm": 0.6689738035202026,
+      "learning_rate": 5.8995433789954336e-06,
+      "loss": 0.115,
+      "mean_token_accuracy": 0.9695353880524635,
+      "num_tokens": 232243.0,
+      "step": 900
+    },
+    {
+      "entropy": 0.16423010914586483,
+      "epoch": 2.077714285714286,
+      "grad_norm": 0.5557848811149597,
+      "learning_rate": 5.853881278538813e-06,
+      "loss": 0.1504,
+      "mean_token_accuracy": 0.960123248770833,
+      "num_tokens": 271484.0,
+      "step": 910
+    },
+    {
+      "entropy": 0.2013902359176427,
+      "epoch": 2.1005714285714285,
+      "grad_norm": 0.6008731126785278,
+      "learning_rate": 5.8082191780821915e-06,
+      "loss": 0.185,
+      "mean_token_accuracy": 0.9510148607194424,
+      "num_tokens": 300041.0,
+      "step": 920
+    },
+    {
+      "entropy": 0.16232432541437447,
+      "epoch": 2.123428571428571,
+      "grad_norm": 0.2098476141691208,
+      "learning_rate": 5.762557077625572e-06,
+      "loss": 0.1412,
+      "mean_token_accuracy": 0.9628485467284917,
+      "num_tokens": 389965.0,
+      "step": 930
+    },
+    {
+      "entropy": 0.08904013778083027,
+      "epoch": 2.1462857142857144,
+      "grad_norm": 0.3195517659187317,
+      "learning_rate": 5.716894977168949e-06,
+      "loss": 0.0845,
+      "mean_token_accuracy": 0.9784366983920336,
+      "num_tokens": 487704.0,
+      "step": 940
+    },
+    {
+      "entropy": 0.12201522623654455,
+      "epoch": 2.169142857142857,
+      "grad_norm": 1.0207574367523193,
+      "learning_rate": 5.6712328767123296e-06,
+      "loss": 0.1133,
+      "mean_token_accuracy": 0.9702005807310343,
+      "num_tokens": 546009.0,
+      "step": 950
+    },
+    {
+      "entropy": 0.16437453916296363,
+      "epoch": 2.192,
+      "grad_norm": 1.6780635118484497,
+      "learning_rate": 5.625570776255708e-06,
+      "loss": 0.1542,
+      "mean_token_accuracy": 0.9600558575242758,
+      "num_tokens": 585430.0,
+      "step": 960
+    },
+    {
+      "entropy": 0.1969488083384931,
+      "epoch": 2.214857142857143,
+      "grad_norm": 0.6065514087677002,
+      "learning_rate": 5.5799086757990874e-06,
+      "loss": 0.1817,
+      "mean_token_accuracy": 0.9518488951027393,
+      "num_tokens": 614326.0,
+      "step": 970
+    },
+    {
+      "entropy": 0.17060820223996415,
+      "epoch": 2.2377142857142855,
+      "grad_norm": 0.7302483916282654,
+      "learning_rate": 5.534246575342466e-06,
+      "loss": 0.1466,
+      "mean_token_accuracy": 0.9602311763912439,
+      "num_tokens": 695616.0,
+      "step": 980
+    },
+    {
+      "entropy": 0.09251747198868543,
+      "epoch": 2.2605714285714287,
+      "grad_norm": 0.28182512521743774,
+      "learning_rate": 5.488584474885845e-06,
+      "loss": 0.0865,
+      "mean_token_accuracy": 0.9779592745006085,
+      "num_tokens": 785741.0,
+      "step": 990
+    },
+    {
+      "entropy": 0.11913358124438674,
+      "epoch": 2.2834285714285714,
+      "grad_norm": 0.567164421081543,
+      "learning_rate": 5.442922374429224e-06,
+      "loss": 0.112,
+      "mean_token_accuracy": 0.9705987706780433,
+      "num_tokens": 841989.0,
+      "step": 1000
+    },
+    {
+      "entropy": 0.1637257631868124,
+      "epoch": 2.306285714285714,
+      "grad_norm": 0.8375981450080872,
+      "learning_rate": 5.397260273972603e-06,
+      "loss": 0.1514,
+      "mean_token_accuracy": 0.9596097219735384,
+      "num_tokens": 880259.0,
+      "step": 1010
+    },
+    {
+      "entropy": 0.20183823076076807,
+      "epoch": 2.329142857142857,
+      "grad_norm": 0.5665499567985535,
+      "learning_rate": 5.351598173515982e-06,
+      "loss": 0.1865,
+      "mean_token_accuracy": 0.9503094878047704,
+      "num_tokens": 908910.0,
+      "step": 1020
+    },
+    {
+      "entropy": 0.14882559089455755,
+      "epoch": 2.352,
+      "grad_norm": 0.21251143515110016,
+      "learning_rate": 5.310502283105024e-06,
+      "loss": 0.1316,
+      "mean_token_accuracy": 0.9661899615079165,
+      "num_tokens": 996048.0,
+      "step": 1030
+    },
+    {
+      "entropy": 0.08644997659139335,
+      "epoch": 2.374857142857143,
+      "grad_norm": 0.35939541459083557,
+      "learning_rate": 5.264840182648402e-06,
+      "loss": 0.0803,
+      "mean_token_accuracy": 0.9792920105159283,
+      "num_tokens": 1095327.0,
+      "step": 1040
+    },
+    {
+      "entropy": 0.12371540726162493,
+      "epoch": 2.3977142857142857,
+      "grad_norm": 0.4109712839126587,
+      "learning_rate": 5.219178082191782e-06,
+      "loss": 0.1155,
+      "mean_token_accuracy": 0.9702008839696645,
+      "num_tokens": 1153028.0,
+      "step": 1050
+    },
+    {
+      "entropy": 0.16861008908599615,
+      "epoch": 2.420571428571429,
+      "grad_norm": 0.4903920590877533,
+      "learning_rate": 5.17351598173516e-06,
+      "loss": 0.1553,
+      "mean_token_accuracy": 0.9577290844172239,
+      "num_tokens": 1191216.0,
+      "step": 1060
+    },
+    {
+      "entropy": 0.1997508300933987,
+      "epoch": 2.4434285714285715,
+      "grad_norm": 0.5626015663146973,
+      "learning_rate": 5.1278538812785395e-06,
+      "loss": 0.1836,
+      "mean_token_accuracy": 0.950419794023037,
+      "num_tokens": 1219726.0,
+      "step": 1070
+    },
+    {
+      "entropy": 0.1611965524731204,
+      "epoch": 2.466285714285714,
+      "grad_norm": 0.2858760356903076,
+      "learning_rate": 5.082191780821918e-06,
+      "loss": 0.1406,
+      "mean_token_accuracy": 0.9622184198349715,
+      "num_tokens": 1307694.0,
+      "step": 1080
+    },
+    {
+      "entropy": 0.08963021833915263,
+      "epoch": 2.4891428571428573,
+      "grad_norm": 0.380759060382843,
+      "learning_rate": 5.0365296803652974e-06,
+      "loss": 0.0836,
+      "mean_token_accuracy": 0.9787446241825819,
+      "num_tokens": 1403155.0,
+      "step": 1090
+    },
+    {
+      "entropy": 0.12443877512123436,
+      "epoch": 2.512,
+      "grad_norm": 0.33159124851226807,
+      "learning_rate": 4.990867579908677e-06,
+      "loss": 0.1144,
+      "mean_token_accuracy": 0.9694507587701082,
+      "num_tokens": 1461083.0,
+      "step": 1100
+    },
+    {
+      "entropy": 0.15655358280055226,
+      "epoch": 2.5348571428571427,
+      "grad_norm": 0.4750528335571289,
+      "learning_rate": 4.945205479452055e-06,
+      "loss": 0.1464,
+      "mean_token_accuracy": 0.9608835749328136,
+      "num_tokens": 1499200.0,
+      "step": 1110
+    },
+    {
+      "entropy": 0.18584296074695886,
+      "epoch": 2.557714285714286,
+      "grad_norm": 0.5686924457550049,
+      "learning_rate": 4.899543378995435e-06,
+      "loss": 0.1675,
+      "mean_token_accuracy": 0.9554672811180354,
+      "num_tokens": 1527156.0,
+      "step": 1120
+    },
+    {
+      "entropy": 0.1512902246438898,
+      "epoch": 2.5805714285714285,
+      "grad_norm": 0.36698049306869507,
+      "learning_rate": 4.853881278538813e-06,
+      "loss": 0.1351,
+      "mean_token_accuracy": 0.9630210023373366,
+      "num_tokens": 1604124.0,
+      "step": 1130
+    },
+    {
+      "entropy": 0.08813798553310334,
+      "epoch": 2.603428571428571,
+      "grad_norm": 0.28617146611213684,
+      "learning_rate": 4.8082191780821926e-06,
+      "loss": 0.0862,
+      "mean_token_accuracy": 0.9784242223948241,
+      "num_tokens": 1697131.0,
+      "step": 1140
+    },
+    {
+      "entropy": 0.12058792433235795,
+      "epoch": 2.6262857142857143,
+      "grad_norm": 0.3608751893043518,
+      "learning_rate": 4.762557077625571e-06,
+      "loss": 0.1096,
+      "mean_token_accuracy": 0.9710184000432491,
+      "num_tokens": 1754378.0,
+      "step": 1150
+    },
+    {
+      "entropy": 0.15165836540982128,
+      "epoch": 2.649142857142857,
+      "grad_norm": 0.4203783869743347,
+      "learning_rate": 4.7168949771689505e-06,
+      "loss": 0.1378,
+      "mean_token_accuracy": 0.9628069128841161,
+      "num_tokens": 1793014.0,
+      "step": 1160
+    },
+    {
+      "entropy": 0.1915775102097541,
+      "epoch": 2.672,
+      "grad_norm": 0.5867162942886353,
+      "learning_rate": 4.671232876712329e-06,
+      "loss": 0.1772,
+      "mean_token_accuracy": 0.9522358998656273,
+      "num_tokens": 1821604.0,
+      "step": 1170
+    },
+    {
+      "entropy": 0.15136512140743436,
+      "epoch": 2.694857142857143,
+      "grad_norm": 0.18969348073005676,
+      "learning_rate": 4.625570776255708e-06,
+      "loss": 0.1358,
+      "mean_token_accuracy": 0.9648103080689907,
+      "num_tokens": 1908343.0,
+      "step": 1180
+    },
+    {
+      "entropy": 0.08064724097494036,
+      "epoch": 2.717714285714286,
+      "grad_norm": 0.4214267432689667,
+      "learning_rate": 4.579908675799088e-06,
+      "loss": 0.0742,
+      "mean_token_accuracy": 0.9811519052833318,
+      "num_tokens": 2005050.0,
+      "step": 1190
+    },
+    {
+      "entropy": 0.11832776879891753,
+      "epoch": 2.7405714285714287,
+      "grad_norm": 0.35349538922309875,
+      "learning_rate": 4.534246575342466e-06,
+      "loss": 0.1076,
+      "mean_token_accuracy": 0.9710629042237997,
+      "num_tokens": 2064659.0,
+      "step": 1200
+    },
+    {
+      "entropy": 0.16044411729089916,
+      "epoch": 2.7634285714285713,
+      "grad_norm": 0.5639057159423828,
+      "learning_rate": 4.488584474885846e-06,
+      "loss": 0.1506,
+      "mean_token_accuracy": 0.9597010012716055,
+      "num_tokens": 2104172.0,
+      "step": 1210
+    },
+    {
+      "entropy": 0.18409276246093215,
+      "epoch": 2.7862857142857145,
+      "grad_norm": 0.6648959517478943,
+      "learning_rate": 4.442922374429224e-06,
+      "loss": 0.1677,
+      "mean_token_accuracy": 0.9542941998690366,
+      "num_tokens": 2132500.0,
+      "step": 1220
+    },
+    {
+      "entropy": 0.14733070600777864,
+      "epoch": 2.809142857142857,
+      "grad_norm": 0.19638575613498688,
+      "learning_rate": 4.3972602739726035e-06,
+      "loss": 0.131,
+      "mean_token_accuracy": 0.9638711795210838,
+      "num_tokens": 2223474.0,
+      "step": 1230
+    },
+    {
+      "entropy": 0.07547924700193107,
+      "epoch": 2.832,
+      "grad_norm": 0.3911222815513611,
+      "learning_rate": 4.351598173515982e-06,
+      "loss": 0.0689,
+      "mean_token_accuracy": 0.9817693259567022,
+      "num_tokens": 2326229.0,
+      "step": 1240
+    },
+    {
+      "entropy": 0.11080959427636117,
+      "epoch": 2.854857142857143,
+      "grad_norm": 0.39502909779548645,
+      "learning_rate": 4.305936073059361e-06,
+      "loss": 0.1041,
+      "mean_token_accuracy": 0.9721482455730438,
+      "num_tokens": 2386201.0,
+      "step": 1250
+    },
+    {
+      "entropy": 0.15536890965886413,
+      "epoch": 2.8777142857142857,
+      "grad_norm": 0.5055193901062012,
+      "learning_rate": 4.260273972602741e-06,
+      "loss": 0.1455,
+      "mean_token_accuracy": 0.9603518169373274,
+      "num_tokens": 2426168.0,
+      "step": 1260
+    },
+    {
+      "entropy": 0.17867730939760804,
+      "epoch": 2.9005714285714284,
+      "grad_norm": 0.571367621421814,
+      "learning_rate": 4.214611872146119e-06,
+      "loss": 0.1641,
+      "mean_token_accuracy": 0.9538291383534669,
+      "num_tokens": 2455084.0,
+      "step": 1270
+    },
+    {
+      "entropy": 0.15099742623278872,
+      "epoch": 2.9234285714285715,
+      "grad_norm": 0.28434649109840393,
+      "learning_rate": 4.168949771689499e-06,
+      "loss": 0.1345,
+      "mean_token_accuracy": 0.9636810082942248,
+      "num_tokens": 2539444.0,
+      "step": 1280
+    },
+    {
+      "entropy": 0.09173946799710393,
+      "epoch": 2.946285714285714,
+      "grad_norm": 0.29292547702789307,
+      "learning_rate": 4.123287671232877e-06,
+      "loss": 0.0867,
+      "mean_token_accuracy": 0.9774239655584097,
+      "num_tokens": 2629661.0,
+      "step": 1290
+    },
+    {
+      "entropy": 0.13389600275550037,
+      "epoch": 2.9691428571428573,
+      "grad_norm": 0.4315743148326874,
+      "learning_rate": 4.0776255707762565e-06,
+      "loss": 0.1248,
+      "mean_token_accuracy": 0.9657621275633573,
+      "num_tokens": 2678664.0,
+      "step": 1300
+    },
+    {
+      "entropy": 0.1770935676060617,
+      "epoch": 2.992,
+      "grad_norm": 0.5184078216552734,
+      "learning_rate": 4.031963470319635e-06,
+      "loss": 0.1654,
+      "mean_token_accuracy": 0.9563698008656502,
+      "num_tokens": 2709664.0,
+      "step": 1310
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.001526303634008455,
+      "eval_entropy": 0.3425323714620819,
+      "eval_loss": 1.1199185848236084,
+      "eval_mean_token_accuracy": 0.8341653729037428,
+      "eval_num_tokens": 2716693.0,
+      "eval_runtime": 784.2466,
+      "eval_samples_per_second": 1.318,
+      "eval_steps_per_second": 0.33,
+      "step": 1314
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.688939372905779e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd36270ff585b2d668c6df7d7ada51207c25255f0fc66fa207d06a8a67152786
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc1b103633cf7c9962527dcf216e434ddad474edf117eac5e9f686412165c6b7
 size 6353