Training in progress, epoch 4, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_config.json +2 -2
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +455 -3
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -29,12 +29,12 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "down_proj",
-    "q_proj",
     "o_proj",
     "k_proj",
-    "up_proj",
     "v_proj",
     "gate_proj"
   ],
   "target_parameters": null,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "up_proj",
     "down_proj",
     "o_proj",
     "k_proj",
     "v_proj",
+    "q_proj",
     "gate_proj"
   ],
   "target_parameters": null,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42057458be0849df210a2b4c2241429197465f786f00b0c91791a8239fe63ce0
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2fb6a48527f0c2bf807f44a8a6c8d4802eed8c0ba13fcee79401bb0186b7abe
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:486a933a9db49920bfa89b88f3df33a30e37dd2e0d00f86eab85749749cfb1cd
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:09180e4c7321493fa69e3325d0daca10f06fcfe93360c6ea07fc029705406cd2
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9624fb715f3fe663fa916439122fcd0c3a8e903cf9047d070921678e351f1695
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:c42920b30e520a675979a95992aac8814b12873171610ee1340a8766fb972bdc
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0bc94b43794521e81946badd820ca495ec5676bcf0035e98e623d3832e5330ab
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e52e5e1cab4eb2aaf089a2bd08f96b02fc9c9dc390e79e6248ae6cd8a7e48f8
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57dbcaa4c36dfe8b1884cd38afdda1f50d97d5b0660c412d604e987f28a13d71
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a8c29a421e8a95f2d6d46e5ac0aa25be56966681afe38a5d47f15222c56ec6b
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 1314,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1354,6 +1354,458 @@
       "eval_samples_per_second": 1.318,
       "eval_steps_per_second": 0.33,
       "step": 1314
     }
   ],
   "logging_steps": 10,
@@ -1373,7 +1825,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.688939372905779e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 4.0,
   "eval_steps": 500,
+  "global_step": 1752,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 1.318,
       "eval_steps_per_second": 0.33,
       "step": 1314
+    },
+    {
+      "entropy": 0.05517864182669049,
+      "epoch": 3.013714285714286,
+      "grad_norm": 0.515275776386261,
+      "learning_rate": 3.9863013698630135e-06,
+      "loss": 0.0487,
+      "mean_token_accuracy": 0.9875749964267015,
+      "num_tokens": 106699.0,
+      "step": 1320
+    },
+    {
+      "entropy": 0.08493794328533114,
+      "epoch": 3.0365714285714285,
+      "grad_norm": 0.3127270042896271,
+      "learning_rate": 3.940639269406393e-06,
+      "loss": 0.077,
+      "mean_token_accuracy": 0.9797436378896236,
+      "num_tokens": 199088.0,
+      "step": 1330
+    },
+    {
+      "entropy": 0.12270754701457917,
+      "epoch": 3.0594285714285716,
+      "grad_norm": 0.42502084374427795,
+      "learning_rate": 3.8949771689497714e-06,
+      "loss": 0.1128,
+      "mean_token_accuracy": 0.9702239688485861,
+      "num_tokens": 252321.0,
+      "step": 1340
+    },
+    {
+      "entropy": 0.15497879879549145,
+      "epoch": 3.0822857142857143,
+      "grad_norm": 0.4974645674228668,
+      "learning_rate": 3.849315068493151e-06,
+      "loss": 0.1455,
+      "mean_token_accuracy": 0.9595650866627693,
+      "num_tokens": 287508.0,
+      "step": 1350
+    },
+    {
+      "entropy": 0.1917463649995625,
+      "epoch": 3.105142857142857,
+      "grad_norm": 0.6485738754272461,
+      "learning_rate": 3.8036529680365297e-06,
+      "loss": 0.1756,
+      "mean_token_accuracy": 0.9525706138461828,
+      "num_tokens": 312832.0,
+      "step": 1360
+    },
+    {
+      "entropy": 0.12080624285154044,
+      "epoch": 3.128,
+      "grad_norm": 0.23594826459884644,
+      "learning_rate": 3.7579908675799087e-06,
+      "loss": 0.1067,
+      "mean_token_accuracy": 0.9709519907832146,
+      "num_tokens": 413268.0,
+      "step": 1370
+    },
+    {
+      "entropy": 0.08804343957453967,
+      "epoch": 3.150857142857143,
+      "grad_norm": 0.2645934522151947,
+      "learning_rate": 3.7123287671232876e-06,
+      "loss": 0.0805,
+      "mean_token_accuracy": 0.9789596509188414,
+      "num_tokens": 497620.0,
+      "step": 1380
+    },
+    {
+      "entropy": 0.11698034470900893,
+      "epoch": 3.1737142857142855,
+      "grad_norm": 0.40339401364326477,
+      "learning_rate": 3.6666666666666666e-06,
+      "loss": 0.1083,
+      "mean_token_accuracy": 0.9707631807774305,
+      "num_tokens": 551786.0,
+      "step": 1390
+    },
+    {
+      "entropy": 0.15082112224772573,
+      "epoch": 3.1965714285714286,
+      "grad_norm": 0.45658695697784424,
+      "learning_rate": 3.6210045662100455e-06,
+      "loss": 0.1421,
+      "mean_token_accuracy": 0.9619044814258814,
+      "num_tokens": 589055.0,
+      "step": 1400
+    },
+    {
+      "entropy": 0.18135957256890833,
+      "epoch": 3.2194285714285713,
+      "grad_norm": 0.6109932661056519,
+      "learning_rate": 3.575342465753425e-06,
+      "loss": 0.1674,
+      "mean_token_accuracy": 0.9547197036445141,
+      "num_tokens": 616792.0,
+      "step": 1410
+    },
+    {
+      "entropy": 0.1157609753194265,
+      "epoch": 3.2422857142857144,
+      "grad_norm": 0.2772703766822815,
+      "learning_rate": 3.529680365296804e-06,
+      "loss": 0.1024,
+      "mean_token_accuracy": 0.9713719986379147,
+      "num_tokens": 725086.0,
+      "step": 1420
+    },
+    {
+      "entropy": 0.08992256266064942,
+      "epoch": 3.265142857142857,
+      "grad_norm": 0.35438141226768494,
+      "learning_rate": 3.4840182648401828e-06,
+      "loss": 0.0849,
+      "mean_token_accuracy": 0.9776469606906175,
+      "num_tokens": 810329.0,
+      "step": 1430
+    },
+    {
+      "entropy": 0.12669551267754287,
+      "epoch": 3.288,
+      "grad_norm": 0.5349701046943665,
+      "learning_rate": 3.4383561643835617e-06,
+      "loss": 0.12,
+      "mean_token_accuracy": 0.9680649910122157,
+      "num_tokens": 862174.0,
+      "step": 1440
+    },
+    {
+      "entropy": 0.15726197781041265,
+      "epoch": 3.310857142857143,
+      "grad_norm": 0.554969847202301,
+      "learning_rate": 3.3926940639269407e-06,
+      "loss": 0.1454,
+      "mean_token_accuracy": 0.9603239048272372,
+      "num_tokens": 898631.0,
+      "step": 1450
+    },
+    {
+      "entropy": 0.18559287013486028,
+      "epoch": 3.3337142857142856,
+      "grad_norm": 0.6043559312820435,
+      "learning_rate": 3.3470319634703196e-06,
+      "loss": 0.1712,
+      "mean_token_accuracy": 0.9533442974090576,
+      "num_tokens": 925437.0,
+      "step": 1460
+    },
+    {
+      "entropy": 0.11834120823768898,
+      "epoch": 3.3565714285714288,
+      "grad_norm": 0.21197669208049774,
+      "learning_rate": 3.3013698630136985e-06,
+      "loss": 0.1045,
+      "mean_token_accuracy": 0.9706813614815474,
+      "num_tokens": 1023847.0,
+      "step": 1470
+    },
+    {
+      "entropy": 0.08211489983368665,
+      "epoch": 3.3794285714285714,
+      "grad_norm": 0.3356609344482422,
+      "learning_rate": 3.2557077625570775e-06,
+      "loss": 0.0779,
+      "mean_token_accuracy": 0.9798738922923803,
+      "num_tokens": 1110782.0,
+      "step": 1480
+    },
+    {
+      "entropy": 0.1178143423749134,
+      "epoch": 3.402285714285714,
+      "grad_norm": 0.4783886671066284,
+      "learning_rate": 3.210045662100457e-06,
+      "loss": 0.1093,
+      "mean_token_accuracy": 0.970770888775587,
+      "num_tokens": 1165952.0,
+      "step": 1490
+    },
+    {
+      "entropy": 0.15600966215133666,
+      "epoch": 3.4251428571428573,
+      "grad_norm": 0.5326858758926392,
+      "learning_rate": 3.164383561643836e-06,
+      "loss": 0.1416,
+      "mean_token_accuracy": 0.9619269706308842,
+      "num_tokens": 1203442.0,
+      "step": 1500
+    },
+    {
+      "entropy": 0.18143940633162856,
+      "epoch": 3.448,
+      "grad_norm": 0.6271806955337524,
+      "learning_rate": 3.1187214611872147e-06,
+      "loss": 0.1692,
+      "mean_token_accuracy": 0.9546364113688469,
+      "num_tokens": 1231043.0,
+      "step": 1510
+    },
+    {
+      "entropy": 0.12511544737499208,
+      "epoch": 3.4708571428571426,
+      "grad_norm": 0.22346270084381104,
+      "learning_rate": 3.0730593607305937e-06,
+      "loss": 0.1142,
+      "mean_token_accuracy": 0.9701676283031702,
+      "num_tokens": 1337013.0,
+      "step": 1520
+    },
+    {
+      "entropy": 0.08854632088914513,
+      "epoch": 3.4937142857142858,
+      "grad_norm": 0.3023281693458557,
+      "learning_rate": 3.0273972602739726e-06,
+      "loss": 0.0809,
+      "mean_token_accuracy": 0.9785845920443534,
+      "num_tokens": 1425282.0,
+      "step": 1530
+    },
+    {
+      "entropy": 0.12356827890034765,
+      "epoch": 3.5165714285714285,
+      "grad_norm": 0.43480384349823,
+      "learning_rate": 2.9817351598173516e-06,
+      "loss": 0.1108,
+      "mean_token_accuracy": 0.9708164893090725,
+      "num_tokens": 1479071.0,
+      "step": 1540
+    },
+    {
+      "entropy": 0.16047979763243347,
+      "epoch": 3.5394285714285716,
+      "grad_norm": 0.4700470566749573,
+      "learning_rate": 2.9360730593607305e-06,
+      "loss": 0.1487,
+      "mean_token_accuracy": 0.9594798684120178,
+      "num_tokens": 1515968.0,
+      "step": 1550
+    },
+    {
+      "entropy": 0.17729573035612703,
+      "epoch": 3.5622857142857143,
+      "grad_norm": 0.7114794850349426,
+      "learning_rate": 2.8904109589041095e-06,
+      "loss": 0.1656,
+      "mean_token_accuracy": 0.9552927497774363,
+      "num_tokens": 1543101.0,
+      "step": 1560
+    },
+    {
+      "entropy": 0.11861445235554129,
+      "epoch": 3.5851428571428574,
+      "grad_norm": 0.29876643419265747,
+      "learning_rate": 2.8447488584474884e-06,
+      "loss": 0.1053,
+      "mean_token_accuracy": 0.9716573052108288,
+      "num_tokens": 1647093.0,
+      "step": 1570
+    },
+    {
+      "entropy": 0.08495850274339319,
+      "epoch": 3.608,
+      "grad_norm": 0.34683695435523987,
+      "learning_rate": 2.7990867579908678e-06,
+      "loss": 0.0789,
+      "mean_token_accuracy": 0.9797851830720902,
+      "num_tokens": 1730702.0,
+      "step": 1580
+    },
+    {
+      "entropy": 0.12895205311942845,
+      "epoch": 3.630857142857143,
+      "grad_norm": 0.4918679893016815,
+      "learning_rate": 2.7534246575342467e-06,
+      "loss": 0.1215,
+      "mean_token_accuracy": 0.9667810715734959,
+      "num_tokens": 1781823.0,
+      "step": 1590
+    },
+    {
+      "entropy": 0.15560776912607252,
+      "epoch": 3.653714285714286,
+      "grad_norm": 0.5862769484519958,
+      "learning_rate": 2.7077625570776257e-06,
+      "loss": 0.1455,
+      "mean_token_accuracy": 0.9603867087513208,
+      "num_tokens": 1817890.0,
+      "step": 1600
+    },
+    {
+      "entropy": 0.1749238725285977,
+      "epoch": 3.6765714285714286,
+      "grad_norm": 0.8136036992073059,
+      "learning_rate": 2.6621004566210046e-06,
+      "loss": 0.1554,
+      "mean_token_accuracy": 0.9576821938157082,
+      "num_tokens": 1844158.0,
+      "step": 1610
+    },
+    {
+      "entropy": 0.11242687762714923,
+      "epoch": 3.6994285714285713,
+      "grad_norm": 0.2995806634426117,
+      "learning_rate": 2.6164383561643835e-06,
+      "loss": 0.0975,
+      "mean_token_accuracy": 0.9727846592664718,
+      "num_tokens": 1955312.0,
+      "step": 1620
+    },
+    {
+      "entropy": 0.08373252097517252,
+      "epoch": 3.7222857142857144,
+      "grad_norm": 0.3565508723258972,
+      "learning_rate": 2.5707762557077625e-06,
+      "loss": 0.0821,
+      "mean_token_accuracy": 0.9794006440788507,
+      "num_tokens": 2048367.0,
+      "step": 1630
+    },
+    {
+      "entropy": 0.11184893473982811,
+      "epoch": 3.745142857142857,
+      "grad_norm": 0.5002964735031128,
+      "learning_rate": 2.5251141552511414e-06,
+      "loss": 0.1033,
+      "mean_token_accuracy": 0.9729055386036635,
+      "num_tokens": 2107094.0,
+      "step": 1640
+    },
+    {
+      "entropy": 0.1523228184087202,
+      "epoch": 3.768,
+      "grad_norm": 0.5381714701652527,
+      "learning_rate": 2.479452054794521e-06,
+      "loss": 0.14,
+      "mean_token_accuracy": 0.961335464194417,
+      "num_tokens": 2146441.0,
+      "step": 1650
+    },
+    {
+      "entropy": 0.1763300130609423,
+      "epoch": 3.790857142857143,
+      "grad_norm": 0.6653213500976562,
+      "learning_rate": 2.4337899543378997e-06,
+      "loss": 0.1613,
+      "mean_token_accuracy": 0.955818934738636,
+      "num_tokens": 2174324.0,
+      "step": 1660
+    },
+    {
+      "entropy": 0.11155222558882087,
+      "epoch": 3.8137142857142856,
+      "grad_norm": 0.34875810146331787,
+      "learning_rate": 2.3881278538812787e-06,
+      "loss": 0.0996,
+      "mean_token_accuracy": 0.9726988013833762,
+      "num_tokens": 2275421.0,
+      "step": 1670
+    },
+    {
+      "entropy": 0.0848108597798273,
+      "epoch": 3.8365714285714283,
+      "grad_norm": 0.30915647745132446,
+      "learning_rate": 2.3424657534246576e-06,
+      "loss": 0.0791,
+      "mean_token_accuracy": 0.979795042052865,
+      "num_tokens": 2362139.0,
+      "step": 1680
+    },
+    {
+      "entropy": 0.12119822092354297,
+      "epoch": 3.8594285714285714,
+      "grad_norm": 0.49934130907058716,
+      "learning_rate": 2.296803652968037e-06,
+      "loss": 0.1121,
+      "mean_token_accuracy": 0.969853087887168,
+      "num_tokens": 2415046.0,
+      "step": 1690
+    },
+    {
+      "entropy": 0.15342484817374497,
+      "epoch": 3.8822857142857146,
+      "grad_norm": 0.5518330931663513,
+      "learning_rate": 2.251141552511416e-06,
+      "loss": 0.1446,
+      "mean_token_accuracy": 0.9614712443202734,
+      "num_tokens": 2450506.0,
+      "step": 1700
+    },
+    {
+      "entropy": 0.17686844640411437,
+      "epoch": 3.9051428571428572,
+      "grad_norm": 0.7212273478507996,
+      "learning_rate": 2.205479452054795e-06,
+      "loss": 0.1646,
+      "mean_token_accuracy": 0.956280616670847,
+      "num_tokens": 2477052.0,
+      "step": 1710
+    },
+    {
+      "entropy": 0.11632896211231128,
+      "epoch": 3.928,
+      "grad_norm": 0.23661138117313385,
+      "learning_rate": 2.159817351598174e-06,
+      "loss": 0.1019,
+      "mean_token_accuracy": 0.9717216279357672,
+      "num_tokens": 2572680.0,
+      "step": 1720
+    },
+    {
+      "entropy": 0.09558084616437554,
+      "epoch": 3.950857142857143,
+      "grad_norm": 0.3915014863014221,
+      "learning_rate": 2.1141552511415528e-06,
+      "loss": 0.0887,
+      "mean_token_accuracy": 0.9764208119362593,
+      "num_tokens": 2646523.0,
+      "step": 1730
+    },
+    {
+      "entropy": 0.1366618540836498,
+      "epoch": 3.9737142857142858,
+      "grad_norm": 0.514821469783783,
+      "learning_rate": 2.0684931506849317e-06,
+      "loss": 0.1276,
+      "mean_token_accuracy": 0.9655411653220654,
+      "num_tokens": 2687673.0,
+      "step": 1740
+    },
+    {
+      "entropy": 0.1805182583630085,
+      "epoch": 3.9965714285714284,
+      "grad_norm": 0.780587375164032,
+      "learning_rate": 2.0228310502283106e-06,
+      "loss": 0.162,
+      "mean_token_accuracy": 0.9553768526762724,
+      "num_tokens": 2714171.0,
+      "step": 1750
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.0015129150056399597,
+      "eval_entropy": 0.3331289222341707,
+      "eval_loss": 1.1662757396697998,
+      "eval_mean_token_accuracy": 0.8316388031230469,
+      "eval_num_tokens": 2716693.0,
+      "eval_runtime": 692.1518,
+      "eval_samples_per_second": 1.494,
+      "eval_steps_per_second": 0.374,
+      "step": 1752
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.585252497207706e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc1b103633cf7c9962527dcf216e434ddad474edf117eac5e9f686412165c6b7
 size 6353

 version https://git-lfs.github.com/spec/v1
+oid sha256:39f58d4a909c837190e81596a49672875e79fb1248b5b446d03a52e65354d414
 size 6353