Training in progress, step 50, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_config.json +3 -3
last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +146 -146
last-checkpoint/training_args.bin +1 -1

last-checkpoint/adapter_config.json CHANGED Viewed

@@ -20,13 +20,13 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "k_proj",
     "v_proj",
     "q_proj",
-    "up_proj",
     "o_proj",
-    "down_proj",
-    "gate_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "gate_proj",
     "k_proj",
+    "down_proj",
     "v_proj",
     "q_proj",
     "o_proj",
+    "up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fda53b2dbb64ee3df1572930d050a53fd43af43308677011be467155149e9da9
 size 639691872

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e36ed3eb44137ca523efd8833cb60762f1e61dbec2b0cd18e72b9aeb1f1e521
 size 639691872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60f307f665d6353bf718fbea916abadf16ba6ed584c31e16d0fb310e793bcda5
 size 325350676

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb062722d92b3fb966623ae1d137b24bd5ce1a08d81de396a6f8855d5b328d23
 size 325350676

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:183d86b4afef5d114e28423b41699eb53696ddb9b0b1e5de0b39a3f185c3455e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:334bbc899bb81da08f819d8b11c03beff0273a7dc775498883f219a1bc69024b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -10,7 +10,7 @@
   "log_history": [
     {
       "epoch": 3.514722293004824e-05,
-      "grad_norm": 3.2373061180114746,
       "learning_rate": 2.9999999999999997e-05,
       "loss": 2.6534,
       "step": 1
@@ -18,365 +18,365 @@
     {
       "epoch": 3.514722293004824e-05,
       "eval_loss": 3.5773849487304688,
-      "eval_runtime": 122.8556,
-      "eval_samples_per_second": 4.656,
-      "eval_steps_per_second": 4.656,
       "step": 1
     },
     {
       "epoch": 7.029444586009648e-05,
-      "grad_norm": 10.253190040588379,
       "learning_rate": 5.9999999999999995e-05,
       "loss": 3.5291,
       "step": 2
     },
     {
       "epoch": 0.00010544166879014472,
-      "grad_norm": 8.353500366210938,
       "learning_rate": 8.999999999999999e-05,
-      "loss": 2.8977,
       "step": 3
     },
     {
       "epoch": 0.00014058889172019297,
-      "grad_norm": 7.733084201812744,
       "learning_rate": 0.00011999999999999999,
-      "loss": 3.5255,
       "step": 4
     },
     {
       "epoch": 0.0001757361146502412,
-      "grad_norm": 9.435683250427246,
       "learning_rate": 0.00015,
-      "loss": 2.3491,
       "step": 5
     },
     {
       "epoch": 0.00021088333758028944,
-      "grad_norm": 7.884566307067871,
       "learning_rate": 0.00017999999999999998,
-      "loss": 3.0472,
       "step": 6
     },
     {
       "epoch": 0.0002460305605103377,
-      "grad_norm": 7.662365436553955,
       "learning_rate": 0.00020999999999999998,
-      "loss": 2.8102,
       "step": 7
     },
     {
       "epoch": 0.00028117778344038594,
-      "grad_norm": 12.221363067626953,
       "learning_rate": 0.00023999999999999998,
-      "loss": 2.9842,
       "step": 8
     },
     {
       "epoch": 0.00031632500637043413,
-      "grad_norm": 6.3601908683776855,
       "learning_rate": 0.00027,
-      "loss": 2.3343,
       "step": 9
     },
     {
       "epoch": 0.0003514722293004824,
-      "grad_norm": 7.852142810821533,
       "learning_rate": 0.0003,
-      "loss": 2.6562,
       "step": 10
     },
     {
       "epoch": 0.00038661945223053063,
-      "grad_norm": 3.860373020172119,
-      "learning_rate": 0.00029999691704375486,
-      "loss": 3.1401,
       "step": 11
     },
     {
       "epoch": 0.0004217666751605789,
-      "grad_norm": 6.923058032989502,
-      "learning_rate": 0.00029998766830174786,
-      "loss": 2.9283,
       "step": 12
     },
     {
       "epoch": 0.00045691389809062713,
-      "grad_norm": 7.274583339691162,
-      "learning_rate": 0.00029997225415415846,
-      "loss": 2.9534,
       "step": 13
     },
     {
       "epoch": 0.0004920611210206754,
-      "grad_norm": 6.7508978843688965,
-      "learning_rate": 0.00029995067523460196,
-      "loss": 3.2048,
       "step": 14
     },
     {
       "epoch": 0.0005272083439507236,
-      "grad_norm": 7.768868446350098,
-      "learning_rate": 0.0002999229324301032,
-      "loss": 3.0451,
       "step": 15
     },
     {
       "epoch": 0.0005623555668807719,
-      "grad_norm": 5.01677131652832,
-      "learning_rate": 0.0002998890268810601,
-      "loss": 2.8798,
       "step": 16
     },
     {
       "epoch": 0.0005975027898108201,
-      "grad_norm": 6.7470293045043945,
-      "learning_rate": 0.0002998489599811972,
-      "loss": 2.47,
       "step": 17
     },
     {
       "epoch": 0.0006326500127408683,
-      "grad_norm": 8.27274227142334,
-      "learning_rate": 0.00029980273337750765,
-      "loss": 3.1441,
       "step": 18
     },
     {
       "epoch": 0.0006677972356709165,
-      "grad_norm": 8.152812004089355,
-      "learning_rate": 0.00029975034897018613,
-      "loss": 3.4123,
       "step": 19
     },
     {
       "epoch": 0.0007029444586009648,
-      "grad_norm": 7.479596138000488,
-      "learning_rate": 0.00029969180891255043,
-      "loss": 3.336,
       "step": 20
     },
     {
       "epoch": 0.000738091681531013,
-      "grad_norm": 6.2453789710998535,
-      "learning_rate": 0.00029962711561095306,
-      "loss": 3.3127,
       "step": 21
     },
     {
       "epoch": 0.0007732389044610613,
-      "grad_norm": 7.580628871917725,
-      "learning_rate": 0.00029955627172468223,
-      "loss": 3.2636,
       "step": 22
     },
     {
       "epoch": 0.0008083861273911095,
-      "grad_norm": 6.434226989746094,
-      "learning_rate": 0.0002994792801658527,
-      "loss": 2.7362,
       "step": 23
     },
     {
       "epoch": 0.0008435333503211578,
-      "grad_norm": 6.997501373291016,
-      "learning_rate": 0.00029939614409928584,
-      "loss": 2.872,
       "step": 24
     },
     {
       "epoch": 0.000878680573251206,
-      "grad_norm": 6.878482818603516,
-      "learning_rate": 0.0002993068669423797,
-      "loss": 2.7587,
       "step": 25
     },
     {
       "epoch": 0.0009138277961812543,
-      "grad_norm": 6.985559463500977,
-      "learning_rate": 0.0002992114523649686,
-      "loss": 2.891,
       "step": 26
     },
     {
       "epoch": 0.0009489750191113025,
-      "grad_norm": 9.444601058959961,
-      "learning_rate": 0.000299109904289172,
-      "loss": 2.9249,
       "step": 27
     },
     {
       "epoch": 0.0009841222420413508,
-      "grad_norm": 6.679138660430908,
-      "learning_rate": 0.0002990022268892337,
-      "loss": 2.752,
       "step": 28
     },
     {
       "epoch": 0.001019269464971399,
-      "grad_norm": 9.364578247070312,
-      "learning_rate": 0.00029888842459134974,
-      "loss": 3.3749,
       "step": 29
     },
     {
       "epoch": 0.0010544166879014473,
-      "grad_norm": 12.166234970092773,
-      "learning_rate": 0.0002987685020734869,
-      "loss": 3.7972,
       "step": 30
     },
     {
       "epoch": 0.0010895639108314955,
-      "grad_norm": 7.539794921875,
-      "learning_rate": 0.0002986424642651902,
-      "loss": 2.9194,
       "step": 31
     },
     {
       "epoch": 0.0011247111337615438,
-      "grad_norm": 9.334528923034668,
-      "learning_rate": 0.00029851031634738024,
-      "loss": 3.0255,
       "step": 32
     },
     {
       "epoch": 0.001159858356691592,
-      "grad_norm": 9.99315357208252,
-      "learning_rate": 0.0002983720637521404,
-      "loss": 2.8137,
       "step": 33
     },
     {
       "epoch": 0.0011950055796216402,
-      "grad_norm": 8.625016212463379,
-      "learning_rate": 0.00029822771216249334,
-      "loss": 3.1498,
       "step": 34
     },
     {
       "epoch": 0.0012301528025516883,
-      "grad_norm": 7.1607441902160645,
-      "learning_rate": 0.00029807726751216753,
-      "loss": 2.9576,
       "step": 35
     },
     {
       "epoch": 0.0012653000254817365,
-      "grad_norm": 7.234793186187744,
-      "learning_rate": 0.0002979207359853532,
-      "loss": 2.7008,
       "step": 36
     },
     {
       "epoch": 0.0013004472484117848,
-      "grad_norm": 9.99887752532959,
-      "learning_rate": 0.0002977581240164485,
-      "loss": 3.6027,
       "step": 37
     },
     {
       "epoch": 0.001335594471341833,
-      "grad_norm": 9.398946762084961,
-      "learning_rate": 0.00029758943828979444,
-      "loss": 3.0668,
       "step": 38
     },
     {
       "epoch": 0.0013707416942718813,
-      "grad_norm": 7.37238073348999,
-      "learning_rate": 0.00029741468573940056,
-      "loss": 2.915,
       "step": 39
     },
     {
       "epoch": 0.0014058889172019295,
-      "grad_norm": 9.463376998901367,
-      "learning_rate": 0.0002972338735486598,
-      "loss": 2.7669,
       "step": 40
     },
     {
       "epoch": 0.0014410361401319778,
-      "grad_norm": 8.600595474243164,
-      "learning_rate": 0.00029704700915005305,
-      "loss": 2.9336,
       "step": 41
     },
     {
       "epoch": 0.001476183363062026,
-      "grad_norm": 9.883442878723145,
-      "learning_rate": 0.00029685410022484393,
-      "loss": 3.2071,
       "step": 42
     },
     {
       "epoch": 0.0015113305859920743,
-      "grad_norm": 12.098119735717773,
-      "learning_rate": 0.0002966551547027627,
-      "loss": 3.0556,
       "step": 43
     },
     {
       "epoch": 0.0015464778089221225,
-      "grad_norm": 17.335891723632812,
-      "learning_rate": 0.0002964501807616806,
-      "loss": 3.9033,
       "step": 44
     },
     {
       "epoch": 0.0015816250318521708,
-      "grad_norm": 8.842806816101074,
-      "learning_rate": 0.0002962391868272735,
-      "loss": 3.3062,
       "step": 45
     },
     {
       "epoch": 0.001616772254782219,
-      "grad_norm": 11.304153442382812,
-      "learning_rate": 0.0002960221815726757,
-      "loss": 2.0332,
       "step": 46
     },
     {
       "epoch": 0.0016519194777122673,
-      "grad_norm": 10.703750610351562,
-      "learning_rate": 0.00029579917391812314,
-      "loss": 2.9962,
       "step": 47
     },
     {
       "epoch": 0.0016870667006423155,
-      "grad_norm": 20.069766998291016,
-      "learning_rate": 0.0002955701730305872,
-      "loss": 3.6418,
       "step": 48
     },
     {
       "epoch": 0.0017222139235723638,
-      "grad_norm": 11.564349174499512,
-      "learning_rate": 0.00029533518832339727,
-      "loss": 3.2814,
       "step": 49
     },
     {
       "epoch": 0.001757361146502412,
-      "grad_norm": 12.544486045837402,
-      "learning_rate": 0.0002950942294558544,
-      "loss": 3.4021,
       "step": 50
     },
     {
       "epoch": 0.001757361146502412,
-      "eval_loss": 3.1045420169830322,
-      "eval_runtime": 122.4658,
-      "eval_samples_per_second": 4.671,
-      "eval_steps_per_second": 4.671,
       "step": 50
     }
   ],
   "logging_steps": 1,
-  "max_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,

   "log_history": [
     {
       "epoch": 3.514722293004824e-05,
+      "grad_norm": 3.201282024383545,
       "learning_rate": 2.9999999999999997e-05,
       "loss": 2.6534,
       "step": 1
     {
       "epoch": 3.514722293004824e-05,
       "eval_loss": 3.5773849487304688,
+      "eval_runtime": 122.8934,
+      "eval_samples_per_second": 4.654,
+      "eval_steps_per_second": 4.654,
       "step": 1
     },
     {
       "epoch": 7.029444586009648e-05,
+      "grad_norm": 10.12950325012207,
       "learning_rate": 5.9999999999999995e-05,
       "loss": 3.5291,
       "step": 2
     },
     {
       "epoch": 0.00010544166879014472,
+      "grad_norm": 8.2281494140625,
       "learning_rate": 8.999999999999999e-05,
+      "loss": 2.8958,
       "step": 3
     },
     {
       "epoch": 0.00014058889172019297,
+      "grad_norm": 7.624779224395752,
       "learning_rate": 0.00011999999999999999,
+      "loss": 3.5229,
       "step": 4
     },
     {
       "epoch": 0.0001757361146502412,
+      "grad_norm": 9.272777557373047,
       "learning_rate": 0.00015,
+      "loss": 2.3524,
       "step": 5
     },
     {
       "epoch": 0.00021088333758028944,
+      "grad_norm": 7.767298221588135,
       "learning_rate": 0.00017999999999999998,
+      "loss": 3.0476,
       "step": 6
     },
     {
       "epoch": 0.0002460305605103377,
+      "grad_norm": 7.62408447265625,
       "learning_rate": 0.00020999999999999998,
+      "loss": 2.8094,
       "step": 7
     },
     {
       "epoch": 0.00028117778344038594,
+      "grad_norm": 12.137682914733887,
       "learning_rate": 0.00023999999999999998,
+      "loss": 2.9913,
       "step": 8
     },
     {
       "epoch": 0.00031632500637043413,
+      "grad_norm": 6.323672294616699,
       "learning_rate": 0.00027,
+      "loss": 2.3277,
       "step": 9
     },
     {
       "epoch": 0.0003514722293004824,
+      "grad_norm": 7.7393903732299805,
       "learning_rate": 0.0003,
+      "loss": 2.6589,
       "step": 10
     },
     {
       "epoch": 0.00038661945223053063,
+      "grad_norm": 3.816528081893921,
+      "learning_rate": 0.00029990862405286433,
+      "loss": 3.1351,
       "step": 11
     },
     {
       "epoch": 0.0004217666751605789,
+      "grad_norm": 6.924014091491699,
+      "learning_rate": 0.0002996346075389736,
+      "loss": 2.9356,
       "step": 12
     },
     {
       "epoch": 0.00045691389809062713,
+      "grad_norm": 7.251121997833252,
+      "learning_rate": 0.00029917828430524096,
+      "loss": 2.9646,
       "step": 13
     },
     {
       "epoch": 0.0004920611210206754,
+      "grad_norm": 6.662265300750732,
+      "learning_rate": 0.0002985402103112355,
+      "loss": 3.2145,
       "step": 14
     },
     {
       "epoch": 0.0005272083439507236,
+      "grad_norm": 7.596660614013672,
+      "learning_rate": 0.0002977211629518312,
+      "loss": 3.0197,
       "step": 15
     },
     {
       "epoch": 0.0005623555668807719,
+      "grad_norm": 4.958890914916992,
+      "learning_rate": 0.0002967221401100708,
+      "loss": 2.8559,
       "step": 16
     },
     {
       "epoch": 0.0005975027898108201,
+      "grad_norm": 6.678516387939453,
+      "learning_rate": 0.0002955443589413994,
+      "loss": 2.4536,
       "step": 17
     },
     {
       "epoch": 0.0006326500127408683,
+      "grad_norm": 8.238439559936523,
+      "learning_rate": 0.0002941892543907478,
+      "loss": 3.123,
       "step": 18
     },
     {
       "epoch": 0.0006677972356709165,
+      "grad_norm": 8.204689025878906,
+      "learning_rate": 0.00029265847744427303,
+      "loss": 3.4216,
       "step": 19
     },
     {
       "epoch": 0.0007029444586009648,
+      "grad_norm": 7.485687732696533,
+      "learning_rate": 0.0002909538931178862,
+      "loss": 3.3373,
       "step": 20
     },
     {
       "epoch": 0.000738091681531013,
+      "grad_norm": 6.295429229736328,
+      "learning_rate": 0.0002890775781850181,
+      "loss": 3.3456,
       "step": 21
     },
     {
       "epoch": 0.0007732389044610613,
+      "grad_norm": 7.376994609832764,
+      "learning_rate": 0.0002870318186463901,
+      "loss": 3.282,
       "step": 22
     },
     {
       "epoch": 0.0008083861273911095,
+      "grad_norm": 6.7084641456604,
+      "learning_rate": 0.000284819106944875,
+      "loss": 2.7638,
       "step": 23
     },
     {
       "epoch": 0.0008435333503211578,
+      "grad_norm": 7.342163562774658,
+      "learning_rate": 0.000282442138928839,
+      "loss": 2.8477,
       "step": 24
     },
     {
       "epoch": 0.000878680573251206,
+      "grad_norm": 6.798054218292236,
+      "learning_rate": 0.0002799038105676658,
+      "loss": 2.7685,
       "step": 25
     },
     {
       "epoch": 0.0009138277961812543,
+      "grad_norm": 6.962170600891113,
+      "learning_rate": 0.00027720721442346387,
+      "loss": 2.8994,
       "step": 26
     },
     {
       "epoch": 0.0009489750191113025,
+      "grad_norm": 8.554988861083984,
+      "learning_rate": 0.0002743556358832562,
+      "loss": 2.9583,
       "step": 27
     },
     {
       "epoch": 0.0009841222420413508,
+      "grad_norm": 6.769901275634766,
+      "learning_rate": 0.0002713525491562421,
+      "loss": 2.7998,
       "step": 28
     },
     {
       "epoch": 0.001019269464971399,
+      "grad_norm": 9.057374000549316,
+      "learning_rate": 0.00026820161304100823,
+      "loss": 3.3269,
       "step": 29
     },
     {
       "epoch": 0.0010544166879014473,
+      "grad_norm": 10.272748947143555,
+      "learning_rate": 0.00026490666646784665,
+      "loss": 3.6792,
       "step": 30
     },
     {
       "epoch": 0.0010895639108314955,
+      "grad_norm": 7.183256149291992,
+      "learning_rate": 0.00026147172382160914,
+      "loss": 2.88,
       "step": 31
     },
     {
       "epoch": 0.0011247111337615438,
+      "grad_norm": 9.834364891052246,
+      "learning_rate": 0.00025790097005079764,
+      "loss": 2.9482,
       "step": 32
     },
     {
       "epoch": 0.001159858356691592,
+      "grad_norm": 10.326171875,
+      "learning_rate": 0.0002541987555688496,
+      "loss": 2.7405,
       "step": 33
     },
     {
       "epoch": 0.0011950055796216402,
+      "grad_norm": 8.075050354003906,
+      "learning_rate": 0.0002503695909538287,
+      "loss": 3.0049,
       "step": 34
     },
     {
       "epoch": 0.0012301528025516883,
+      "grad_norm": 7.11674165725708,
+      "learning_rate": 0.0002464181414529809,
+      "loss": 2.9412,
       "step": 35
     },
     {
       "epoch": 0.0012653000254817365,
+      "grad_norm": 6.559268951416016,
+      "learning_rate": 0.0002423492212988487,
+      "loss": 2.6168,
       "step": 36
     },
     {
       "epoch": 0.0013004472484117848,
+      "grad_norm": 11.436878204345703,
+      "learning_rate": 0.00023816778784387094,
+      "loss": 3.4648,
       "step": 37
     },
     {
       "epoch": 0.001335594471341833,
+      "grad_norm": 8.354622840881348,
+      "learning_rate": 0.00023387893552061199,
+      "loss": 3.0553,
       "step": 38
     },
     {
       "epoch": 0.0013707416942718813,
+      "grad_norm": 6.86464262008667,
+      "learning_rate": 0.0002294878896349807,
+      "loss": 2.8184,
       "step": 39
     },
     {
       "epoch": 0.0014058889172019295,
+      "grad_norm": 7.403708457946777,
+      "learning_rate": 0.000225,
+      "loss": 2.6431,
       "step": 40
     },
     {
       "epoch": 0.0014410361401319778,
+      "grad_norm": 8.896238327026367,
+      "learning_rate": 0.00022042073441788358,
+      "loss": 2.9453,
       "step": 41
     },
     {
       "epoch": 0.001476183363062026,
+      "grad_norm": 9.727499008178711,
+      "learning_rate": 0.0002157556720183616,
+      "loss": 3.0855,
       "step": 42
     },
     {
       "epoch": 0.0015113305859920743,
+      "grad_norm": 9.778864860534668,
+      "learning_rate": 0.00021101049646137003,
+      "loss": 3.0316,
       "step": 43
     },
     {
       "epoch": 0.0015464778089221225,
+      "grad_norm": 19.503732681274414,
+      "learning_rate": 0.0002061909890123868,
+      "loss": 3.5855,
       "step": 44
     },
     {
       "epoch": 0.0015816250318521708,
+      "grad_norm": 8.386335372924805,
+      "learning_rate": 0.00020130302149885031,
+      "loss": 3.2382,
       "step": 45
     },
     {
       "epoch": 0.001616772254782219,
+      "grad_norm": 9.492271423339844,
+      "learning_rate": 0.0001963525491562421,
+      "loss": 1.8511,
       "step": 46
     },
     {
       "epoch": 0.0016519194777122673,
+      "grad_norm": 9.34842300415039,
+      "learning_rate": 0.00019134560337254986,
+      "loss": 2.8563,
       "step": 47
     },
     {
       "epoch": 0.0016870667006423155,
+      "grad_norm": 15.09698486328125,
+      "learning_rate": 0.00018628828433995013,
+      "loss": 3.2323,
       "step": 48
     },
     {
       "epoch": 0.0017222139235723638,
+      "grad_norm": 12.457684516906738,
+      "learning_rate": 0.00018118675362266385,
+      "loss": 3.075,
       "step": 49
     },
     {
       "epoch": 0.001757361146502412,
+      "grad_norm": 11.620329856872559,
+      "learning_rate": 0.00017604722665003956,
+      "loss": 3.3615,
       "step": 50
     },
     {
       "epoch": 0.001757361146502412,
+      "eval_loss": 2.9333691596984863,
+      "eval_runtime": 122.5269,
+      "eval_samples_per_second": 4.668,
+      "eval_steps_per_second": 4.668,
       "step": 50
     }
   ],
   "logging_steps": 1,
+  "max_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:467127371b2d4da2f03dc3723fc2daad3034ada0f638fbfcb2df74368b95df56
 size 6776

 version https://git-lfs.github.com/spec/v1
+oid sha256:438f55570416df47c95f0190c524354a2631aeb9eab3c1c566aa35d4759fd07b
 size 6776