Upload folder using huggingface_hub

Browse files

Files changed (5) hide show

adapter_config.json +4 -4
adapter_model.safetensors +1 -1
optimizer.pt +1 -1
trainer_state.json +113 -113
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -34,12 +34,12 @@
   "revision": null,
   "target_modules": [
     "o_proj",
-    "k_proj",
-    "q_proj",
-    "gate_proj",
     "v_proj",
     "down_proj",
-    "up_proj"
   ],
   "target_parameters": null,
   "task_type": "SEQ_CLS",

   "revision": null,
   "target_modules": [
     "o_proj",
     "v_proj",
     "down_proj",
+    "q_proj",
+    "k_proj",
+    "up_proj",
+    "gate_proj"
   ],
   "target_parameters": null,
   "task_type": "SEQ_CLS",

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04c015335ffb450bad00de9274b0167e98e159bf17049bc56ea8bd0252d302a1
 size 664635272

 version https://git-lfs.github.com/spec/v1
+oid sha256:2416d6550deb818d0f05c387f8565c7b47944e0b1d169a75775dbd8f88bd149f
 size 664635272

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff3426cd6cff7eb13a44a0d73b65d6c5a17bd38b953d0a29afa08b38b09460fc
 size 1329479786

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc364ea3c42c9c346258ba687f8dc4e63455c63fbf573ffe6f682811a922e8f2
 size 1329479786

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 320,
-  "best_metric": 0.5875147670395797,
   "best_model_checkpoint": "/content/gemma_lora_imb/checkpoint-320",
   "epoch": 1.6494845360824741,
   "eval_steps": 20,
@@ -11,258 +11,258 @@
   "log_history": [
     {
       "epoch": 0.10309278350515463,
-      "grad_norm": 25.1546688079834,
       "learning_rate": 9.510309278350516e-06,
-      "loss": 2.0014,
       "step": 20
     },
     {
       "epoch": 0.10309278350515463,
-      "eval_f1_macro": 0.33107292753406026,
-      "eval_loss": 1.6745504140853882,
-      "eval_runtime": 4.0473,
-      "eval_samples_per_second": 190.744,
-      "eval_steps_per_second": 6.177,
       "step": 20
     },
     {
       "epoch": 0.20618556701030927,
-      "grad_norm": 16.38060188293457,
       "learning_rate": 8.994845360824743e-06,
-      "loss": 1.4915,
       "step": 40
     },
     {
       "epoch": 0.20618556701030927,
-      "eval_f1_macro": 0.3665202210167921,
-      "eval_loss": 1.254835844039917,
-      "eval_runtime": 3.9719,
-      "eval_samples_per_second": 194.367,
-      "eval_steps_per_second": 6.294,
       "step": 40
     },
     {
       "epoch": 0.30927835051546393,
-      "grad_norm": 30.57720947265625,
       "learning_rate": 8.479381443298969e-06,
-      "loss": 1.1753,
       "step": 60
     },
     {
       "epoch": 0.30927835051546393,
-      "eval_f1_macro": 0.4159936110328978,
-      "eval_loss": 1.0741406679153442,
-      "eval_runtime": 4.0545,
-      "eval_samples_per_second": 190.408,
-      "eval_steps_per_second": 6.166,
       "step": 60
     },
     {
       "epoch": 0.41237113402061853,
-      "grad_norm": 19.81576156616211,
       "learning_rate": 7.963917525773196e-06,
-      "loss": 0.9657,
       "step": 80
     },
     {
       "epoch": 0.41237113402061853,
-      "eval_f1_macro": 0.46995424440252304,
-      "eval_loss": 0.9967098236083984,
-      "eval_runtime": 3.9961,
-      "eval_samples_per_second": 193.188,
-      "eval_steps_per_second": 6.256,
       "step": 80
     },
     {
       "epoch": 0.5154639175257731,
-      "grad_norm": 13.595305442810059,
       "learning_rate": 7.448453608247424e-06,
-      "loss": 0.9258,
       "step": 100
     },
     {
       "epoch": 0.5154639175257731,
-      "eval_f1_macro": 0.49848441168978574,
-      "eval_loss": 0.8957132697105408,
-      "eval_runtime": 3.9144,
-      "eval_samples_per_second": 197.219,
-      "eval_steps_per_second": 6.387,
       "step": 100
     },
     {
       "epoch": 0.6185567010309279,
-      "grad_norm": 12.591818809509277,
       "learning_rate": 6.93298969072165e-06,
-      "loss": 0.8563,
       "step": 120
     },
     {
       "epoch": 0.6185567010309279,
-      "eval_f1_macro": 0.5165300305298831,
-      "eval_loss": 0.8264620900154114,
-      "eval_runtime": 4.0365,
-      "eval_samples_per_second": 191.257,
-      "eval_steps_per_second": 6.194,
       "step": 120
     },
     {
       "epoch": 0.7216494845360825,
-      "grad_norm": 9.834779739379883,
       "learning_rate": 6.417525773195877e-06,
-      "loss": 0.8207,
       "step": 140
     },
     {
       "epoch": 0.7216494845360825,
-      "eval_f1_macro": 0.5491629792325976,
-      "eval_loss": 0.7913520932197571,
-      "eval_runtime": 3.9557,
-      "eval_samples_per_second": 195.163,
-      "eval_steps_per_second": 6.32,
       "step": 140
     },
     {
       "epoch": 0.8247422680412371,
-      "grad_norm": 12.005083084106445,
       "learning_rate": 5.902061855670104e-06,
-      "loss": 0.8001,
       "step": 160
     },
     {
       "epoch": 0.8247422680412371,
-      "eval_f1_macro": 0.5534321329438001,
-      "eval_loss": 0.7741566300392151,
-      "eval_runtime": 3.9951,
-      "eval_samples_per_second": 193.236,
-      "eval_steps_per_second": 6.258,
       "step": 160
     },
     {
       "epoch": 0.9278350515463918,
-      "grad_norm": 12.000106811523438,
       "learning_rate": 5.38659793814433e-06,
-      "loss": 0.7494,
       "step": 180
     },
     {
       "epoch": 0.9278350515463918,
-      "eval_f1_macro": 0.5579623894625729,
-      "eval_loss": 0.7399266958236694,
-      "eval_runtime": 3.9949,
-      "eval_samples_per_second": 193.246,
-      "eval_steps_per_second": 6.258,
       "step": 180
     },
     {
       "epoch": 1.0309278350515463,
-      "grad_norm": 13.406641006469727,
       "learning_rate": 4.871134020618557e-06,
-      "loss": 0.719,
       "step": 200
     },
     {
       "epoch": 1.0309278350515463,
-      "eval_f1_macro": 0.5670104123323871,
-      "eval_loss": 0.7660173773765564,
-      "eval_runtime": 3.973,
-      "eval_samples_per_second": 194.314,
-      "eval_steps_per_second": 6.293,
       "step": 200
     },
     {
       "epoch": 1.134020618556701,
-      "grad_norm": 9.07872200012207,
       "learning_rate": 4.355670103092784e-06,
-      "loss": 0.66,
       "step": 220
     },
     {
       "epoch": 1.134020618556701,
-      "eval_f1_macro": 0.5826124319208055,
-      "eval_loss": 0.7981044054031372,
-      "eval_runtime": 3.9838,
-      "eval_samples_per_second": 193.783,
-      "eval_steps_per_second": 6.275,
       "step": 220
     },
     {
       "epoch": 1.2371134020618557,
-      "grad_norm": 9.708913803100586,
       "learning_rate": 3.840206185567011e-06,
-      "loss": 0.6715,
       "step": 240
     },
     {
       "epoch": 1.2371134020618557,
-      "eval_f1_macro": 0.574267676962998,
-      "eval_loss": 0.7557724118232727,
-      "eval_runtime": 4.0237,
-      "eval_samples_per_second": 191.864,
-      "eval_steps_per_second": 6.213,
       "step": 240
     },
     {
       "epoch": 1.3402061855670104,
-      "grad_norm": 7.926121711730957,
       "learning_rate": 3.324742268041237e-06,
-      "loss": 0.6367,
       "step": 260
     },
     {
       "epoch": 1.3402061855670104,
-      "eval_f1_macro": 0.5792622799357451,
-      "eval_loss": 0.7489193677902222,
-      "eval_runtime": 3.9886,
-      "eval_samples_per_second": 193.553,
-      "eval_steps_per_second": 6.268,
       "step": 260
     },
     {
       "epoch": 1.443298969072165,
-      "grad_norm": 6.716864585876465,
       "learning_rate": 2.809278350515464e-06,
-      "loss": 0.6164,
       "step": 280
     },
     {
       "epoch": 1.443298969072165,
-      "eval_f1_macro": 0.580594142749172,
-      "eval_loss": 0.7568148970603943,
-      "eval_runtime": 3.9996,
-      "eval_samples_per_second": 193.021,
-      "eval_steps_per_second": 6.251,
       "step": 280
     },
     {
       "epoch": 1.5463917525773194,
-      "grad_norm": 7.458005428314209,
       "learning_rate": 2.293814432989691e-06,
-      "loss": 0.6752,
       "step": 300
     },
     {
       "epoch": 1.5463917525773194,
-      "eval_f1_macro": 0.570129567763359,
-      "eval_loss": 0.7318532466888428,
-      "eval_runtime": 4.0088,
-      "eval_samples_per_second": 192.576,
-      "eval_steps_per_second": 6.236,
       "step": 300
     },
     {
       "epoch": 1.6494845360824741,
-      "grad_norm": 7.686004161834717,
       "learning_rate": 1.7783505154639178e-06,
-      "loss": 0.5934,
       "step": 320
     },
     {
       "epoch": 1.6494845360824741,
-      "eval_f1_macro": 0.5875147670395797,
-      "eval_loss": 0.7576584815979004,
-      "eval_runtime": 4.0068,
-      "eval_samples_per_second": 192.671,
-      "eval_steps_per_second": 6.239,
       "step": 320
     }
   ],

 {
   "best_global_step": 320,
+  "best_metric": 0.5938381065356336,
   "best_model_checkpoint": "/content/gemma_lora_imb/checkpoint-320",
   "epoch": 1.6494845360824741,
   "eval_steps": 20,
   "log_history": [
     {
       "epoch": 0.10309278350515463,
+      "grad_norm": 28.475317001342773,
       "learning_rate": 9.510309278350516e-06,
+      "loss": 1.9688,
       "step": 20
     },
     {
       "epoch": 0.10309278350515463,
+      "eval_f1_macro": 0.3268938093426131,
+      "eval_loss": 1.6321439743041992,
+      "eval_runtime": 3.9651,
+      "eval_samples_per_second": 194.698,
+      "eval_steps_per_second": 6.305,
       "step": 20
     },
     {
       "epoch": 0.20618556701030927,
+      "grad_norm": 20.50006866455078,
       "learning_rate": 8.994845360824743e-06,
+      "loss": 1.3439,
       "step": 40
     },
     {
       "epoch": 0.20618556701030927,
+      "eval_f1_macro": 0.3697218634049285,
+      "eval_loss": 1.2616751194000244,
+      "eval_runtime": 4.2784,
+      "eval_samples_per_second": 180.441,
+      "eval_steps_per_second": 5.843,
       "step": 40
     },
     {
       "epoch": 0.30927835051546393,
+      "grad_norm": 41.688751220703125,
       "learning_rate": 8.479381443298969e-06,
+      "loss": 1.0698,
       "step": 60
     },
     {
       "epoch": 0.30927835051546393,
+      "eval_f1_macro": 0.4542143805018043,
+      "eval_loss": 1.038082480430603,
+      "eval_runtime": 3.9347,
+      "eval_samples_per_second": 196.201,
+      "eval_steps_per_second": 6.354,
       "step": 60
     },
     {
       "epoch": 0.41237113402061853,
+      "grad_norm": 18.773658752441406,
       "learning_rate": 7.963917525773196e-06,
+      "loss": 0.8925,
       "step": 80
     },
     {
       "epoch": 0.41237113402061853,
+      "eval_f1_macro": 0.49878452511464727,
+      "eval_loss": 0.9446011185646057,
+      "eval_runtime": 3.9284,
+      "eval_samples_per_second": 196.516,
+      "eval_steps_per_second": 6.364,
       "step": 80
     },
     {
       "epoch": 0.5154639175257731,
+      "grad_norm": 15.985794067382812,
       "learning_rate": 7.448453608247424e-06,
+      "loss": 0.876,
       "step": 100
     },
     {
       "epoch": 0.5154639175257731,
+      "eval_f1_macro": 0.5263883153406523,
+      "eval_loss": 0.8541163206100464,
+      "eval_runtime": 3.9231,
+      "eval_samples_per_second": 196.785,
+      "eval_steps_per_second": 6.373,
       "step": 100
     },
     {
       "epoch": 0.6185567010309279,
+      "grad_norm": 17.182302474975586,
       "learning_rate": 6.93298969072165e-06,
+      "loss": 0.8147,
       "step": 120
     },
     {
       "epoch": 0.6185567010309279,
+      "eval_f1_macro": 0.5381800325973681,
+      "eval_loss": 0.8054100275039673,
+      "eval_runtime": 3.9483,
+      "eval_samples_per_second": 195.53,
+      "eval_steps_per_second": 6.332,
       "step": 120
     },
     {
       "epoch": 0.7216494845360825,
+      "grad_norm": 9.127381324768066,
       "learning_rate": 6.417525773195877e-06,
+      "loss": 0.8025,
       "step": 140
     },
     {
       "epoch": 0.7216494845360825,
+      "eval_f1_macro": 0.5465635692018774,
+      "eval_loss": 0.7696816921234131,
+      "eval_runtime": 3.9227,
+      "eval_samples_per_second": 196.804,
+      "eval_steps_per_second": 6.373,
       "step": 140
     },
     {
       "epoch": 0.8247422680412371,
+      "grad_norm": 13.120288848876953,
       "learning_rate": 5.902061855670104e-06,
+      "loss": 0.7859,
       "step": 160
     },
     {
       "epoch": 0.8247422680412371,
+      "eval_f1_macro": 0.5512889360726072,
+      "eval_loss": 0.7549648880958557,
+      "eval_runtime": 3.9339,
+      "eval_samples_per_second": 196.24,
+      "eval_steps_per_second": 6.355,
       "step": 160
     },
     {
       "epoch": 0.9278350515463918,
+      "grad_norm": 12.05843448638916,
       "learning_rate": 5.38659793814433e-06,
+      "loss": 0.7499,
       "step": 180
     },
     {
       "epoch": 0.9278350515463918,
+      "eval_f1_macro": 0.5526664350368882,
+      "eval_loss": 0.7347894906997681,
+      "eval_runtime": 3.9585,
+      "eval_samples_per_second": 195.022,
+      "eval_steps_per_second": 6.315,
       "step": 180
     },
     {
       "epoch": 1.0309278350515463,
+      "grad_norm": 10.693439483642578,
       "learning_rate": 4.871134020618557e-06,
+      "loss": 0.7156,
       "step": 200
     },
     {
       "epoch": 1.0309278350515463,
+      "eval_f1_macro": 0.5764236536326763,
+      "eval_loss": 0.7346844673156738,
+      "eval_runtime": 3.9136,
+      "eval_samples_per_second": 197.261,
+      "eval_steps_per_second": 6.388,
       "step": 200
     },
     {
       "epoch": 1.134020618556701,
+      "grad_norm": 10.037001609802246,
       "learning_rate": 4.355670103092784e-06,
+      "loss": 0.628,
       "step": 220
     },
     {
       "epoch": 1.134020618556701,
+      "eval_f1_macro": 0.5775336754770706,
+      "eval_loss": 0.810948371887207,
+      "eval_runtime": 4.0413,
+      "eval_samples_per_second": 191.029,
+      "eval_steps_per_second": 6.186,
       "step": 220
     },
     {
       "epoch": 1.2371134020618557,
+      "grad_norm": 9.240849494934082,
       "learning_rate": 3.840206185567011e-06,
+      "loss": 0.6601,
       "step": 240
     },
     {
       "epoch": 1.2371134020618557,
+      "eval_f1_macro": 0.5821846549080626,
+      "eval_loss": 0.7480236291885376,
+      "eval_runtime": 3.9625,
+      "eval_samples_per_second": 194.826,
+      "eval_steps_per_second": 6.309,
       "step": 240
     },
     {
       "epoch": 1.3402061855670104,
+      "grad_norm": 7.726218223571777,
       "learning_rate": 3.324742268041237e-06,
+      "loss": 0.6286,
       "step": 260
     },
     {
       "epoch": 1.3402061855670104,
+      "eval_f1_macro": 0.5793924416627766,
+      "eval_loss": 0.7301892638206482,
+      "eval_runtime": 3.9159,
+      "eval_samples_per_second": 197.144,
+      "eval_steps_per_second": 6.384,
       "step": 260
     },
     {
       "epoch": 1.443298969072165,
+      "grad_norm": 8.408136367797852,
       "learning_rate": 2.809278350515464e-06,
+      "loss": 0.6048,
       "step": 280
     },
     {
       "epoch": 1.443298969072165,
+      "eval_f1_macro": 0.5846632256257394,
+      "eval_loss": 0.7338100075721741,
+      "eval_runtime": 3.9641,
+      "eval_samples_per_second": 194.749,
+      "eval_steps_per_second": 6.307,
       "step": 280
     },
     {
       "epoch": 1.5463917525773194,
+      "grad_norm": 8.853802680969238,
       "learning_rate": 2.293814432989691e-06,
+      "loss": 0.6399,
       "step": 300
     },
     {
       "epoch": 1.5463917525773194,
+      "eval_f1_macro": 0.5798440723934543,
+      "eval_loss": 0.7210143208503723,
+      "eval_runtime": 4.4541,
+      "eval_samples_per_second": 173.322,
+      "eval_steps_per_second": 5.613,
       "step": 300
     },
     {
       "epoch": 1.6494845360824741,
+      "grad_norm": 7.352003574371338,
       "learning_rate": 1.7783505154639178e-06,
+      "loss": 0.5882,
       "step": 320
     },
     {
       "epoch": 1.6494845360824741,
+      "eval_f1_macro": 0.5938381065356336,
+      "eval_loss": 0.7336726188659668,
+      "eval_runtime": 3.9872,
+      "eval_samples_per_second": 193.619,
+      "eval_steps_per_second": 6.27,
       "step": 320
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a7fe80d89e3247b409545d8b84d73e41e961e2968dc1e02dd1e3d282557d941
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:697c137f0af9ca57111ce6bb1fdc70aa1d95192c2c6fdff6a83fa4dc1f74828b
 size 5905