Model save

Browse files

Files changed (6) hide show

README.md +2 -2
adapter_model.safetensors +1 -1
all_results.json +4 -9
runs/Nov18_00-42-14_main-milora-gemma7b-classification-0-0/events.out.tfevents.1731909175.main-milora-gemma7b-classification-0-0.457.0 +2 -2
train_results.json +4 -4
trainer_state.json +58 -58

README.md CHANGED Viewed

@@ -20,7 +20,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the generator dataset.
 It achieves the following results on the evaluation set:
-- Loss: 2.1894
 ## Model description
@@ -57,7 +57,7 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
-| 1.8961        | 0.9959 | 121  | 2.1894          |
 ### Framework versions

 This model is a fine-tuned version of [google/gemma-7b](https://huggingface.co/google/gemma-7b) on the generator dataset.
 It achieves the following results on the evaluation set:
+- Loss: 2.1987
 ## Model description
 | Training Loss | Epoch  | Step | Validation Loss |
 |:-------------:|:------:|:----:|:---------------:|
+| 1.8855        | 0.9959 | 121  | 2.1987          |
 ### Framework versions

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc68ea73bc478267e60d5083b556ef01a97e0bfb8219019b1b18416c29d76668
 size 12859872

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d66f64061d19a913cabcf5244ff5cbbc23e6611a32afaf36bbce74e85ed33c2
 size 12859872

all_results.json CHANGED Viewed

@@ -1,14 +1,9 @@
 {
     "epoch": 0.9958847736625515,
-    "eval_loss": 2.1894350051879883,
-    "eval_runtime": 1.2571,
-    "eval_samples": 16,
-    "eval_samples_per_second": 3.182,
-    "eval_steps_per_second": 0.796,
     "total_flos": 3.689505230149386e+17,
-    "train_loss": 10.321047170103089,
-    "train_runtime": 1495.3969,
     "train_samples": 92634,
-    "train_samples_per_second": 10.358,
-    "train_steps_per_second": 0.081
 }

 {
     "epoch": 0.9958847736625515,
     "total_flos": 3.689505230149386e+17,
+    "train_loss": 10.36233426716702,
+    "train_runtime": 314.1127,
     "train_samples": 92634,
+    "train_samples_per_second": 49.314,
+    "train_steps_per_second": 0.385
 }

runs/Nov18_00-42-14_main-milora-gemma7b-classification-0-0/events.out.tfevents.1731909175.main-milora-gemma7b-classification-0-0.457.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0aa5995d0b07fac1bb815a675474fba6b285074d1f085be88d575a8e4a9c0737
-size 10064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c40f6721b5932efd5149677a8265bb6d7898ef48be3ef72efad95929d6531db9
+size 11506

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 0.9958847736625515,
     "total_flos": 3.689505230149386e+17,
-    "train_loss": 10.321047170103089,
-    "train_runtime": 1495.3969,
     "train_samples": 92634,
-    "train_samples_per_second": 10.358,
-    "train_steps_per_second": 0.081
 }

 {
     "epoch": 0.9958847736625515,
     "total_flos": 3.689505230149386e+17,
+    "train_loss": 10.36233426716702,
+    "train_runtime": 314.1127,
     "train_samples": 92634,
+    "train_samples_per_second": 49.314,
+    "train_steps_per_second": 0.385
 }

trainer_state.json CHANGED Viewed

@@ -10,195 +10,195 @@
   "log_history": [
     {
       "epoch": 0.00823045267489712,
-      "grad_norm": 161.76547241210938,
       "learning_rate": 1.5384615384615387e-05,
-      "loss": 49.1053,
       "step": 1
     },
     {
       "epoch": 0.0411522633744856,
-      "grad_norm": 98.96170806884766,
       "learning_rate": 7.692307692307693e-05,
-      "loss": 45.9684,
       "step": 5
     },
     {
       "epoch": 0.0823045267489712,
-      "grad_norm": 18.99808120727539,
       "learning_rate": 0.00015384615384615385,
-      "loss": 34.4524,
       "step": 10
     },
     {
       "epoch": 0.12345679012345678,
-      "grad_norm": 18.723434448242188,
       "learning_rate": 0.00019983081582712685,
-      "loss": 27.5705,
       "step": 15
     },
     {
       "epoch": 0.1646090534979424,
-      "grad_norm": 5.907467365264893,
       "learning_rate": 0.00019793406217655517,
-      "loss": 24.8864,
       "step": 20
     },
     {
       "epoch": 0.205761316872428,
-      "grad_norm": 9.208550453186035,
       "learning_rate": 0.00019396926207859084,
-      "loss": 23.6273,
       "step": 25
     },
     {
       "epoch": 0.24691358024691357,
-      "grad_norm": 18.81309700012207,
       "learning_rate": 0.00018802013911801112,
-      "loss": 21.6619,
       "step": 30
     },
     {
       "epoch": 0.2880658436213992,
-      "grad_norm": 30.242107391357422,
       "learning_rate": 0.0001802123192755044,
-      "loss": 17.8913,
       "step": 35
     },
     {
       "epoch": 0.3292181069958848,
-      "grad_norm": 39.21098327636719,
       "learning_rate": 0.00017071067811865476,
-      "loss": 12.4227,
       "step": 40
     },
     {
       "epoch": 0.37037037037037035,
-      "grad_norm": 18.91362762451172,
       "learning_rate": 0.00015971585917027862,
-      "loss": 6.2936,
       "step": 45
     },
     {
       "epoch": 0.411522633744856,
-      "grad_norm": 12.601763725280762,
       "learning_rate": 0.00014746003697476404,
-      "loss": 3.8101,
       "step": 50
     },
     {
       "epoch": 0.45267489711934156,
-      "grad_norm": 7.025509357452393,
       "learning_rate": 0.00013420201433256689,
-      "loss": 3.2225,
       "step": 55
     },
     {
       "epoch": 0.49382716049382713,
-      "grad_norm": 2.7400238513946533,
       "learning_rate": 0.00012022175723320381,
-      "loss": 2.7407,
       "step": 60
     },
     {
       "epoch": 0.5349794238683128,
-      "grad_norm": 2.330040454864502,
       "learning_rate": 0.00010581448289104758,
-      "loss": 2.4184,
       "step": 65
     },
     {
       "epoch": 0.5761316872427984,
-      "grad_norm": 1.8120249509811401,
       "learning_rate": 9.128442572523417e-05,
-      "loss": 2.2454,
       "step": 70
     },
     {
       "epoch": 0.6172839506172839,
-      "grad_norm": 2.3081297874450684,
       "learning_rate": 7.693841292575598e-05,
-      "loss": 2.1335,
       "step": 75
     },
     {
       "epoch": 0.6584362139917695,
-      "grad_norm": 0.960925281047821,
       "learning_rate": 6.307938526873157e-05,
-      "loss": 2.0547,
       "step": 80
     },
     {
       "epoch": 0.6995884773662552,
-      "grad_norm": 0.8918873071670532,
       "learning_rate": 5.000000000000002e-05,
-      "loss": 1.9972,
       "step": 85
     },
     {
       "epoch": 0.7407407407407407,
-      "grad_norm": 0.7359836101531982,
       "learning_rate": 3.7976450873174005e-05,
-      "loss": 1.9597,
       "step": 90
     },
     {
       "epoch": 0.7818930041152263,
-      "grad_norm": 1.2649565935134888,
       "learning_rate": 2.7262635842695127e-05,
-      "loss": 1.9328,
       "step": 95
     },
     {
       "epoch": 0.823045267489712,
-      "grad_norm": 1.0137094259262085,
       "learning_rate": 1.808479557110081e-05,
-      "loss": 1.9037,
       "step": 100
     },
     {
       "epoch": 0.8641975308641975,
-      "grad_norm": 1.392273187637329,
       "learning_rate": 1.0636735967658784e-05,
-      "loss": 1.9017,
       "step": 105
     },
     {
       "epoch": 0.9053497942386831,
-      "grad_norm": 0.9710758924484253,
       "learning_rate": 5.075735642696611e-06,
-      "loss": 1.9008,
       "step": 110
     },
     {
       "epoch": 0.9465020576131687,
-      "grad_norm": 1.074477195739746,
       "learning_rate": 1.5192246987791981e-06,
-      "loss": 1.8851,
       "step": 115
     },
     {
       "epoch": 0.9876543209876543,
-      "grad_norm": 0.776634693145752,
       "learning_rate": 4.230499177994007e-08,
-      "loss": 1.8961,
       "step": 120
     },
     {
       "epoch": 0.9958847736625515,
-      "eval_loss": 2.1894350051879883,
-      "eval_runtime": 1.256,
-      "eval_samples_per_second": 3.185,
-      "eval_steps_per_second": 0.796,
       "step": 121
     },
     {
       "epoch": 0.9958847736625515,
       "step": 121,
       "total_flos": 3.689505230149386e+17,
-      "train_loss": 10.321047170103089,
-      "train_runtime": 1495.3969,
-      "train_samples_per_second": 10.358,
-      "train_steps_per_second": 0.081
     }
   ],
   "logging_steps": 5,

   "log_history": [
     {
       "epoch": 0.00823045267489712,
+      "grad_norm": 157.12161254882812,
       "learning_rate": 1.5384615384615387e-05,
+      "loss": 48.0544,
       "step": 1
     },
     {
       "epoch": 0.0411522633744856,
+      "grad_norm": 110.75520324707031,
       "learning_rate": 7.692307692307693e-05,
+      "loss": 46.1352,
       "step": 5
     },
     {
       "epoch": 0.0823045267489712,
+      "grad_norm": 19.529361724853516,
       "learning_rate": 0.00015384615384615385,
+      "loss": 34.622,
       "step": 10
     },
     {
       "epoch": 0.12345679012345678,
+      "grad_norm": 19.890928268432617,
       "learning_rate": 0.00019983081582712685,
+      "loss": 27.6403,
       "step": 15
     },
     {
       "epoch": 0.1646090534979424,
+      "grad_norm": 6.077105522155762,
       "learning_rate": 0.00019793406217655517,
+      "loss": 24.9282,
       "step": 20
     },
     {
       "epoch": 0.205761316872428,
+      "grad_norm": 9.045083999633789,
       "learning_rate": 0.00019396926207859084,
+      "loss": 23.6636,
       "step": 25
     },
     {
       "epoch": 0.24691358024691357,
+      "grad_norm": 18.40345573425293,
       "learning_rate": 0.00018802013911801112,
+      "loss": 21.7488,
       "step": 30
     },
     {
       "epoch": 0.2880658436213992,
+      "grad_norm": 29.79853057861328,
       "learning_rate": 0.0001802123192755044,
+      "loss": 18.0863,
       "step": 35
     },
     {
       "epoch": 0.3292181069958848,
+      "grad_norm": 39.49338912963867,
       "learning_rate": 0.00017071067811865476,
+      "loss": 12.8006,
       "step": 40
     },
     {
       "epoch": 0.37037037037037035,
+      "grad_norm": 21.521495819091797,
       "learning_rate": 0.00015971585917027862,
+      "loss": 6.6678,
       "step": 45
     },
     {
       "epoch": 0.411522633744856,
+      "grad_norm": 11.19473934173584,
       "learning_rate": 0.00014746003697476404,
+      "loss": 3.8272,
       "step": 50
     },
     {
       "epoch": 0.45267489711934156,
+      "grad_norm": 6.990288734436035,
       "learning_rate": 0.00013420201433256689,
+      "loss": 3.1646,
       "step": 55
     },
     {
       "epoch": 0.49382716049382713,
+      "grad_norm": 2.7517666816711426,
       "learning_rate": 0.00012022175723320381,
+      "loss": 2.6933,
       "step": 60
     },
     {
       "epoch": 0.5349794238683128,
+      "grad_norm": 2.2007288932800293,
       "learning_rate": 0.00010581448289104758,
+      "loss": 2.3824,
       "step": 65
     },
     {
       "epoch": 0.5761316872427984,
+      "grad_norm": 2.1180613040924072,
       "learning_rate": 9.128442572523417e-05,
+      "loss": 2.2163,
       "step": 70
     },
     {
       "epoch": 0.6172839506172839,
+      "grad_norm": 2.3379714488983154,
       "learning_rate": 7.693841292575598e-05,
+      "loss": 2.1149,
       "step": 75
     },
     {
       "epoch": 0.6584362139917695,
+      "grad_norm": 0.9881446957588196,
       "learning_rate": 6.307938526873157e-05,
+      "loss": 2.0377,
       "step": 80
     },
     {
       "epoch": 0.6995884773662552,
+      "grad_norm": 0.8957713842391968,
       "learning_rate": 5.000000000000002e-05,
+      "loss": 1.985,
       "step": 85
     },
     {
       "epoch": 0.7407407407407407,
+      "grad_norm": 0.9342585206031799,
       "learning_rate": 3.7976450873174005e-05,
+      "loss": 1.949,
       "step": 90
     },
     {
       "epoch": 0.7818930041152263,
+      "grad_norm": 1.272150993347168,
       "learning_rate": 2.7262635842695127e-05,
+      "loss": 1.9218,
       "step": 95
     },
     {
       "epoch": 0.823045267489712,
+      "grad_norm": 1.0257776975631714,
       "learning_rate": 1.808479557110081e-05,
+      "loss": 1.894,
       "step": 100
     },
     {
       "epoch": 0.8641975308641975,
+      "grad_norm": 1.343111515045166,
       "learning_rate": 1.0636735967658784e-05,
+      "loss": 1.8922,
       "step": 105
     },
     {
       "epoch": 0.9053497942386831,
+      "grad_norm": 0.977741003036499,
       "learning_rate": 5.075735642696611e-06,
+      "loss": 1.8888,
       "step": 110
     },
     {
       "epoch": 0.9465020576131687,
+      "grad_norm": 0.9998582601547241,
       "learning_rate": 1.5192246987791981e-06,
+      "loss": 1.8767,
       "step": 115
     },
     {
       "epoch": 0.9876543209876543,
+      "grad_norm": 0.8014172315597534,
       "learning_rate": 4.230499177994007e-08,
+      "loss": 1.8855,
       "step": 120
     },
     {
       "epoch": 0.9958847736625515,
+      "eval_loss": 2.19870924949646,
+      "eval_runtime": 0.4577,
+      "eval_samples_per_second": 8.739,
+      "eval_steps_per_second": 2.185,
       "step": 121
     },
     {
       "epoch": 0.9958847736625515,
       "step": 121,
       "total_flos": 3.689505230149386e+17,
+      "train_loss": 10.36233426716702,
+      "train_runtime": 314.1127,
+      "train_samples_per_second": 49.314,
+      "train_steps_per_second": 0.385
     }
   ],
   "logging_steps": 5,