Model save

Browse files

Files changed (5) hide show

adapter_model.safetensors +1 -1
all_results.json +4 -4
runs/Feb25_17-29-57_autodl-container-1b3442a671-84b9ecdf/events.out.tfevents.1740475808.autodl-container-1b3442a671-84b9ecdf.180700.0 +2 -2
train_results.json +4 -4
trainer_state.json +48 -48

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c09112477628a5e92e0d6f55d8884602e24a44d4aa9000198a198ff229ba77a3
 size 2341522936

 version https://git-lfs.github.com/spec/v1
+oid sha256:57457f4ac80a45a634668b339ee789dc1279670529b27259760f78fb5d681f6a
 size 2341522936

all_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 1.05836359974912e+16,
-    "train_loss": 0.0,
-    "train_runtime": 0.0102,
     "train_samples": 106,
-    "train_samples_per_second": 21952.045,
-    "train_steps_per_second": 21952.045
 }

 {
     "epoch": 3.0,
     "total_flos": 1.05836359974912e+16,
+    "train_loss": 0.37946837372250025,
+    "train_runtime": 508.6697,
     "train_samples": 106,
+    "train_samples_per_second": 0.442,
+    "train_steps_per_second": 0.442
 }

runs/Feb25_17-29-57_autodl-container-1b3442a671-84b9ecdf/events.out.tfevents.1740475808.autodl-container-1b3442a671-84b9ecdf.180700.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:841114c0a58d57355a9bc3aefe7473604099e81ff4b17f6223efdbf362be2cea
-size 9205

 version https://git-lfs.github.com/spec/v1
+oid sha256:982e3c78b8ad57432375c60e4017577d3e407f8eaf03a8760a3fb8b5c9425f08
+size 11036

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 3.0,
     "total_flos": 1.05836359974912e+16,
-    "train_loss": 0.0,
-    "train_runtime": 0.0102,
     "train_samples": 106,
-    "train_samples_per_second": 21952.045,
-    "train_steps_per_second": 21952.045
 }

 {
     "epoch": 3.0,
     "total_flos": 1.05836359974912e+16,
+    "train_loss": 0.37946837372250025,
+    "train_runtime": 508.6697,
     "train_samples": 106,
+    "train_samples_per_second": 0.442,
+    "train_steps_per_second": 0.442
 }

trainer_state.json CHANGED Viewed

@@ -10,166 +10,166 @@
   "log_history": [
     {
       "epoch": 0.13333333333333333,
-      "grad_norm": 9.698728561401367,
       "learning_rate": 8e-05,
-      "loss": 1.225,
       "step": 10
     },
     {
       "epoch": 0.26666666666666666,
-      "grad_norm": 6.055803298950195,
       "learning_rate": 8e-05,
-      "loss": 0.8495,
       "step": 20
     },
     {
       "epoch": 0.4,
-      "grad_norm": 4.679312705993652,
       "learning_rate": 8e-05,
-      "loss": 0.6574,
       "step": 30
     },
     {
       "epoch": 0.5333333333333333,
-      "grad_norm": 4.378487586975098,
       "learning_rate": 8e-05,
-      "loss": 0.5618,
       "step": 40
     },
     {
       "epoch": 0.6666666666666666,
-      "grad_norm": 7.2650227546691895,
       "learning_rate": 8e-05,
-      "loss": 0.4845,
       "step": 50
     },
     {
       "epoch": 0.8,
-      "grad_norm": 3.8373830318450928,
       "learning_rate": 8e-05,
-      "loss": 0.4631,
       "step": 60
     },
     {
       "epoch": 0.9333333333333333,
-      "grad_norm": 3.852592945098877,
       "learning_rate": 8e-05,
-      "loss": 0.5386,
       "step": 70
     },
     {
       "epoch": 1.0666666666666667,
-      "grad_norm": 3.892258405685425,
       "learning_rate": 8e-05,
-      "loss": 0.3107,
       "step": 80
     },
     {
       "epoch": 1.2,
-      "grad_norm": 2.4811666011810303,
       "learning_rate": 8e-05,
-      "loss": 0.3547,
       "step": 90
     },
     {
       "epoch": 1.3333333333333333,
-      "grad_norm": 1.9795215129852295,
       "learning_rate": 8e-05,
-      "loss": 0.2735,
       "step": 100
     },
     {
       "epoch": 1.4666666666666668,
-      "grad_norm": 1.7794923782348633,
       "learning_rate": 8e-05,
-      "loss": 0.2833,
       "step": 110
     },
     {
       "epoch": 1.6,
-      "grad_norm": 2.8691558837890625,
       "learning_rate": 8e-05,
-      "loss": 0.3257,
       "step": 120
     },
     {
       "epoch": 1.7333333333333334,
-      "grad_norm": 3.442941904067993,
       "learning_rate": 8e-05,
-      "loss": 0.1854,
       "step": 130
     },
     {
       "epoch": 1.8666666666666667,
-      "grad_norm": 2.7556700706481934,
       "learning_rate": 8e-05,
-      "loss": 0.3391,
       "step": 140
     },
     {
       "epoch": 2.0,
-      "grad_norm": 3.3837943077087402,
       "learning_rate": 8e-05,
-      "loss": 0.2899,
       "step": 150
     },
     {
       "epoch": 2.1333333333333333,
-      "grad_norm": 3.2746551036834717,
       "learning_rate": 8e-05,
-      "loss": 0.1971,
       "step": 160
     },
     {
       "epoch": 2.2666666666666666,
-      "grad_norm": 1.148310661315918,
       "learning_rate": 8e-05,
-      "loss": 0.1219,
       "step": 170
     },
     {
       "epoch": 2.4,
-      "grad_norm": 2.608214855194092,
       "learning_rate": 8e-05,
-      "loss": 0.1486,
       "step": 180
     },
     {
       "epoch": 2.533333333333333,
-      "grad_norm": 3.537290334701538,
       "learning_rate": 8e-05,
-      "loss": 0.1678,
       "step": 190
     },
     {
       "epoch": 2.6666666666666665,
-      "grad_norm": 1.9116101264953613,
       "learning_rate": 8e-05,
-      "loss": 0.1679,
       "step": 200
     },
     {
       "epoch": 2.8,
-      "grad_norm": 3.0522828102111816,
       "learning_rate": 8e-05,
-      "loss": 0.1545,
       "step": 210
     },
     {
       "epoch": 2.9333333333333336,
-      "grad_norm": 2.040424108505249,
       "learning_rate": 8e-05,
-      "loss": 0.1119,
       "step": 220
     },
     {
       "epoch": 3.0,
       "step": 225,
       "total_flos": 1.05836359974912e+16,
-      "train_loss": 0.0,
-      "train_runtime": 0.0102,
-      "train_samples_per_second": 21952.045,
-      "train_steps_per_second": 21952.045
     }
   ],
   "logging_steps": 10,

   "log_history": [
     {
       "epoch": 0.13333333333333333,
+      "grad_norm": 12.684171676635742,
       "learning_rate": 8e-05,
+      "loss": 1.2281,
       "step": 10
     },
     {
       "epoch": 0.26666666666666666,
+      "grad_norm": 5.992891788482666,
       "learning_rate": 8e-05,
+      "loss": 0.8559,
       "step": 20
     },
     {
       "epoch": 0.4,
+      "grad_norm": 4.8018574714660645,
       "learning_rate": 8e-05,
+      "loss": 0.662,
       "step": 30
     },
     {
       "epoch": 0.5333333333333333,
+      "grad_norm": 6.7871413230896,
       "learning_rate": 8e-05,
+      "loss": 0.5638,
       "step": 40
     },
     {
       "epoch": 0.6666666666666666,
+      "grad_norm": 7.326993942260742,
       "learning_rate": 8e-05,
+      "loss": 0.4855,
       "step": 50
     },
     {
       "epoch": 0.8,
+      "grad_norm": 3.8792343139648438,
       "learning_rate": 8e-05,
+      "loss": 0.4623,
       "step": 60
     },
     {
       "epoch": 0.9333333333333333,
+      "grad_norm": 3.895263671875,
       "learning_rate": 8e-05,
+      "loss": 0.536,
       "step": 70
     },
     {
       "epoch": 1.0666666666666667,
+      "grad_norm": 3.9079606533050537,
       "learning_rate": 8e-05,
+      "loss": 0.4769,
       "step": 80
     },
     {
       "epoch": 1.2,
+      "grad_norm": 2.4843099117279053,
       "learning_rate": 8e-05,
+      "loss": 0.3534,
       "step": 90
     },
     {
       "epoch": 1.3333333333333333,
+      "grad_norm": 1.9975205659866333,
       "learning_rate": 8e-05,
+      "loss": 0.2728,
       "step": 100
     },
     {
       "epoch": 1.4666666666666668,
+      "grad_norm": 1.805734395980835,
       "learning_rate": 8e-05,
+      "loss": 0.2845,
       "step": 110
     },
     {
       "epoch": 1.6,
+      "grad_norm": 2.8298110961914062,
       "learning_rate": 8e-05,
+      "loss": 0.325,
       "step": 120
     },
     {
       "epoch": 1.7333333333333334,
+      "grad_norm": 2.404350996017456,
       "learning_rate": 8e-05,
+      "loss": 0.1876,
       "step": 130
     },
     {
       "epoch": 1.8666666666666667,
+      "grad_norm": 2.800565481185913,
       "learning_rate": 8e-05,
+      "loss": 0.3403,
       "step": 140
     },
     {
       "epoch": 2.0,
+      "grad_norm": 3.3671960830688477,
       "learning_rate": 8e-05,
+      "loss": 0.2958,
       "step": 150
     },
     {
       "epoch": 2.1333333333333333,
+      "grad_norm": 3.240291118621826,
       "learning_rate": 8e-05,
+      "loss": 0.1964,
       "step": 160
     },
     {
       "epoch": 2.2666666666666666,
+      "grad_norm": 1.1050523519515991,
       "learning_rate": 8e-05,
+      "loss": 0.1256,
       "step": 170
     },
     {
       "epoch": 2.4,
+      "grad_norm": 2.640699863433838,
       "learning_rate": 8e-05,
+      "loss": 0.15,
       "step": 180
     },
     {
       "epoch": 2.533333333333333,
+      "grad_norm": 3.566378116607666,
       "learning_rate": 8e-05,
+      "loss": 0.1707,
       "step": 190
     },
     {
       "epoch": 2.6666666666666665,
+      "grad_norm": 1.9662597179412842,
       "learning_rate": 8e-05,
+      "loss": 0.1709,
       "step": 200
     },
     {
       "epoch": 2.8,
+      "grad_norm": 3.1075780391693115,
       "learning_rate": 8e-05,
+      "loss": 0.1547,
       "step": 210
     },
     {
       "epoch": 2.9333333333333336,
+      "grad_norm": 1.8456004858016968,
       "learning_rate": 8e-05,
+      "loss": 0.1095,
       "step": 220
     },
     {
       "epoch": 3.0,
       "step": 225,
       "total_flos": 1.05836359974912e+16,
+      "train_loss": 0.37946837372250025,
+      "train_runtime": 508.6697,
+      "train_samples_per_second": 0.442,
+      "train_steps_per_second": 0.442
     }
   ],
   "logging_steps": 10,