Upload task output 0fe99f84-0038-4cec-8e61-1eb9fea8dc55

Browse files

Files changed (4) hide show

loss.txt +1 -1
model.safetensors +1 -1
trainer_state.json +39 -39
training_args.bin +1 -1

loss.txt CHANGED Viewed

	@@ -1 +1 @@
1	- 94,1.~~4254399538040161~~


1	+ 94,1.4226864576339722

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:463c535603aff4165f67f61dfa629ad8562f6de3d215a045fe038e8ec99796e6
 size 2471645608

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ab0909463ed87ed047c9689bd5c88ff5cbd6baf5236cf377f4b8b00fa277f94
 size 2471645608

trainer_state.json CHANGED Viewed

@@ -11,30 +11,30 @@
   "log_history": [
     {
       "epoch": 0.10638297872340426,
-      "grad_norm": 6.90625,
       "learning_rate": 8.8845e-06,
-      "loss": 2.3621,
       "step": 5
     },
     {
       "epoch": 0.2127659574468085,
       "grad_norm": 4.96875,
       "learning_rate": 1.9990125e-05,
-      "loss": 2.1354,
       "step": 10
     },
     {
       "epoch": 0.3191489361702128,
-      "grad_norm": 4.71875,
       "learning_rate": 3.1095750000000005e-05,
       "loss": 1.9609,
       "step": 15
     },
     {
       "epoch": 0.425531914893617,
-      "grad_norm": 3.921875,
       "learning_rate": 4.2201375e-05,
-      "loss": 1.841,
       "step": 20
     },
     {
@@ -46,109 +46,109 @@
     },
     {
       "epoch": 0.6382978723404256,
-      "grad_norm": 3.921875,
       "learning_rate": 6.4412625e-05,
-      "loss": 1.7088,
       "step": 30
     },
     {
       "epoch": 0.7446808510638298,
-      "grad_norm": 3.75,
       "learning_rate": 7.551825e-05,
-      "loss": 1.6829,
       "step": 35
     },
     {
       "epoch": 0.851063829787234,
-      "grad_norm": 3.6875,
       "learning_rate": 7.753475804658967e-05,
-      "loss": 1.6549,
       "step": 40
     },
     {
       "epoch": 0.9574468085106383,
-      "grad_norm": 3.265625,
       "learning_rate": 7.670842209011892e-05,
-      "loss": 1.6349,
       "step": 45
     },
     {
       "epoch": 1.0,
-      "eval_loss": 1.5820515155792236,
-      "eval_runtime": 4.9972,
-      "eval_samples_per_second": 40.023,
-      "eval_steps_per_second": 40.023,
       "step": 47
     },
     {
       "epoch": 1.0638297872340425,
-      "grad_norm": 3.5,
       "learning_rate": 7.526567749442305e-05,
-      "loss": 1.4597,
       "step": 50
     },
     {
       "epoch": 1.1702127659574468,
-      "grad_norm": 3.15625,
       "learning_rate": 7.323814868052365e-05,
-      "loss": 1.3235,
       "step": 55
     },
     {
       "epoch": 1.2765957446808511,
-      "grad_norm": 3.53125,
       "learning_rate": 7.067027832041926e-05,
-      "loss": 1.3141,
       "step": 60
     },
     {
       "epoch": 1.3829787234042552,
-      "grad_norm": 3.1875,
       "learning_rate": 6.761835317036523e-05,
-      "loss": 1.3339,
       "step": 65
     },
     {
       "epoch": 1.4893617021276595,
-      "grad_norm": 3.109375,
       "learning_rate": 6.414927028626436e-05,
-      "loss": 1.2874,
       "step": 70
     },
     {
       "epoch": 1.5957446808510638,
-      "grad_norm": 3.140625,
       "learning_rate": 6.033907066526388e-05,
-      "loss": 1.2909,
       "step": 75
     },
     {
       "epoch": 1.702127659574468,
       "grad_norm": 2.859375,
       "learning_rate": 5.627127245558645e-05,
-      "loss": 1.2628,
       "step": 80
     },
     {
       "epoch": 1.8085106382978724,
-      "grad_norm": 2.9375,
       "learning_rate": 5.203504027001068e-05,
-      "loss": 1.2736,
       "step": 85
     },
     {
       "epoch": 1.9148936170212765,
-      "grad_norm": 2.921875,
       "learning_rate": 4.7723230730964036e-05,
-      "loss": 1.2499,
       "step": 90
     },
     {
       "epoch": 2.0,
-      "eval_loss": 1.4254399538040161,
-      "eval_runtime": 4.8558,
-      "eval_samples_per_second": 41.188,
-      "eval_steps_per_second": 41.188,
       "step": 94
     }
   ],

   "log_history": [
     {
       "epoch": 0.10638297872340426,
+      "grad_norm": 6.875,
       "learning_rate": 8.8845e-06,
+      "loss": 2.3619,
       "step": 5
     },
     {
       "epoch": 0.2127659574468085,
       "grad_norm": 4.96875,
       "learning_rate": 1.9990125e-05,
+      "loss": 2.1355,
       "step": 10
     },
     {
       "epoch": 0.3191489361702128,
+      "grad_norm": 4.75,
       "learning_rate": 3.1095750000000005e-05,
       "loss": 1.9609,
       "step": 15
     },
     {
       "epoch": 0.425531914893617,
+      "grad_norm": 3.9375,
       "learning_rate": 4.2201375e-05,
+      "loss": 1.8411,
       "step": 20
     },
     {
     },
     {
       "epoch": 0.6382978723404256,
+      "grad_norm": 3.9375,
       "learning_rate": 6.4412625e-05,
+      "loss": 1.7092,
       "step": 30
     },
     {
       "epoch": 0.7446808510638298,
+      "grad_norm": 3.703125,
       "learning_rate": 7.551825e-05,
+      "loss": 1.679,
       "step": 35
     },
     {
       "epoch": 0.851063829787234,
+      "grad_norm": 3.75,
       "learning_rate": 7.753475804658967e-05,
+      "loss": 1.65,
       "step": 40
     },
     {
       "epoch": 0.9574468085106383,
+      "grad_norm": 3.28125,
       "learning_rate": 7.670842209011892e-05,
+      "loss": 1.6324,
       "step": 45
     },
     {
       "epoch": 1.0,
+      "eval_loss": 1.5718683004379272,
+      "eval_runtime": 5.0419,
+      "eval_samples_per_second": 39.668,
+      "eval_steps_per_second": 39.668,
       "step": 47
     },
     {
       "epoch": 1.0638297872340425,
+      "grad_norm": 3.5625,
       "learning_rate": 7.526567749442305e-05,
+      "loss": 1.4548,
       "step": 50
     },
     {
       "epoch": 1.1702127659574468,
+      "grad_norm": 3.203125,
       "learning_rate": 7.323814868052365e-05,
+      "loss": 1.3195,
       "step": 55
     },
     {
       "epoch": 1.2765957446808511,
+      "grad_norm": 3.515625,
       "learning_rate": 7.067027832041926e-05,
+      "loss": 1.3081,
       "step": 60
     },
     {
       "epoch": 1.3829787234042552,
+      "grad_norm": 3.28125,
       "learning_rate": 6.761835317036523e-05,
+      "loss": 1.3275,
       "step": 65
     },
     {
       "epoch": 1.4893617021276595,
+      "grad_norm": 3.140625,
       "learning_rate": 6.414927028626436e-05,
+      "loss": 1.2813,
       "step": 70
     },
     {
       "epoch": 1.5957446808510638,
+      "grad_norm": 3.265625,
       "learning_rate": 6.033907066526388e-05,
+      "loss": 1.2849,
       "step": 75
     },
     {
       "epoch": 1.702127659574468,
       "grad_norm": 2.859375,
       "learning_rate": 5.627127245558645e-05,
+      "loss": 1.2558,
       "step": 80
     },
     {
       "epoch": 1.8085106382978724,
+      "grad_norm": 2.90625,
       "learning_rate": 5.203504027001068e-05,
+      "loss": 1.2672,
       "step": 85
     },
     {
       "epoch": 1.9148936170212765,
+      "grad_norm": 2.875,
       "learning_rate": 4.7723230730964036e-05,
+      "loss": 1.2442,
       "step": 90
     },
     {
       "epoch": 2.0,
+      "eval_loss": 1.4226864576339722,
+      "eval_runtime": 4.9284,
+      "eval_samples_per_second": 40.581,
+      "eval_steps_per_second": 40.581,
       "step": 94
     }
   ],

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2dba5456ef636428827b0247f0a75c2ea36bd40474b12587bfed5fd8edee13fb
 size 5688

 version https://git-lfs.github.com/spec/v1
+oid sha256:cf331e6fd57c18254efcfbc196d1235b38b32362cd9d58a9b0e6317cde1e5ab3
 size 5688