Training in progress, step 1590

Browse files

Files changed (7) hide show

model.safetensors +1 -1
run-3/checkpoint-1590/model.safetensors +1 -1
run-3/checkpoint-1590/optimizer.pt +1 -1
run-3/checkpoint-1590/scheduler.pt +1 -1
run-3/checkpoint-1590/trainer_state.json +40 -40
run-3/checkpoint-1590/training_args.bin +1 -1
training_args.bin +1 -1

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0e1643b1bd0323fbc45e8613702edc944075f87f113b1ffa8729a561b3398d5b
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:09f74d46f58414d8d1207638e0b7a63352db6c31e4dd89193fd52b0547378e68
 size 268290900

run-3/checkpoint-1590/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:412c06c8ccb1a63d5e9727eca90fdd4f9928fde11459996be3ba96c562fb87c5
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:09f74d46f58414d8d1207638e0b7a63352db6c31e4dd89193fd52b0547378e68
 size 268290900

run-3/checkpoint-1590/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca6d2ecfb317074f4ce663063657a6232f2dd947850a2b6da5df5383185c8158
 size 536645835

 version https://git-lfs.github.com/spec/v1
+oid sha256:9508dbf7547fb3373062c7fb409e13f13c17df653c87772161baa86c1f61544d
 size 536645835

run-3/checkpoint-1590/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17bf4b31b76e5514eff8ee3fa2091d1cda56850f095ceb6c333114284dfd91f4
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:591a3036abf7476423f029ad2a59e6f99ee1fcae384b84b29f655a7609102e7d
 size 1465

run-3/checkpoint-1590/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_global_step": 318,
-  "best_metric": 0.0064516129032258064,
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
@@ -11,73 +11,73 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 1.8634014129638672,
-      "learning_rate": 8.418430380468648e-07,
-      "loss": 2.7485,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.0064516129032258064,
-      "eval_loss": 2.429906129837036,
-      "eval_runtime": 16.088,
-      "eval_samples_per_second": 192.69,
-      "eval_steps_per_second": 4.04,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 1.7561661005020142,
-      "learning_rate": 6.323734595061614e-07,
-      "loss": 2.3269,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.0064516129032258064,
-      "eval_loss": 2.151293992996216,
-      "eval_runtime": 15.9574,
-      "eval_samples_per_second": 194.267,
-      "eval_steps_per_second": 4.073,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 2.544083595275879,
-      "learning_rate": 4.22903880965458e-07,
-      "loss": 2.1336,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.0064516129032258064,
-      "eval_loss": 2.018416404724121,
-      "eval_runtime": 15.8356,
-      "eval_samples_per_second": 195.762,
-      "eval_steps_per_second": 4.105,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 1.9344236850738525,
-      "learning_rate": 2.1343430242475459e-07,
-      "loss": 2.0365,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.0064516129032258064,
-      "eval_loss": 1.9513684511184692,
-      "eval_runtime": 15.904,
-      "eval_samples_per_second": 194.919,
-      "eval_steps_per_second": 4.087,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 2.013123035430908,
-      "learning_rate": 3.964723884051169e-09,
-      "loss": 1.9904,
       "step": 1585
     }
   ],
@@ -102,9 +102,9 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.7222343549409885,
-    "learning_rate": 1.0506518292735597e-06,
     "num_train_epochs": 5,
-    "temperature": 2.5618786472533883
   }
 }

 {
+  "best_global_step": 1272,
+  "best_metric": 0.011935483870967743,
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 1.5790598392486572,
+      "learning_rate": 4.0062893081761014e-05,
+      "loss": 1.4043,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.01032258064516129,
+      "eval_loss": 1.1946589946746826,
+      "eval_runtime": 16.2932,
+      "eval_samples_per_second": 190.263,
+      "eval_steps_per_second": 3.989,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 1.969873070716858,
+      "learning_rate": 3.009433962264151e-05,
+      "loss": 1.1616,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.00935483870967742,
+      "eval_loss": 1.14057195186615,
+      "eval_runtime": 16.0661,
+      "eval_samples_per_second": 192.953,
+      "eval_steps_per_second": 4.046,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 1.7632919549942017,
+      "learning_rate": 2.0125786163522016e-05,
+      "loss": 1.0714,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.00903225806451613,
+      "eval_loss": 1.1342412233352661,
+      "eval_runtime": 16.0739,
+      "eval_samples_per_second": 192.859,
+      "eval_steps_per_second": 4.044,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 2.8834447860717773,
+      "learning_rate": 1.0157232704402517e-05,
+      "loss": 1.0014,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.011935483870967743,
+      "eval_loss": 1.122102975845337,
+      "eval_runtime": 16.095,
+      "eval_samples_per_second": 192.607,
+      "eval_steps_per_second": 4.039,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 1.7756671905517578,
+      "learning_rate": 1.886792452830189e-07,
+      "loss": 0.9547,
       "step": 1585
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9,
+    "learning_rate": 5e-05,
     "num_train_epochs": 5,
+    "temperature": 2.0
   }
 }

run-3/checkpoint-1590/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdb4d45e7fb042f4d332b29670a9da6b163ef4d1fd0283dfd0bd42ef247ed757
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:64a8b3a49ebc8182073042c91753089264c4557ea1da4359c036b31372888809
 size 5905

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cefe7c9a43e61af3bc5ba28e6ebbd266f83be53c6466a8db7b7ee3a9d5f5925
 size 5905

 version https://git-lfs.github.com/spec/v1
+oid sha256:64a8b3a49ebc8182073042c91753089264c4557ea1da4359c036b31372888809
 size 5905