Benjaminpwh
/

qwen2.5-7b-instruct-poly-adaLORA-6

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2814105704845538,
   "eval_steps": 500,
-  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -260,55 +260,6 @@
       "learning_rate": 4.352040947054912e-05,
       "loss": 1.6755,
       "step": 3500
-    },
-    {
-      "epoch": 0.24120906041533186,
-      "grad_norm": 3.0317392349243164,
-      "learning_rate": 4.316286017937538e-05,
-      "loss": 1.6352,
-      "step": 3600
-    },
-    {
-      "epoch": 0.2479093120935355,
-      "grad_norm": 3.037714958190918,
-      "learning_rate": 4.279726379057419e-05,
-      "loss": 1.5654,
-      "step": 3700
-    },
-    {
-      "epoch": 0.25460956377173916,
-      "grad_norm": 1.361885666847229,
-      "learning_rate": 4.2423782282479595e-05,
-      "loss": 17.0804,
-      "step": 3800
-    },
-    {
-      "epoch": 0.26130981544994286,
-      "grad_norm": 1.3709444999694824,
-      "learning_rate": 4.2042581126946126e-05,
-      "loss": 10.3143,
-      "step": 3900
-    },
-    {
-      "epoch": 0.2680100671281465,
-      "grad_norm": 1.3850795030593872,
-      "learning_rate": 4.165382921603614e-05,
-      "loss": 9.5243,
-      "step": 4000
-    },
-    {
-      "epoch": 0.27471031880635016,
-      "grad_norm": 1.4029041528701782,
-      "learning_rate": 4.125769878719184e-05,
-      "loss": 8.6121,
-      "step": 4100
-    },
-    {
-      "epoch": 0.2814105704845538,
-      "grad_norm": 1.4235178232192993,
-      "learning_rate": 4.0854365346925014e-05,
-      "loss": 7.5242,
-      "step": 4200
     }
   ],
   "logging_steps": 100,
@@ -328,7 +279,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.8085779157476917e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23450880873712818,
   "eval_steps": 500,
+  "global_step": 3500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 4.352040947054912e-05,
       "loss": 1.6755,
       "step": 3500
     }
   ],
   "logging_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1.4305806868430477e+19,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null