Training in progress, epoch 0, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +12 -327
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e62f21c2524fbe6fa35e7771d7a0f174a91d2590b39bd6f6aeb7cdccfd0659c
 size 2610104820

 version https://git-lfs.github.com/spec/v1
+oid sha256:ede89cd7420b342554cf586111ef386bc4803fe1942c8c752e713c75eb639884
 size 2610104820

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bccecaf037aa026fb3aeecf97033588a8b734ad77c6f3316f4d4d4665be6d75
 size 5210004271

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a83ac9d504c4f5a9d0b3ec6c9d0ab931281b9695216ad64ae558fdd4e9634d9
 size 5210004271

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:70145026e21afc6ea2717a18ed89206163fc726fb3040617116c08c85b455de2
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:9080aea5181d3066ab765d04bc9819f089e9674161d5e56c8bf2b7c839212160
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2da52fce13790b5d54928ad82a11cde2bbdaabd941b9375b0d9e259039c539e5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fd6739d9b468767c726a8685cd4457152a8323bb7a81cf6908a01dd282a18e8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,342 +1,27 @@
 {
-  "best_metric": 0.8495596647262573,
-  "best_model_checkpoint": "mgh6/HTH_prob/checkpoint-4636",
-  "epoch": 21.996045413955862,
   "eval_steps": 500,
-  "global_step": 5368,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.9960454139558618,
-      "grad_norm": 0.2985314428806305,
-      "learning_rate": 9.833333333333333e-05,
-      "loss": 1.2681,
       "step": 244
     },
     {
       "epoch": 0.9960454139558618,
-      "eval_loss": 1.157210111618042,
-      "eval_runtime": 25.4096,
-      "eval_samples_per_second": 32.507,
-      "eval_steps_per_second": 16.254,
       "step": 244
-    },
-    {
-      "epoch": 1.9960454139558617,
-      "grad_norm": 0.37684935331344604,
-      "learning_rate": 9.666666666666667e-05,
-      "loss": 1.0601,
-      "step": 488
-    },
-    {
-      "epoch": 1.9960454139558617,
-      "eval_loss": 1.0078188180923462,
-      "eval_runtime": 25.3488,
-      "eval_samples_per_second": 32.585,
-      "eval_steps_per_second": 16.293,
-      "step": 488
-    },
-    {
-      "epoch": 2.9960454139558617,
-      "grad_norm": 0.22615128755569458,
-      "learning_rate": 9.5e-05,
-      "loss": 0.9323,
-      "step": 732
-    },
-    {
-      "epoch": 2.9960454139558617,
-      "eval_loss": 0.9372721314430237,
-      "eval_runtime": 25.365,
-      "eval_samples_per_second": 32.565,
-      "eval_steps_per_second": 16.282,
-      "step": 732
-    },
-    {
-      "epoch": 3.9960454139558617,
-      "grad_norm": 0.15589652955532074,
-      "learning_rate": 9.333333333333334e-05,
-      "loss": 0.8778,
-      "step": 976
-    },
-    {
-      "epoch": 3.9960454139558617,
-      "eval_loss": 0.9012424349784851,
-      "eval_runtime": 25.3688,
-      "eval_samples_per_second": 32.56,
-      "eval_steps_per_second": 16.28,
-      "step": 976
-    },
-    {
-      "epoch": 4.996045413955862,
-      "grad_norm": 0.11001910269260406,
-      "learning_rate": 9.166666666666667e-05,
-      "loss": 0.854,
-      "step": 1220
-    },
-    {
-      "epoch": 4.996045413955862,
-      "eval_loss": 0.881626546382904,
-      "eval_runtime": 25.3578,
-      "eval_samples_per_second": 32.574,
-      "eval_steps_per_second": 16.287,
-      "step": 1220
-    },
-    {
-      "epoch": 5.996045413955862,
-      "grad_norm": 0.09984524548053741,
-      "learning_rate": 9e-05,
-      "loss": 0.8412,
-      "step": 1464
-    },
-    {
-      "epoch": 5.996045413955862,
-      "eval_loss": 0.8756476044654846,
-      "eval_runtime": 25.3658,
-      "eval_samples_per_second": 32.564,
-      "eval_steps_per_second": 16.282,
-      "step": 1464
-    },
-    {
-      "epoch": 6.996045413955862,
-      "grad_norm": 0.08100161701440811,
-      "learning_rate": 8.833333333333333e-05,
-      "loss": 0.8331,
-      "step": 1708
-    },
-    {
-      "epoch": 6.996045413955862,
-      "eval_loss": 0.8662193417549133,
-      "eval_runtime": 25.367,
-      "eval_samples_per_second": 32.562,
-      "eval_steps_per_second": 16.281,
-      "step": 1708
-    },
-    {
-      "epoch": 7.996045413955862,
-      "grad_norm": 0.07314834743738174,
-      "learning_rate": 8.666666666666667e-05,
-      "loss": 0.828,
-      "step": 1952
-    },
-    {
-      "epoch": 7.996045413955862,
-      "eval_loss": 0.8645371198654175,
-      "eval_runtime": 25.3405,
-      "eval_samples_per_second": 32.596,
-      "eval_steps_per_second": 16.298,
-      "step": 1952
-    },
-    {
-      "epoch": 8.996045413955862,
-      "grad_norm": 0.06718147546052933,
-      "learning_rate": 8.5e-05,
-      "loss": 0.8245,
-      "step": 2196
-    },
-    {
-      "epoch": 8.996045413955862,
-      "eval_loss": 0.8601691722869873,
-      "eval_runtime": 25.3375,
-      "eval_samples_per_second": 32.6,
-      "eval_steps_per_second": 16.3,
-      "step": 2196
-    },
-    {
-      "epoch": 9.996045413955862,
-      "grad_norm": 0.059008464217185974,
-      "learning_rate": 8.333333333333334e-05,
-      "loss": 0.822,
-      "step": 2440
-    },
-    {
-      "epoch": 9.996045413955862,
-      "eval_loss": 0.8585366010665894,
-      "eval_runtime": 25.3797,
-      "eval_samples_per_second": 32.546,
-      "eval_steps_per_second": 16.273,
-      "step": 2440
-    },
-    {
-      "epoch": 10.996045413955862,
-      "grad_norm": 0.05849480628967285,
-      "learning_rate": 8.166666666666667e-05,
-      "loss": 0.82,
-      "step": 2684
-    },
-    {
-      "epoch": 10.996045413955862,
-      "eval_loss": 0.8567091226577759,
-      "eval_runtime": 25.3556,
-      "eval_samples_per_second": 32.577,
-      "eval_steps_per_second": 16.288,
-      "step": 2684
-    },
-    {
-      "epoch": 11.996045413955862,
-      "grad_norm": 0.059530675411224365,
-      "learning_rate": 8e-05,
-      "loss": 0.8186,
-      "step": 2928
-    },
-    {
-      "epoch": 11.996045413955862,
-      "eval_loss": 0.8564208745956421,
-      "eval_runtime": 25.3424,
-      "eval_samples_per_second": 32.594,
-      "eval_steps_per_second": 16.297,
-      "step": 2928
-    },
-    {
-      "epoch": 12.996045413955862,
-      "grad_norm": 0.06416182219982147,
-      "learning_rate": 7.833333333333333e-05,
-      "loss": 0.8173,
-      "step": 3172
-    },
-    {
-      "epoch": 12.996045413955862,
-      "eval_loss": 0.8540862798690796,
-      "eval_runtime": 25.3529,
-      "eval_samples_per_second": 32.58,
-      "eval_steps_per_second": 16.29,
-      "step": 3172
-    },
-    {
-      "epoch": 13.996045413955862,
-      "grad_norm": 0.05353016406297684,
-      "learning_rate": 7.666666666666667e-05,
-      "loss": 0.8171,
-      "step": 3416
-    },
-    {
-      "epoch": 13.996045413955862,
-      "eval_loss": 0.8535267114639282,
-      "eval_runtime": 25.3125,
-      "eval_samples_per_second": 32.632,
-      "eval_steps_per_second": 16.316,
-      "step": 3416
-    },
-    {
-      "epoch": 14.996045413955862,
-      "grad_norm": 0.04900681599974632,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 0.8151,
-      "step": 3660
-    },
-    {
-      "epoch": 14.996045413955862,
-      "eval_loss": 0.8519299626350403,
-      "eval_runtime": 25.3532,
-      "eval_samples_per_second": 32.58,
-      "eval_steps_per_second": 16.29,
-      "step": 3660
-    },
-    {
-      "epoch": 15.996045413955862,
-      "grad_norm": 0.0492498017847538,
-      "learning_rate": 7.333333333333333e-05,
-      "loss": 0.8143,
-      "step": 3904
-    },
-    {
-      "epoch": 15.996045413955862,
-      "eval_loss": 0.8498228788375854,
-      "eval_runtime": 25.3097,
-      "eval_samples_per_second": 32.636,
-      "eval_steps_per_second": 16.318,
-      "step": 3904
-    },
-    {
-      "epoch": 16.996045413955862,
-      "grad_norm": 0.04555810987949371,
-      "learning_rate": 7.166666666666667e-05,
-      "loss": 0.8136,
-      "step": 4148
-    },
-    {
-      "epoch": 16.996045413955862,
-      "eval_loss": 0.8518642783164978,
-      "eval_runtime": 25.326,
-      "eval_samples_per_second": 32.615,
-      "eval_steps_per_second": 16.307,
-      "step": 4148
-    },
-    {
-      "epoch": 17.996045413955862,
-      "grad_norm": 0.03729957342147827,
-      "learning_rate": 7e-05,
-      "loss": 0.8134,
-      "step": 4392
-    },
-    {
-      "epoch": 17.996045413955862,
-      "eval_loss": 0.8507369756698608,
-      "eval_runtime": 25.3562,
-      "eval_samples_per_second": 32.576,
-      "eval_steps_per_second": 16.288,
-      "step": 4392
-    },
-    {
-      "epoch": 18.996045413955862,
-      "grad_norm": 0.037404902279376984,
-      "learning_rate": 6.833333333333333e-05,
-      "loss": 0.8124,
-      "step": 4636
-    },
-    {
-      "epoch": 18.996045413955862,
-      "eval_loss": 0.8495596647262573,
-      "eval_runtime": 25.3504,
-      "eval_samples_per_second": 32.583,
-      "eval_steps_per_second": 16.292,
-      "step": 4636
-    },
-    {
-      "epoch": 19.996045413955862,
-      "grad_norm": 0.045253317803144455,
-      "learning_rate": 6.666666666666667e-05,
-      "loss": 0.8117,
-      "step": 4880
-    },
-    {
-      "epoch": 19.996045413955862,
-      "eval_loss": 0.8522358536720276,
-      "eval_runtime": 25.356,
-      "eval_samples_per_second": 32.576,
-      "eval_steps_per_second": 16.288,
-      "step": 4880
-    },
-    {
-      "epoch": 20.996045413955862,
-      "grad_norm": 0.04286725074052811,
-      "learning_rate": 6.500000000000001e-05,
-      "loss": 0.8133,
-      "step": 5124
-    },
-    {
-      "epoch": 20.996045413955862,
-      "eval_loss": 0.8517967462539673,
-      "eval_runtime": 25.3545,
-      "eval_samples_per_second": 32.578,
-      "eval_steps_per_second": 16.289,
-      "step": 5124
-    },
-    {
-      "epoch": 21.996045413955862,
-      "grad_norm": 0.033235229551792145,
-      "learning_rate": 6.333333333333333e-05,
-      "loss": 0.8128,
-      "step": 5368
-    },
-    {
-      "epoch": 21.996045413955862,
-      "eval_loss": 0.8513291478157043,
-      "eval_runtime": 25.3035,
-      "eval_samples_per_second": 32.644,
-      "eval_steps_per_second": 16.322,
-      "step": 5368
     }
   ],
   "logging_steps": 500,
@@ -351,7 +36,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 3
       }
     },
     "TrainerControl": {

 {
+  "best_metric": 1.3716533184051514,
+  "best_model_checkpoint": "mgh6/HTH_prob/checkpoint-244",
+  "epoch": 0.9960454139558618,
   "eval_steps": 500,
+  "global_step": 244,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.9960454139558618,
+      "grad_norm": 0.04875887930393219,
+      "learning_rate": 0.0009833333333333332,
+      "loss": 1.3837,
       "step": 244
     },
     {
       "epoch": 0.9960454139558618,
+      "eval_loss": 1.3716533184051514,
+      "eval_runtime": 25.1667,
+      "eval_samples_per_second": 32.821,
+      "eval_steps_per_second": 16.411,
       "step": 244
     }
   ],
   "logging_steps": 500,
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06b76751df474367f2aad140f11a5cac938596d395fdaf77198812027cdca85a
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:667cf2698d9700cfae15eb710eb29a7fe4af2b3f185b9513c6453b73cf79787c
 size 5368