Training in progress, step 80, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +154 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7627bee5f59d424331a7a8c8fa59f2519833f6c9a0b76bf47db086e2d057ba3e
 size 70430032

 version https://git-lfs.github.com/spec/v1
+oid sha256:468b063969066b67543986fcdfd9612e1cf13bd6f9ed9c8cb089fa8deef7fbbd
 size 70430032

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a277a9128921e08f49f245502ecfafe5e811a6fdcec51f4c80f5c64f8c88065c
 size 36135892

 version https://git-lfs.github.com/spec/v1
+oid sha256:802bb23f2e39ef6455fe99fb42b6fc5e3f5b93e4b39a391d6ac0d7800d92e4dd
 size 36135892

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8276354487b9292066c9bf7fb070ef98904061db81bdcaf8141dd5e722f15d1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:039c1d81fb146d103517ea6bea4a7a40c383f02afe64a858fb2196fad801a152
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d842ae89b9008565268495397aa2a41cfc409fd6aefac567cbdd9ac926ecf81
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d0ad751608bb1f65d75e4c79bf22f0a1cfe737e1d81d092b1221458be1c8fb4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 2.1694796085357666,
-  "best_model_checkpoint": "miner_id_24/checkpoint-60",
-  "epoch": 0.025388765471278957,
   "eval_steps": 20,
-  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -459,6 +459,154 @@
       "eval_samples_per_second": 27.672,
       "eval_steps_per_second": 6.925,
       "step": 60
     }
   ],
   "logging_steps": 1,
@@ -482,12 +630,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1107378422415360.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 2.1631815433502197,
+  "best_model_checkpoint": "miner_id_24/checkpoint-80",
+  "epoch": 0.03385168729503861,
   "eval_steps": 20,
+  "global_step": 80,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.672,
       "eval_steps_per_second": 6.925,
       "step": 60
+    },
+    {
+      "epoch": 0.02581191156246694,
+      "grad_norm": 1.1517850160598755,
+      "learning_rate": 3.4206127406028745e-05,
+      "loss": 2.2314,
+      "step": 61
+    },
+    {
+      "epoch": 0.026235057653654924,
+      "grad_norm": 1.0954445600509644,
+      "learning_rate": 3.089373510131354e-05,
+      "loss": 2.1453,
+      "step": 62
+    },
+    {
+      "epoch": 0.026658203744842908,
+      "grad_norm": 1.129459261894226,
+      "learning_rate": 2.7720513617260856e-05,
+      "loss": 2.1496,
+      "step": 63
+    },
+    {
+      "epoch": 0.027081349836030888,
+      "grad_norm": 1.2924052476882935,
+      "learning_rate": 2.4692853399638917e-05,
+      "loss": 2.1504,
+      "step": 64
+    },
+    {
+      "epoch": 0.02750449592721887,
+      "grad_norm": 1.1182539463043213,
+      "learning_rate": 2.181685175319702e-05,
+      "loss": 2.0713,
+      "step": 65
+    },
+    {
+      "epoch": 0.027927642018406855,
+      "grad_norm": 1.2294206619262695,
+      "learning_rate": 1.9098300562505266e-05,
+      "loss": 2.1622,
+      "step": 66
+    },
+    {
+      "epoch": 0.02835078810959484,
+      "grad_norm": 1.191117763519287,
+      "learning_rate": 1.6542674627869737e-05,
+      "loss": 2.208,
+      "step": 67
+    },
+    {
+      "epoch": 0.028773934200782822,
+      "grad_norm": 1.1100726127624512,
+      "learning_rate": 1.415512063981339e-05,
+      "loss": 2.1405,
+      "step": 68
+    },
+    {
+      "epoch": 0.029197080291970802,
+      "grad_norm": 1.0611038208007812,
+      "learning_rate": 1.19404468143262e-05,
+      "loss": 2.1244,
+      "step": 69
+    },
+    {
+      "epoch": 0.029620226383158785,
+      "grad_norm": 1.193991780281067,
+      "learning_rate": 9.903113209758096e-06,
+      "loss": 2.2719,
+      "step": 70
+    },
+    {
+      "epoch": 0.03004337247434677,
+      "grad_norm": 1.1647319793701172,
+      "learning_rate": 8.047222744854943e-06,
+      "loss": 2.1554,
+      "step": 71
+    },
+    {
+      "epoch": 0.030466518565534752,
+      "grad_norm": 1.1668955087661743,
+      "learning_rate": 6.37651293602628e-06,
+      "loss": 2.1259,
+      "step": 72
+    },
+    {
+      "epoch": 0.030889664656722732,
+      "grad_norm": 1.1693888902664185,
+      "learning_rate": 4.8943483704846475e-06,
+      "loss": 2.2087,
+      "step": 73
+    },
+    {
+      "epoch": 0.031312810747910716,
+      "grad_norm": 1.1683961153030396,
+      "learning_rate": 3.6037139304146762e-06,
+      "loss": 2.0883,
+      "step": 74
+    },
+    {
+      "epoch": 0.031735956839098696,
+      "grad_norm": 1.1831532716751099,
+      "learning_rate": 2.5072087818176382e-06,
+      "loss": 2.1605,
+      "step": 75
+    },
+    {
+      "epoch": 0.03215910293028668,
+      "grad_norm": 1.237900972366333,
+      "learning_rate": 1.6070411401370334e-06,
+      "loss": 2.1349,
+      "step": 76
+    },
+    {
+      "epoch": 0.03258224902147466,
+      "grad_norm": 1.3579156398773193,
+      "learning_rate": 9.0502382320653e-07,
+      "loss": 2.166,
+      "step": 77
+    },
+    {
+      "epoch": 0.03300539511266265,
+      "grad_norm": 1.1819465160369873,
+      "learning_rate": 4.025706004760932e-07,
+      "loss": 2.2146,
+      "step": 78
+    },
+    {
+      "epoch": 0.03342854120385063,
+      "grad_norm": 1.3723968267440796,
+      "learning_rate": 1.0069334586854107e-07,
+      "loss": 2.2131,
+      "step": 79
+    },
+    {
+      "epoch": 0.03385168729503861,
+      "grad_norm": 1.183445930480957,
+      "learning_rate": 0.0,
+      "loss": 2.266,
+      "step": 80
+    },
+    {
+      "epoch": 0.03385168729503861,
+      "eval_loss": 2.1631815433502197,
+      "eval_runtime": 63.4411,
+      "eval_samples_per_second": 31.368,
+      "eval_steps_per_second": 7.85,
+      "step": 80
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1476504563220480.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null