Training in progress, step 60, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8ff347f2a4ff28924131388644033ac74b2be4fef6beba204132fa14740d367c
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:87f7d1cab1f1c1f94445cd22369257aaa21529875106c6c56c58b5307c1bc477
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3640f11e9bfa375e1b65f931e090ec5e24dfd0440bca1d38b3176296ce111f2e
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa7b7ae7c5bb58cdf42f58142b085e62f4e7a4f192e231d24d38bd4992f8be42
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:161d6a87de01bfcacb8d5d93875329a9cc29a12cdde97e0bfe85d9cdc27baa92
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cf47f03b057010c0300b7a3c8bdc5b1074d0d042fbd2a7295866ded90ee1395
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:062016b917f4cd81cef6ab15bfe81df4e94586c0afba8905b655deaa6fff468f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50b80d146b8b37f82a1962ba385b8329fd6c2c35ba5116c53e131bb661ab681b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.153311014175415,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-40",
-  "epoch": 0.8421052631578947,
   "eval_steps": 20,
-  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,154 @@
       "eval_samples_per_second": 47.96,
       "eval_steps_per_second": 4.796,
       "step": 40
     }
   ],
   "logging_steps": 1,
@@ -339,7 +487,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4078799424061440.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.1519354581832886,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-60",
+  "epoch": 1.263157894736842,
   "eval_steps": 20,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.96,
       "eval_steps_per_second": 4.796,
       "step": 40
+    },
+    {
+      "epoch": 0.8631578947368421,
+      "grad_norm": 0.43908432126045227,
+      "learning_rate": 0.0001767644740358011,
+      "loss": 1.2448,
+      "step": 41
+    },
+    {
+      "epoch": 0.8842105263157894,
+      "grad_norm": 0.3212919235229492,
+      "learning_rate": 0.00017530714660036112,
+      "loss": 1.1699,
+      "step": 42
+    },
+    {
+      "epoch": 0.9052631578947369,
+      "grad_norm": 0.339679479598999,
+      "learning_rate": 0.00017381189974873407,
+      "loss": 1.1572,
+      "step": 43
+    },
+    {
+      "epoch": 0.9263157894736842,
+      "grad_norm": 0.3269651234149933,
+      "learning_rate": 0.00017227948638273916,
+      "loss": 1.1494,
+      "step": 44
+    },
+    {
+      "epoch": 0.9473684210526315,
+      "grad_norm": 0.34232962131500244,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 1.2262,
+      "step": 45
+    },
+    {
+      "epoch": 0.968421052631579,
+      "grad_norm": 0.34240803122520447,
+      "learning_rate": 0.00016910626489868649,
+      "loss": 1.1834,
+      "step": 46
+    },
+    {
+      "epoch": 0.9894736842105263,
+      "grad_norm": 0.35933125019073486,
+      "learning_rate": 0.00016746705459320745,
+      "loss": 1.0391,
+      "step": 47
+    },
+    {
+      "epoch": 1.0105263157894737,
+      "grad_norm": 0.3355937898159027,
+      "learning_rate": 0.00016579387259397127,
+      "loss": 1.2872,
+      "step": 48
+    },
+    {
+      "epoch": 1.0315789473684212,
+      "grad_norm": 0.3706349730491638,
+      "learning_rate": 0.0001640875613985024,
+      "loss": 1.0775,
+      "step": 49
+    },
+    {
+      "epoch": 1.0526315789473684,
+      "grad_norm": 0.427852988243103,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 1.1524,
+      "step": 50
+    },
+    {
+      "epoch": 1.0736842105263158,
+      "grad_norm": 0.3533117473125458,
+      "learning_rate": 0.000160579004384082,
+      "loss": 1.1181,
+      "step": 51
+    },
+    {
+      "epoch": 1.0947368421052632,
+      "grad_norm": 0.3712696135044098,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 1.0986,
+      "step": 52
+    },
+    {
+      "epoch": 1.1157894736842104,
+      "grad_norm": 0.3790956437587738,
+      "learning_rate": 0.0001569484493168452,
+      "loss": 1.1749,
+      "step": 53
+    },
+    {
+      "epoch": 1.1368421052631579,
+      "grad_norm": 0.3779037296772003,
+      "learning_rate": 0.00015508969814521025,
+      "loss": 1.1089,
+      "step": 54
+    },
+    {
+      "epoch": 1.1578947368421053,
+      "grad_norm": 0.36196696758270264,
+      "learning_rate": 0.00015320320765153367,
+      "loss": 1.0186,
+      "step": 55
+    },
+    {
+      "epoch": 1.1789473684210527,
+      "grad_norm": 0.3449699282646179,
+      "learning_rate": 0.00015128992774059063,
+      "loss": 1.064,
+      "step": 56
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.43372786045074463,
+      "learning_rate": 0.0001493508218064347,
+      "loss": 1.007,
+      "step": 57
+    },
+    {
+      "epoch": 1.2210526315789474,
+      "grad_norm": 0.35580453276634216,
+      "learning_rate": 0.00014738686624729986,
+      "loss": 1.0295,
+      "step": 58
+    },
+    {
+      "epoch": 1.2421052631578948,
+      "grad_norm": 0.47308239340782166,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 1.1361,
+      "step": 59
+    },
+    {
+      "epoch": 1.263157894736842,
+      "grad_norm": 0.3692001402378082,
+      "learning_rate": 0.00014338837391175582,
+      "loss": 1.099,
+      "step": 60
+    },
+    {
+      "epoch": 1.263157894736842,
+      "eval_loss": 1.1519354581832886,
+      "eval_runtime": 2.053,
+      "eval_samples_per_second": 48.71,
+      "eval_steps_per_second": 4.871,
+      "step": 60
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 6036925560913920.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null