Training in progress, step 40, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c262af3316d92f1e6a59b3f3fce338e187fac9175949a02bc80bdc70674949db
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ff347f2a4ff28924131388644033ac74b2be4fef6beba204132fa14740d367c
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d7abfd469db57334042c7cf1fda0a239d09983f7d72fbc0bfe26e16575bc765
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:3640f11e9bfa375e1b65f931e090ec5e24dfd0440bca1d38b3176296ce111f2e
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eaefb486716e7cdd53aa7207d6e8d9df693e032d4b9b882b4154f9c46bb10d61
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:161d6a87de01bfcacb8d5d93875329a9cc29a12cdde97e0bfe85d9cdc27baa92
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c297c5cf11a27c75d9f99f1df69752f78c3ad41b0275adf50cdd1b67f9d0bb3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:062016b917f4cd81cef6ab15bfe81df4e94586c0afba8905b655deaa6fff468f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1702154874801636,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-20",
-  "epoch": 0.42105263157894735,
   "eval_steps": 20,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -163,6 +163,154 @@
       "eval_samples_per_second": 47.875,
       "eval_steps_per_second": 4.788,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -191,7 +339,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2033729462599680.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.153311014175415,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-40",
+  "epoch": 0.8421052631578947,
   "eval_steps": 20,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 47.875,
       "eval_steps_per_second": 4.788,
       "step": 20
+    },
+    {
+      "epoch": 0.4421052631578947,
+      "grad_norm": 0.4274454414844513,
+      "learning_rate": 0.0001969689520376687,
+      "loss": 1.0972,
+      "step": 21
+    },
+    {
+      "epoch": 0.4631578947368421,
+      "grad_norm": 0.3145941197872162,
+      "learning_rate": 0.00019639628606958533,
+      "loss": 1.1746,
+      "step": 22
+    },
+    {
+      "epoch": 0.4842105263157895,
+      "grad_norm": 0.34570032358169556,
+      "learning_rate": 0.00019577508166849304,
+      "loss": 1.2273,
+      "step": 23
+    },
+    {
+      "epoch": 0.5052631578947369,
+      "grad_norm": 0.4847642481327057,
+      "learning_rate": 0.00019510565162951537,
+      "loss": 1.2152,
+      "step": 24
+    },
+    {
+      "epoch": 0.5263157894736842,
+      "grad_norm": 0.3375917375087738,
+      "learning_rate": 0.00019438833303083678,
+      "loss": 1.1977,
+      "step": 25
+    },
+    {
+      "epoch": 0.5473684210526316,
+      "grad_norm": 0.42273998260498047,
+      "learning_rate": 0.00019362348706397373,
+      "loss": 1.24,
+      "step": 26
+    },
+    {
+      "epoch": 0.5684210526315789,
+      "grad_norm": 0.4141988456249237,
+      "learning_rate": 0.0001928114988519039,
+      "loss": 1.2562,
+      "step": 27
+    },
+    {
+      "epoch": 0.5894736842105263,
+      "grad_norm": 0.382915198802948,
+      "learning_rate": 0.0001919527772551451,
+      "loss": 1.226,
+      "step": 28
+    },
+    {
+      "epoch": 0.6105263157894737,
+      "grad_norm": 0.37382128834724426,
+      "learning_rate": 0.00019104775466588161,
+      "loss": 1.3248,
+      "step": 29
+    },
+    {
+      "epoch": 0.631578947368421,
+      "grad_norm": 0.3107808232307434,
+      "learning_rate": 0.0001900968867902419,
+      "loss": 1.1354,
+      "step": 30
+    },
+    {
+      "epoch": 0.6526315789473685,
+      "grad_norm": 0.34155750274658203,
+      "learning_rate": 0.0001891006524188368,
+      "loss": 1.0803,
+      "step": 31
+    },
+    {
+      "epoch": 0.6736842105263158,
+      "grad_norm": 0.3141622543334961,
+      "learning_rate": 0.0001880595531856738,
+      "loss": 1.1457,
+      "step": 32
+    },
+    {
+      "epoch": 0.6947368421052632,
+      "grad_norm": 0.35257869958877563,
+      "learning_rate": 0.00018697411331556956,
+      "loss": 1.2322,
+      "step": 33
+    },
+    {
+      "epoch": 0.7157894736842105,
+      "grad_norm": 0.42415115237236023,
+      "learning_rate": 0.00018584487936018661,
+      "loss": 1.179,
+      "step": 34
+    },
+    {
+      "epoch": 0.7368421052631579,
+      "grad_norm": 0.3805026710033417,
+      "learning_rate": 0.00018467241992282843,
+      "loss": 1.126,
+      "step": 35
+    },
+    {
+      "epoch": 0.7578947368421053,
+      "grad_norm": 0.3650873601436615,
+      "learning_rate": 0.00018345732537213027,
+      "loss": 1.2333,
+      "step": 36
+    },
+    {
+      "epoch": 0.7789473684210526,
+      "grad_norm": 0.3254134953022003,
+      "learning_rate": 0.00018220020754479102,
+      "loss": 1.2721,
+      "step": 37
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.36688175797462463,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.2615,
+      "step": 38
+    },
+    {
+      "epoch": 0.8210526315789474,
+      "grad_norm": 0.3320186734199524,
+      "learning_rate": 0.00017956245488817812,
+      "loss": 1.1474,
+      "step": 39
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.37685626745224,
+      "learning_rate": 0.000178183148246803,
+      "loss": 1.1977,
+      "step": 40
+    },
+    {
+      "epoch": 0.8421052631578947,
+      "eval_loss": 1.153311014175415,
+      "eval_runtime": 2.0851,
+      "eval_samples_per_second": 47.96,
+      "eval_steps_per_second": 4.796,
+      "step": 40
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4078799424061440.0,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null