Training in progress, step 60, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +153 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:928ab8d5d9685166fb9c05f8f86ac5f339a74761031699b7431cbf196cf665d3
 size 45118424

 version https://git-lfs.github.com/spec/v1
+oid sha256:6cbce5af76e1e48d89a397d83170bc57c3eb9658c035203bed506dd64251a17a
 size 45118424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:84fbbb689aff7e3534c9a2e784632a8255256d5a987752f30d6cf1c49956a3cb
 size 23159290

 version https://git-lfs.github.com/spec/v1
+oid sha256:138b30553fd9154412683c6e5b96709767ee98389d8f5203e88b0fa44dfbe649
 size 23159290

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d3c2b9368de43a9e6d513b33bec2ad97c83367d98632cf5067c5665823b83ed
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a25e101f39164e92467712a28e8e6cb74e5f3b47c630735ff43fc58e6de6580
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:062016b917f4cd81cef6ab15bfe81df4e94586c0afba8905b655deaa6fff468f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:50b80d146b8b37f82a1962ba385b8329fd6c2c35ba5116c53e131bb661ab681b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.12474175542593002,
-  "best_model_checkpoint": "miner_id_besimray/checkpoint-40",
-  "epoch": 0.5144694533762058,
   "eval_steps": 20,
-  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,154 @@
       "eval_samples_per_second": 21.657,
       "eval_steps_per_second": 2.245,
       "step": 40
     }
   ],
   "logging_steps": 1,
@@ -339,7 +487,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.012328531755008e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.11406784504652023,
+  "best_model_checkpoint": "miner_id_besimray/checkpoint-60",
+  "epoch": 0.7717041800643086,
   "eval_steps": 20,
+  "global_step": 60,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 21.657,
       "eval_steps_per_second": 2.245,
       "step": 40
+    },
+    {
+      "epoch": 0.5273311897106109,
+      "grad_norm": 2.266005039215088,
+      "learning_rate": 0.0001767644740358011,
+      "loss": 0.2054,
+      "step": 41
+    },
+    {
+      "epoch": 0.5401929260450161,
+      "grad_norm": 1.8020590543746948,
+      "learning_rate": 0.00017530714660036112,
+      "loss": 0.215,
+      "step": 42
+    },
+    {
+      "epoch": 0.5530546623794212,
+      "grad_norm": 1.485172152519226,
+      "learning_rate": 0.00017381189974873407,
+      "loss": 0.1301,
+      "step": 43
+    },
+    {
+      "epoch": 0.5659163987138264,
+      "grad_norm": 1.3878521919250488,
+      "learning_rate": 0.00017227948638273916,
+      "loss": 0.0968,
+      "step": 44
+    },
+    {
+      "epoch": 0.5787781350482315,
+      "grad_norm": 2.983001947402954,
+      "learning_rate": 0.00017071067811865476,
+      "loss": 0.153,
+      "step": 45
+    },
+    {
+      "epoch": 0.5916398713826366,
+      "grad_norm": 2.1312382221221924,
+      "learning_rate": 0.00016910626489868649,
+      "loss": 0.1828,
+      "step": 46
+    },
+    {
+      "epoch": 0.6045016077170418,
+      "grad_norm": 1.8013986349105835,
+      "learning_rate": 0.00016746705459320745,
+      "loss": 0.1477,
+      "step": 47
+    },
+    {
+      "epoch": 0.617363344051447,
+      "grad_norm": 1.7897144556045532,
+      "learning_rate": 0.00016579387259397127,
+      "loss": 0.1447,
+      "step": 48
+    },
+    {
+      "epoch": 0.6302250803858521,
+      "grad_norm": 1.2489451169967651,
+      "learning_rate": 0.0001640875613985024,
+      "loss": 0.1108,
+      "step": 49
+    },
+    {
+      "epoch": 0.6430868167202572,
+      "grad_norm": 1.6015397310256958,
+      "learning_rate": 0.00016234898018587337,
+      "loss": 0.166,
+      "step": 50
+    },
+    {
+      "epoch": 0.6559485530546624,
+      "grad_norm": 1.4469735622406006,
+      "learning_rate": 0.000160579004384082,
+      "loss": 0.1605,
+      "step": 51
+    },
+    {
+      "epoch": 0.6688102893890675,
+      "grad_norm": 1.6216981410980225,
+      "learning_rate": 0.00015877852522924732,
+      "loss": 0.1379,
+      "step": 52
+    },
+    {
+      "epoch": 0.6816720257234726,
+      "grad_norm": 1.8606749773025513,
+      "learning_rate": 0.0001569484493168452,
+      "loss": 0.1199,
+      "step": 53
+    },
+    {
+      "epoch": 0.6945337620578779,
+      "grad_norm": 2.0084099769592285,
+      "learning_rate": 0.00015508969814521025,
+      "loss": 0.1693,
+      "step": 54
+    },
+    {
+      "epoch": 0.707395498392283,
+      "grad_norm": 1.6963586807250977,
+      "learning_rate": 0.00015320320765153367,
+      "loss": 0.1271,
+      "step": 55
+    },
+    {
+      "epoch": 0.7202572347266881,
+      "grad_norm": 2.146078586578369,
+      "learning_rate": 0.00015128992774059063,
+      "loss": 0.1936,
+      "step": 56
+    },
+    {
+      "epoch": 0.7331189710610932,
+      "grad_norm": 3.2941579818725586,
+      "learning_rate": 0.0001493508218064347,
+      "loss": 0.2418,
+      "step": 57
+    },
+    {
+      "epoch": 0.7459807073954984,
+      "grad_norm": 1.6658802032470703,
+      "learning_rate": 0.00014738686624729986,
+      "loss": 0.1043,
+      "step": 58
+    },
+    {
+      "epoch": 0.7588424437299035,
+      "grad_norm": 1.3932058811187744,
+      "learning_rate": 0.00014539904997395468,
+      "loss": 0.1313,
+      "step": 59
+    },
+    {
+      "epoch": 0.7717041800643086,
+      "grad_norm": 1.2983319759368896,
+      "learning_rate": 0.00014338837391175582,
+      "loss": 0.106,
+      "step": 60
+    },
+    {
+      "epoch": 0.7717041800643086,
+      "eval_loss": 0.11406784504652023,
+      "eval_runtime": 6.9963,
+      "eval_samples_per_second": 23.441,
+      "eval_steps_per_second": 2.43,
+      "step": 60
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.446291621543936e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null