Training in progress, step 4200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c703da2264e055a297790ac7d288cc98953e35f33bdc95a5685265382fb890e
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:880fd56a3f8de1ea8da94daf1c2a4ae51100a00332912dd6360718788d991f3e
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3222e360dfa7b35a1163b70615c3f1dede1049c9c6a85199690290550db33722
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b0f4a093ed328add3e959161df7d638c8c11def0b0aa41283d1549f7fc07bb9
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12c3bba0118a53d6f1dc342017f2ea922f8815570aacf4ca8fc91241ca3c4a16
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e8fde804448728c0f3c5740097a588b9bc938edec8f5ff4ab3791e696a0e04dd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63e5c116adbf0f8029c8a52c2390c4234cb418c18a9d2241c9b1d212add8b091
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:65b74f49a3daa98af42d6e544ec1a2f4a5627b7dc9aa14dada3f91ea7451360b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 176.08695652173913,
   "eval_steps": 150,
-  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3922,6 +3922,151 @@
       "EMA_steps_per_second": 25.545,
       "epoch": 176.08695652173913,
       "step": 4050
     }
   ],
   "logging_steps": 10,
@@ -3941,7 +4086,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0440404596622131e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 182.6086956521739,
   "eval_steps": 150,
+  "global_step": 4200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 25.545,
       "epoch": 176.08695652173913,
       "step": 4050
+    },
+    {
+      "epoch": 176.52173913043478,
+      "grad_norm": 3.616029977798462,
+      "learning_rate": 2.525382632276528e-06,
+      "loss": 0.2307,
+      "step": 4060
+    },
+    {
+      "epoch": 176.95652173913044,
+      "grad_norm": 2.267972946166992,
+      "learning_rate": 2.5253568548882678e-06,
+      "loss": 0.2305,
+      "step": 4070
+    },
+    {
+      "epoch": 177.3913043478261,
+      "grad_norm": 2.406853437423706,
+      "learning_rate": 2.5253305771487484e-06,
+      "loss": 0.2039,
+      "step": 4080
+    },
+    {
+      "epoch": 177.82608695652175,
+      "grad_norm": 3.070425033569336,
+      "learning_rate": 2.5253037990683853e-06,
+      "loss": 0.225,
+      "step": 4090
+    },
+    {
+      "epoch": 178.2608695652174,
+      "grad_norm": 1.9626798629760742,
+      "learning_rate": 2.525276520657793e-06,
+      "loss": 0.2597,
+      "step": 4100
+    },
+    {
+      "epoch": 178.69565217391303,
+      "grad_norm": 2.3126184940338135,
+      "learning_rate": 2.525248741927783e-06,
+      "loss": 0.2189,
+      "step": 4110
+    },
+    {
+      "epoch": 179.1304347826087,
+      "grad_norm": 1.8034698963165283,
+      "learning_rate": 2.525220462889366e-06,
+      "loss": 0.2083,
+      "step": 4120
+    },
+    {
+      "epoch": 179.56521739130434,
+      "grad_norm": 1.5343788862228394,
+      "learning_rate": 2.5251916835537516e-06,
+      "loss": 0.2335,
+      "step": 4130
+    },
+    {
+      "epoch": 180.0,
+      "grad_norm": 2.8505375385284424,
+      "learning_rate": 2.525162403932346e-06,
+      "loss": 0.2243,
+      "step": 4140
+    },
+    {
+      "epoch": 180.43478260869566,
+      "grad_norm": 1.8230454921722412,
+      "learning_rate": 2.5251326240367557e-06,
+      "loss": 0.239,
+      "step": 4150
+    },
+    {
+      "epoch": 180.8695652173913,
+      "grad_norm": 2.1887192726135254,
+      "learning_rate": 2.5251023438787834e-06,
+      "loss": 0.2246,
+      "step": 4160
+    },
+    {
+      "epoch": 181.30434782608697,
+      "grad_norm": 1.9359138011932373,
+      "learning_rate": 2.5250715634704324e-06,
+      "loss": 0.2131,
+      "step": 4170
+    },
+    {
+      "epoch": 181.7391304347826,
+      "grad_norm": 1.9063074588775635,
+      "learning_rate": 2.5250402828239028e-06,
+      "loss": 0.2413,
+      "step": 4180
+    },
+    {
+      "epoch": 182.17391304347825,
+      "grad_norm": 1.9552299976348877,
+      "learning_rate": 2.525008501951592e-06,
+      "loss": 0.223,
+      "step": 4190
+    },
+    {
+      "epoch": 182.6086956521739,
+      "grad_norm": 1.7993073463439941,
+      "learning_rate": 2.5249762208660985e-06,
+      "loss": 0.2381,
+      "step": 4200
+    },
+    {
+      "epoch": 182.6086956521739,
+      "eval_loss": 0.978575587272644,
+      "eval_runtime": 0.5175,
+      "eval_samples_per_second": 19.326,
+      "eval_steps_per_second": 19.326,
+      "step": 4200
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.5378,
+      "Start_State_samples_per_second": 18.593,
+      "Start_State_steps_per_second": 18.593,
+      "epoch": 182.6086956521739,
+      "step": 4200
+    },
+    {
+      "Raw_Model_loss": 0.978575587272644,
+      "Raw_Model_runtime": 0.522,
+      "Raw_Model_samples_per_second": 19.156,
+      "Raw_Model_steps_per_second": 19.156,
+      "epoch": 182.6086956521739,
+      "step": 4200
+    },
+    {
+      "SWA_loss": 0.8046241998672485,
+      "SWA_runtime": 0.5454,
+      "SWA_samples_per_second": 18.334,
+      "SWA_steps_per_second": 18.334,
+      "epoch": 182.6086956521739,
+      "step": 4200
+    },
+    {
+      "EMA_loss": 0.8599117398262024,
+      "EMA_runtime": 0.5113,
+      "EMA_samples_per_second": 19.558,
+      "EMA_steps_per_second": 19.558,
+      "epoch": 182.6086956521739,
+      "step": 4200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0822098760143667e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null