Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39aa4cbab7de475a35a80d9b0d2693ecf4825d9d96171dccf8c56a8dfe863ab0
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:6332954eced366f37dfa0feeafda882ef0b7137fc497129122aa90280c207e12
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd0048b75921b40f9628393fc371f1ea43397a61336f7fb405b2de81efe82eb9
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c451d16ef10ec74b175dfb29380c22e605ba1df9ea11b88d2ccb1b29333371d
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdbe2638c7caf1c99648b98db61ed244e5ab2b8152ba929e7b299ab487f42773
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:934ae21caf3ad57aad1e085732f92e778c42e733d2e77db72cee584a6cee29f1
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4bb3f2ff6f7e6781542bdfb9729073f4ea2e4dde4572d86a2813e058d1eb3526
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bd00e418debe68a52c354ffbeb17299ae0b053a4079b4b4c3f7c38706aea24d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.21807625889778137,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-500",
-  "epoch": 0.3512469265893923,
   "eval_steps": 100,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -117,6 +117,116 @@
       "eval_samples_per_second": 66.243,
       "eval_steps_per_second": 2.079,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -136,7 +246,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4871663124480000.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.2125701606273651,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-1000",
+  "epoch": 0.7024938531787847,
   "eval_steps": 100,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.243,
       "eval_steps_per_second": 2.079,
       "step": 500
+    },
+    {
+      "epoch": 0.3863716192483316,
+      "grad_norm": 21019.255859375,
+      "learning_rate": 2.7101194659170764e-05,
+      "loss": 0.2286,
+      "step": 550
+    },
+    {
+      "epoch": 0.4214963119072708,
+      "grad_norm": 23071.5703125,
+      "learning_rate": 2.6837666900913563e-05,
+      "loss": 0.2311,
+      "step": 600
+    },
+    {
+      "epoch": 0.4214963119072708,
+      "eval_loss": 0.21645724773406982,
+      "eval_runtime": 67.1857,
+      "eval_samples_per_second": 66.383,
+      "eval_steps_per_second": 2.084,
+      "step": 600
+    },
+    {
+      "epoch": 0.45662100456621,
+      "grad_norm": 21536.572265625,
+      "learning_rate": 2.657413914265636e-05,
+      "loss": 0.2249,
+      "step": 650
+    },
+    {
+      "epoch": 0.49174569722514927,
+      "grad_norm": 22037.119140625,
+      "learning_rate": 2.631061138439916e-05,
+      "loss": 0.2302,
+      "step": 700
+    },
+    {
+      "epoch": 0.49174569722514927,
+      "eval_loss": 0.21522314846515656,
+      "eval_runtime": 67.377,
+      "eval_samples_per_second": 66.195,
+      "eval_steps_per_second": 2.078,
+      "step": 700
+    },
+    {
+      "epoch": 0.5268703898840885,
+      "grad_norm": 24826.04296875,
+      "learning_rate": 2.6047083626141954e-05,
+      "loss": 0.2295,
+      "step": 750
+    },
+    {
+      "epoch": 0.5619950825430278,
+      "grad_norm": 21309.46875,
+      "learning_rate": 2.578355586788475e-05,
+      "loss": 0.2265,
+      "step": 800
+    },
+    {
+      "epoch": 0.5619950825430278,
+      "eval_loss": 0.21485908329486847,
+      "eval_runtime": 67.9456,
+      "eval_samples_per_second": 65.641,
+      "eval_steps_per_second": 2.06,
+      "step": 800
+    },
+    {
+      "epoch": 0.597119775201967,
+      "grad_norm": 21253.212890625,
+      "learning_rate": 2.5520028109627547e-05,
+      "loss": 0.2255,
+      "step": 850
+    },
+    {
+      "epoch": 0.6322444678609063,
+      "grad_norm": 25884.013671875,
+      "learning_rate": 2.5256500351370345e-05,
+      "loss": 0.2189,
+      "step": 900
+    },
+    {
+      "epoch": 0.6322444678609063,
+      "eval_loss": 0.21369116008281708,
+      "eval_runtime": 67.5126,
+      "eval_samples_per_second": 66.062,
+      "eval_steps_per_second": 2.074,
+      "step": 900
+    },
+    {
+      "epoch": 0.6673691605198454,
+      "grad_norm": 32345.33203125,
+      "learning_rate": 2.4992972593113144e-05,
+      "loss": 0.2177,
+      "step": 950
+    },
+    {
+      "epoch": 0.7024938531787847,
+      "grad_norm": 22764.255859375,
+      "learning_rate": 2.472944483485594e-05,
+      "loss": 0.2205,
+      "step": 1000
+    },
+    {
+      "epoch": 0.7024938531787847,
+      "eval_loss": 0.2125701606273651,
+      "eval_runtime": 67.5281,
+      "eval_samples_per_second": 66.047,
+      "eval_steps_per_second": 2.073,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 9743326248960000.0,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null