Training in progress, step 400, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +47 -3

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:75814a6362e4e11dac5581c59e464280e239c90816a945cbdb7784b7f4a2870f
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:f6ff65fdaabdbf317ebeba7a949d5d0a4c4d92e83844319c0d7fe8a36188ae52
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12dadb820ceeb4e269d17b6aa6f86327c5aa969f69dfcd327a64bc9dac04190b
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:75a8866762d9e391b12fc72c391a88203f43a851b8cb313ef7dad4f518fa97c7
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df0e1ea16260f45887d2c677c0ae8e31c8c4d2255fab7d191fcc44bc34c71122
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bdc3634cc2773d067b17c976dcd11b7c7df5940a7571bbb00f5d7df4c638644
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22cfae872a9afec0b59d053ac9909bee382518e88fa4a402a4f4847d1eb58185
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:f015982ff6bce7542e828f15d4eeef9584a889686885e52763409fdc683cfcdd
 size 1168138808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d446451777d9865628bc2749fb0484e3d91216d8ea6282c691d65006008a8f8
 size 16311821444

 version https://git-lfs.github.com/spec/v1
+oid sha256:65e0c53a4e65a879c4f5b6bbea3d323377988982d8d0b1157cdadf6ac17d04c3
 size 16311821444

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:857e5bd047d58fafc1913aa9f90fe3c9025187bb963b8cad4a7d0e2e10d025a2
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:90b33c83dc0410b94f46921f5ce291ef34ed50ec198c7840b5fe049891543c68
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ee99799f89d8494b24d4cce06afa38d806c0f10acfc9b783e494c77f6ea5559
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.09311950336264874,
   "eval_steps": 20,
-  "global_step": 360,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -411,6 +411,50 @@
       "eval_samples_per_second": 9.247,
       "eval_steps_per_second": 4.623,
       "step": 360
     }
   ],
   "logging_steps": 10,
@@ -430,7 +474,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.639877034606592e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.10346611484738748,
   "eval_steps": 20,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.247,
       "eval_steps_per_second": 4.623,
       "step": 360
+    },
+    {
+      "epoch": 0.09570615623383343,
+      "grad_norm": 15.3125,
+      "learning_rate": 0.0001947944062577507,
+      "loss": 3.3218,
+      "step": 370
+    },
+    {
+      "epoch": 0.0982928091050181,
+      "grad_norm": 10.75,
+      "learning_rate": 0.00019436490477135878,
+      "loss": 2.914,
+      "step": 380
+    },
+    {
+      "epoch": 0.0982928091050181,
+      "eval_loss": 3.1102402210235596,
+      "eval_runtime": 113.9573,
+      "eval_samples_per_second": 7.547,
+      "eval_steps_per_second": 3.773,
+      "step": 380
+    },
+    {
+      "epoch": 0.10087946197620279,
+      "grad_norm": 18.625,
+      "learning_rate": 0.00019391889215899299,
+      "loss": 3.2308,
+      "step": 390
+    },
+    {
+      "epoch": 0.10346611484738748,
+      "grad_norm": 13.9375,
+      "learning_rate": 0.0001934564464599461,
+      "loss": 2.8181,
+      "step": 400
+    },
+    {
+      "epoch": 0.10346611484738748,
+      "eval_loss": 3.4344868659973145,
+      "eval_runtime": 100.2818,
+      "eval_samples_per_second": 8.576,
+      "eval_steps_per_second": 4.288,
+      "step": 400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 7.37764114956288e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null