Training in progress, step 13000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5b83de3716293416e17f57907b1e6034054cf0cb82c7485e524b4d7d1450783b
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b7373ac11401636769557d7c41bd131eaa1ff29f1ac0bd8ece04d73a85d45b3
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a64cb29e942a69a8dc03ff6ac3a4e293f03dde8909732e3b914b2a3bf04f6716
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:600ff1a38a47f869ae5492791562a9ea82c55e0368079b5f56587277995a7652
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e88c68399442716e4a372c4039d5dcf90ac56e28a588e1c0ea57e0e690737de
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa45bf7feccf57a31c0d1db361074f3cc8988037f2a20ad89dd89a197a5582fe
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8af59fb9ac4de4ac193b8a4959e006fc89e2686baafa42f4be575214da0ad2e3
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:314b286b574cdec8b8035ea2a5d06f7aaf8f954a409646e55b7a4304b27476aa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.26359251891482255,
   "eval_steps": 500,
-  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2144,11 +2144,189 @@
       "eval_steps_per_second": 19.086,
       "num_input_tokens_seen": 12582912000,
       "step": 12000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 12582912000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -2163,7 +2341,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.166060591579136e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2855585621577244,
   "eval_steps": 500,
+  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.086,
       "num_input_tokens_seen": 12582912000,
       "step": 12000
+    },
+    {
+      "epoch": 0.2646908210769676,
+      "grad_norm": 0.1443321257829666,
+      "learning_rate": 0.001,
+      "loss": 2.7866,
+      "num_input_tokens_seen": 12635340800,
+      "step": 12050
+    },
+    {
+      "epoch": 0.26578912323911275,
+      "grad_norm": 0.12249191850423813,
+      "learning_rate": 0.001,
+      "loss": 2.8,
+      "num_input_tokens_seen": 12687769600,
+      "step": 12100
+    },
+    {
+      "epoch": 0.2668874254012578,
+      "grad_norm": 0.1505623608827591,
+      "learning_rate": 0.001,
+      "loss": 2.7934,
+      "num_input_tokens_seen": 12740198400,
+      "step": 12150
+    },
+    {
+      "epoch": 0.26798572756340294,
+      "grad_norm": 0.17367833852767944,
+      "learning_rate": 0.001,
+      "loss": 2.7905,
+      "num_input_tokens_seen": 12792627200,
+      "step": 12200
+    },
+    {
+      "epoch": 0.269084029725548,
+      "grad_norm": 0.12189670652151108,
+      "learning_rate": 0.001,
+      "loss": 2.7878,
+      "num_input_tokens_seen": 12845056000,
+      "step": 12250
+    },
+    {
+      "epoch": 0.27018233188769314,
+      "grad_norm": 0.12834201753139496,
+      "learning_rate": 0.001,
+      "loss": 2.7822,
+      "num_input_tokens_seen": 12897484800,
+      "step": 12300
+    },
+    {
+      "epoch": 0.2712806340498382,
+      "grad_norm": 0.1277332305908203,
+      "learning_rate": 0.001,
+      "loss": 2.7846,
+      "num_input_tokens_seen": 12949913600,
+      "step": 12350
+    },
+    {
+      "epoch": 0.2723789362119833,
+      "grad_norm": 0.14190761744976044,
+      "learning_rate": 0.001,
+      "loss": 2.7845,
+      "num_input_tokens_seen": 13002342400,
+      "step": 12400
+    },
+    {
+      "epoch": 0.2734772383741284,
+      "grad_norm": 0.14843693375587463,
+      "learning_rate": 0.001,
+      "loss": 2.7847,
+      "num_input_tokens_seen": 13054771200,
+      "step": 12450
+    },
+    {
+      "epoch": 0.2745755405362735,
+      "grad_norm": 0.14427120983600616,
+      "learning_rate": 0.001,
+      "loss": 2.78,
+      "num_input_tokens_seen": 13107200000,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2745755405362735,
+      "eval_loss": 2.6847124099731445,
+      "eval_runtime": 65.0448,
+      "eval_samples_per_second": 76.87,
+      "eval_steps_per_second": 19.218,
+      "num_input_tokens_seen": 13107200000,
+      "step": 12500
+    },
+    {
+      "epoch": 0.2756738426984186,
+      "grad_norm": 0.14408434927463531,
+      "learning_rate": 0.001,
+      "loss": 2.7794,
+      "num_input_tokens_seen": 13159628800,
+      "step": 12550
+    },
+    {
+      "epoch": 0.2767721448605637,
+      "grad_norm": 0.1557396501302719,
+      "learning_rate": 0.001,
+      "loss": 2.7754,
+      "num_input_tokens_seen": 13212057600,
+      "step": 12600
+    },
+    {
+      "epoch": 0.27787044702270874,
+      "grad_norm": 0.11494632810354233,
+      "learning_rate": 0.001,
+      "loss": 2.7839,
+      "num_input_tokens_seen": 13264486400,
+      "step": 12650
+    },
+    {
+      "epoch": 0.27896874918485387,
+      "grad_norm": 0.12402207404375076,
+      "learning_rate": 0.001,
+      "loss": 2.7773,
+      "num_input_tokens_seen": 13316915200,
+      "step": 12700
+    },
+    {
+      "epoch": 0.28006705134699894,
+      "grad_norm": 0.1308801770210266,
+      "learning_rate": 0.001,
+      "loss": 2.7864,
+      "num_input_tokens_seen": 13369344000,
+      "step": 12750
+    },
+    {
+      "epoch": 0.28116535350914407,
+      "grad_norm": 0.13596223294734955,
+      "learning_rate": 0.001,
+      "loss": 2.7763,
+      "num_input_tokens_seen": 13421772800,
+      "step": 12800
+    },
+    {
+      "epoch": 0.28226365567128914,
+      "grad_norm": 0.13256165385246277,
+      "learning_rate": 0.001,
+      "loss": 2.7762,
+      "num_input_tokens_seen": 13474201600,
+      "step": 12850
+    },
+    {
+      "epoch": 0.28336195783343426,
+      "grad_norm": 0.12955094873905182,
+      "learning_rate": 0.001,
+      "loss": 2.7823,
+      "num_input_tokens_seen": 13526630400,
+      "step": 12900
+    },
+    {
+      "epoch": 0.28446025999557933,
+      "grad_norm": 0.13506431877613068,
+      "learning_rate": 0.001,
+      "loss": 2.774,
+      "num_input_tokens_seen": 13579059200,
+      "step": 12950
+    },
+    {
+      "epoch": 0.2855585621577244,
+      "grad_norm": 0.14323291182518005,
+      "learning_rate": 0.001,
+      "loss": 2.7755,
+      "num_input_tokens_seen": 13631488000,
+      "step": 13000
+    },
+    {
+      "epoch": 0.2855585621577244,
+      "eval_loss": 2.6779518127441406,
+      "eval_runtime": 66.0334,
+      "eval_samples_per_second": 75.719,
+      "eval_steps_per_second": 18.93,
+      "num_input_tokens_seen": 13631488000,
+      "step": 13000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 13631488000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 7.763232307544064e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null