Training in progress, step 12000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25851b0b62512a3b653e1b28e1122d3212578c5e77ebf5b79e658ffec9b3b79f
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:5b83de3716293416e17f57907b1e6034054cf0cb82c7485e524b4d7d1450783b
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df743e5d843f3a7837833bec4e1caf6ae5d4bce7ba980e12a541afbc37b034f0
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:a64cb29e942a69a8dc03ff6ac3a4e293f03dde8909732e3b914b2a3bf04f6716
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25b1915a16f6a9d0eca7bf59f4a66ab58a1d3558fffae49f30b6000a597cffb1
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9e88c68399442716e4a372c4039d5dcf90ac56e28a588e1c0ea57e0e690737de
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:811fd3ba19eb7a55c539858dcaf05c190bd36b9252f7748cbb128712f2400a11
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8af59fb9ac4de4ac193b8a4959e006fc89e2686baafa42f4be575214da0ad2e3
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.24162647567192067,
   "eval_steps": 500,
-  "global_step": 11000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1966,11 +1966,189 @@
       "eval_steps_per_second": 19.037,
       "num_input_tokens_seen": 11534336000,
       "step": 11000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 11534336000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -1985,7 +2163,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.568888875614208e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.26359251891482255,
   "eval_steps": 500,
+  "global_step": 12000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.037,
       "num_input_tokens_seen": 11534336000,
       "step": 11000
+    },
+    {
+      "epoch": 0.24272477783406576,
+      "grad_norm": 0.1190350204706192,
+      "learning_rate": 0.001,
+      "loss": 2.7994,
+      "num_input_tokens_seen": 11586764800,
+      "step": 11050
+    },
+    {
+      "epoch": 0.24382307999621086,
+      "grad_norm": 0.12825961410999298,
+      "learning_rate": 0.001,
+      "loss": 2.7992,
+      "num_input_tokens_seen": 11639193600,
+      "step": 11100
+    },
+    {
+      "epoch": 0.24492138215835596,
+      "grad_norm": 0.12561525404453278,
+      "learning_rate": 0.001,
+      "loss": 2.8009,
+      "num_input_tokens_seen": 11691622400,
+      "step": 11150
+    },
+    {
+      "epoch": 0.24601968432050106,
+      "grad_norm": 0.12596049904823303,
+      "learning_rate": 0.001,
+      "loss": 2.8002,
+      "num_input_tokens_seen": 11744051200,
+      "step": 11200
+    },
+    {
+      "epoch": 0.24711798648264613,
+      "grad_norm": 0.1415141373872757,
+      "learning_rate": 0.001,
+      "loss": 2.8004,
+      "num_input_tokens_seen": 11796480000,
+      "step": 11250
+    },
+    {
+      "epoch": 0.24821628864479123,
+      "grad_norm": 0.1359766125679016,
+      "learning_rate": 0.001,
+      "loss": 2.7988,
+      "num_input_tokens_seen": 11848908800,
+      "step": 11300
+    },
+    {
+      "epoch": 0.24931459080693633,
+      "grad_norm": 0.13459013402462006,
+      "learning_rate": 0.001,
+      "loss": 2.7991,
+      "num_input_tokens_seen": 11901337600,
+      "step": 11350
+    },
+    {
+      "epoch": 0.2504128929690814,
+      "grad_norm": 0.1344253420829773,
+      "learning_rate": 0.001,
+      "loss": 2.805,
+      "num_input_tokens_seen": 11953766400,
+      "step": 11400
+    },
+    {
+      "epoch": 0.2515111951312265,
+      "grad_norm": 0.13629016280174255,
+      "learning_rate": 0.001,
+      "loss": 2.7954,
+      "num_input_tokens_seen": 12006195200,
+      "step": 11450
+    },
+    {
+      "epoch": 0.2526094972933716,
+      "grad_norm": 0.12940892577171326,
+      "learning_rate": 0.001,
+      "loss": 2.8009,
+      "num_input_tokens_seen": 12058624000,
+      "step": 11500
+    },
+    {
+      "epoch": 0.2526094972933716,
+      "eval_loss": 2.7012581825256348,
+      "eval_runtime": 65.7039,
+      "eval_samples_per_second": 76.099,
+      "eval_steps_per_second": 19.025,
+      "num_input_tokens_seen": 12058624000,
+      "step": 11500
+    },
+    {
+      "epoch": 0.2537077994555167,
+      "grad_norm": 0.15021966397762299,
+      "learning_rate": 0.001,
+      "loss": 2.7963,
+      "num_input_tokens_seen": 12111052800,
+      "step": 11550
+    },
+    {
+      "epoch": 0.2548061016176618,
+      "grad_norm": 0.12381847202777863,
+      "learning_rate": 0.001,
+      "loss": 2.7954,
+      "num_input_tokens_seen": 12163481600,
+      "step": 11600
+    },
+    {
+      "epoch": 0.2559044037798069,
+      "grad_norm": 0.14849607646465302,
+      "learning_rate": 0.001,
+      "loss": 2.7837,
+      "num_input_tokens_seen": 12215910400,
+      "step": 11650
+    },
+    {
+      "epoch": 0.25700270594195196,
+      "grad_norm": 0.1286240816116333,
+      "learning_rate": 0.001,
+      "loss": 2.7999,
+      "num_input_tokens_seen": 12268339200,
+      "step": 11700
+    },
+    {
+      "epoch": 0.2581010081040971,
+      "grad_norm": 0.11861539632081985,
+      "learning_rate": 0.001,
+      "loss": 2.7979,
+      "num_input_tokens_seen": 12320768000,
+      "step": 11750
+    },
+    {
+      "epoch": 0.25919931026624216,
+      "grad_norm": 0.11512617021799088,
+      "learning_rate": 0.001,
+      "loss": 2.7926,
+      "num_input_tokens_seen": 12373196800,
+      "step": 11800
+    },
+    {
+      "epoch": 0.2602976124283873,
+      "grad_norm": 0.13469178974628448,
+      "learning_rate": 0.001,
+      "loss": 2.7881,
+      "num_input_tokens_seen": 12425625600,
+      "step": 11850
+    },
+    {
+      "epoch": 0.26139591459053235,
+      "grad_norm": 0.15504290163516998,
+      "learning_rate": 0.001,
+      "loss": 2.7917,
+      "num_input_tokens_seen": 12478054400,
+      "step": 11900
+    },
+    {
+      "epoch": 0.2624942167526775,
+      "grad_norm": 0.1363905370235443,
+      "learning_rate": 0.001,
+      "loss": 2.7869,
+      "num_input_tokens_seen": 12530483200,
+      "step": 11950
+    },
+    {
+      "epoch": 0.26359251891482255,
+      "grad_norm": 0.11095720529556274,
+      "learning_rate": 0.001,
+      "loss": 2.7883,
+      "num_input_tokens_seen": 12582912000,
+      "step": 12000
+    },
+    {
+      "epoch": 0.26359251891482255,
+      "eval_loss": 2.6911227703094482,
+      "eval_runtime": 65.4928,
+      "eval_samples_per_second": 76.344,
+      "eval_steps_per_second": 19.086,
+      "num_input_tokens_seen": 12582912000,
+      "step": 12000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 12582912000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 7.166060591579136e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null