Training in progress, step 2000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f297721cb03be26e6092587489bee99025182be771eea6e05f77edb6bd34f03
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:09e9299c4a411196fea3d5279894585e8d1a7575c08eb1779c5008bb7e4a49b7
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6081c2cece2bea94b0bdedc301e6d7a3c34eef0aaba0899c0043359233ba4468
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c444730bd04d34d146261d2e799975f1275e5903aace9e152e7e5c01154c912
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b49390de6348da607ac8b8e7ddf69e26d2c764b165fb5c92780c29f0de564e6c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e3c7e8305d45d254f0365c29c304654706064d85b369eee2a35f47f258c35c43
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:78e83e408c816bc1f16e9a76bc9d7e37229ddececd6ea07286eb16c742dca118
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e7450dae308a1f566442c67e6e8e15b97c271edd460f95249b85ad7cccbd395
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.02196604324290188,
   "eval_steps": 500,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -186,11 +186,189 @@
       "eval_steps_per_second": 18.865,
       "num_input_tokens_seen": 1048576000,
       "step": 1000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 1048576000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -205,7 +383,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.97171715964928e+17,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.04393208648580376,
   "eval_steps": 500,
+  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.865,
       "num_input_tokens_seen": 1048576000,
       "step": 1000
+    },
+    {
+      "epoch": 0.02306434540504697,
+      "grad_norm": 0.6067565083503723,
+      "learning_rate": 0.00021,
+      "loss": 4.5355,
+      "num_input_tokens_seen": 1101004800,
+      "step": 1050
+    },
+    {
+      "epoch": 0.024162647567192067,
+      "grad_norm": 0.6668316721916199,
+      "learning_rate": 0.00022,
+      "loss": 4.4383,
+      "num_input_tokens_seen": 1153433600,
+      "step": 1100
+    },
+    {
+      "epoch": 0.02526094972933716,
+      "grad_norm": 0.3714616000652313,
+      "learning_rate": 0.00023,
+      "loss": 4.3538,
+      "num_input_tokens_seen": 1205862400,
+      "step": 1150
+    },
+    {
+      "epoch": 0.026359251891482256,
+      "grad_norm": 0.439012348651886,
+      "learning_rate": 0.00024,
+      "loss": 4.2848,
+      "num_input_tokens_seen": 1258291200,
+      "step": 1200
+    },
+    {
+      "epoch": 0.027457554053627348,
+      "grad_norm": 0.5026286840438843,
+      "learning_rate": 0.00025,
+      "loss": 4.2181,
+      "num_input_tokens_seen": 1310720000,
+      "step": 1250
+    },
+    {
+      "epoch": 0.028555856215772443,
+      "grad_norm": 0.4865541160106659,
+      "learning_rate": 0.00026000000000000003,
+      "loss": 4.1495,
+      "num_input_tokens_seen": 1363148800,
+      "step": 1300
+    },
+    {
+      "epoch": 0.029654158377917537,
+      "grad_norm": 0.5259677767753601,
+      "learning_rate": 0.00027,
+      "loss": 4.0873,
+      "num_input_tokens_seen": 1415577600,
+      "step": 1350
+    },
+    {
+      "epoch": 0.030752460540062632,
+      "grad_norm": 0.4151704013347626,
+      "learning_rate": 0.00028000000000000003,
+      "loss": 4.0369,
+      "num_input_tokens_seen": 1468006400,
+      "step": 1400
+    },
+    {
+      "epoch": 0.03185076270220773,
+      "grad_norm": 0.5806245803833008,
+      "learning_rate": 0.00029,
+      "loss": 3.9881,
+      "num_input_tokens_seen": 1520435200,
+      "step": 1450
+    },
+    {
+      "epoch": 0.03294906486435282,
+      "grad_norm": 0.46140730381011963,
+      "learning_rate": 0.0003,
+      "loss": 3.9311,
+      "num_input_tokens_seen": 1572864000,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03294906486435282,
+      "eval_loss": 3.8112432956695557,
+      "eval_runtime": 65.8947,
+      "eval_samples_per_second": 75.879,
+      "eval_steps_per_second": 18.97,
+      "num_input_tokens_seen": 1572864000,
+      "step": 1500
+    },
+    {
+      "epoch": 0.03404736702649791,
+      "grad_norm": 0.4219188392162323,
+      "learning_rate": 0.00031,
+      "loss": 3.8972,
+      "num_input_tokens_seen": 1625292800,
+      "step": 1550
+    },
+    {
+      "epoch": 0.03514566918864301,
+      "grad_norm": 0.3506027162075043,
+      "learning_rate": 0.00032,
+      "loss": 3.8596,
+      "num_input_tokens_seen": 1677721600,
+      "step": 1600
+    },
+    {
+      "epoch": 0.0362439713507881,
+      "grad_norm": 0.5210819840431213,
+      "learning_rate": 0.00033,
+      "loss": 3.8182,
+      "num_input_tokens_seen": 1730150400,
+      "step": 1650
+    },
+    {
+      "epoch": 0.03734227351293319,
+      "grad_norm": 0.5830159783363342,
+      "learning_rate": 0.00034,
+      "loss": 3.7766,
+      "num_input_tokens_seen": 1782579200,
+      "step": 1700
+    },
+    {
+      "epoch": 0.03844057567507829,
+      "grad_norm": 0.4602348804473877,
+      "learning_rate": 0.00035,
+      "loss": 3.7362,
+      "num_input_tokens_seen": 1835008000,
+      "step": 1750
+    },
+    {
+      "epoch": 0.03953887783722338,
+      "grad_norm": 0.40075036883354187,
+      "learning_rate": 0.00035999999999999997,
+      "loss": 3.7136,
+      "num_input_tokens_seen": 1887436800,
+      "step": 1800
+    },
+    {
+      "epoch": 0.04063717999936848,
+      "grad_norm": 0.3893415629863739,
+      "learning_rate": 0.00037,
+      "loss": 3.6809,
+      "num_input_tokens_seen": 1939865600,
+      "step": 1850
+    },
+    {
+      "epoch": 0.04173548216151357,
+      "grad_norm": 0.2921469211578369,
+      "learning_rate": 0.00038,
+      "loss": 3.6565,
+      "num_input_tokens_seen": 1992294400,
+      "step": 1900
+    },
+    {
+      "epoch": 0.04283378432365866,
+      "grad_norm": 0.49007460474967957,
+      "learning_rate": 0.00039000000000000005,
+      "loss": 3.6215,
+      "num_input_tokens_seen": 2044723200,
+      "step": 1950
+    },
+    {
+      "epoch": 0.04393208648580376,
+      "grad_norm": 0.2980474531650543,
+      "learning_rate": 0.0004,
+      "loss": 3.591,
+      "num_input_tokens_seen": 2097152000,
+      "step": 2000
+    },
+    {
+      "epoch": 0.04393208648580376,
+      "eval_loss": 3.4769670963287354,
+      "eval_runtime": 62.8853,
+      "eval_samples_per_second": 79.51,
+      "eval_steps_per_second": 19.877,
+      "num_input_tokens_seen": 2097152000,
+      "step": 2000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 2097152000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.194343431929856e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null