Training in progress, step 3000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09e9299c4a411196fea3d5279894585e8d1a7575c08eb1779c5008bb7e4a49b7
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:f81f1606cbb4066658322a9b01b024ebe1fe01d7f9c79d6a2b4af556fe6aa975
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c444730bd04d34d146261d2e799975f1275e5903aace9e152e7e5c01154c912
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2bdc54e623a858f4b04c457346b0f903dc827e2ac006197959be017f0bd1f45
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3c7e8305d45d254f0365c29c304654706064d85b369eee2a35f47f258c35c43
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:11ff07d587c5a9307740887f980afedff8f43c8da2bd4cbf45f5f3cf546cf38d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e7450dae308a1f566442c67e6e8e15b97c271edd460f95249b85ad7cccbd395
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3a3d374142fb5a9a375b1a828a38137498daacdc810ac93109a9de1e8639e3a1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.04393208648580376,
   "eval_steps": 500,
-  "global_step": 2000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -364,11 +364,189 @@
       "eval_steps_per_second": 19.877,
       "num_input_tokens_seen": 2097152000,
       "step": 2000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 2097152000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -383,7 +561,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.194343431929856e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.06589812972870564,
   "eval_steps": 500,
+  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 19.877,
       "num_input_tokens_seen": 2097152000,
       "step": 2000
+    },
+    {
+      "epoch": 0.04503038864794885,
+      "grad_norm": 0.33002936840057373,
+      "learning_rate": 0.00041,
+      "loss": 3.5684,
+      "num_input_tokens_seen": 2149580800,
+      "step": 2050
+    },
+    {
+      "epoch": 0.04612869081009394,
+      "grad_norm": 0.43806758522987366,
+      "learning_rate": 0.00042,
+      "loss": 3.5436,
+      "num_input_tokens_seen": 2202009600,
+      "step": 2100
+    },
+    {
+      "epoch": 0.04722699297223904,
+      "grad_norm": 0.32842758297920227,
+      "learning_rate": 0.00043,
+      "loss": 3.5191,
+      "num_input_tokens_seen": 2254438400,
+      "step": 2150
+    },
+    {
+      "epoch": 0.04832529513438413,
+      "grad_norm": 0.3068505525588989,
+      "learning_rate": 0.00044,
+      "loss": 3.5009,
+      "num_input_tokens_seen": 2306867200,
+      "step": 2200
+    },
+    {
+      "epoch": 0.049423597296529224,
+      "grad_norm": 0.2950410544872284,
+      "learning_rate": 0.00045000000000000004,
+      "loss": 3.4796,
+      "num_input_tokens_seen": 2359296000,
+      "step": 2250
+    },
+    {
+      "epoch": 0.05052189945867432,
+      "grad_norm": 0.29731425642967224,
+      "learning_rate": 0.00046,
+      "loss": 3.4583,
+      "num_input_tokens_seen": 2411724800,
+      "step": 2300
+    },
+    {
+      "epoch": 0.051620201620819414,
+      "grad_norm": 0.2702693045139313,
+      "learning_rate": 0.00047,
+      "loss": 3.4385,
+      "num_input_tokens_seen": 2464153600,
+      "step": 2350
+    },
+    {
+      "epoch": 0.05271850378296451,
+      "grad_norm": 0.2418452948331833,
+      "learning_rate": 0.00048,
+      "loss": 3.4244,
+      "num_input_tokens_seen": 2516582400,
+      "step": 2400
+    },
+    {
+      "epoch": 0.053816805945109604,
+      "grad_norm": 0.28668686747550964,
+      "learning_rate": 0.00049,
+      "loss": 3.3977,
+      "num_input_tokens_seen": 2569011200,
+      "step": 2450
+    },
+    {
+      "epoch": 0.054915108107254695,
+      "grad_norm": 0.3115544319152832,
+      "learning_rate": 0.0005,
+      "loss": 3.3881,
+      "num_input_tokens_seen": 2621440000,
+      "step": 2500
+    },
+    {
+      "epoch": 0.054915108107254695,
+      "eval_loss": 3.2789928913116455,
+      "eval_runtime": 62.6749,
+      "eval_samples_per_second": 79.777,
+      "eval_steps_per_second": 19.944,
+      "num_input_tokens_seen": 2621440000,
+      "step": 2500
+    },
+    {
+      "epoch": 0.056013410269399794,
+      "grad_norm": 0.32340022921562195,
+      "learning_rate": 0.00051,
+      "loss": 3.3667,
+      "num_input_tokens_seen": 2673868800,
+      "step": 2550
+    },
+    {
+      "epoch": 0.057111712431544885,
+      "grad_norm": 0.2612442970275879,
+      "learning_rate": 0.0005200000000000001,
+      "loss": 3.3612,
+      "num_input_tokens_seen": 2726297600,
+      "step": 2600
+    },
+    {
+      "epoch": 0.05821001459368998,
+      "grad_norm": 0.29934820532798767,
+      "learning_rate": 0.0005300000000000001,
+      "loss": 3.3386,
+      "num_input_tokens_seen": 2778726400,
+      "step": 2650
+    },
+    {
+      "epoch": 0.059308316755835075,
+      "grad_norm": 0.2737022042274475,
+      "learning_rate": 0.00054,
+      "loss": 3.3274,
+      "num_input_tokens_seen": 2831155200,
+      "step": 2700
+    },
+    {
+      "epoch": 0.060406618917980166,
+      "grad_norm": 0.2101408988237381,
+      "learning_rate": 0.00055,
+      "loss": 3.3153,
+      "num_input_tokens_seen": 2883584000,
+      "step": 2750
+    },
+    {
+      "epoch": 0.061504921080125265,
+      "grad_norm": 0.3240911066532135,
+      "learning_rate": 0.0005600000000000001,
+      "loss": 3.2978,
+      "num_input_tokens_seen": 2936012800,
+      "step": 2800
+    },
+    {
+      "epoch": 0.06260322324227036,
+      "grad_norm": 0.20592735707759857,
+      "learning_rate": 0.00057,
+      "loss": 3.2984,
+      "num_input_tokens_seen": 2988441600,
+      "step": 2850
+    },
+    {
+      "epoch": 0.06370152540441545,
+      "grad_norm": 0.263443261384964,
+      "learning_rate": 0.00058,
+      "loss": 3.2706,
+      "num_input_tokens_seen": 3040870400,
+      "step": 2900
+    },
+    {
+      "epoch": 0.06479982756656054,
+      "grad_norm": 0.24249990284442902,
+      "learning_rate": 0.00059,
+      "loss": 3.2673,
+      "num_input_tokens_seen": 3093299200,
+      "step": 2950
+    },
+    {
+      "epoch": 0.06589812972870564,
+      "grad_norm": 0.25961214303970337,
+      "learning_rate": 0.0006,
+      "loss": 3.2512,
+      "num_input_tokens_seen": 3145728000,
+      "step": 3000
+    },
+    {
+      "epoch": 0.06589812972870564,
+      "eval_loss": 3.150442600250244,
+      "eval_runtime": 65.9549,
+      "eval_samples_per_second": 75.809,
+      "eval_steps_per_second": 18.952,
+      "num_input_tokens_seen": 3145728000,
+      "step": 3000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 3145728000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.791515147894784e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null