Training in progress, step 2000, checkpoint

Browse files

Files changed (8) hide show

checkpoint-2000/model.safetensors +1 -1
checkpoint-2000/optimizer.pt +1 -1
checkpoint-2000/rng_state.pth +1 -1
checkpoint-2000/scaler.pt +3 -0
checkpoint-2000/scheduler.pt +1 -1
checkpoint-2000/tokenizer.json +0 -0
checkpoint-2000/trainer_state.json +36 -51
checkpoint-2000/training_args.bin +1 -1

checkpoint-2000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b09c0d86b97391a0c54f0f7d4571c5e574a4f5de5638911198cb59ac56770d7f
 size 435544704

 version https://git-lfs.github.com/spec/v1
+oid sha256:4165babdf23f54f2113563ca6b7eb12562f41af373f3c054d91efa36212ebc98
 size 435544704

checkpoint-2000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8df9a0a893c5ceb068475b1abb9e0539a8232ccb7b079ef46cfde81c5864ee6
 size 871183627

 version https://git-lfs.github.com/spec/v1
+oid sha256:8ad22bf60c98aa4495600b3c60d436eecd2e53dc5f2c2e63ee1ea2701fc225c9
 size 871183627

checkpoint-2000/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dc205f33bb4203ce5c294ea6b70ba722e90bd45d65655c6d1c39f73f94aabfa
 size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b0bb4c0c1a2fa8d5b77f62a4401eba5933f3439a753e45a0f06dc8b3b8f9508
 size 14709

checkpoint-2000/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4aa03f6e0cd07cf67ce1fbe3101d545f5771ef9148b9debf02b11cf6948da5c
+size 1383

checkpoint-2000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2984b1d47ad6a58b0aa719b640f1cf7dfa19a592c642a7043ebe8d417af93d8a
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdd062b4faf86828cbe9f1fcb29c400fb01075bbdb38048d321a810cbeef8c3a
 size 1465

checkpoint-2000/tokenizer.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-2000/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-  "best_global_step": 1968,
-  "best_metric": 3.473982334136963,
   "best_model_checkpoint": null,
-  "epoch": 4.065040650406504,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": false,
@@ -10,75 +10,60 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0020325203252032522,
-      "grad_norm": 28.81853675842285,
       "learning_rate": 0.0,
-      "loss": 10.3353,
       "step": 1
     },
     {
       "epoch": 1.0,
-      "grad_norm": 1.4544554948806763,
-      "learning_rate": 9.82e-05,
-      "loss": 4.8617,
-      "step": 492
     },
     {
       "epoch": 1.0,
-      "eval_loss": 3.9908180236816406,
-      "eval_runtime": 66.4665,
-      "eval_samples_per_second": 505.006,
-      "eval_steps_per_second": 1.986,
-      "step": 492
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.4267009496688843,
-      "learning_rate": 7.529411764705883e-05,
-      "loss": 3.5249,
-      "step": 984
     },
     {
       "epoch": 2.0,
-      "eval_loss": 3.653867483139038,
-      "eval_runtime": 66.5662,
-      "eval_samples_per_second": 504.25,
-      "eval_steps_per_second": 1.983,
-      "step": 984
     },
     {
       "epoch": 3.0,
-      "grad_norm": 1.5028904676437378,
-      "learning_rate": 5.0127877237851665e-05,
-      "loss": 3.257,
-      "step": 1476
     },
     {
       "epoch": 3.0,
-      "eval_loss": 3.5320048332214355,
-      "eval_runtime": 66.4925,
-      "eval_samples_per_second": 504.809,
-      "eval_steps_per_second": 1.985,
-      "step": 1476
-    },
-    {
-      "epoch": 4.0,
-      "grad_norm": 1.6736714839935303,
-      "learning_rate": 2.4961636828644502e-05,
-      "loss": 3.1208,
-      "step": 1968
-    },
-    {
-      "epoch": 4.0,
-      "eval_loss": 3.473982334136963,
-      "eval_runtime": 66.5329,
-      "eval_samples_per_second": 504.503,
-      "eval_steps_per_second": 1.984,
-      "step": 1968
     }
   ],
-  "logging_steps": 4000,
-  "max_steps": 2460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
@@ -94,7 +79,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.3395212025856e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1506,
+  "best_metric": 3.306654214859009,
   "best_model_checkpoint": null,
+  "epoch": 3.9840637450199203,
   "eval_steps": 500,
   "global_step": 2000,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.00199203187250996,
+      "grad_norm": 30.39765739440918,
       "learning_rate": 0.0,
+      "loss": 10.3969,
       "step": 1
     },
     {
       "epoch": 1.0,
+      "grad_norm": 1.4528049230575562,
+      "learning_rate": 9.995012468827932e-05,
+      "loss": 4.8126,
+      "step": 502
     },
     {
       "epoch": 1.0,
+      "eval_loss": 3.7866852283477783,
+      "eval_runtime": 20.1378,
+      "eval_samples_per_second": 1574.851,
+      "eval_steps_per_second": 6.158,
+      "step": 502
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.2457406520843506,
+      "learning_rate": 7.491271820448879e-05,
+      "loss": 3.5387,
+      "step": 1004
     },
     {
       "epoch": 2.0,
+      "eval_loss": 3.4403388500213623,
+      "eval_runtime": 20.1359,
+      "eval_samples_per_second": 1574.997,
+      "eval_steps_per_second": 6.158,
+      "step": 1004
     },
     {
       "epoch": 3.0,
+      "grad_norm": 1.3165825605392456,
+      "learning_rate": 4.987531172069826e-05,
+      "loss": 3.2924,
+      "step": 1506
     },
     {
       "epoch": 3.0,
+      "eval_loss": 3.306654214859009,
+      "eval_runtime": 20.2048,
+      "eval_samples_per_second": 1569.627,
+      "eval_steps_per_second": 6.137,
+      "step": 1506
     }
   ],
+  "logging_steps": 500,
+  "max_steps": 2510,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 3.3411477454848e+16,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

checkpoint-2000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3290c0b51af746ef3fa5659adc5fa025f21c3647c818c43be3ade238b5ea6a1e
 size 5969

 version https://git-lfs.github.com/spec/v1
+oid sha256:475acc627049b54c7e350da84d703383fb40cabc30b49e78872ae734cfff2130
 size 5969