Training in progress, step 3125, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +124 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1ddd49b9fa83b41042972589b0185429c9038b2514af8abc9c0ad4f6f229c6c8
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:31e65c9ff039c74d59b4607524385f75a8ae083b148b3a163cece010a9774af0
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:22dc5729293f37d17c0b6650d94819a21d18fab4c702a46d62401aec711792f3
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b96216027c02e20a6ee8541060ecd0085b74fd0ea5669cf82258347c31d3baf
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce6193889ea75b9cef214b87184b6c99e6c6f661ab938ae5ad158be7367ecf8b
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:e788bee1c067926ef11645e418ec428402ec185fb9258e04df56296e42d2286b
 size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7ab8f7fae8c5bc945ba8d0476887328f81726abcc0550ee4572fa2d3eac0adcb
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e230928162c4463d462e64ab14b3906988dfebe47926d517a84f2e81ec7582c
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a3a79343e37b2abae291bedd1957475ce7f9b47f8942adec4a76182dbe5dbf9
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b0095603c7ffc8d3152c5de9d397fd1beca2e9651bdba9b9da9fbad8a37e19c
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
-  "epoch": 4.8,
   "eval_steps": 300,
-  "global_step": 3000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3188,6 +3188,126 @@
       "eval_samples_per_second": 2.07,
       "eval_steps_per_second": 0.518,
       "step": 3000
     }
   ],
   "logging_steps": 10,
@@ -3202,12 +3322,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 5.158805165012275e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 750,
   "best_metric": 0.5089643597602844,
   "best_model_checkpoint": "./adapter-phase1/checkpoint-750",
+  "epoch": 5.0,
   "eval_steps": 300,
+  "global_step": 3125,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.07,
       "eval_steps_per_second": 0.518,
       "step": 3000
+    },
+    {
+      "entropy": 0.19047842593863606,
+      "epoch": 4.816,
+      "grad_norm": 0.8224709033966064,
+      "learning_rate": 3.8080000000000006e-06,
+      "loss": 0.1691,
+      "mean_token_accuracy": 0.9483149264007806,
+      "num_tokens": 785457.0,
+      "step": 3010
+    },
+    {
+      "entropy": 0.1947814745362848,
+      "epoch": 4.832,
+      "grad_norm": 0.8581233024597168,
+      "learning_rate": 3.4880000000000003e-06,
+      "loss": 0.1535,
+      "mean_token_accuracy": 0.9543764512985945,
+      "num_tokens": 814006.0,
+      "step": 3020
+    },
+    {
+      "entropy": 0.20228669252246617,
+      "epoch": 4.848,
+      "grad_norm": 0.7815537452697754,
+      "learning_rate": 3.168e-06,
+      "loss": 0.1539,
+      "mean_token_accuracy": 0.9561178237199783,
+      "num_tokens": 836843.0,
+      "step": 3030
+    },
+    {
+      "entropy": 0.2111768877133727,
+      "epoch": 4.864,
+      "grad_norm": 2.0849273204803467,
+      "learning_rate": 2.848e-06,
+      "loss": 0.1553,
+      "mean_token_accuracy": 0.9579557087272406,
+      "num_tokens": 855036.0,
+      "step": 3040
+    },
+    {
+      "entropy": 0.2543737689033151,
+      "epoch": 4.88,
+      "grad_norm": 0.9005395770072937,
+      "learning_rate": 2.528e-06,
+      "loss": 0.18,
+      "mean_token_accuracy": 0.951928498968482,
+      "num_tokens": 867473.0,
+      "step": 3050
+    },
+    {
+      "entropy": 0.19695296385325492,
+      "epoch": 4.896,
+      "grad_norm": 0.8913720846176147,
+      "learning_rate": 2.208e-06,
+      "loss": 0.1731,
+      "mean_token_accuracy": 0.9454629000276327,
+      "num_tokens": 905517.0,
+      "step": 3060
+    },
+    {
+      "entropy": 0.2020930268801749,
+      "epoch": 4.912,
+      "grad_norm": 1.0501484870910645,
+      "learning_rate": 1.8880000000000002e-06,
+      "loss": 0.1583,
+      "mean_token_accuracy": 0.954399960488081,
+      "num_tokens": 933251.0,
+      "step": 3070
+    },
+    {
+      "entropy": 0.20252155787311493,
+      "epoch": 4.928,
+      "grad_norm": 1.03731369972229,
+      "learning_rate": 1.568e-06,
+      "loss": 0.1531,
+      "mean_token_accuracy": 0.9579384963959455,
+      "num_tokens": 956069.0,
+      "step": 3080
+    },
+    {
+      "entropy": 0.2126692888326943,
+      "epoch": 4.944,
+      "grad_norm": 1.107572317123413,
+      "learning_rate": 1.248e-06,
+      "loss": 0.1568,
+      "mean_token_accuracy": 0.9569063678383827,
+      "num_tokens": 974517.0,
+      "step": 3090
+    },
+    {
+      "entropy": 0.24990466320887209,
+      "epoch": 4.96,
+      "grad_norm": 1.2767953872680664,
+      "learning_rate": 9.28e-07,
+      "loss": 0.1851,
+      "mean_token_accuracy": 0.9518057998269797,
+      "num_tokens": 987191.0,
+      "step": 3100
+    },
+    {
+      "entropy": 0.19635155922733247,
+      "epoch": 4.976,
+      "grad_norm": 0.838716447353363,
+      "learning_rate": 6.08e-07,
+      "loss": 0.1689,
+      "mean_token_accuracy": 0.9492763552814723,
+      "num_tokens": 1021442.0,
+      "step": 3110
+    },
+    {
+      "entropy": 0.21572725460864603,
+      "epoch": 4.992,
+      "grad_norm": 0.9043759107589722,
+      "learning_rate": 2.8800000000000004e-07,
+      "loss": 0.161,
+      "mean_token_accuracy": 0.9549260966479778,
+      "num_tokens": 1041350.0,
+      "step": 3120
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.37035906398464e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null