Training in progress, step 63000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cbbf7b607c85a5d696bff54af0adb9f239d76d76446306b0d75e85fb86338432
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0f52abb8596fb1c55e5609ec97ec3ea8479c701d5763f12612f03207baebfdc
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3561f0a9213e3ac9e43eff9c9d946a42b171ff83db0a3806965305d6e1bbe28a
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc42234c3f4bb7923a06f1e41810d1e801108c51e07feed1ea66a8af7c05bc5a
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b604bf86b8b70beb6e4043604c61f8577f1fbe75a9d1e20249b5622ec5aa2654
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a97095234a7b82e99cd1b23ba4db26c35942b8b4622876b166d0ce65b7c7110
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:68dfbb60d9dcf18c45914087cca91dc6c214da7f11269c4a414921902f313d06
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ca0e8dbf69c9810c713183e067be8112924d576870302a9fb3c526f389826e7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.41704293019743954,
   "eval_steps": 500,
-  "global_step": 62000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11044,11 +11044,189 @@
       "eval_steps_per_second": 23.717,
       "num_input_tokens_seen": 16252928000,
       "step": 62000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 16252928000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11063,7 +11241,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.34781686857728e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4237694290715918,
   "eval_steps": 500,
+  "global_step": 63000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.717,
       "num_input_tokens_seen": 16252928000,
       "step": 62000
+    },
+    {
+      "epoch": 0.41737925514114715,
+      "grad_norm": 0.19505389034748077,
+      "learning_rate": 0.0004950913403314252,
+      "loss": 2.9995,
+      "num_input_tokens_seen": 16266035200,
+      "step": 62050
+    },
+    {
+      "epoch": 0.41771558008485477,
+      "grad_norm": 0.18988089263439178,
+      "learning_rate": 0.0004901831537696859,
+      "loss": 3.0041,
+      "num_input_tokens_seen": 16279142400,
+      "step": 62100
+    },
+    {
+      "epoch": 0.4180519050285624,
+      "grad_norm": 0.19544407725334167,
+      "learning_rate": 0.0004852759133760184,
+      "loss": 3.0073,
+      "num_input_tokens_seen": 16292249600,
+      "step": 62150
+    },
+    {
+      "epoch": 0.41838822997227,
+      "grad_norm": 0.1884351521730423,
+      "learning_rate": 0.00048037009212046586,
+      "loss": 3.0035,
+      "num_input_tokens_seen": 16305356800,
+      "step": 62200
+    },
+    {
+      "epoch": 0.4187245549159776,
+      "grad_norm": 0.17927390336990356,
+      "learning_rate": 0.000475466162836291,
+      "loss": 2.9921,
+      "num_input_tokens_seen": 16318464000,
+      "step": 62250
+    },
+    {
+      "epoch": 0.4190608798596852,
+      "grad_norm": 0.18687283992767334,
+      "learning_rate": 0.00047056459817440544,
+      "loss": 3.0042,
+      "num_input_tokens_seen": 16331571200,
+      "step": 62300
+    },
+    {
+      "epoch": 0.4193972048033928,
+      "grad_norm": 0.18783149123191833,
+      "learning_rate": 0.00046566587055781316,
+      "loss": 3.0003,
+      "num_input_tokens_seen": 16344678400,
+      "step": 62350
+    },
+    {
+      "epoch": 0.41973352974710043,
+      "grad_norm": 0.18625770509243011,
+      "learning_rate": 0.0004607704521360776,
+      "loss": 3.0061,
+      "num_input_tokens_seen": 16357785600,
+      "step": 62400
+    },
+    {
+      "epoch": 0.4200698546908081,
+      "grad_norm": 0.20189669728279114,
+      "learning_rate": 0.00045587881473981533,
+      "loss": 2.9976,
+      "num_input_tokens_seen": 16370892800,
+      "step": 62450
+    },
+    {
+      "epoch": 0.4204061796345157,
+      "grad_norm": 0.19049198925495148,
+      "learning_rate": 0.0004509914298352197,
+      "loss": 3.0055,
+      "num_input_tokens_seen": 16384000000,
+      "step": 62500
+    },
+    {
+      "epoch": 0.4204061796345157,
+      "eval_loss": 2.896798849105835,
+      "eval_runtime": 52.8908,
+      "eval_samples_per_second": 94.534,
+      "eval_steps_per_second": 23.634,
+      "num_input_tokens_seen": 16384000000,
+      "step": 62500
+    },
+    {
+      "epoch": 0.4207425045782233,
+      "grad_norm": 0.1667575091123581,
+      "learning_rate": 0.00044610876847862033,
+      "loss": 2.9929,
+      "num_input_tokens_seen": 16397107200,
+      "step": 62550
+    },
+    {
+      "epoch": 0.42107882952193093,
+      "grad_norm": 0.7176526188850403,
+      "learning_rate": 0.00044123130127108126,
+      "loss": 2.9918,
+      "num_input_tokens_seen": 16410214400,
+      "step": 62600
+    },
+    {
+      "epoch": 0.42141515446563854,
+      "grad_norm": 0.20578069984912872,
+      "learning_rate": 0.00043635949831304343,
+      "loss": 3.0037,
+      "num_input_tokens_seen": 16423321600,
+      "step": 62650
+    },
+    {
+      "epoch": 0.42175147940934615,
+      "grad_norm": 0.19712655246257782,
+      "learning_rate": 0.0004314938291590161,
+      "loss": 3.0142,
+      "num_input_tokens_seen": 16436428800,
+      "step": 62700
+    },
+    {
+      "epoch": 0.42208780435305376,
+      "grad_norm": 0.20189446210861206,
+      "learning_rate": 0.00042663476277231917,
+      "loss": 2.9983,
+      "num_input_tokens_seen": 16449536000,
+      "step": 62750
+    },
+    {
+      "epoch": 0.4224241292967614,
+      "grad_norm": 0.18463867902755737,
+      "learning_rate": 0.0004217827674798845,
+      "loss": 2.9971,
+      "num_input_tokens_seen": 16462643200,
+      "step": 62800
+    },
+    {
+      "epoch": 0.422760454240469,
+      "grad_norm": 0.17639389634132385,
+      "learning_rate": 0.0004169383109271174,
+      "loss": 3.0032,
+      "num_input_tokens_seen": 16475750400,
+      "step": 62850
+    },
+    {
+      "epoch": 0.4230967791841766,
+      "grad_norm": 0.1733781099319458,
+      "learning_rate": 0.00041210186003282274,
+      "loss": 2.9932,
+      "num_input_tokens_seen": 16488857600,
+      "step": 62900
+    },
+    {
+      "epoch": 0.4234331041278842,
+      "grad_norm": 0.17753124237060547,
+      "learning_rate": 0.00040727388094420456,
+      "loss": 3.0012,
+      "num_input_tokens_seen": 16501964800,
+      "step": 62950
+    },
+    {
+      "epoch": 0.4237694290715918,
+      "grad_norm": 0.180925652384758,
+      "learning_rate": 0.00040245483899193594,
+      "loss": 2.9823,
+      "num_input_tokens_seen": 16515072000,
+      "step": 63000
+    },
+    {
+      "epoch": 0.4237694290715918,
+      "eval_loss": 2.8929545879364014,
+      "eval_runtime": 53.37,
+      "eval_samples_per_second": 93.686,
+      "eval_steps_per_second": 23.421,
+      "num_input_tokens_seen": 16515072000,
+      "step": 63000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 16515072000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.41794294710272e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null