Training in progress, step 63000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0c05cde8285dd52085342b46430f4e5412103d775ef2ecb3ff92fe973f05563a
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:a92901e6dc98a2f43e5ab06e2e35886c7f4c68e401e8be0d01acd281cd82349c
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13bd3612e3785a0d69245374e9d503a45ff63d121c602ad8a1a69ce58b21ee6f
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:34104db96694bb116cf3048bcf68919612a7c6c79ff646c13c6e8d5a81aff8f6
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b604bf86b8b70beb6e4043604c61f8577f1fbe75a9d1e20249b5622ec5aa2654
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a97095234a7b82e99cd1b23ba4db26c35942b8b4622876b166d0ce65b7c7110
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b86dd42ce2bfa419ab9d950fa2e032bc9074c23516cf132dad718a38dfd9a2d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d1de5c681ac3c8b6bb5235a71c5b6efd72fc9171aa2c9c6e093b8695c8a08b8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2957415600367292,
   "eval_steps": 500,
-  "global_step": 62000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11044,11 +11044,189 @@
       "eval_steps_per_second": 23.306,
       "num_input_tokens_seen": 16252923456,
       "step": 62000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 16252923456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11063,7 +11241,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.3478156530129306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.30051158519861193,
   "eval_steps": 500,
+  "global_step": 63000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.306,
       "num_input_tokens_seen": 16252923456,
       "step": 62000
+    },
+    {
+      "epoch": 0.29598006129482335,
+      "grad_norm": 0.1945638656616211,
+      "learning_rate": 0.0006057842458386314,
+      "loss": 2.5582,
+      "num_input_tokens_seen": 16266030656,
+      "step": 62050
+    },
+    {
+      "epoch": 0.29621856255291745,
+      "grad_norm": 0.201882466673851,
+      "learning_rate": 0.0006002947078916364,
+      "loss": 2.5764,
+      "num_input_tokens_seen": 16279137856,
+      "step": 62100
+    },
+    {
+      "epoch": 0.2964570638110116,
+      "grad_norm": 0.2137998789548874,
+      "learning_rate": 0.0005947925441958392,
+      "loss": 2.5689,
+      "num_input_tokens_seen": 16292245056,
+      "step": 62150
+    },
+    {
+      "epoch": 0.2966955650691057,
+      "grad_norm": 0.18265672028064728,
+      "learning_rate": 0.0005892784473993184,
+      "loss": 2.5741,
+      "num_input_tokens_seen": 16305352256,
+      "step": 62200
+    },
+    {
+      "epoch": 0.2969340663271999,
+      "grad_norm": 0.16944251954555511,
+      "learning_rate": 0.0005837531116523682,
+      "loss": 2.5537,
+      "num_input_tokens_seen": 16318459456,
+      "step": 62250
+    },
+    {
+      "epoch": 0.29717256758529403,
+      "grad_norm": 0.20273485779762268,
+      "learning_rate": 0.0005782172325201155,
+      "loss": 2.5512,
+      "num_input_tokens_seen": 16331566656,
+      "step": 62300
+    },
+    {
+      "epoch": 0.29741106884338814,
+      "grad_norm": 0.19320476055145264,
+      "learning_rate": 0.0005726715068949564,
+      "loss": 2.5823,
+      "num_input_tokens_seen": 16344673856,
+      "step": 62350
+    },
+    {
+      "epoch": 0.2976495701014823,
+      "grad_norm": 0.21321871876716614,
+      "learning_rate": 0.0005671166329088278,
+      "loss": 2.5608,
+      "num_input_tokens_seen": 16357781056,
+      "step": 62400
+    },
+    {
+      "epoch": 0.2978880713595764,
+      "grad_norm": 0.2007117122411728,
+      "learning_rate": 0.0005615533098453215,
+      "loss": 2.5685,
+      "num_input_tokens_seen": 16370888256,
+      "step": 62450
+    },
+    {
+      "epoch": 0.29812657261767056,
+      "grad_norm": 0.1896267682313919,
+      "learning_rate": 0.0005559822380516539,
+      "loss": 2.56,
+      "num_input_tokens_seen": 16383995456,
+      "step": 62500
+    },
+    {
+      "epoch": 0.29812657261767056,
+      "eval_loss": 2.448042154312134,
+      "eval_runtime": 54.1994,
+      "eval_samples_per_second": 92.252,
+      "eval_steps_per_second": 23.063,
+      "num_input_tokens_seen": 16383995456,
+      "step": 62500
+    },
+    {
+      "epoch": 0.2983650738757647,
+      "grad_norm": 0.18581034243106842,
+      "learning_rate": 0.0005504041188505022,
+      "loss": 2.5691,
+      "num_input_tokens_seen": 16397102656,
+      "step": 62550
+    },
+    {
+      "epoch": 0.2986035751338588,
+      "grad_norm": 0.19272533059120178,
+      "learning_rate": 0.0005448196544517168,
+      "loss": 2.5635,
+      "num_input_tokens_seen": 16410209856,
+      "step": 62600
+    },
+    {
+      "epoch": 0.298842076391953,
+      "grad_norm": 0.19940300285816193,
+      "learning_rate": 0.0005392295478639225,
+      "loss": 2.5755,
+      "num_input_tokens_seen": 16423317056,
+      "step": 62650
+    },
+    {
+      "epoch": 0.2990805776500471,
+      "grad_norm": 0.18894875049591064,
+      "learning_rate": 0.0005336345028060199,
+      "loss": 2.5718,
+      "num_input_tokens_seen": 16436424256,
+      "step": 62700
+    },
+    {
+      "epoch": 0.29931907890814125,
+      "grad_norm": 0.19226962327957153,
+      "learning_rate": 0.0005280352236185959,
+      "loss": 2.563,
+      "num_input_tokens_seen": 16449531456,
+      "step": 62750
+    },
+    {
+      "epoch": 0.2995575801662354,
+      "grad_norm": 0.20716702938079834,
+      "learning_rate": 0.0005224324151752575,
+      "loss": 2.5532,
+      "num_input_tokens_seen": 16462638656,
+      "step": 62800
+    },
+    {
+      "epoch": 0.2997960814243295,
+      "grad_norm": 0.20232325792312622,
+      "learning_rate": 0.000516826782793897,
+      "loss": 2.5691,
+      "num_input_tokens_seen": 16475745856,
+      "step": 62850
+    },
+    {
+      "epoch": 0.30003458268242367,
+      "grad_norm": 0.19828926026821136,
+      "learning_rate": 0.0005112190321479025,
+      "loss": 2.5602,
+      "num_input_tokens_seen": 16488853056,
+      "step": 62900
+    },
+    {
+      "epoch": 0.30027308394051777,
+      "grad_norm": 0.22366905212402344,
+      "learning_rate": 0.000505609869177323,
+      "loss": 2.5556,
+      "num_input_tokens_seen": 16501960256,
+      "step": 62950
+    },
+    {
+      "epoch": 0.30051158519861193,
+      "grad_norm": 0.1883884221315384,
+      "learning_rate": 0.0005,
+      "loss": 2.5567,
+      "num_input_tokens_seen": 16515067456,
+      "step": 63000
+    },
+    {
+      "epoch": 0.30051158519861193,
+      "eval_loss": 2.4441678524017334,
+      "eval_runtime": 54.2448,
+      "eval_samples_per_second": 92.175,
+      "eval_steps_per_second": 23.044,
+      "num_input_tokens_seen": 16515067456,
+      "step": 63000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 16515067456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.4179417315383706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null