Training in progress, step 116000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f4052b3f6dee6acc6e8461ad996dfa79e27245712edf2d1f3321a44a85660ffc
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:88eb3f94bc7241f618e5c9770b54c115b258d914f67d481780ad17863ab32c2e
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0922c14e94c809f8792d25d931657f0739836f8872958cc36e36c78337b7886b
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:ead16386e0cfae3ee1c925e0e05a55f093ed2c84207e3beb26950f24f2d0edd3
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db41ee9f728a0f615e34c377aa1f203a61ceeaf873404658f962d92e3c5c6285
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:315a996739a8cfadd830b0d25c5fc7336620692744591af847d9b45121986328
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e98ce821f7f40a728bc6b049ace38a924402d0d066809b7215e9faa83ce3c45c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f9c807b963b46c441b7e935adcacbb554bdd0c85992b7453ee29eed159b81fb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0971081722456086,
   "eval_steps": 500,
-  "global_step": 115000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20478,11 +20478,189 @@
       "eval_steps_per_second": 15.153,
       "num_input_tokens_seen": 60283464768,
       "step": 115000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 60283464768,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -20497,7 +20675,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0669073693538632e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1066482225693741,
   "eval_steps": 500,
+  "global_step": 116000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.153,
       "num_input_tokens_seen": 60283464768,
       "step": 115000
+    },
+    {
+      "epoch": 1.0975851747617968,
+      "grad_norm": 0.14440514147281647,
+      "learning_rate": 0.0009710078129677895,
+      "loss": 2.0927,
+      "num_input_tokens_seen": 60309676352,
+      "step": 115050
+    },
+    {
+      "epoch": 1.098062177277985,
+      "grad_norm": 0.13419468700885773,
+      "learning_rate": 0.0009700591372846095,
+      "loss": 2.0871,
+      "num_input_tokens_seen": 60335889280,
+      "step": 115100
+    },
+    {
+      "epoch": 1.0985391797941735,
+      "grad_norm": 0.14434845745563507,
+      "learning_rate": 0.0009690956679612422,
+      "loss": 2.0823,
+      "num_input_tokens_seen": 60362096256,
+      "step": 115150
+    },
+    {
+      "epoch": 1.0990161823103617,
+      "grad_norm": 0.14158272743225098,
+      "learning_rate": 0.0009681174353198686,
+      "loss": 2.0932,
+      "num_input_tokens_seen": 60388308192,
+      "step": 115200
+    },
+    {
+      "epoch": 1.09949318482655,
+      "grad_norm": 0.1499590128660202,
+      "learning_rate": 0.0009671244701472999,
+      "loss": 2.0901,
+      "num_input_tokens_seen": 60414516160,
+      "step": 115250
+    },
+    {
+      "epoch": 1.0999701873427383,
+      "grad_norm": 0.13877320289611816,
+      "learning_rate": 0.0009661168036940071,
+      "loss": 2.0915,
+      "num_input_tokens_seen": 60440722624,
+      "step": 115300
+    },
+    {
+      "epoch": 1.1004471898589265,
+      "grad_norm": 0.14336808025836945,
+      "learning_rate": 0.0009650944676731382,
+      "loss": 2.0846,
+      "num_input_tokens_seen": 60466923616,
+      "step": 115350
+    },
+    {
+      "epoch": 1.1009241923751147,
+      "grad_norm": 0.16042272746562958,
+      "learning_rate": 0.0009640574942595195,
+      "loss": 2.0942,
+      "num_input_tokens_seen": 60493123456,
+      "step": 115400
+    },
+    {
+      "epoch": 1.101401194891303,
+      "grad_norm": 0.14399364590644836,
+      "learning_rate": 0.0009630059160886439,
+      "loss": 2.0988,
+      "num_input_tokens_seen": 60519323040,
+      "step": 115450
+    },
+    {
+      "epoch": 1.1018781974074914,
+      "grad_norm": 0.14042776823043823,
+      "learning_rate": 0.0009619397662556434,
+      "loss": 2.0916,
+      "num_input_tokens_seen": 60545534656,
+      "step": 115500
+    },
+    {
+      "epoch": 1.1018781974074914,
+      "eval_loss": 2.0105109214782715,
+      "eval_runtime": 82.3145,
+      "eval_samples_per_second": 60.743,
+      "eval_steps_per_second": 15.186,
+      "num_input_tokens_seen": 60545534656,
+      "step": 115500
+    },
+    {
+      "epoch": 1.1023551999236796,
+      "grad_norm": 0.1399744153022766,
+      "learning_rate": 0.000960859078314247,
+      "loss": 2.096,
+      "num_input_tokens_seen": 60571738272,
+      "step": 115550
+    },
+    {
+      "epoch": 1.1028322024398678,
+      "grad_norm": 0.14161787927150726,
+      "learning_rate": 0.0009597638862757254,
+      "loss": 2.0916,
+      "num_input_tokens_seen": 60597952672,
+      "step": 115600
+    },
+    {
+      "epoch": 1.1033092049560562,
+      "grad_norm": 0.14088015258312225,
+      "learning_rate": 0.0009586542246078203,
+      "loss": 2.0856,
+      "num_input_tokens_seen": 60624155648,
+      "step": 115650
+    },
+    {
+      "epoch": 1.1037862074722444,
+      "grad_norm": 0.13098938763141632,
+      "learning_rate": 0.00095753012823366,
+      "loss": 2.0849,
+      "num_input_tokens_seen": 60650370048,
+      "step": 115700
+    },
+    {
+      "epoch": 1.1042632099884326,
+      "grad_norm": 0.14463865756988525,
+      "learning_rate": 0.0009563916325306594,
+      "loss": 2.0918,
+      "num_input_tokens_seen": 60676580928,
+      "step": 115750
+    },
+    {
+      "epoch": 1.104740212504621,
+      "grad_norm": 0.14490677416324615,
+      "learning_rate": 0.000955238773329408,
+      "loss": 2.0996,
+      "num_input_tokens_seen": 60702794432,
+      "step": 115800
+    },
+    {
+      "epoch": 1.1052172150208093,
+      "grad_norm": 0.14372467994689941,
+      "learning_rate": 0.0009540715869125407,
+      "loss": 2.09,
+      "num_input_tokens_seen": 60729000064,
+      "step": 115850
+    },
+    {
+      "epoch": 1.1056942175369975,
+      "grad_norm": 0.16468504071235657,
+      "learning_rate": 0.000952890110013597,
+      "loss": 2.0901,
+      "num_input_tokens_seen": 60755212896,
+      "step": 115900
+    },
+    {
+      "epoch": 1.1061712200531857,
+      "grad_norm": 0.390666663646698,
+      "learning_rate": 0.0009516943798158648,
+      "loss": 2.0855,
+      "num_input_tokens_seen": 60781425984,
+      "step": 115950
+    },
+    {
+      "epoch": 1.1066482225693741,
+      "grad_norm": 0.14308005571365356,
+      "learning_rate": 0.0009504844339512095,
+      "loss": 2.1125,
+      "num_input_tokens_seen": 60807636160,
+      "step": 116000
+    },
+    {
+      "epoch": 1.1066482225693741,
+      "eval_loss": 2.0120937824249268,
+      "eval_runtime": 82.7927,
+      "eval_samples_per_second": 60.392,
+      "eval_steps_per_second": 15.098,
+      "num_input_tokens_seen": 60807636160,
+      "step": 116000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 60807636160,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0761842469036442e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null