Training in progress, step 17000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:314ace06359dc0a1588628e331e678c1756658b1e5b55ebfc40ace3ca7f19975
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:ebeffb2c037b50b65a6c0dee470a06e80bc04cb18fc25d36c6c23ebbfb1bfdb7
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:145b83ea857b82f412f448a97a8f9f5c98bbb7dffd2fbc6b5c490420cb05fd6d
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:56670a00c0a6655472a5df0bad61f805ef42230ce33d41f768bab9a708635a97
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37104b59ca9cf24df14fa2064ba3c6de266e9640e43d473d5abb1378b6567288
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b383a5a228123d48b81ff62301f8c357c6f3a9cd7484f11e193f37bbe5162530
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1fdb7ab6d17f71d52f24a53832c179d2b096c87d3e016344e7361ae053671325
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2af187ec456db07cec83217e48a58a7d4609355155eba34a029dc1dd312e2a7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3514566918864301,
   "eval_steps": 500,
-  "global_step": 16000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2856,11 +2856,189 @@
       "eval_steps_per_second": 18.912,
       "num_input_tokens_seen": 16777216000,
       "step": 16000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 16777216000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -2875,7 +3053,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.554747455438848e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.37342273512933194,
   "eval_steps": 500,
+  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.912,
       "num_input_tokens_seen": 16777216000,
       "step": 16000
+    },
+    {
+      "epoch": 0.35255499404857515,
+      "grad_norm": 0.1446143537759781,
+      "learning_rate": 0.001,
+      "loss": 2.7837,
+      "num_input_tokens_seen": 16829644800,
+      "step": 16050
+    },
+    {
+      "epoch": 0.3536532962107203,
+      "grad_norm": 0.12466421723365784,
+      "learning_rate": 0.001,
+      "loss": 2.7808,
+      "num_input_tokens_seen": 16882073600,
+      "step": 16100
+    },
+    {
+      "epoch": 0.35475159837286535,
+      "grad_norm": 0.13154324889183044,
+      "learning_rate": 0.001,
+      "loss": 2.7608,
+      "num_input_tokens_seen": 16934502400,
+      "step": 16150
+    },
+    {
+      "epoch": 0.3558499005350104,
+      "grad_norm": 0.12929347157478333,
+      "learning_rate": 0.001,
+      "loss": 2.7599,
+      "num_input_tokens_seen": 16986931200,
+      "step": 16200
+    },
+    {
+      "epoch": 0.35694820269715555,
+      "grad_norm": 0.12805528938770294,
+      "learning_rate": 0.001,
+      "loss": 2.7562,
+      "num_input_tokens_seen": 17039360000,
+      "step": 16250
+    },
+    {
+      "epoch": 0.3580465048593006,
+      "grad_norm": 0.12885579466819763,
+      "learning_rate": 0.001,
+      "loss": 2.7498,
+      "num_input_tokens_seen": 17091788800,
+      "step": 16300
+    },
+    {
+      "epoch": 0.35914480702144574,
+      "grad_norm": 0.14422497153282166,
+      "learning_rate": 0.001,
+      "loss": 2.7518,
+      "num_input_tokens_seen": 17144217600,
+      "step": 16350
+    },
+    {
+      "epoch": 0.3602431091835908,
+      "grad_norm": 0.13284224271774292,
+      "learning_rate": 0.001,
+      "loss": 2.7453,
+      "num_input_tokens_seen": 17196646400,
+      "step": 16400
+    },
+    {
+      "epoch": 0.3613414113457359,
+      "grad_norm": 0.1408185362815857,
+      "learning_rate": 0.001,
+      "loss": 2.7422,
+      "num_input_tokens_seen": 17249075200,
+      "step": 16450
+    },
+    {
+      "epoch": 0.362439713507881,
+      "grad_norm": 0.1295713484287262,
+      "learning_rate": 0.001,
+      "loss": 2.7394,
+      "num_input_tokens_seen": 17301504000,
+      "step": 16500
+    },
+    {
+      "epoch": 0.362439713507881,
+      "eval_loss": 2.6431446075439453,
+      "eval_runtime": 65.9239,
+      "eval_samples_per_second": 75.845,
+      "eval_steps_per_second": 18.961,
+      "num_input_tokens_seen": 17301504000,
+      "step": 16500
+    },
+    {
+      "epoch": 0.3635380156700261,
+      "grad_norm": 0.1245918869972229,
+      "learning_rate": 0.001,
+      "loss": 2.7434,
+      "num_input_tokens_seen": 17353932800,
+      "step": 16550
+    },
+    {
+      "epoch": 0.3646363178321712,
+      "grad_norm": 0.15865615010261536,
+      "learning_rate": 0.001,
+      "loss": 2.7378,
+      "num_input_tokens_seen": 17406361600,
+      "step": 16600
+    },
+    {
+      "epoch": 0.3657346199943163,
+      "grad_norm": 0.1391313523054123,
+      "learning_rate": 0.001,
+      "loss": 2.7415,
+      "num_input_tokens_seen": 17458790400,
+      "step": 16650
+    },
+    {
+      "epoch": 0.3668329221564614,
+      "grad_norm": 0.13604389131069183,
+      "learning_rate": 0.001,
+      "loss": 2.7394,
+      "num_input_tokens_seen": 17511219200,
+      "step": 16700
+    },
+    {
+      "epoch": 0.3679312243186065,
+      "grad_norm": 0.14926299452781677,
+      "learning_rate": 0.001,
+      "loss": 2.732,
+      "num_input_tokens_seen": 17563648000,
+      "step": 16750
+    },
+    {
+      "epoch": 0.36902952648075155,
+      "grad_norm": 0.12619628012180328,
+      "learning_rate": 0.001,
+      "loss": 2.7275,
+      "num_input_tokens_seen": 17616076800,
+      "step": 16800
+    },
+    {
+      "epoch": 0.3701278286428967,
+      "grad_norm": 0.1268402636051178,
+      "learning_rate": 0.001,
+      "loss": 2.7309,
+      "num_input_tokens_seen": 17668505600,
+      "step": 16850
+    },
+    {
+      "epoch": 0.37122613080504174,
+      "grad_norm": 0.1379624754190445,
+      "learning_rate": 0.001,
+      "loss": 2.7266,
+      "num_input_tokens_seen": 17720934400,
+      "step": 16900
+    },
+    {
+      "epoch": 0.37232443296718687,
+      "grad_norm": 0.1443478763103485,
+      "learning_rate": 0.001,
+      "loss": 2.7321,
+      "num_input_tokens_seen": 17773363200,
+      "step": 16950
+    },
+    {
+      "epoch": 0.37342273512933194,
+      "grad_norm": 0.15214091539382935,
+      "learning_rate": 0.001,
+      "loss": 2.7284,
+      "num_input_tokens_seen": 17825792000,
+      "step": 17000
+    },
+    {
+      "epoch": 0.37342273512933194,
+      "eval_loss": 2.63478946685791,
+      "eval_runtime": 65.141,
+      "eval_samples_per_second": 76.757,
+      "eval_steps_per_second": 19.189,
+      "num_input_tokens_seen": 17825792000,
+      "step": 17000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 17825792000,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0151919171403776e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null