Training in progress, step 138000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b38436cae5381f691ba804b915e325932d55429d83532b1470e95efd579a29b
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:294d2d3cfce69d5bcc552541aff1b1d0c5c39d6adabe16e718423a5d850f0d32
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b3d9c01ac2fd401fd65707f0e1d6a24eefcca9fe471c863196aa9b97efe6f47
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:57a69c4accd4194b5ef200a371a59ef019db1dfd38dcb87b64dd42832f583b7c
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c7354a4e3d8de85b55d51bbeb0dfcfc86efd5d09ac4e401efe6b4ee83bc0b66a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:cdb15604f71f08bf635b865cf27878158a353a64f3dcaa6e5902e3e52c7eb375
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bf416de216a0fa7180c9c5b3632984e63b58047aa8bc6d944e50f798fb000d5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d87ee32367beeb896fbea0e404a77621c8cd628a4eb1251b30dc94e06f2eb792
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3069892793684486,
   "eval_steps": 500,
-  "global_step": 137000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -24394,11 +24394,189 @@
       "eval_steps_per_second": 15.101,
       "num_input_tokens_seen": 71815816608,
       "step": 137000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 71815816608,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -24413,7 +24591,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.271008961912107e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.316529329692214,
   "eval_steps": 500,
+  "global_step": 138000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.101,
       "num_input_tokens_seen": 71815816608,
       "step": 137000
+    },
+    {
+      "epoch": 1.307466281884637,
+      "grad_norm": 0.11646866798400879,
+      "learning_rate": 2.7139335546282283e-05,
+      "loss": 2.0325,
+      "num_input_tokens_seen": 71842030368,
+      "step": 137050
+    },
+    {
+      "epoch": 1.3079432844008252,
+      "grad_norm": 0.10989837348461151,
+      "learning_rate": 2.6235218056235634e-05,
+      "loss": 2.0325,
+      "num_input_tokens_seen": 71868244768,
+      "step": 137100
+    },
+    {
+      "epoch": 1.3084202869170136,
+      "grad_norm": 0.11658209562301636,
+      "learning_rate": 2.5346010829944367e-05,
+      "loss": 2.0289,
+      "num_input_tokens_seen": 71894452160,
+      "step": 137150
+    },
+    {
+      "epoch": 1.3088972894332018,
+      "grad_norm": 0.11487242579460144,
+      "learning_rate": 2.4471741852423235e-05,
+      "loss": 2.0322,
+      "num_input_tokens_seen": 71920664928,
+      "step": 137200
+    },
+    {
+      "epoch": 1.30937429194939,
+      "grad_norm": 0.11544458568096161,
+      "learning_rate": 2.3612438638551835e-05,
+      "loss": 2.0279,
+      "num_input_tokens_seen": 71946876896,
+      "step": 137250
+    },
+    {
+      "epoch": 1.3098512944655782,
+      "grad_norm": 0.11500503867864609,
+      "learning_rate": 2.276812823220964e-05,
+      "loss": 2.0399,
+      "num_input_tokens_seen": 71973091200,
+      "step": 137300
+    },
+    {
+      "epoch": 1.3103282969817664,
+      "grad_norm": 0.11575910449028015,
+      "learning_rate": 2.1938837205424e-05,
+      "loss": 2.0246,
+      "num_input_tokens_seen": 71999300832,
+      "step": 137350
+    },
+    {
+      "epoch": 1.3108052994979549,
+      "grad_norm": 0.1175985336303711,
+      "learning_rate": 2.1124591657534777e-05,
+      "loss": 2.0225,
+      "num_input_tokens_seen": 72025515232,
+      "step": 137400
+    },
+    {
+      "epoch": 1.311282302014143,
+      "grad_norm": 0.11688115447759628,
+      "learning_rate": 2.032541721437209e-05,
+      "loss": 2.024,
+      "num_input_tokens_seen": 72051723040,
+      "step": 137450
+    },
+    {
+      "epoch": 1.3117593045303315,
+      "grad_norm": 0.11419174075126648,
+      "learning_rate": 1.9541339027450256e-05,
+      "loss": 2.0254,
+      "num_input_tokens_seen": 72077935168,
+      "step": 137500
+    },
+    {
+      "epoch": 1.3117593045303315,
+      "eval_loss": 1.951472282409668,
+      "eval_runtime": 83.1149,
+      "eval_samples_per_second": 60.158,
+      "eval_steps_per_second": 15.039,
+      "num_input_tokens_seen": 72077935168,
+      "step": 137500
+    },
+    {
+      "epoch": 1.3122363070465197,
+      "grad_norm": 0.11731937527656555,
+      "learning_rate": 1.8772381773176416e-05,
+      "loss": 2.0368,
+      "num_input_tokens_seen": 72104145664,
+      "step": 137550
+    },
+    {
+      "epoch": 1.312713309562708,
+      "grad_norm": 0.11281976848840714,
+      "learning_rate": 1.801856965207338e-05,
+      "loss": 2.0243,
+      "num_input_tokens_seen": 72130351488,
+      "step": 137600
+    },
+    {
+      "epoch": 1.3131903120788961,
+      "grad_norm": 0.12566816806793213,
+      "learning_rate": 1.7279926388018564e-05,
+      "loss": 2.0266,
+      "num_input_tokens_seen": 72156564000,
+      "step": 137650
+    },
+    {
+      "epoch": 1.3136673145950846,
+      "grad_norm": 0.1202327162027359,
+      "learning_rate": 1.6556475227496815e-05,
+      "loss": 2.0344,
+      "num_input_tokens_seen": 72182768800,
+      "step": 137700
+    },
+    {
+      "epoch": 1.3141443171112728,
+      "grad_norm": 0.11209400743246078,
+      "learning_rate": 1.584823893886933e-05,
+      "loss": 2.0307,
+      "num_input_tokens_seen": 72208977472,
+      "step": 137750
+    },
+    {
+      "epoch": 1.314621319627461,
+      "grad_norm": 0.11281031370162964,
+      "learning_rate": 1.5155239811656562e-05,
+      "loss": 2.0285,
+      "num_input_tokens_seen": 72235186752,
+      "step": 137800
+    },
+    {
+      "epoch": 1.3150983221436494,
+      "grad_norm": 0.11977609992027283,
+      "learning_rate": 1.4477499655837278e-05,
+      "loss": 2.0307,
+      "num_input_tokens_seen": 72261390432,
+      "step": 137850
+    },
+    {
+      "epoch": 1.3155753246598376,
+      "grad_norm": 0.11602313071489334,
+      "learning_rate": 1.3815039801161721e-05,
+      "loss": 2.0272,
+      "num_input_tokens_seen": 72287596960,
+      "step": 137900
+    },
+    {
+      "epoch": 1.3160523271760258,
+      "grad_norm": 0.11629103124141693,
+      "learning_rate": 1.3167881096480372e-05,
+      "loss": 2.0426,
+      "num_input_tokens_seen": 72313806912,
+      "step": 137950
+    },
+    {
+      "epoch": 1.316529329692214,
+      "grad_norm": 0.11337430030107498,
+      "learning_rate": 1.2536043909088191e-05,
+      "loss": 2.0286,
+      "num_input_tokens_seen": 72340003200,
+      "step": 138000
+    },
+    {
+      "epoch": 1.316529329692214,
+      "eval_loss": 1.9512444734573364,
+      "eval_runtime": 82.1325,
+      "eval_samples_per_second": 60.877,
+      "eval_steps_per_second": 15.219,
+      "num_input_tokens_seen": 72340003200,
+      "step": 138000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 72340003200,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2802861084741632e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null