Training in progress, step 59000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24ebb1df57ac2ee9b586e62f321c007518f59293b5104f6e4c9cd4556be49e20
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb24e6d8f2ac2f9fba055776f81932cc139a95f7fc40aa55fb0ec1c2a4f8255a
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:284d00e91b8ed248cc64cf350da118b741fc38fb51627a69c88a312c68a088a3
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:20de72116e7f03e1795ea16116920f2218782186eb0cf45bda609f4712918191
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec1bfb0db1c21e8b4cd52af95928aa8366b624cdfe8a7ae4baa053e84325dfb8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfe4fcebd5141fdf7604535ed8dc60cda464d7e4d084d78ec5c9b7105325f9b5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:546d8e8727a1368f14dcaccf9c4cddd7ddc8e71b1cf1d15c1ef9e8250409d1c7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c63af946e84034ef27ffe1d1d59b07405d72b5713d1851e086bcc930b39f47b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2766614593891983,
   "eval_steps": 500,
-  "global_step": 58000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10332,11 +10332,189 @@
       "eval_steps_per_second": 23.331,
       "num_input_tokens_seen": 15204347456,
       "step": 58000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 15204347456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10351,7 +10529,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.0673113389111706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.281431484551081,
   "eval_steps": 500,
+  "global_step": 59000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.331,
       "num_input_tokens_seen": 15204347456,
       "step": 58000
+    },
+    {
+      "epoch": 0.2768999606472924,
+      "grad_norm": 0.2281644344329834,
+      "learning_rate": 0.0009480220479843627,
+      "loss": 2.6212,
+      "num_input_tokens_seen": 15217454656,
+      "step": 58050
+    },
+    {
+      "epoch": 0.27713846190538655,
+      "grad_norm": 0.2181713730096817,
+      "learning_rate": 0.0009455032620941839,
+      "loss": 2.5927,
+      "num_input_tokens_seen": 15230561856,
+      "step": 58100
+    },
+    {
+      "epoch": 0.2773769631634807,
+      "grad_norm": 0.21573083102703094,
+      "learning_rate": 0.00094292839336179,
+      "loss": 2.6112,
+      "num_input_tokens_seen": 15243669056,
+      "step": 58150
+    },
+    {
+      "epoch": 0.2776154644215748,
+      "grad_norm": 0.2686486840248108,
+      "learning_rate": 0.000940297765928369,
+      "loss": 2.6133,
+      "num_input_tokens_seen": 15256776256,
+      "step": 58200
+    },
+    {
+      "epoch": 0.27785396567966897,
+      "grad_norm": 0.2320137470960617,
+      "learning_rate": 0.0009376117109543769,
+      "loss": 2.6094,
+      "num_input_tokens_seen": 15269883456,
+      "step": 58250
+    },
+    {
+      "epoch": 0.27809246693776307,
+      "grad_norm": 0.22277672588825226,
+      "learning_rate": 0.0009348705665778478,
+      "loss": 2.5885,
+      "num_input_tokens_seen": 15282990656,
+      "step": 58300
+    },
+    {
+      "epoch": 0.27833096819585723,
+      "grad_norm": 0.22681231796741486,
+      "learning_rate": 0.0009320746778718274,
+      "loss": 2.6005,
+      "num_input_tokens_seen": 15296097856,
+      "step": 58350
+    },
+    {
+      "epoch": 0.2785694694539514,
+      "grad_norm": 0.25187453627586365,
+      "learning_rate": 0.000929224396800933,
+      "loss": 2.5944,
+      "num_input_tokens_seen": 15309205056,
+      "step": 58400
+    },
+    {
+      "epoch": 0.2788079707120455,
+      "grad_norm": 0.24962358176708221,
+      "learning_rate": 0.0009263200821770461,
+      "loss": 2.5888,
+      "num_input_tokens_seen": 15322312256,
+      "step": 58450
+    },
+    {
+      "epoch": 0.27904647197013965,
+      "grad_norm": 0.18929679691791534,
+      "learning_rate": 0.0009233620996141421,
+      "loss": 2.5927,
+      "num_input_tokens_seen": 15335419456,
+      "step": 58500
+    },
+    {
+      "epoch": 0.27904647197013965,
+      "eval_loss": 2.4754066467285156,
+      "eval_runtime": 53.7558,
+      "eval_samples_per_second": 93.013,
+      "eval_steps_per_second": 23.253,
+      "num_input_tokens_seen": 15335419456,
+      "step": 58500
+    },
+    {
+      "epoch": 0.27928497322823376,
+      "grad_norm": 0.22240912914276123,
+      "learning_rate": 0.0009203508214822651,
+      "loss": 2.5944,
+      "num_input_tokens_seen": 15348526656,
+      "step": 58550
+    },
+    {
+      "epoch": 0.2795234744863279,
+      "grad_norm": 0.2096235305070877,
+      "learning_rate": 0.0009172866268606513,
+      "loss": 2.5964,
+      "num_input_tokens_seen": 15361633856,
+      "step": 58600
+    },
+    {
+      "epoch": 0.2797619757444221,
+      "grad_norm": 0.2913396954536438,
+      "learning_rate": 0.0009141699014900082,
+      "loss": 2.5975,
+      "num_input_tokens_seen": 15374741056,
+      "step": 58650
+    },
+    {
+      "epoch": 0.2800004770025162,
+      "grad_norm": 0.21000444889068604,
+      "learning_rate": 0.0009110010377239551,
+      "loss": 2.5987,
+      "num_input_tokens_seen": 15387848256,
+      "step": 58700
+    },
+    {
+      "epoch": 0.28023897826061034,
+      "grad_norm": 0.18561489880084991,
+      "learning_rate": 0.0009077804344796301,
+      "loss": 2.5955,
+      "num_input_tokens_seen": 15400955456,
+      "step": 58750
+    },
+    {
+      "epoch": 0.28047747951870444,
+      "grad_norm": 0.330816388130188,
+      "learning_rate": 0.0009045084971874737,
+      "loss": 2.5837,
+      "num_input_tokens_seen": 15414062656,
+      "step": 58800
+    },
+    {
+      "epoch": 0.2807159807767986,
+      "grad_norm": 0.21823953092098236,
+      "learning_rate": 0.000901185637740189,
+      "loss": 2.5921,
+      "num_input_tokens_seen": 15427169856,
+      "step": 58850
+    },
+    {
+      "epoch": 0.28095448203489276,
+      "grad_norm": 0.28721505403518677,
+      "learning_rate": 0.0008978122744408905,
+      "loss": 2.5893,
+      "num_input_tokens_seen": 15440277056,
+      "step": 58900
+    },
+    {
+      "epoch": 0.28119298329298686,
+      "grad_norm": 0.2468225359916687,
+      "learning_rate": 0.0008943888319504456,
+      "loss": 2.5999,
+      "num_input_tokens_seen": 15453384256,
+      "step": 58950
+    },
+    {
+      "epoch": 0.281431484551081,
+      "grad_norm": 0.20486761629581451,
+      "learning_rate": 0.000890915741234015,
+      "loss": 2.6026,
+      "num_input_tokens_seen": 15466491456,
+      "step": 59000
+    },
+    {
+      "epoch": 0.281431484551081,
+      "eval_loss": 2.4756667613983154,
+      "eval_runtime": 53.3408,
+      "eval_samples_per_second": 93.737,
+      "eval_steps_per_second": 23.434,
+      "num_input_tokens_seen": 15466491456,
+      "step": 59000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 15466491456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.1374374174366106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null