Training in progress, step 60000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb24e6d8f2ac2f9fba055776f81932cc139a95f7fc40aa55fb0ec1c2a4f8255a
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:c3d4eb10327c6f996a0988361f6ad9bbab09e394aba34b1a396d7082da2216c0
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20de72116e7f03e1795ea16116920f2218782186eb0cf45bda609f4712918191
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:f1da98e221b67155367bda2e5baaef41263bc46b4743e333b4e678859da5c6df
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfe4fcebd5141fdf7604535ed8dc60cda464d7e4d084d78ec5c9b7105325f9b5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6a4cb233f004dcf5c1bd7310c625e6acfeb53e49f5aa9a513759dc7631fff0b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c63af946e84034ef27ffe1d1d59b07405d72b5713d1851e086bcc930b39f47b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:be823a58640077d89dc450d2caf77b9f9c93851d1d9a6e787b2d5f1c9c9930be
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.281431484551081,
   "eval_steps": 500,
-  "global_step": 59000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10510,11 +10510,189 @@
       "eval_steps_per_second": 23.434,
       "num_input_tokens_seen": 15466491456,
       "step": 59000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 15466491456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10529,7 +10707,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.1374374174366106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2862015097129637,
   "eval_steps": 500,
+  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.434,
       "num_input_tokens_seen": 15466491456,
       "step": 59000
+    },
+    {
+      "epoch": 0.2816699858091751,
+      "grad_norm": 0.3338637351989746,
+      "learning_rate": 0.0008873934395068005,
+      "loss": 2.587,
+      "num_input_tokens_seen": 15479598656,
+      "step": 59050
+    },
+    {
+      "epoch": 0.2819084870672693,
+      "grad_norm": 0.20848780870437622,
+      "learning_rate": 0.0008838223701790055,
+      "loss": 2.5989,
+      "num_input_tokens_seen": 15492705856,
+      "step": 59100
+    },
+    {
+      "epoch": 0.2821469883253634,
+      "grad_norm": 0.21479378640651703,
+      "learning_rate": 0.0008802029828000156,
+      "loss": 2.6052,
+      "num_input_tokens_seen": 15505813056,
+      "step": 59150
+    },
+    {
+      "epoch": 0.28238548958345755,
+      "grad_norm": 0.1944151073694229,
+      "learning_rate": 0.0008765357330018055,
+      "loss": 2.6044,
+      "num_input_tokens_seen": 15518920256,
+      "step": 59200
+    },
+    {
+      "epoch": 0.2826239908415517,
+      "grad_norm": 0.2078033685684204,
+      "learning_rate": 0.0008728210824415827,
+      "loss": 2.5929,
+      "num_input_tokens_seen": 15532027456,
+      "step": 59250
+    },
+    {
+      "epoch": 0.2828624920996458,
+      "grad_norm": 0.19340284168720245,
+      "learning_rate": 0.0008690594987436704,
+      "loss": 2.5875,
+      "num_input_tokens_seen": 15545134656,
+      "step": 59300
+    },
+    {
+      "epoch": 0.28310099335773997,
+      "grad_norm": 0.22354012727737427,
+      "learning_rate": 0.0008652514554406388,
+      "loss": 2.5976,
+      "num_input_tokens_seen": 15558241856,
+      "step": 59350
+    },
+    {
+      "epoch": 0.2833394946158341,
+      "grad_norm": 0.26784005761146545,
+      "learning_rate": 0.0008613974319136957,
+      "loss": 2.5868,
+      "num_input_tokens_seen": 15571349056,
+      "step": 59400
+    },
+    {
+      "epoch": 0.28357799587392823,
+      "grad_norm": 0.20749828219413757,
+      "learning_rate": 0.0008574979133323377,
+      "loss": 2.5784,
+      "num_input_tokens_seen": 15584456256,
+      "step": 59450
+    },
+    {
+      "epoch": 0.2838164971320224,
+      "grad_norm": 0.21545729041099548,
+      "learning_rate": 0.0008535533905932737,
+      "loss": 2.5939,
+      "num_input_tokens_seen": 15597563456,
+      "step": 59500
+    },
+    {
+      "epoch": 0.2838164971320224,
+      "eval_loss": 2.469989538192749,
+      "eval_runtime": 54.0784,
+      "eval_samples_per_second": 92.458,
+      "eval_steps_per_second": 23.115,
+      "num_input_tokens_seen": 15597563456,
+      "step": 59500
+    },
+    {
+      "epoch": 0.2840549983901165,
+      "grad_norm": 0.20836423337459564,
+      "learning_rate": 0.0008495643602586287,
+      "loss": 2.5858,
+      "num_input_tokens_seen": 15610670656,
+      "step": 59550
+    },
+    {
+      "epoch": 0.28429349964821066,
+      "grad_norm": 0.20427604019641876,
+      "learning_rate": 0.0008455313244934324,
+      "loss": 2.5781,
+      "num_input_tokens_seen": 15623777856,
+      "step": 59600
+    },
+    {
+      "epoch": 0.28453200090630476,
+      "grad_norm": 0.2341683804988861,
+      "learning_rate": 0.0008414547910024035,
+      "loss": 2.5713,
+      "num_input_tokens_seen": 15636885056,
+      "step": 59650
+    },
+    {
+      "epoch": 0.2847705021643989,
+      "grad_norm": 0.20808522403240204,
+      "learning_rate": 0.0008373352729660373,
+      "loss": 2.5751,
+      "num_input_tokens_seen": 15649992256,
+      "step": 59700
+    },
+    {
+      "epoch": 0.2850090034224931,
+      "grad_norm": 0.21032562851905823,
+      "learning_rate": 0.000833173288976002,
+      "loss": 2.5784,
+      "num_input_tokens_seen": 15663099456,
+      "step": 59750
+    },
+    {
+      "epoch": 0.2852475046805872,
+      "grad_norm": 0.23485584557056427,
+      "learning_rate": 0.0008289693629698564,
+      "loss": 2.5974,
+      "num_input_tokens_seen": 15676206656,
+      "step": 59800
+    },
+    {
+      "epoch": 0.28548600593868134,
+      "grad_norm": 0.2229880541563034,
+      "learning_rate": 0.0008247240241650918,
+      "loss": 2.5834,
+      "num_input_tokens_seen": 15689313856,
+      "step": 59850
+    },
+    {
+      "epoch": 0.28572450719677545,
+      "grad_norm": 0.21837118268013,
+      "learning_rate": 0.000820437806992512,
+      "loss": 2.5734,
+      "num_input_tokens_seen": 15702421056,
+      "step": 59900
+    },
+    {
+      "epoch": 0.2859630084548696,
+      "grad_norm": 0.2157929688692093,
+      "learning_rate": 0.0008161112510289549,
+      "loss": 2.587,
+      "num_input_tokens_seen": 15715528256,
+      "step": 59950
+    },
+    {
+      "epoch": 0.2862015097129637,
+      "grad_norm": 0.24053893983364105,
+      "learning_rate": 0.0008117449009293668,
+      "loss": 2.5853,
+      "num_input_tokens_seen": 15728635456,
+      "step": 60000
+    },
+    {
+      "epoch": 0.2862015097129637,
+      "eval_loss": 2.470459461212158,
+      "eval_runtime": 53.5859,
+      "eval_samples_per_second": 93.308,
+      "eval_steps_per_second": 23.327,
+      "num_input_tokens_seen": 15728635456,
+      "step": 60000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 15728635456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.2075634959620506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null