Training in progress, step 40, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +151 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d94fa881b998ac1accb6c412a65b1baaf6300bd8612b2bc5d1f31d5fea56d64
 size 40036040

 version https://git-lfs.github.com/spec/v1
+oid sha256:b85235b9fd06fc2b7556026c9d400735ea1cf6ceb01413094a4e13a4f220409c
 size 40036040

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fffc8a41db92b8618dd62624a488da399f904230b3289a134921e61bf6a155a
 size 20814996

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd89e21dd25e4404711c18b21837d9f7f514a8add2433a4536b637bc67095f19
 size 20814996

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd4900ec0ebdc120a0be2d88bb820715c1e79c97114ea1a2c3e152e6ed02a60e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cc25fc0d4a476d263c6b1dbecc0b805055d4f792509dbda83e19cdd50420ee0
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:db8e23e4b636e6d4cfbe5cdf1b076811f8e1f9d4c97603e891aee3c95c35c66b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a75dcc5ec09eada6641b366eac390a2a47e7ec4306b94cfdb718bc9a73ac9b0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0007137058283002203,
   "eval_steps": 20,
-  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -163,6 +163,154 @@
       "eval_samples_per_second": 11.493,
       "eval_steps_per_second": 11.493,
       "step": 20
     }
   ],
   "logging_steps": 1,
@@ -182,7 +330,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 537780794425344.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0014274116566004406,
   "eval_steps": 20,
+  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.493,
       "eval_steps_per_second": 11.493,
       "step": 20
+    },
+    {
+      "epoch": 0.0007493911197152314,
+      "grad_norm": 3.009274482727051,
+      "learning_rate": 0.00029893625775634835,
+      "loss": 3.1292,
+      "step": 21
+    },
+    {
+      "epoch": 0.0007850764111302424,
+      "grad_norm": 4.148017406463623,
+      "learning_rate": 0.0002987343436093454,
+      "loss": 3.0939,
+      "step": 22
+    },
+    {
+      "epoch": 0.0008207617025452535,
+      "grad_norm": 2.899528980255127,
+      "learning_rate": 0.00029851497482766547,
+      "loss": 2.8648,
+      "step": 23
+    },
+    {
+      "epoch": 0.0008564469939602644,
+      "grad_norm": 3.6243538856506348,
+      "learning_rate": 0.00029827817715520773,
+      "loss": 3.1808,
+      "step": 24
+    },
+    {
+      "epoch": 0.0008921322853752754,
+      "grad_norm": 4.4735894203186035,
+      "learning_rate": 0.0002980239783812289,
+      "loss": 2.9876,
+      "step": 25
+    },
+    {
+      "epoch": 0.0009278175767902865,
+      "grad_norm": 3.8239352703094482,
+      "learning_rate": 0.0002977524083370822,
+      "loss": 3.6976,
+      "step": 26
+    },
+    {
+      "epoch": 0.0009635028682052975,
+      "grad_norm": 3.177990436553955,
+      "learning_rate": 0.00029746349889271645,
+      "loss": 2.5572,
+      "step": 27
+    },
+    {
+      "epoch": 0.0009991881596203085,
+      "grad_norm": 2.7317492961883545,
+      "learning_rate": 0.0002971572839529358,
+      "loss": 2.6316,
+      "step": 28
+    },
+    {
+      "epoch": 0.0010348734510353195,
+      "grad_norm": 4.169151306152344,
+      "learning_rate": 0.00029683379945342125,
+      "loss": 3.3164,
+      "step": 29
+    },
+    {
+      "epoch": 0.0010705587424503305,
+      "grad_norm": 4.244836807250977,
+      "learning_rate": 0.000296493083356513,
+      "loss": 2.8311,
+      "step": 30
+    },
+    {
+      "epoch": 0.0011062440338653415,
+      "grad_norm": 3.5411789417266846,
+      "learning_rate": 0.00029613517564675565,
+      "loss": 2.5447,
+      "step": 31
+    },
+    {
+      "epoch": 0.0011419293252803526,
+      "grad_norm": 3.9989023208618164,
+      "learning_rate": 0.0002957601183262058,
+      "loss": 2.6177,
+      "step": 32
+    },
+    {
+      "epoch": 0.0011776146166953636,
+      "grad_norm": 3.9558351039886475,
+      "learning_rate": 0.000295367955409503,
+      "loss": 2.5028,
+      "step": 33
+    },
+    {
+      "epoch": 0.0012132999081103746,
+      "grad_norm": 4.089743614196777,
+      "learning_rate": 0.00029495873291870436,
+      "loss": 3.1483,
+      "step": 34
+    },
+    {
+      "epoch": 0.0012489851995253856,
+      "grad_norm": 4.250207901000977,
+      "learning_rate": 0.0002945324988778834,
+      "loss": 2.8495,
+      "step": 35
+    },
+    {
+      "epoch": 0.0012846704909403965,
+      "grad_norm": 5.241243839263916,
+      "learning_rate": 0.00029408930330749477,
+      "loss": 3.318,
+      "step": 36
+    },
+    {
+      "epoch": 0.0013203557823554077,
+      "grad_norm": 3.5582404136657715,
+      "learning_rate": 0.0002936291982185036,
+      "loss": 2.5436,
+      "step": 37
+    },
+    {
+      "epoch": 0.0013560410737704187,
+      "grad_norm": 4.2042622566223145,
+      "learning_rate": 0.00029315223760628217,
+      "loss": 2.849,
+      "step": 38
+    },
+    {
+      "epoch": 0.0013917263651854297,
+      "grad_norm": 3.4244472980499268,
+      "learning_rate": 0.00029265847744427303,
+      "loss": 2.2284,
+      "step": 39
+    },
+    {
+      "epoch": 0.0014274116566004406,
+      "grad_norm": 5.198617458343506,
+      "learning_rate": 0.00029214797567742035,
+      "loss": 2.3866,
+      "step": 40
+    },
+    {
+      "epoch": 0.0014274116566004406,
+      "eval_loss": 2.7816474437713623,
+      "eval_runtime": 199.5889,
+      "eval_samples_per_second": 11.464,
+      "eval_steps_per_second": 11.464,
+      "step": 40
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 769818193035264.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null