Training in progress, step 4800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09a967aa6e8a06933ec10fe64749fe2a5ebd8f476503db63c96a4eeb363a0d0f
 size 2231685024

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1bc3b3e143f9c5cf9f286dd374831316522298c162cc7d9aee812c4494e2502
 size 2231685024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cda6d8a0ed828c466cfe33411954edb901baed050118b024f1d8ad1c69b11e1
 size 4383116999

 version https://git-lfs.github.com/spec/v1
+oid sha256:b3f31c32a5cc6868da9e0787a7682ce0c0935d63cee861a343159b380d70512b
 size 4383116999

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e0eebef1e3232e8f2e3f4e49a633d4bbbbd205f77ce4cf6d894d7356c90d284d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:4413b3c1c89ddb3d57ddabb40868d44f33618613ca6b14588ab3262fd959fe1a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d5aa7843fee19f986423b7658b656356c03da99a77a7d470397314a84a80a47a
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:536269e746606d89d7092eefc1d242400387136c0a490c65f4003318a00e54ce
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7991831302642822,
   "best_model_checkpoint": "./output/checkpoint-4650",
-  "epoch": 0.3342197944368576,
   "eval_steps": 150,
-  "global_step": 4650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3510,6 +3510,119 @@
       "eval_samples_per_second": 6.721,
       "eval_steps_per_second": 6.721,
       "step": 4650
     }
   ],
   "logging_steps": 10,
@@ -3529,7 +3642,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.9545543201425e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7991831302642822,
   "best_model_checkpoint": "./output/checkpoint-4650",
+  "epoch": 0.34500107812836917,
   "eval_steps": 150,
+  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.721,
       "eval_steps_per_second": 6.721,
       "step": 4650
+    },
+    {
+      "epoch": 0.33493854668295836,
+      "grad_norm": 4.487733364105225,
+      "learning_rate": 9.466184635518361e-07,
+      "loss": 0.6828,
+      "step": 4660
+    },
+    {
+      "epoch": 0.33565729892905916,
+      "grad_norm": 3.950061082839966,
+      "learning_rate": 8.919587459299461e-07,
+      "loss": 0.6465,
+      "step": 4670
+    },
+    {
+      "epoch": 0.3363760511751599,
+      "grad_norm": 4.053449630737305,
+      "learning_rate": 8.389066067082852e-07,
+      "loss": 0.6912,
+      "step": 4680
+    },
+    {
+      "epoch": 0.3370948034212607,
+      "grad_norm": 3.2221829891204834,
+      "learning_rate": 7.874642266525102e-07,
+      "loss": 0.7184,
+      "step": 4690
+    },
+    {
+      "epoch": 0.3378135556673615,
+      "grad_norm": 3.5493359565734863,
+      "learning_rate": 7.376337203573824e-07,
+      "loss": 0.6761,
+      "step": 4700
+    },
+    {
+      "epoch": 0.3385323079134622,
+      "grad_norm": 3.3036763668060303,
+      "learning_rate": 6.894171361598467e-07,
+      "loss": 0.6892,
+      "step": 4710
+    },
+    {
+      "epoch": 0.339251060159563,
+      "grad_norm": 4.632784366607666,
+      "learning_rate": 6.428164560548134e-07,
+      "loss": 0.7149,
+      "step": 4720
+    },
+    {
+      "epoch": 0.33996981240566376,
+      "grad_norm": 4.091222763061523,
+      "learning_rate": 5.978335956137304e-07,
+      "loss": 0.7652,
+      "step": 4730
+    },
+    {
+      "epoch": 0.34068856465176456,
+      "grad_norm": 4.298058032989502,
+      "learning_rate": 5.544704039058025e-07,
+      "loss": 0.6956,
+      "step": 4740
+    },
+    {
+      "epoch": 0.3414073168978653,
+      "grad_norm": 3.7245140075683594,
+      "learning_rate": 5.12728663421993e-07,
+      "loss": 0.6434,
+      "step": 4750
+    },
+    {
+      "epoch": 0.3421260691439661,
+      "grad_norm": 3.273090124130249,
+      "learning_rate": 4.7261009000177274e-07,
+      "loss": 0.72,
+      "step": 4760
+    },
+    {
+      "epoch": 0.34284482139006683,
+      "grad_norm": 4.249372959136963,
+      "learning_rate": 4.3411633276255307e-07,
+      "loss": 0.7028,
+      "step": 4770
+    },
+    {
+      "epoch": 0.34356357363616763,
+      "grad_norm": 3.6272311210632324,
+      "learning_rate": 3.972489740319274e-07,
+      "loss": 0.731,
+      "step": 4780
+    },
+    {
+      "epoch": 0.34428232588226837,
+      "grad_norm": 4.036685943603516,
+      "learning_rate": 3.62009529282612e-07,
+      "loss": 0.7919,
+      "step": 4790
+    },
+    {
+      "epoch": 0.34500107812836917,
+      "grad_norm": 4.364447116851807,
+      "learning_rate": 3.283994470701579e-07,
+      "loss": 0.7161,
+      "step": 4800
+    },
+    {
+      "epoch": 0.34500107812836917,
+      "eval_loss": 0.7992691397666931,
+      "eval_runtime": 77.2387,
+      "eval_samples_per_second": 6.473,
+      "eval_steps_per_second": 6.473,
+      "step": 4800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.088392743032586e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null