Training in progress, step 90, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +60 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a947abc26ea9f7064aa5882cfe41ce9f28da860e8e27e8b17c5eae05c89c94a
 size 40422168

 version https://git-lfs.github.com/spec/v1
+oid sha256:ddf3d264f4e7faa4df50572f9c5b017b949573e85dbde65a378e87fedc53222e
 size 40422168

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4730bcf347c69534b23091801b6a2f47c149b495ae3f7690af2c3806c4f107fa
 size 81075835

 version https://git-lfs.github.com/spec/v1
+oid sha256:e54225cd90a08fa49938ed4ef9396f3e7c9f1bdecfb2c172e9ca5b20f739d114
 size 81075835

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e9f036fb045222351951c991afc6f4c7d35d431e3dde5ae19757c77e2e0c1c4
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:409fe8f2237e77733b21fb6879cf1d7186d4a0d14d42651f3693147f5847f8f7
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29cef692cbb5d80311ec58beb990e25db05310b0b00f5f3bfc2d78daf8f934e7
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:06e450118c7faab59405fb9e6bc7be113ba36014f09eebd1d021e19f621ff31e
 size 14917

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5cd0e9d505fbc3f97feb166d29026132bdf14eb3e5c7ff77beebc303ee666f96
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fcfce7e32b31bead77e9e963d8e602c77a653a75c54ecbe876542fbeeba3fdc
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e488bed40fb87eb02bbb6039673d72788a08a8c0ca3fb9f930ea5a1aed5a5225
 size 1529

 version https://git-lfs.github.com/spec/v1
+oid sha256:d60fd4b39b4e65b659b019a8b86e68491e17b012bb6723be4b28b4cd7467b0c5
 size 1529

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 50,
   "best_metric": 0.3759682774543762,
   "best_model_checkpoint": "/kaggle/working/Llama-Factory-out/checkpoint-50",
-  "epoch": 0.5610098176718092,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -86,6 +86,62 @@
       "eval_samples_per_second": 4.08,
       "eval_steps_per_second": 1.021,
       "step": 50
     }
   ],
   "logging_steps": 5,
@@ -100,12 +156,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 7717249448148992.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 50,
   "best_metric": 0.3759682774543762,
   "best_model_checkpoint": "/kaggle/working/Llama-Factory-out/checkpoint-50",
+  "epoch": 1.0,
   "eval_steps": 50,
+  "global_step": 90,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.08,
       "eval_steps_per_second": 1.021,
       "step": 50
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "grad_norm": 1.648816704750061,
+      "learning_rate": 1e-05,
+      "loss": 0.3668,
+      "step": 55
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "grad_norm": 1.4755737781524658,
+      "learning_rate": 7.835603860618973e-06,
+      "loss": 0.3061,
+      "step": 60
+    },
+    {
+      "epoch": 0.729312762973352,
+      "grad_norm": 1.2600551843643188,
+      "learning_rate": 5.773817382593008e-06,
+      "loss": 0.3963,
+      "step": 65
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "grad_norm": 1.612899661064148,
+      "learning_rate": 3.912385709912794e-06,
+      "loss": 0.3179,
+      "step": 70
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "grad_norm": 1.2310423851013184,
+      "learning_rate": 2.339555568810221e-06,
+      "loss": 0.3536,
+      "step": 75
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "grad_norm": 1.7635549306869507,
+      "learning_rate": 1.129891668217783e-06,
+      "loss": 0.3133,
+      "step": 80
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "grad_norm": 1.8376754522323608,
+      "learning_rate": 3.4074173710931804e-07,
+      "loss": 0.3641,
+      "step": 85
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 1.9177987575531006,
+      "learning_rate": 9.517784181422018e-09,
+      "loss": 0.2073,
+      "step": 90
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.3864992889634816e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null