Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +132 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dab8a7a90be4132c7e6c7e6c6466a52e13d845dace74f4585f13ce0d4447aa53
 size 201880976

 version https://git-lfs.github.com/spec/v1
+oid sha256:aeda7b371ff2e1752bf1aff362fa660259c343ff41adf1ebf4a35769f07ce5e5
 size 201880976

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b0f884c0fdc51885e527451a10871636e5f43cc1aade97f045d5afd3a0709d8
 size 102771467

 version https://git-lfs.github.com/spec/v1
+oid sha256:21b4cbbc7c7e47ac572d0611695777730d7795b30ce4422d923e37f4c43b2d15
 size 102771467

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:421676f97cd124780e65268d7dc0a07293d3d73d0daa32a18560e251ed29e808
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:de2f6fd8a366989100bcb570e1fd69da9deb6a29ce5bba1d2c8889118062705c
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f71739903ba898d44abdc409bd0e9f2dcc946caab0fe7ef602f12d023f02c330
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:63ca6d6866d748b90a4b2173e0ca24db709af27b45b8531207b094cb85539103
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 50,
-  "best_metric": 0.74902075023143,
-  "best_model_checkpoint": null,
-  "epoch": 0.4678362573099415,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -134,6 +134,132 @@
       "eval_samples_per_second": 27.224,
       "eval_steps_per_second": 1.703,
       "step": 100
     }
   ],
   "logging_steps": 10,
@@ -153,7 +279,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.130999126944809e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 200,
+  "best_metric": 0.7492690359164101,
+  "best_model_checkpoint": "./qwen2.5-7b-sft-qlora/checkpoint-200",
+  "epoch": 0.935672514619883,
   "eval_steps": 50,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.224,
       "eval_steps_per_second": 1.703,
       "step": 100
+    },
+    {
+      "entropy": 0.6501711800694465,
+      "epoch": 0.5146198830409356,
+      "grad_norm": 0.1625615507364273,
+      "learning_rate": 0.00018584487936018661,
+      "loss": 0.6484,
+      "mean_token_accuracy": 0.8180312633514404,
+      "num_tokens": 2659238.0,
+      "step": 110
+    },
+    {
+      "entropy": 0.6405581876635551,
+      "epoch": 0.5614035087719298,
+      "grad_norm": 0.17417997121810913,
+      "learning_rate": 0.00018137863234250347,
+      "loss": 0.6404,
+      "mean_token_accuracy": 0.819054339826107,
+      "num_tokens": 2897816.0,
+      "step": 120
+    },
+    {
+      "entropy": 0.6380819544196129,
+      "epoch": 0.6081871345029239,
+      "grad_norm": 0.17349691689014435,
+      "learning_rate": 0.00017637082395311024,
+      "loss": 0.6366,
+      "mean_token_accuracy": 0.820624266564846,
+      "num_tokens": 3136294.0,
+      "step": 130
+    },
+    {
+      "entropy": 0.6500405013561249,
+      "epoch": 0.6549707602339181,
+      "grad_norm": 0.18412715196609497,
+      "learning_rate": 0.00017085478033060806,
+      "loss": 0.6426,
+      "mean_token_accuracy": 0.8185427248477936,
+      "num_tokens": 3375202.0,
+      "step": 140
+    },
+    {
+      "entropy": 0.6269903033971786,
+      "epoch": 0.7017543859649122,
+      "grad_norm": 0.1778886765241623,
+      "learning_rate": 0.00016486720983522156,
+      "loss": 0.6279,
+      "mean_token_accuracy": 0.8219256103038788,
+      "num_tokens": 3614721.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.7017543859649122,
+      "eval_bleu": 61.15829556167586,
+      "eval_entropy": 0.5959388177703928,
+      "eval_loss": 0.6073054671287537,
+      "eval_mean_token_accuracy": 0.8267559442255232,
+      "eval_num_tokens": 3614721.0,
+      "eval_rougeL": 0.7485533859740823,
+      "eval_runtime": 63.4672,
+      "eval_samples_per_second": 27.195,
+      "eval_steps_per_second": 1.702,
+      "step": 150
+    },
+    {
+      "entropy": 0.6273025006055832,
+      "epoch": 0.7485380116959064,
+      "grad_norm": 0.17554914951324463,
+      "learning_rate": 0.000158447958760718,
+      "loss": 0.6235,
+      "mean_token_accuracy": 0.8232012897729873,
+      "num_tokens": 3852615.0,
+      "step": 160
+    },
+    {
+      "entropy": 0.6264464437961579,
+      "epoch": 0.7953216374269005,
+      "grad_norm": 0.17685498297214508,
+      "learning_rate": 0.0001516397461638962,
+      "loss": 0.6223,
+      "mean_token_accuracy": 0.8228656515479088,
+      "num_tokens": 4085589.0,
+      "step": 170
+    },
+    {
+      "entropy": 0.623998960852623,
+      "epoch": 0.8421052631578947,
+      "grad_norm": 0.1789834052324295,
+      "learning_rate": 0.0001444878795763121,
+      "loss": 0.6191,
+      "mean_token_accuracy": 0.8224357396364212,
+      "num_tokens": 4327626.0,
+      "step": 180
+    },
+    {
+      "entropy": 0.6093558698892594,
+      "epoch": 0.8888888888888888,
+      "grad_norm": 0.17523610591888428,
+      "learning_rate": 0.00013703995349013113,
+      "loss": 0.61,
+      "mean_token_accuracy": 0.8264237254858017,
+      "num_tokens": 4570278.0,
+      "step": 190
+    },
+    {
+      "entropy": 0.6039168611168861,
+      "epoch": 0.935672514619883,
+      "grad_norm": 0.18692275881767273,
+      "learning_rate": 0.00012934553262463548,
+      "loss": 0.6032,
+      "mean_token_accuracy": 0.828160648047924,
+      "num_tokens": 4806172.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.935672514619883,
+      "eval_bleu": 60.260312927941236,
+      "eval_entropy": 0.5826076859677279,
+      "eval_loss": 0.6021928787231445,
+      "eval_mean_token_accuracy": 0.8273030961001361,
+      "eval_num_tokens": 4806172.0,
+      "eval_rougeL": 0.7492690359164101,
+      "eval_runtime": 63.3853,
+      "eval_samples_per_second": 27.23,
+      "eval_steps_per_second": 1.704,
+      "step": 200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.157882340289413e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null