Training in progress, step 400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +132 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f643dbf65b92f1c5c43f0488d3b0424400933078475a5081bb3bfb31da7c67b
 size 201880976

 version https://git-lfs.github.com/spec/v1
+oid sha256:9703f14666b0a7b428e5538b02b42d07e939f0ed596ca1de7c7458b03578106c
 size 201880976

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:380b3da97256bb7499e3718daa9ad4cb8e41346fcc168085abcd230d3cd7472c
 size 102771659

 version https://git-lfs.github.com/spec/v1
+oid sha256:74a77b53a8ef0108a74749a4fc70eb63cd6fb4c7463fa6988bb4b7bdbc658e00
 size 102771659

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3e9275e9bcf8d784f094b4cc97e271b21581c7795c6976a444a4601101c07b6
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:8dc1bb0b94bf887d7599f604268735ce8390dcb29cc5afbba0858f97039cc450
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f579db49b2c936dca1651451380432d685b899aacc0578d54ef97a37d2a2fdb6
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f85d84e1e08e1f08e16e94ced0fcf0653086b3d51679d3503f16c4bdd8524fb5
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 300,
-  "best_metric": 0.7527724116774704,
-  "best_model_checkpoint": "./qwen2.5-7b-sft-qlora/checkpoint-300",
-  "epoch": 1.4023391812865498,
   "eval_steps": 50,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -386,6 +386,132 @@
       "eval_samples_per_second": 27.275,
       "eval_steps_per_second": 1.707,
       "step": 300
     }
   ],
   "logging_steps": 10,
@@ -405,7 +531,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.256838307941868e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 400,
+  "best_metric": 0.754337888795046,
+  "best_model_checkpoint": "./qwen2.5-7b-sft-qlora/checkpoint-400",
+  "epoch": 1.8701754385964913,
   "eval_steps": 50,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.275,
       "eval_steps_per_second": 1.707,
       "step": 300
+    },
+    {
+      "entropy": 0.5341040723025798,
+      "epoch": 1.449122807017544,
+      "grad_norm": 0.2159273475408554,
+      "learning_rate": 4.355567811332311e-05,
+      "loss": 0.5294,
+      "mean_token_accuracy": 0.8453650638461113,
+      "num_tokens": 7444525.0,
+      "step": 310
+    },
+    {
+      "entropy": 0.5395594887435436,
+      "epoch": 1.495906432748538,
+      "grad_norm": 0.2247242033481598,
+      "learning_rate": 3.701512964710513e-05,
+      "loss": 0.5297,
+      "mean_token_accuracy": 0.84483852237463,
+      "num_tokens": 7692840.0,
+      "step": 320
+    },
+    {
+      "entropy": 0.5372945822775363,
+      "epoch": 1.5426900584795322,
+      "grad_norm": 0.23070968687534332,
+      "learning_rate": 3.089373510131354e-05,
+      "loss": 0.5324,
+      "mean_token_accuracy": 0.8450036272406578,
+      "num_tokens": 7927218.0,
+      "step": 330
+    },
+    {
+      "entropy": 0.5493481300771237,
+      "epoch": 1.5894736842105264,
+      "grad_norm": 0.23444080352783203,
+      "learning_rate": 2.523223134669157e-05,
+      "loss": 0.5435,
+      "mean_token_accuracy": 0.8414489045739174,
+      "num_tokens": 8164688.0,
+      "step": 340
+    },
+    {
+      "entropy": 0.5425299167633056,
+      "epoch": 1.6362573099415205,
+      "grad_norm": 0.21845506131649017,
+      "learning_rate": 2.0068294756643845e-05,
+      "loss": 0.538,
+      "mean_token_accuracy": 0.8418876558542252,
+      "num_tokens": 8406525.0,
+      "step": 350
+    },
+    {
+      "epoch": 1.6362573099415205,
+      "eval_bleu": 61.86199921842308,
+      "eval_entropy": 0.5256232053593353,
+      "eval_loss": 0.5959370732307434,
+      "eval_mean_token_accuracy": 0.8305901747058939,
+      "eval_num_tokens": 8406525.0,
+      "eval_rougeL": 0.7535288717921484,
+      "eval_runtime": 63.1544,
+      "eval_samples_per_second": 27.33,
+      "eval_steps_per_second": 1.71,
+      "step": 350
+    },
+    {
+      "entropy": 0.5370763696730136,
+      "epoch": 1.6830409356725147,
+      "grad_norm": 0.2211093306541443,
+      "learning_rate": 1.5436290477187587e-05,
+      "loss": 0.5294,
+      "mean_token_accuracy": 0.8450759872794151,
+      "num_tokens": 8647405.0,
+      "step": 360
+    },
+    {
+      "entropy": 0.5449528440833091,
+      "epoch": 1.7298245614035088,
+      "grad_norm": 0.2158094048500061,
+      "learning_rate": 1.1367043732575666e-05,
+      "loss": 0.5348,
+      "mean_token_accuracy": 0.843912661075592,
+      "num_tokens": 8888082.0,
+      "step": 370
+    },
+    {
+      "entropy": 0.5405852876603603,
+      "epoch": 1.776608187134503,
+      "grad_norm": 0.21288156509399414,
+      "learning_rate": 7.887634688515e-06,
+      "loss": 0.5314,
+      "mean_token_accuracy": 0.8438028782606125,
+      "num_tokens": 9140762.0,
+      "step": 380
+    },
+    {
+      "entropy": 0.5433258466422558,
+      "epoch": 1.8233918128654971,
+      "grad_norm": 0.23975639045238495,
+      "learning_rate": 5.021218238131719e-06,
+      "loss": 0.5395,
+      "mean_token_accuracy": 0.8432600662112236,
+      "num_tokens": 9374299.0,
+      "step": 390
+    },
+    {
+      "entropy": 0.5539177514612674,
+      "epoch": 1.8701754385964913,
+      "grad_norm": 0.23764148354530334,
+      "learning_rate": 2.7868699099777297e-06,
+      "loss": 0.5455,
+      "mean_token_accuracy": 0.8410582140088081,
+      "num_tokens": 9612371.0,
+      "step": 400
+    },
+    {
+      "epoch": 1.8701754385964913,
+      "eval_bleu": 61.99304439252053,
+      "eval_entropy": 0.5258893685208427,
+      "eval_loss": 0.5951277017593384,
+      "eval_mean_token_accuracy": 0.8308189588564413,
+      "eval_num_tokens": 9612371.0,
+      "eval_rougeL": 0.754337888795046,
+      "eval_runtime": 63.4001,
+      "eval_samples_per_second": 27.224,
+      "eval_steps_per_second": 1.703,
+      "step": 400
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.368108050339717e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null