Training in progress, step 300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +132 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aeda7b371ff2e1752bf1aff362fa660259c343ff41adf1ebf4a35769f07ce5e5
 size 201880976

 version https://git-lfs.github.com/spec/v1
+oid sha256:8f643dbf65b92f1c5c43f0488d3b0424400933078475a5081bb3bfb31da7c67b
 size 201880976

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21b4cbbc7c7e47ac572d0611695777730d7795b30ce4422d923e37f4c43b2d15
-size 102771467

 version https://git-lfs.github.com/spec/v1
+oid sha256:380b3da97256bb7499e3718daa9ad4cb8e41346fcc168085abcd230d3cd7472c
+size 102771659

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:de2f6fd8a366989100bcb570e1fd69da9deb6a29ce5bba1d2c8889118062705c
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3e9275e9bcf8d784f094b4cc97e271b21581c7795c6976a444a4601101c07b6
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:63ca6d6866d748b90a4b2173e0ca24db709af27b45b8531207b094cb85539103
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f579db49b2c936dca1651451380432d685b899aacc0578d54ef97a37d2a2fdb6
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 200,
-  "best_metric": 0.7492690359164101,
-  "best_model_checkpoint": "./qwen2.5-7b-sft-qlora/checkpoint-200",
-  "epoch": 0.935672514619883,
   "eval_steps": 50,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -260,6 +260,132 @@
       "eval_samples_per_second": 27.23,
       "eval_steps_per_second": 1.704,
       "step": 200
     }
   ],
   "logging_steps": 10,
@@ -279,7 +405,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.157882340289413e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 300,
+  "best_metric": 0.7527724116774704,
+  "best_model_checkpoint": "./qwen2.5-7b-sft-qlora/checkpoint-300",
+  "epoch": 1.4023391812865498,
   "eval_steps": 50,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 27.23,
       "eval_steps_per_second": 1.704,
       "step": 200
+    },
+    {
+      "entropy": 0.607174352556467,
+      "epoch": 0.9824561403508771,
+      "grad_norm": 0.1787632554769516,
+      "learning_rate": 0.00012145582208119497,
+      "loss": 0.6041,
+      "mean_token_accuracy": 0.826733535528183,
+      "num_tokens": 5046903.0,
+      "step": 210
+    },
+    {
+      "entropy": 0.5812954008579254,
+      "epoch": 1.0280701754385966,
+      "grad_norm": 0.18372896313667297,
+      "learning_rate": 0.00011342332658176555,
+      "loss": 0.5672,
+      "mean_token_accuracy": 0.8368643965476599,
+      "num_tokens": 5286085.0,
+      "step": 220
+    },
+    {
+      "entropy": 0.5580198377370834,
+      "epoch": 1.0748538011695907,
+      "grad_norm": 0.19435207545757294,
+      "learning_rate": 0.00010530150105862748,
+      "loss": 0.5539,
+      "mean_token_accuracy": 0.8394016489386559,
+      "num_tokens": 5522827.0,
+      "step": 230
+    },
+    {
+      "entropy": 0.5524544611573219,
+      "epoch": 1.1216374269005849,
+      "grad_norm": 0.2061990201473236,
+      "learning_rate": 9.71443949206304e-05,
+      "loss": 0.5445,
+      "mean_token_accuracy": 0.8409878596663475,
+      "num_tokens": 5764879.0,
+      "step": 240
+    },
+    {
+      "entropy": 0.5744347527623177,
+      "epoch": 1.168421052631579,
+      "grad_norm": 0.21095068752765656,
+      "learning_rate": 8.900629236329482e-05,
+      "loss": 0.5672,
+      "mean_token_accuracy": 0.8354128882288933,
+      "num_tokens": 6002932.0,
+      "step": 250
+    },
+    {
+      "epoch": 1.168421052631579,
+      "eval_bleu": 61.178798380428454,
+      "eval_entropy": 0.5307412986402158,
+      "eval_loss": 0.6018245816230774,
+      "eval_mean_token_accuracy": 0.8288786930066568,
+      "eval_num_tokens": 6002932.0,
+      "eval_rougeL": 0.7482538683957054,
+      "eval_runtime": 63.5756,
+      "eval_samples_per_second": 27.149,
+      "eval_steps_per_second": 1.699,
+      "step": 250
+    },
+    {
+      "entropy": 0.5755763545632362,
+      "epoch": 1.2152046783625732,
+      "grad_norm": 0.20451681315898895,
+      "learning_rate": 8.094135111644742e-05,
+      "loss": 0.568,
+      "mean_token_accuracy": 0.8352775603532792,
+      "num_tokens": 6236870.0,
+      "step": 260
+    },
+    {
+      "entropy": 0.5376525044441223,
+      "epoch": 1.2619883040935673,
+      "grad_norm": 0.21364448964595795,
+      "learning_rate": 7.300324203346431e-05,
+      "loss": 0.5367,
+      "mean_token_accuracy": 0.8422502785921097,
+      "num_tokens": 6475853.0,
+      "step": 270
+    },
+    {
+      "entropy": 0.5575953021645546,
+      "epoch": 1.3087719298245615,
+      "grad_norm": 0.2244759500026703,
+      "learning_rate": 6.524479192059698e-05,
+      "loss": 0.5487,
+      "mean_token_accuracy": 0.8396281078457832,
+      "num_tokens": 6717478.0,
+      "step": 280
+    },
+    {
+      "entropy": 0.5532271094620228,
+      "epoch": 1.3555555555555556,
+      "grad_norm": 0.22009848058223724,
+      "learning_rate": 5.7717631983292375e-05,
+      "loss": 0.5539,
+      "mean_token_accuracy": 0.839461912214756,
+      "num_tokens": 6956096.0,
+      "step": 290
+    },
+    {
+      "entropy": 0.5678240090608597,
+      "epoch": 1.4023391812865498,
+      "grad_norm": 0.22350303828716278,
+      "learning_rate": 5.047185422903928e-05,
+      "loss": 0.5536,
+      "mean_token_accuracy": 0.8384527832269668,
+      "num_tokens": 7198597.0,
+      "step": 300
+    },
+    {
+      "epoch": 1.4023391812865498,
+      "eval_bleu": 61.61816935351767,
+      "eval_entropy": 0.529030436442958,
+      "eval_loss": 0.5979623198509216,
+      "eval_mean_token_accuracy": 0.8302161036818115,
+      "eval_num_tokens": 7198597.0,
+      "eval_rougeL": 0.7527724116774704,
+      "eval_runtime": 63.2813,
+      "eval_samples_per_second": 27.275,
+      "eval_steps_per_second": 1.707,
+      "step": 300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.256838307941868e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null