Training in progress, step 800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +217 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a2b0c9743b534c9f3b61729ce907957871628f6c6bd4a91c86f7774e533d19f8
 size 513878424

 version https://git-lfs.github.com/spec/v1
+oid sha256:99d655d301ea858be3358895b900f83f3546df34d2ad0f6a2f427b9e8efe0dac
 size 513878424

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6cd2bc46275d71c4d0fd88a709f3e830e5dc437ac7ec70e1383abf0ea62ea7dd
 size 1028086195

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d1bf9643fafa9e9bb5ec0bb44ef18204a17f56b0fcf6fb4603dad61af264a8a
 size 1028086195

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50352f21cd324123077e7f0c0cb69ef633f7a882bdc66e19fe26f10515185db8
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:94892e7742afdef406160d78bd9e53f540b3471184bc2f154b90e6e632d989ef
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0d8ff2fcedc81c60725ad66fe21c76176599c9cb208a592f57fd543d82628a5
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:57723e8fe5027a1976ba3682a23ecfd5fc8498547c1dca4dadc9ac83caee2746
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 600,
-  "best_metric": 0.7431696057319641,
-  "best_model_checkpoint": "./outputs/sero-nouscoder-14b-sft/checkpoint-600",
-  "epoch": 1.8948616600790515,
   "eval_steps": 200,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -641,6 +641,217 @@
       "eval_samples_per_second": 0.84,
       "eval_steps_per_second": 0.429,
       "step": 600
     }
   ],
   "logging_steps": 10,
@@ -660,7 +871,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.318632687376384e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 800,
+  "best_metric": 0.737969696521759,
+  "best_model_checkpoint": "./outputs/sero-nouscoder-14b-sft/checkpoint-800",
+  "epoch": 2.524901185770751,
   "eval_steps": 200,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 0.84,
       "eval_steps_per_second": 0.429,
       "step": 600
+    },
+    {
+      "entropy": 0.7412703175097703,
+      "epoch": 1.9264822134387352,
+      "grad_norm": 0.171875,
+      "learning_rate": 6.281907376577316e-06,
+      "loss": 0.7424,
+      "mean_token_accuracy": 0.8079155292361975,
+      "num_tokens": 39471809.0,
+      "step": 610
+    },
+    {
+      "entropy": 0.7081608459353447,
+      "epoch": 1.958102766798419,
+      "grad_norm": 0.1455078125,
+      "learning_rate": 5.961257989545189e-06,
+      "loss": 0.7057,
+      "mean_token_accuracy": 0.811659300327301,
+      "num_tokens": 40121372.0,
+      "step": 620
+    },
+    {
+      "entropy": 0.7572397343814373,
+      "epoch": 1.9897233201581028,
+      "grad_norm": 0.146484375,
+      "learning_rate": 5.645496550218089e-06,
+      "loss": 0.7629,
+      "mean_token_accuracy": 0.7998820699751377,
+      "num_tokens": 40772512.0,
+      "step": 630
+    },
+    {
+      "entropy": 0.7029830978528874,
+      "epoch": 2.01897233201581,
+      "grad_norm": 0.142578125,
+      "learning_rate": 5.3350052135835616e-06,
+      "loss": 0.6927,
+      "mean_token_accuracy": 0.8122583684083577,
+      "num_tokens": 41369804.0,
+      "step": 640
+    },
+    {
+      "entropy": 0.7205941841006279,
+      "epoch": 2.0505928853754942,
+      "grad_norm": 0.1357421875,
+      "learning_rate": 5.0301597564088245e-06,
+      "loss": 0.7221,
+      "mean_token_accuracy": 0.8073350362479687,
+      "num_tokens": 42022341.0,
+      "step": 650
+    },
+    {
+      "entropy": 0.7175642896443606,
+      "epoch": 2.082213438735178,
+      "grad_norm": 0.1416015625,
+      "learning_rate": 4.7313291224513494e-06,
+      "loss": 0.7146,
+      "mean_token_accuracy": 0.8162445619702339,
+      "num_tokens": 42669879.0,
+      "step": 660
+    },
+    {
+      "entropy": 0.7316870277747511,
+      "epoch": 2.1138339920948614,
+      "grad_norm": 0.1396484375,
+      "learning_rate": 4.438874975939176e-06,
+      "loss": 0.735,
+      "mean_token_accuracy": 0.8043030217289925,
+      "num_tokens": 43316130.0,
+      "step": 670
+    },
+    {
+      "entropy": 0.7129190620034933,
+      "epoch": 2.1454545454545455,
+      "grad_norm": 0.1494140625,
+      "learning_rate": 4.153151263861379e-06,
+      "loss": 0.716,
+      "mean_token_accuracy": 0.8076732002198697,
+      "num_tokens": 43961436.0,
+      "step": 680
+    },
+    {
+      "entropy": 0.6951379429548978,
+      "epoch": 2.177075098814229,
+      "grad_norm": 0.140625,
+      "learning_rate": 3.874503787598461e-06,
+      "loss": 0.6945,
+      "mean_token_accuracy": 0.8157570861279965,
+      "num_tokens": 44610983.0,
+      "step": 690
+    },
+    {
+      "entropy": 0.740327725932002,
+      "epoch": 2.208695652173913,
+      "grad_norm": 0.166015625,
+      "learning_rate": 3.6032697844110896e-06,
+      "loss": 0.7392,
+      "mean_token_accuracy": 0.8023809418082237,
+      "num_tokens": 45261676.0,
+      "step": 700
+    },
+    {
+      "entropy": 0.705286979302764,
+      "epoch": 2.240316205533597,
+      "grad_norm": 0.1474609375,
+      "learning_rate": 3.3397775192936465e-06,
+      "loss": 0.7086,
+      "mean_token_accuracy": 0.8123329438269138,
+      "num_tokens": 45910102.0,
+      "step": 710
+    },
+    {
+      "entropy": 0.7086669180542231,
+      "epoch": 2.271936758893281,
+      "grad_norm": 0.13671875,
+      "learning_rate": 3.084345887686655e-06,
+      "loss": 0.711,
+      "mean_token_accuracy": 0.8112940810620785,
+      "num_tokens": 46558151.0,
+      "step": 720
+    },
+    {
+      "entropy": 0.685754819586873,
+      "epoch": 2.3035573122529645,
+      "grad_norm": 0.134765625,
+      "learning_rate": 2.8372840295288106e-06,
+      "loss": 0.685,
+      "mean_token_accuracy": 0.8164379067718983,
+      "num_tokens": 47205220.0,
+      "step": 730
+    },
+    {
+      "entropy": 0.7092605076730252,
+      "epoch": 2.335177865612648,
+      "grad_norm": 0.1376953125,
+      "learning_rate": 2.598890955115757e-06,
+      "loss": 0.7098,
+      "mean_token_accuracy": 0.8080747678875924,
+      "num_tokens": 47855619.0,
+      "step": 740
+    },
+    {
+      "entropy": 0.7719928354024888,
+      "epoch": 2.366798418972332,
+      "grad_norm": 0.158203125,
+      "learning_rate": 2.369455183218423e-06,
+      "loss": 0.7762,
+      "mean_token_accuracy": 0.8013517506420612,
+      "num_tokens": 48507209.0,
+      "step": 750
+    },
+    {
+      "entropy": 0.7657644001767039,
+      "epoch": 2.3984189723320157,
+      "grad_norm": 0.166015625,
+      "learning_rate": 2.1492543918988906e-06,
+      "loss": 0.7674,
+      "mean_token_accuracy": 0.800662949681282,
+      "num_tokens": 49154758.0,
+      "step": 760
+    },
+    {
+      "entropy": 0.7193233577534557,
+      "epoch": 2.4300395256917,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 1.9385550824463727e-06,
+      "loss": 0.7214,
+      "mean_token_accuracy": 0.8076900616288185,
+      "num_tokens": 49802558.0,
+      "step": 770
+    },
+    {
+      "entropy": 0.6996176840737462,
+      "epoch": 2.4616600790513834,
+      "grad_norm": 0.1435546875,
+      "learning_rate": 1.7376122568400533e-06,
+      "loss": 0.7008,
+      "mean_token_accuracy": 0.813380641490221,
+      "num_tokens": 50449669.0,
+      "step": 780
+    },
+    {
+      "entropy": 0.7119161710143089,
+      "epoch": 2.493280632411067,
+      "grad_norm": 0.1552734375,
+      "learning_rate": 1.5466691091291452e-06,
+      "loss": 0.7119,
+      "mean_token_accuracy": 0.8110212564468384,
+      "num_tokens": 51099730.0,
+      "step": 790
+    },
+    {
+      "entropy": 0.705672075971961,
+      "epoch": 2.524901185770751,
+      "grad_norm": 0.146484375,
+      "learning_rate": 1.3659567311036804e-06,
+      "loss": 0.7046,
+      "mean_token_accuracy": 0.8123706214129924,
+      "num_tokens": 51750159.0,
+      "step": 800
+    },
+    {
+      "epoch": 2.524901185770751,
+      "eval_entropy": 0.7314845383167267,
+      "eval_loss": 0.737969696521759,
+      "eval_mean_token_accuracy": 0.802791440486908,
+      "eval_num_tokens": 51750159.0,
+      "eval_runtime": 58.415,
+      "eval_samples_per_second": 0.839,
+      "eval_steps_per_second": 0.428,
+      "step": 800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4.423798999920384e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null