Training in progress, step 100, checkpoint

Browse files

Files changed (10) hide show

.gitattributes +5 -0
checkpoint-100/optimizer_0/.metadata +3 -0
checkpoint-100/optimizer_0/__0_0.distcp +3 -0
checkpoint-100/optimizer_0/__1_0.distcp +3 -0
checkpoint-100/pytorch_model_fsdp_0/.metadata +0 -0
checkpoint-100/pytorch_model_fsdp_0/__0_0.distcp +3 -0
checkpoint-100/pytorch_model_fsdp_0/__1_0.distcp +3 -0
checkpoint-100/rng_state_0.pth +1 -1
checkpoint-100/rng_state_1.pth +1 -1
checkpoint-100/trainer_state.json +40 -40

.gitattributes CHANGED Viewed

@@ -33,3 +33,8 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/optimizer_0/.metadata filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/optimizer_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/optimizer_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/pytorch_model_fsdp_0/__0_0.distcp filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/pytorch_model_fsdp_0/__1_0.distcp filter=lfs diff=lfs merge=lfs -text

checkpoint-100/optimizer_0/.metadata ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a74ba8fcf2d857e573ced9e8ccd472ece612ef1ca47c4379e8bbc05bf43f4fa8
+size 2108254

checkpoint-100/optimizer_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:279aeb412860ec2411b607ca1d224edd0a200f94e95a9639539bf22fd73bce77
+size 13256787644

checkpoint-100/optimizer_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc6d1fb26db4d101efafcaa7e7bcfde898dd2f243ac8061e688295e25d7d7adf
+size 13257964260

checkpoint-100/pytorch_model_fsdp_0/.metadata ADDED Viewed

Binary file (734 kB). View file

checkpoint-100/pytorch_model_fsdp_0/__0_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:428599b87893bf2cc5bdcc4df3e7518cb37f0349bd5eeeba36aac64acce595b7
+size 6628321920

checkpoint-100/pytorch_model_fsdp_0/__1_0.distcp ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af2bc1196dddd4042dcd616bc03c9fbf4c68315c342234e1b9b5126135d7b70b
+size 6628321920

checkpoint-100/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6d54c5084f33c509ac45b338b11639cfe7bc84d2e04580e41f2e890393612f49
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:c9933a1be37579869b948857aa6f00c9819fe4f66ee68e2a29ef74a9f27e2737
 size 14512

checkpoint-100/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6a8085e6062dc7d5d06565ca1225c048c0553237aea788b0c04267e7be7d323f
 size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:ccb2b9f73f6c726d541e2b15cf5cb6c566ea0512dd15613e1c2878f1d4825318
 size 14512

checkpoint-100/trainer_state.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
-  "best_metric": 0.6374139189720154,
-  "best_model_checkpoint": "./llama3/28-08-24-Weni-Pipeline_test_Experiment with SFT and Llama3 70b-2_max_steps-1362_batch_16_2024-08-28/checkpoint-100",
-  "epoch": 0.2202036884117809,
   "eval_steps": 100,
   "global_step": 100,
   "is_hyper_param_search": false,
@@ -9,98 +9,98 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02202036884117809,
-      "grad_norm": 0.6965782642364502,
       "learning_rate": 7.5e-05,
-      "loss": 2.1201,
       "step": 10
     },
     {
-      "epoch": 0.04404073768235618,
-      "grad_norm": 0.7504029870033264,
       "learning_rate": 0.00015,
-      "loss": 0.9392,
       "step": 20
     },
     {
-      "epoch": 0.06606110652353427,
-      "grad_norm": 0.7269854545593262,
       "learning_rate": 0.000225,
-      "loss": 0.7958,
       "step": 30
     },
     {
-      "epoch": 0.08808147536471236,
-      "grad_norm": 0.15891791880130768,
       "learning_rate": 0.0003,
-      "loss": 0.7251,
       "step": 40
     },
     {
-      "epoch": 0.11010184420589045,
-      "grad_norm": 0.14764881134033203,
       "learning_rate": 0.00029995764763563235,
-      "loss": 0.6941,
       "step": 50
     },
     {
-      "epoch": 0.13212221304706853,
-      "grad_norm": 0.11882930248975754,
       "learning_rate": 0.00029983061445883305,
-      "loss": 0.673,
       "step": 60
     },
     {
-      "epoch": 0.15414258188824662,
-      "grad_norm": 0.15152081847190857,
       "learning_rate": 0.0002996189722050073,
-      "loss": 0.6428,
       "step": 70
     },
     {
-      "epoch": 0.17616295072942473,
-      "grad_norm": 0.1619480848312378,
       "learning_rate": 0.0002993228403881531,
-      "loss": 0.6465,
       "step": 80
     },
     {
-      "epoch": 0.1981833195706028,
-      "grad_norm": 0.15019242465496063,
       "learning_rate": 0.00029894238623337174,
-      "loss": 0.6308,
       "step": 90
     },
     {
-      "epoch": 0.2202036884117809,
-      "grad_norm": 0.14553773403167725,
       "learning_rate": 0.00029847782458243663,
-      "loss": 0.6314,
       "step": 100
     },
     {
-      "epoch": 0.2202036884117809,
       "eval_accuracy": 1.0,
       "eval_f1": 1.0,
       "eval_f1_macro": 1.0,
       "eval_f1_micro": 1.0,
-      "eval_loss": 0.6374139189720154,
       "eval_precision": 1.0,
       "eval_precision_macro": 1.0,
       "eval_precision_micro": 1.0,
       "eval_recall": 1.0,
       "eval_recall_macro": 1.0,
       "eval_recall_micro": 1.0,
-      "eval_runtime": 1957.1676,
-      "eval_samples_per_second": 0.413,
-      "eval_steps_per_second": 0.206,
       "step": 100
     }
   ],
   "logging_steps": 10,
   "max_steps": 1362,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -114,7 +114,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4711855325184.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.5742923021316528,
+  "best_model_checkpoint": "./llama3/30-08-24-Weni-Pipeline_test_Experiment with SFT and Llama3 70b-2_max_steps-1362_batch_8_2024-08-30/checkpoint-100",
+  "epoch": 0.44004400440044006,
   "eval_steps": 100,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.04400440044004401,
+      "grad_norm": 0.5568628907203674,
       "learning_rate": 7.5e-05,
+      "loss": 2.0875,
       "step": 10
     },
     {
+      "epoch": 0.08800880088008801,
+      "grad_norm": 0.2537558972835541,
       "learning_rate": 0.00015,
+      "loss": 0.9378,
       "step": 20
     },
     {
+      "epoch": 0.132013201320132,
+      "grad_norm": 0.24558919668197632,
       "learning_rate": 0.000225,
+      "loss": 0.7,
       "step": 30
     },
     {
+      "epoch": 0.17601760176017603,
+      "grad_norm": 0.13937097787857056,
       "learning_rate": 0.0003,
+      "loss": 0.6298,
       "step": 40
     },
     {
+      "epoch": 0.22002200220022003,
+      "grad_norm": 0.1871194988489151,
       "learning_rate": 0.00029995764763563235,
+      "loss": 0.6321,
       "step": 50
     },
     {
+      "epoch": 0.264026402640264,
+      "grad_norm": 0.14626263082027435,
       "learning_rate": 0.00029983061445883305,
+      "loss": 0.6403,
       "step": 60
     },
     {
+      "epoch": 0.30803080308030806,
+      "grad_norm": 0.12049665302038193,
       "learning_rate": 0.0002996189722050073,
+      "loss": 0.5998,
       "step": 70
     },
     {
+      "epoch": 0.35203520352035206,
+      "grad_norm": 0.13617923855781555,
       "learning_rate": 0.0002993228403881531,
+      "loss": 0.5942,
       "step": 80
     },
     {
+      "epoch": 0.39603960396039606,
+      "grad_norm": 0.1271793246269226,
       "learning_rate": 0.00029894238623337174,
+      "loss": 0.5647,
       "step": 90
     },
     {
+      "epoch": 0.44004400440044006,
+      "grad_norm": 0.18757876753807068,
       "learning_rate": 0.00029847782458243663,
+      "loss": 0.5619,
       "step": 100
     },
     {
+      "epoch": 0.44004400440044006,
       "eval_accuracy": 1.0,
       "eval_f1": 1.0,
       "eval_f1_macro": 1.0,
       "eval_f1_micro": 1.0,
+      "eval_loss": 0.5742923021316528,
       "eval_precision": 1.0,
       "eval_precision_macro": 1.0,
       "eval_precision_micro": 1.0,
       "eval_recall": 1.0,
       "eval_recall_macro": 1.0,
       "eval_recall_micro": 1.0,
+      "eval_runtime": 90.5857,
+      "eval_samples_per_second": 4.46,
+      "eval_steps_per_second": 1.115,
       "step": 100
     }
   ],
   "logging_steps": 10,
   "max_steps": 1362,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
   "save_steps": 100,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1.3925298981778227e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null