Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step5550/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5550/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5550/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5550/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step5550/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7f79687bb9f5f0706366f2c8be19c15c67471263d18f90d20b5060477db9fc88
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:67f14b217337322ca15f39ff83faddad85eaa2b699e839156e4b5a8f9a547f46
 size 1037269336

last-checkpoint/global_step5550/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7c87cdd188b7d8338c5735456cd0b5d5f76da1ae45c65ae64203c43bb2cc5cbb
+size 781993445

last-checkpoint/global_step5550/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bcd4e113b5fb8155b35a8a0c4e6fc10ed855790f08ce29e733f8d66fda5af32d
+size 781993509

last-checkpoint/global_step5550/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae567e275bbee69ba582162f258fe56cae2d7f50794f0cc5549cee9c1092a4b0
+size 781993509

last-checkpoint/global_step5550/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cd59427a0336d2178aac48cec15bb26146284b95ac46e9b37d8119c87145dc57
+size 781993509

last-checkpoint/global_step5550/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:67e00afbb6ddc69255a0727f2ff587593f7d4cec424b3a448da9f5de9671f71e
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step5450~~


1	+ global_step5550

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:09517ccbebacf6bd023c1ab9d33afd5ec868b9be2770425bd6ebefa3839d5f4d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c363c9d6409891b8a0c216d60fd16b304f275f82249966d3bc42689f8ffeca4
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d62fb500bd7f639c86a4805d99914de20d8c185a99a488bb6ea36449fa573a0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:12da4effb035daeb8df40f07293059c0cd2a4fed6029443b6a20828e64db1c2a
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:763a3f897c1e33a97ed5b1f4dd7ab1bdca39ada5f60f258f0e9cd8f218878aaa
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e949608ee1f454e74a01438a4b477930ebee2355ab0167ac452e85c9078851f2
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:074a5f66e9ddd88b37d69172a271f48d50878d6d7b7fdbdb1735f35f2e0a2b15
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a78f5e77cc25088c5130959b2bf3c1ee05d44c7e4aef6524adc45fb65662182
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9aab12b223f7247afaaf46de482c72204945729f45b93a867c6ad025ed23f245
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:6a52d6724c4ae1e5cf5a59cbc21dfbb5e7c37003b46ec99ab94837465b1b4c4d
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.8068690299987793,
   "best_model_checkpoint": null,
-  "epoch": 0.7922663177787469,
   "eval_steps": 50,
-  "global_step": 5450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8510,6 +8510,162 @@
       "eval_samples_per_second": 172.204,
       "eval_steps_per_second": 10.799,
       "step": 5450
     }
   ],
   "logging_steps": 5,
@@ -8538,7 +8694,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4208114924453888e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.7976654767990112,
   "best_model_checkpoint": null,
+  "epoch": 0.8068033144352377,
   "eval_steps": 50,
+  "global_step": 5550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 172.204,
       "eval_steps_per_second": 10.799,
       "step": 5450
+    },
+    {
+      "epoch": 0.7929931676115715,
+      "grad_norm": 2.3272275924682617,
+      "learning_rate": 4.369321767175934e-05,
+      "loss": 1.8659,
+      "step": 5455
+    },
+    {
+      "epoch": 0.793720017444396,
+      "grad_norm": 2.3955276012420654,
+      "learning_rate": 4.3614388885420454e-05,
+      "loss": 1.9935,
+      "step": 5460
+    },
+    {
+      "epoch": 0.7944468672772206,
+      "grad_norm": 2.2696611881256104,
+      "learning_rate": 4.353557642249021e-05,
+      "loss": 2.107,
+      "step": 5465
+    },
+    {
+      "epoch": 0.795173717110045,
+      "grad_norm": 2.432871103286743,
+      "learning_rate": 4.345678048137896e-05,
+      "loss": 2.1197,
+      "step": 5470
+    },
+    {
+      "epoch": 0.7959005669428696,
+      "grad_norm": 2.0708091259002686,
+      "learning_rate": 4.337800126045534e-05,
+      "loss": 2.096,
+      "step": 5475
+    },
+    {
+      "epoch": 0.7966274167756942,
+      "grad_norm": 2.519308567047119,
+      "learning_rate": 4.3299238958045964e-05,
+      "loss": 1.914,
+      "step": 5480
+    },
+    {
+      "epoch": 0.7973542666085187,
+      "grad_norm": 2.087770938873291,
+      "learning_rate": 4.3220493772434835e-05,
+      "loss": 1.9734,
+      "step": 5485
+    },
+    {
+      "epoch": 0.7980811164413432,
+      "grad_norm": 2.3013477325439453,
+      "learning_rate": 4.314176590186285e-05,
+      "loss": 2.0952,
+      "step": 5490
+    },
+    {
+      "epoch": 0.7988079662741677,
+      "grad_norm": 2.3956501483917236,
+      "learning_rate": 4.306305554452735e-05,
+      "loss": 2.1661,
+      "step": 5495
+    },
+    {
+      "epoch": 0.7995348161069923,
+      "grad_norm": 2.290743827819824,
+      "learning_rate": 4.298436289858153e-05,
+      "loss": 1.9764,
+      "step": 5500
+    },
+    {
+      "epoch": 0.7995348161069923,
+      "eval_loss": 1.8048888444900513,
+      "eval_runtime": 20.7967,
+      "eval_samples_per_second": 158.727,
+      "eval_steps_per_second": 9.953,
+      "step": 5500
+    },
+    {
+      "epoch": 0.8002616659398168,
+      "grad_norm": 2.141601324081421,
+      "learning_rate": 4.2905688162134085e-05,
+      "loss": 1.8667,
+      "step": 5505
+    },
+    {
+      "epoch": 0.8009885157726414,
+      "grad_norm": 2.3627877235412598,
+      "learning_rate": 4.2827031533248535e-05,
+      "loss": 2.1887,
+      "step": 5510
+    },
+    {
+      "epoch": 0.8017153656054659,
+      "grad_norm": 2.5023484230041504,
+      "learning_rate": 4.2748393209942855e-05,
+      "loss": 2.13,
+      "step": 5515
+    },
+    {
+      "epoch": 0.8024422154382904,
+      "grad_norm": 2.540010690689087,
+      "learning_rate": 4.266977339018893e-05,
+      "loss": 2.1042,
+      "step": 5520
+    },
+    {
+      "epoch": 0.803169065271115,
+      "grad_norm": 2.3447046279907227,
+      "learning_rate": 4.259117227191208e-05,
+      "loss": 2.1636,
+      "step": 5525
+    },
+    {
+      "epoch": 0.8038959151039395,
+      "grad_norm": 2.090090751647949,
+      "learning_rate": 4.251259005299049e-05,
+      "loss": 1.8241,
+      "step": 5530
+    },
+    {
+      "epoch": 0.8046227649367641,
+      "grad_norm": 2.4929826259613037,
+      "learning_rate": 4.243402693125484e-05,
+      "loss": 2.0696,
+      "step": 5535
+    },
+    {
+      "epoch": 0.8053496147695886,
+      "grad_norm": 1.9764723777770996,
+      "learning_rate": 4.235548310448767e-05,
+      "loss": 1.9418,
+      "step": 5540
+    },
+    {
+      "epoch": 0.8060764646024131,
+      "grad_norm": 2.151935338973999,
+      "learning_rate": 4.2276958770423e-05,
+      "loss": 1.9833,
+      "step": 5545
+    },
+    {
+      "epoch": 0.8068033144352377,
+      "grad_norm": 2.3030054569244385,
+      "learning_rate": 4.2198454126745694e-05,
+      "loss": 2.0953,
+      "step": 5550
+    },
+    {
+      "epoch": 0.8068033144352377,
+      "eval_loss": 1.7976654767990112,
+      "eval_runtime": 19.0973,
+      "eval_samples_per_second": 172.852,
+      "eval_steps_per_second": 10.839,
+      "step": 5550
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.4465642591598674e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null