Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2550/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2550/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2550/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2550/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2550/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4c9cc357e04f459d6e728fe04ff6176e928e17e21e7c228bcc4bca607fbf757a
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c06c7c3813fddb5ac98100afaa4381d3baef788a23ae2c7f74869fe4672a6cf
 size 1037269336

last-checkpoint/global_step2550/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:331533aa0273d7ed844034657286226b3238718c45c184054676c41ff94315dd
+size 781993445

last-checkpoint/global_step2550/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d4a023f96ecf4f996521f9cfb06b8f8627eb5336444c379a4bce76a9ef3dcade
+size 781993509

last-checkpoint/global_step2550/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6200ae39dfd5a06d648527ccaf311a71c7b1d147fe5d7fc58fbb95ac931b0cad
+size 781993509

last-checkpoint/global_step2550/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:943ace536a9d78bb2de6e5316a56efdfd48708f6d372b403c76fc312c6969138
+size 781993509

last-checkpoint/global_step2550/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6dc68d7703a7eef8d86cc41de4437cc78da7c72c2af5952b0b228df8dee727a7
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2450~~


1	+ global_step2550

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e12c0961fe1a3b6ec66625b2224f2302a5c2d693cd735db7d68a016f2cb85bb7
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:91b0ee28e509aba9c3f4fd9aa443f72e6d6a57f938b3ceddd2bc7bbaf5cf585f
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998e7d3fa5d395467fa8ba58740083e47b02ee8207a4533fbc08b237a76b32a3
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0fc20aa2b364f08ed1de312499fe9555a2f7695c5ffc4d37b3434fdc9e8e70c8
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3264de8822ea300f1e72128e882e4c804497201681a6db28fc352a4ced8e33b
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:638e7b950d339cd9bb18ebffa7e43a1c200644eb1f4d72e3469233185fb09e21
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e369a49f4f14acec0bf41d3ef4a616c220de847d1f58b11471e2a844e9316393
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:166aa68437e50207c09f7d061179b22a36411d587c77f77e4583f632d4d5ebe2
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ad0002308e7a85d5ed9a363df790b3450d629316e7cdf2272144d0dd8ab391d
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:726509c8d205ff37449ab18ba69ba9d65a16125d4029696d3a738278dbe2b999
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.0702576637268066,
   "best_model_checkpoint": null,
-  "epoch": 0.3561564180840238,
   "eval_steps": 50,
-  "global_step": 2450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3830,6 +3830,162 @@
       "eval_samples_per_second": 174.376,
       "eval_steps_per_second": 10.935,
       "step": 2450
     }
   ],
   "logging_steps": 5,
@@ -3858,7 +4014,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.378124456451113e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.0672757625579834,
   "best_model_checkpoint": null,
+  "epoch": 0.3706934147405146,
   "eval_steps": 50,
+  "global_step": 2550,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 174.376,
       "eval_steps_per_second": 10.935,
       "step": 2450
+    },
+    {
+      "epoch": 0.3568832679168484,
+      "grad_norm": 2.373387098312378,
+      "learning_rate": 8.68570360607412e-05,
+      "loss": 2.087,
+      "step": 2455
+    },
+    {
+      "epoch": 0.35761011774967294,
+      "grad_norm": 2.527256488800049,
+      "learning_rate": 8.680298155139663e-05,
+      "loss": 2.1579,
+      "step": 2460
+    },
+    {
+      "epoch": 0.35833696758249745,
+      "grad_norm": 2.339224100112915,
+      "learning_rate": 8.674883463823014e-05,
+      "loss": 2.3154,
+      "step": 2465
+    },
+    {
+      "epoch": 0.359063817415322,
+      "grad_norm": 2.3437659740448,
+      "learning_rate": 8.669459545755653e-05,
+      "loss": 2.1505,
+      "step": 2470
+    },
+    {
+      "epoch": 0.3597906672481465,
+      "grad_norm": 2.31026291847229,
+      "learning_rate": 8.664026414592286e-05,
+      "loss": 2.4049,
+      "step": 2475
+    },
+    {
+      "epoch": 0.3605175170809711,
+      "grad_norm": 2.880200147628784,
+      "learning_rate": 8.658584084010815e-05,
+      "loss": 2.3197,
+      "step": 2480
+    },
+    {
+      "epoch": 0.36124436691379563,
+      "grad_norm": 2.4933598041534424,
+      "learning_rate": 8.653132567712298e-05,
+      "loss": 2.2212,
+      "step": 2485
+    },
+    {
+      "epoch": 0.36197121674662014,
+      "grad_norm": 2.8316283226013184,
+      "learning_rate": 8.647671879420927e-05,
+      "loss": 2.302,
+      "step": 2490
+    },
+    {
+      "epoch": 0.3626980665794447,
+      "grad_norm": 2.6056923866271973,
+      "learning_rate": 8.64220203288397e-05,
+      "loss": 2.3031,
+      "step": 2495
+    },
+    {
+      "epoch": 0.3634249164122692,
+      "grad_norm": 2.3827829360961914,
+      "learning_rate": 8.636723041871766e-05,
+      "loss": 2.3328,
+      "step": 2500
+    },
+    {
+      "epoch": 0.3634249164122692,
+      "eval_loss": 2.0754590034484863,
+      "eval_runtime": 25.4986,
+      "eval_samples_per_second": 129.458,
+      "eval_steps_per_second": 8.118,
+      "step": 2500
+    },
+    {
+      "epoch": 0.36415176624509377,
+      "grad_norm": 2.934666872024536,
+      "learning_rate": 8.631234920177665e-05,
+      "loss": 2.1663,
+      "step": 2505
+    },
+    {
+      "epoch": 0.3648786160779183,
+      "grad_norm": 2.3056254386901855,
+      "learning_rate": 8.625737681618008e-05,
+      "loss": 2.1278,
+      "step": 2510
+    },
+    {
+      "epoch": 0.36560546591074283,
+      "grad_norm": 2.4940974712371826,
+      "learning_rate": 8.620231340032087e-05,
+      "loss": 2.0522,
+      "step": 2515
+    },
+    {
+      "epoch": 0.3663323157435674,
+      "grad_norm": 2.724717855453491,
+      "learning_rate": 8.614715909282107e-05,
+      "loss": 2.1553,
+      "step": 2520
+    },
+    {
+      "epoch": 0.3670591655763919,
+      "grad_norm": 2.628826379776001,
+      "learning_rate": 8.609191403253163e-05,
+      "loss": 1.991,
+      "step": 2525
+    },
+    {
+      "epoch": 0.36778601540921646,
+      "grad_norm": 2.2899041175842285,
+      "learning_rate": 8.603657835853188e-05,
+      "loss": 1.974,
+      "step": 2530
+    },
+    {
+      "epoch": 0.368512865242041,
+      "grad_norm": 2.5030078887939453,
+      "learning_rate": 8.598115221012935e-05,
+      "loss": 2.3256,
+      "step": 2535
+    },
+    {
+      "epoch": 0.3692397150748655,
+      "grad_norm": 2.282642364501953,
+      "learning_rate": 8.592563572685929e-05,
+      "loss": 2.1428,
+      "step": 2540
+    },
+    {
+      "epoch": 0.3699665649076901,
+      "grad_norm": 2.9469528198242188,
+      "learning_rate": 8.587002904848438e-05,
+      "loss": 2.1632,
+      "step": 2545
+    },
+    {
+      "epoch": 0.3706934147405146,
+      "grad_norm": 2.4431910514831543,
+      "learning_rate": 8.581433231499436e-05,
+      "loss": 2.2365,
+      "step": 2550
+    },
+    {
+      "epoch": 0.3706934147405146,
+      "eval_loss": 2.0672757625579834,
+      "eval_runtime": 19.0363,
+      "eval_samples_per_second": 173.406,
+      "eval_steps_per_second": 10.874,
+      "step": 2550
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 6.639732802893906e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null