Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step3900/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3900/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3900/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3900/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3900/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7894fb59c0c858b4b78899234347218eafb756379f3feaa6c4791094c33f31d9
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:0240b6e222ded106342ff50b761da38ad2b38fcb3808077be942ca362e7e7671
 size 1037269336

last-checkpoint/global_step3900/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:502a73599633b052195a6a26af0bedf02509a127fbc1570b8b556d21bdf5d271
+size 781993445

last-checkpoint/global_step3900/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:908ea792c39c911c85d9d5492e49693edb28c198dc634bde11de57ff5240ffae
+size 781993509

last-checkpoint/global_step3900/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e5996472e52d43ed85c4ac34d5c558f5521176e0c8c6d5d172e3c29ef4c51ab1
+size 781993509

last-checkpoint/global_step3900/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d9475970e91582e8a4622d6cb5268e5d8dfe47471a26d20b6489bde951f01d3
+size 781993509

last-checkpoint/global_step3900/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa4e30b1691db220ebbbf7a914ce92bda79ed6b8493e61bfbe649f84608bb961
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step3800~~


1	+ global_step3900

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d65b0cc0b56c6a307232088098dbab3d86f71cd764c1988d42f96c384dafbbc0
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:b12b40563b99c2baee008fe86357b2292b938122b66c4fd030619ed3a7e249c2
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ac58272e122edfb1a4c58c2b90ee5648645eaa16340e3b0a8b37cc453cc2f64
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c324bba1f61bf365a138212f43772e0143abdeacc0a0a8df262a19f5484c461
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9841fcb5dea347cc559ad1484633c35e94e89849517d837deebc376cd07c9636
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:66d131ba9a870afc277bffc705ecd17f99202d034a2e308e14148808e10f8866
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:58ed277697e9f67dcd8ca8e4c5928bb43817b76ce52df52970c03e778e31281f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:52ad6bb7a439bb1c3f9f1f35e584026ae43dfcd4373e8b47d872d00c633752f2
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:07b15ad691da352c69e0f16dcc959dd2ee78afb5ec13b6759fd2096d0d578e0c
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:c5fd6e854e3b09e0cbb5e0b9ed1447e26fda6e84966f68c365186f77f59549fc
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 1.9534403085708618,
   "best_model_checkpoint": null,
-  "epoch": 0.5524058729466492,
   "eval_steps": 50,
-  "global_step": 3800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5936,6 +5936,162 @@
       "eval_samples_per_second": 171.941,
       "eval_steps_per_second": 10.782,
       "step": 3800
     }
   ],
   "logging_steps": 5,
@@ -5964,7 +6120,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.911726619733524e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 1.9406747817993164,
   "best_model_checkpoint": null,
+  "epoch": 0.56694286960314,
   "eval_steps": 50,
+  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 171.941,
       "eval_steps_per_second": 10.782,
       "step": 3800
+    },
+    {
+      "epoch": 0.5531327227794738,
+      "grad_norm": 3.0287039279937744,
+      "learning_rate": 6.939495836072836e-05,
+      "loss": 2.1146,
+      "step": 3805
+    },
+    {
+      "epoch": 0.5538595726122983,
+      "grad_norm": 2.5071959495544434,
+      "learning_rate": 6.932157795240215e-05,
+      "loss": 2.0004,
+      "step": 3810
+    },
+    {
+      "epoch": 0.5545864224451228,
+      "grad_norm": 2.4799954891204834,
+      "learning_rate": 6.924814914966674e-05,
+      "loss": 2.0815,
+      "step": 3815
+    },
+    {
+      "epoch": 0.5553132722779474,
+      "grad_norm": 2.5911128520965576,
+      "learning_rate": 6.917467213737908e-05,
+      "loss": 2.1649,
+      "step": 3820
+    },
+    {
+      "epoch": 0.5560401221107719,
+      "grad_norm": 2.4524548053741455,
+      "learning_rate": 6.910114710051744e-05,
+      "loss": 2.0344,
+      "step": 3825
+    },
+    {
+      "epoch": 0.5567669719435965,
+      "grad_norm": 2.5558533668518066,
+      "learning_rate": 6.902757422418104e-05,
+      "loss": 2.2114,
+      "step": 3830
+    },
+    {
+      "epoch": 0.557493821776421,
+      "grad_norm": 2.460690498352051,
+      "learning_rate": 6.895395369358949e-05,
+      "loss": 2.0785,
+      "step": 3835
+    },
+    {
+      "epoch": 0.5582206716092455,
+      "grad_norm": 2.2994587421417236,
+      "learning_rate": 6.888028569408238e-05,
+      "loss": 2.0985,
+      "step": 3840
+    },
+    {
+      "epoch": 0.55894752144207,
+      "grad_norm": 2.4622437953948975,
+      "learning_rate": 6.880657041111886e-05,
+      "loss": 2.1873,
+      "step": 3845
+    },
+    {
+      "epoch": 0.5596743712748946,
+      "grad_norm": 2.566040515899658,
+      "learning_rate": 6.873280803027698e-05,
+      "loss": 2.0761,
+      "step": 3850
+    },
+    {
+      "epoch": 0.5596743712748946,
+      "eval_loss": 1.9471417665481567,
+      "eval_runtime": 22.8564,
+      "eval_samples_per_second": 144.423,
+      "eval_steps_per_second": 9.057,
+      "step": 3850
+    },
+    {
+      "epoch": 0.5604012211077192,
+      "grad_norm": 2.9277586936950684,
+      "learning_rate": 6.865899873725354e-05,
+      "loss": 2.1336,
+      "step": 3855
+    },
+    {
+      "epoch": 0.5611280709405437,
+      "grad_norm": 2.224175214767456,
+      "learning_rate": 6.858514271786328e-05,
+      "loss": 1.9701,
+      "step": 3860
+    },
+    {
+      "epoch": 0.5618549207733682,
+      "grad_norm": 2.4121415615081787,
+      "learning_rate": 6.851124015803867e-05,
+      "loss": 2.0505,
+      "step": 3865
+    },
+    {
+      "epoch": 0.5625817706061927,
+      "grad_norm": 2.3348071575164795,
+      "learning_rate": 6.843729124382931e-05,
+      "loss": 2.0927,
+      "step": 3870
+    },
+    {
+      "epoch": 0.5633086204390173,
+      "grad_norm": 2.6254260540008545,
+      "learning_rate": 6.836329616140152e-05,
+      "loss": 2.0223,
+      "step": 3875
+    },
+    {
+      "epoch": 0.5640354702718419,
+      "grad_norm": 2.551982879638672,
+      "learning_rate": 6.82892550970378e-05,
+      "loss": 2.1343,
+      "step": 3880
+    },
+    {
+      "epoch": 0.5647623201046664,
+      "grad_norm": 2.6784307956695557,
+      "learning_rate": 6.821516823713646e-05,
+      "loss": 2.1829,
+      "step": 3885
+    },
+    {
+      "epoch": 0.5654891699374909,
+      "grad_norm": 2.5187387466430664,
+      "learning_rate": 6.81410357682111e-05,
+      "loss": 2.1628,
+      "step": 3890
+    },
+    {
+      "epoch": 0.5662160197703154,
+      "grad_norm": 2.4125635623931885,
+      "learning_rate": 6.806685787689007e-05,
+      "loss": 2.1097,
+      "step": 3895
+    },
+    {
+      "epoch": 0.56694286960314,
+      "grad_norm": 2.3090174198150635,
+      "learning_rate": 6.799263474991618e-05,
+      "loss": 1.9982,
+      "step": 3900
+    },
+    {
+      "epoch": 0.56694286960314,
+      "eval_loss": 1.9406747817993164,
+      "eval_runtime": 19.0434,
+      "eval_samples_per_second": 173.341,
+      "eval_steps_per_second": 10.87,
+      "step": 3900
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 1.0171604246022062e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null