Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step3050/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3050/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3050/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3050/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3050/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +316 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:361c716e9d659af0f39bdbc4ae43e035e27a740b934d15518ada4b2cf9b6eda5
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:f371c80024225652f3c86237652abc582dcf0f83241d7917c781b6818ee9f107
 size 1037269336

last-checkpoint/global_step3050/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9702b049d245d16c002c1456338f72710c06f952b0478544008ad989a5de7e07
+size 781993445

last-checkpoint/global_step3050/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4294cab9b940c0087225b9c7649512d19f24fa6a3f5f01b7538b149f5d7be8ab
+size 781993509

last-checkpoint/global_step3050/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:11d7132340fd716524b3218b067e868d891edb7ac95bd8b57e53e48ee29e0838
+size 781993509

last-checkpoint/global_step3050/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6c4a5a81b58fe1331524664aed42e5082b13c66d3fadfb6645ff1316cf85beb
+size 781993509

last-checkpoint/global_step3050/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b2d5e8ed0bb6d30443a8b0f9ac2b192e359d428409f7528391fcd07030056005
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2850~~


1	+ global_step3050

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:296a6ee956d4e7f171ae24e548556b8cc9db16a2b3b5267a93081e841cd2d54f
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e467591174f4d5f061fdc6867a8959bae4dd3ff9f561e079a51d1986c3871bef
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a52bed46ef108ac8871b7898a08f1745f27bbe75c31d481ed89e7717758ce61
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:2af72cce7586fc024c88a31600f7b9bd8f97fac8953bf342b40bab89d92f4d3d
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e051a87038e9d1c34a6b99d96282794b5fc3a153ac0563f4cb4e418c57165626
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:267b8e17d32bdaab462ce2a11855474cca07a7c3d899baff6bd1f852d0f4b42e
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fcbdd5111ef3195d3f21479a27577b5cfe61981c34932671437006ec501d9f4d
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:69cff40eb67e607ef56c9df4fce05c9d4f61aef835fb92458f77bb2b8ff22109
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91e18d52b697cf338b1ff89fd713a420b43ebaabb684d60d0dea3fb8b664d9d7
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e4f4eb8437c35cc3bc21ff2f135541f1bea2ca5b0d67f12d8ea935606929e82
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.0408315658569336,
   "best_model_checkpoint": null,
-  "epoch": 0.4143044047099869,
   "eval_steps": 50,
-  "global_step": 2850,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4454,6 +4454,318 @@
       "eval_samples_per_second": 173.899,
       "eval_steps_per_second": 10.905,
       "step": 2850
     }
   ],
   "logging_steps": 5,
@@ -4482,7 +4794,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.41822245675991e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.019763946533203,
   "best_model_checkpoint": null,
+  "epoch": 0.44337839802296847,
   "eval_steps": 50,
+  "global_step": 3050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 173.899,
       "eval_steps_per_second": 10.905,
       "step": 2850
+    },
+    {
+      "epoch": 0.4150312545428115,
+      "grad_norm": 2.5634236335754395,
+      "learning_rate": 8.225223779709644e-05,
+      "loss": 2.143,
+      "step": 2855
+    },
+    {
+      "epoch": 0.415758104375636,
+      "grad_norm": 2.3738303184509277,
+      "learning_rate": 8.219124026368057e-05,
+      "loss": 2.2716,
+      "step": 2860
+    },
+    {
+      "epoch": 0.41648495420846054,
+      "grad_norm": 2.5236852169036865,
+      "learning_rate": 8.213016193649599e-05,
+      "loss": 2.1629,
+      "step": 2865
+    },
+    {
+      "epoch": 0.41721180404128505,
+      "grad_norm": 2.6418023109436035,
+      "learning_rate": 8.206900296930731e-05,
+      "loss": 2.2035,
+      "step": 2870
+    },
+    {
+      "epoch": 0.4179386538741096,
+      "grad_norm": 2.70849609375,
+      "learning_rate": 8.200776351608213e-05,
+      "loss": 2.1833,
+      "step": 2875
+    },
+    {
+      "epoch": 0.4186655037069342,
+      "grad_norm": 2.2143619060516357,
+      "learning_rate": 8.194644373099076e-05,
+      "loss": 2.1152,
+      "step": 2880
+    },
+    {
+      "epoch": 0.4193923535397587,
+      "grad_norm": 2.5225560665130615,
+      "learning_rate": 8.18850437684056e-05,
+      "loss": 2.2915,
+      "step": 2885
+    },
+    {
+      "epoch": 0.42011920337258324,
+      "grad_norm": 2.643038511276245,
+      "learning_rate": 8.182356378290107e-05,
+      "loss": 2.2131,
+      "step": 2890
+    },
+    {
+      "epoch": 0.42084605320540774,
+      "grad_norm": 2.9499423503875732,
+      "learning_rate": 8.17620039292529e-05,
+      "loss": 2.2959,
+      "step": 2895
+    },
+    {
+      "epoch": 0.4215729030382323,
+      "grad_norm": 2.53491473197937,
+      "learning_rate": 8.170036436243797e-05,
+      "loss": 2.1247,
+      "step": 2900
+    },
+    {
+      "epoch": 0.4215729030382323,
+      "eval_loss": 2.030867576599121,
+      "eval_runtime": 21.6628,
+      "eval_samples_per_second": 152.381,
+      "eval_steps_per_second": 9.556,
+      "step": 2900
+    },
+    {
+      "epoch": 0.42229975287105687,
+      "grad_norm": 2.75742769241333,
+      "learning_rate": 8.163864523763382e-05,
+      "loss": 1.9965,
+      "step": 2905
+    },
+    {
+      "epoch": 0.42302660270388137,
+      "grad_norm": 4.27183198928833,
+      "learning_rate": 8.157684671021828e-05,
+      "loss": 2.1029,
+      "step": 2910
+    },
+    {
+      "epoch": 0.42375345253670593,
+      "grad_norm": 2.9568264484405518,
+      "learning_rate": 8.151496893576904e-05,
+      "loss": 2.2166,
+      "step": 2915
+    },
+    {
+      "epoch": 0.42448030236953044,
+      "grad_norm": 2.716278314590454,
+      "learning_rate": 8.145301207006335e-05,
+      "loss": 2.1629,
+      "step": 2920
+    },
+    {
+      "epoch": 0.425207152202355,
+      "grad_norm": 2.635277032852173,
+      "learning_rate": 8.139097626907753e-05,
+      "loss": 2.2077,
+      "step": 2925
+    },
+    {
+      "epoch": 0.4259340020351795,
+      "grad_norm": 2.677725076675415,
+      "learning_rate": 8.132886168898666e-05,
+      "loss": 2.2313,
+      "step": 2930
+    },
+    {
+      "epoch": 0.42666085186800407,
+      "grad_norm": 2.510044813156128,
+      "learning_rate": 8.12666684861641e-05,
+      "loss": 2.03,
+      "step": 2935
+    },
+    {
+      "epoch": 0.4273877017008286,
+      "grad_norm": 2.279388904571533,
+      "learning_rate": 8.120439681718117e-05,
+      "loss": 2.1885,
+      "step": 2940
+    },
+    {
+      "epoch": 0.42811455153365313,
+      "grad_norm": 2.61489200592041,
+      "learning_rate": 8.114204683880671e-05,
+      "loss": 2.2475,
+      "step": 2945
+    },
+    {
+      "epoch": 0.4288414013664777,
+      "grad_norm": 2.7564356327056885,
+      "learning_rate": 8.107961870800672e-05,
+      "loss": 2.2717,
+      "step": 2950
+    },
+    {
+      "epoch": 0.4288414013664777,
+      "eval_loss": 2.0410735607147217,
+      "eval_runtime": 19.0203,
+      "eval_samples_per_second": 173.552,
+      "eval_steps_per_second": 10.883,
+      "step": 2950
+    },
+    {
+      "epoch": 0.4295682511993022,
+      "grad_norm": 2.354588270187378,
+      "learning_rate": 8.101711258194397e-05,
+      "loss": 2.0337,
+      "step": 2955
+    },
+    {
+      "epoch": 0.43029510103212676,
+      "grad_norm": 2.4436914920806885,
+      "learning_rate": 8.095452861797751e-05,
+      "loss": 2.0731,
+      "step": 2960
+    },
+    {
+      "epoch": 0.4310219508649513,
+      "grad_norm": 2.4441328048706055,
+      "learning_rate": 8.089186697366247e-05,
+      "loss": 2.0913,
+      "step": 2965
+    },
+    {
+      "epoch": 0.4317488006977758,
+      "grad_norm": 2.439755916595459,
+      "learning_rate": 8.082912780674939e-05,
+      "loss": 1.9794,
+      "step": 2970
+    },
+    {
+      "epoch": 0.4324756505306004,
+      "grad_norm": 3.0894908905029297,
+      "learning_rate": 8.076631127518407e-05,
+      "loss": 2.2068,
+      "step": 2975
+    },
+    {
+      "epoch": 0.4332025003634249,
+      "grad_norm": 2.3073198795318604,
+      "learning_rate": 8.070341753710708e-05,
+      "loss": 2.153,
+      "step": 2980
+    },
+    {
+      "epoch": 0.43392935019624945,
+      "grad_norm": 2.387176513671875,
+      "learning_rate": 8.06404467508533e-05,
+      "loss": 2.0941,
+      "step": 2985
+    },
+    {
+      "epoch": 0.434656200029074,
+      "grad_norm": 2.364358425140381,
+      "learning_rate": 8.057739907495163e-05,
+      "loss": 2.1182,
+      "step": 2990
+    },
+    {
+      "epoch": 0.4353830498618985,
+      "grad_norm": 2.8649942874908447,
+      "learning_rate": 8.05142746681245e-05,
+      "loss": 2.0715,
+      "step": 2995
+    },
+    {
+      "epoch": 0.4361098996947231,
+      "grad_norm": 2.504004716873169,
+      "learning_rate": 8.045107368928755e-05,
+      "loss": 2.183,
+      "step": 3000
+    },
+    {
+      "epoch": 0.4361098996947231,
+      "eval_loss": 2.0339367389678955,
+      "eval_runtime": 19.159,
+      "eval_samples_per_second": 172.295,
+      "eval_steps_per_second": 10.804,
+      "step": 3000
+    },
+    {
+      "epoch": 0.4368367495275476,
+      "grad_norm": 2.4988174438476562,
+      "learning_rate": 8.038779629754915e-05,
+      "loss": 2.1443,
+      "step": 3005
+    },
+    {
+      "epoch": 0.43756359936037215,
+      "grad_norm": 2.5082359313964844,
+      "learning_rate": 8.032444265221006e-05,
+      "loss": 2.0544,
+      "step": 3010
+    },
+    {
+      "epoch": 0.4382904491931967,
+      "grad_norm": 2.3334364891052246,
+      "learning_rate": 8.026101291276302e-05,
+      "loss": 2.1904,
+      "step": 3015
+    },
+    {
+      "epoch": 0.4390172990260212,
+      "grad_norm": 2.405759572982788,
+      "learning_rate": 8.019750723889232e-05,
+      "loss": 2.0836,
+      "step": 3020
+    },
+    {
+      "epoch": 0.4397441488588458,
+      "grad_norm": 2.2676541805267334,
+      "learning_rate": 8.013392579047339e-05,
+      "loss": 2.1745,
+      "step": 3025
+    },
+    {
+      "epoch": 0.4404709986916703,
+      "grad_norm": 2.144158124923706,
+      "learning_rate": 8.00702687275725e-05,
+      "loss": 2.2107,
+      "step": 3030
+    },
+    {
+      "epoch": 0.44119784852449484,
+      "grad_norm": 2.9987900257110596,
+      "learning_rate": 8.000653621044621e-05,
+      "loss": 2.1826,
+      "step": 3035
+    },
+    {
+      "epoch": 0.4419246983573194,
+      "grad_norm": 2.3955495357513428,
+      "learning_rate": 7.994272839954103e-05,
+      "loss": 2.1445,
+      "step": 3040
+    },
+    {
+      "epoch": 0.4426515481901439,
+      "grad_norm": 3.0471301078796387,
+      "learning_rate": 7.987884545549309e-05,
+      "loss": 2.1338,
+      "step": 3045
+    },
+    {
+      "epoch": 0.44337839802296847,
+      "grad_norm": 2.6408660411834717,
+      "learning_rate": 7.981488753912759e-05,
+      "loss": 2.1363,
+      "step": 3050
+    },
+    {
+      "epoch": 0.44337839802296847,
+      "eval_loss": 2.019763946533203,
+      "eval_runtime": 18.8959,
+      "eval_samples_per_second": 174.694,
+      "eval_steps_per_second": 10.955,
+      "step": 3050
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 7.952395068977971e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null