Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1250/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1250/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1250/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1250/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1250/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +160 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2bea86c2ab21a28debfa3ed6a6043f4ff91636439c9d482b3c8179802becd746
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:59c72492ae77112d7498629e7110aa4ead00892b60bfde7a53cdde23e0a2a87e
 size 1037269336

last-checkpoint/global_step1250/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8a598037ebfc908303cf6ea87f5e2e4d74e1d0a842707dac6c0e72ffee56ebf
+size 781993445

last-checkpoint/global_step1250/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4da36f680835be6833e37a7b6ab4e2817cf05e794e70756229830efd1b9e3268
+size 781993509

last-checkpoint/global_step1250/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de3ca49195600fd131e42997f55ea96b107daad60b29d006f9d752f71ba394bb
+size 781993509

last-checkpoint/global_step1250/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:851352d483715eb54acb2f0c123de01444d7cb9f689e5caf230f1e429a0c5501
+size 781993509

last-checkpoint/global_step1250/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ee4398edb588eb56d41bac2a470bd3160de1fdebaa7886521e47edec8b64e533
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1150~~


1	+ global_step1250

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6726cdeb8b70075f075ae39b467e92c8ad954fb2d6ecb28760d5c40cfe202578
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:ed87dcb091d4ef7e28c34173b3e5e817c8a65a26c060e643a15f114db3b0387e
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a635b69b5296666e1b8af251cb13a0268b3862ee34bb7486ba5d61defc337940
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:f34f165e5ce4e6a030cf3446153db3218902f01675bb6ef508a5d91da25fb4b4
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4fd785ba2444adcae48af89ab3bd88555ca86f4ed8acc791f354c989d26cb509
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa19ff1a67f27b22564aa2ddebd6a615ac92d0b0794aa763662b482303827931
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5459584bc0926c43e29fd8f948b9ac16d06294aa8b1f7964cb467b6d9074bf87
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:fff90a5aceb3cd4a5999415d57df5f60aeb2a804a347e1c874416d7c196e1499
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88efbcbaac7d45a687904255e7dda5f49605f5a5bc135e51d8f7aad51664a870
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:3d49af4b0761a2e15e6280ed21708d43c8b8fb5531bab12134da87b28369ed4b
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.1799721717834473,
   "best_model_checkpoint": null,
-  "epoch": 0.16717546154964386,
   "eval_steps": 50,
-  "global_step": 1150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1802,6 +1802,162 @@
       "eval_samples_per_second": 175.223,
       "eval_steps_per_second": 10.988,
       "step": 1150
     }
   ],
   "logging_steps": 5,
@@ -1830,7 +1986,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.0000328993459405e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.1646382808685303,
   "best_model_checkpoint": null,
+  "epoch": 0.1817124582061346,
   "eval_steps": 50,
+  "global_step": 1250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.223,
       "eval_steps_per_second": 10.988,
       "step": 1150
+    },
+    {
+      "epoch": 0.1679023113824684,
+      "grad_norm": 2.660989761352539,
+      "learning_rate": 9.742052914999266e-05,
+      "loss": 2.4101,
+      "step": 1155
+    },
+    {
+      "epoch": 0.16862916121529292,
+      "grad_norm": 2.388467788696289,
+      "learning_rate": 9.73943758877837e-05,
+      "loss": 2.4527,
+      "step": 1160
+    },
+    {
+      "epoch": 0.16935601104811746,
+      "grad_norm": 2.646723508834839,
+      "learning_rate": 9.736810355793018e-05,
+      "loss": 2.3153,
+      "step": 1165
+    },
+    {
+      "epoch": 0.170082860880942,
+      "grad_norm": 2.3404433727264404,
+      "learning_rate": 9.734171222657268e-05,
+      "loss": 2.1586,
+      "step": 1170
+    },
+    {
+      "epoch": 0.17080971071376655,
+      "grad_norm": 2.457658529281616,
+      "learning_rate": 9.731520196015136e-05,
+      "loss": 2.2344,
+      "step": 1175
+    },
+    {
+      "epoch": 0.17153656054659108,
+      "grad_norm": 2.6175413131713867,
+      "learning_rate": 9.728857282540573e-05,
+      "loss": 2.0764,
+      "step": 1180
+    },
+    {
+      "epoch": 0.17226341037941562,
+      "grad_norm": 2.3355302810668945,
+      "learning_rate": 9.726182488937464e-05,
+      "loss": 2.0514,
+      "step": 1185
+    },
+    {
+      "epoch": 0.17299026021224015,
+      "grad_norm": 2.3462462425231934,
+      "learning_rate": 9.7234958219396e-05,
+      "loss": 2.357,
+      "step": 1190
+    },
+    {
+      "epoch": 0.17371711004506468,
+      "grad_norm": 2.643761396408081,
+      "learning_rate": 9.720797288310659e-05,
+      "loss": 2.2057,
+      "step": 1195
+    },
+    {
+      "epoch": 0.17444395987788922,
+      "grad_norm": 2.2287981510162354,
+      "learning_rate": 9.718086894844198e-05,
+      "loss": 2.2767,
+      "step": 1200
+    },
+    {
+      "epoch": 0.17444395987788922,
+      "eval_loss": 2.1676223278045654,
+      "eval_runtime": 22.4479,
+      "eval_samples_per_second": 147.052,
+      "eval_steps_per_second": 9.221,
+      "step": 1200
+    },
+    {
+      "epoch": 0.17517080971071378,
+      "grad_norm": 2.403559684753418,
+      "learning_rate": 9.71536464836363e-05,
+      "loss": 2.4449,
+      "step": 1205
+    },
+    {
+      "epoch": 0.1758976595435383,
+      "grad_norm": 2.6444735527038574,
+      "learning_rate": 9.712630555722204e-05,
+      "loss": 2.0928,
+      "step": 1210
+    },
+    {
+      "epoch": 0.17662450937636284,
+      "grad_norm": 2.7171778678894043,
+      "learning_rate": 9.709884623802998e-05,
+      "loss": 2.3201,
+      "step": 1215
+    },
+    {
+      "epoch": 0.17735135920918738,
+      "grad_norm": 2.6349828243255615,
+      "learning_rate": 9.707126859518893e-05,
+      "loss": 2.2294,
+      "step": 1220
+    },
+    {
+      "epoch": 0.1780782090420119,
+      "grad_norm": 2.41853928565979,
+      "learning_rate": 9.704357269812553e-05,
+      "loss": 2.2768,
+      "step": 1225
+    },
+    {
+      "epoch": 0.17880505887483647,
+      "grad_norm": 2.3369898796081543,
+      "learning_rate": 9.701575861656423e-05,
+      "loss": 2.2812,
+      "step": 1230
+    },
+    {
+      "epoch": 0.179531908707661,
+      "grad_norm": 2.3878183364868164,
+      "learning_rate": 9.698782642052687e-05,
+      "loss": 2.2777,
+      "step": 1235
+    },
+    {
+      "epoch": 0.18025875854048554,
+      "grad_norm": 2.5290329456329346,
+      "learning_rate": 9.695977618033281e-05,
+      "loss": 2.2638,
+      "step": 1240
+    },
+    {
+      "epoch": 0.18098560837331007,
+      "grad_norm": 2.4412193298339844,
+      "learning_rate": 9.693160796659841e-05,
+      "loss": 2.208,
+      "step": 1245
+    },
+    {
+      "epoch": 0.1817124582061346,
+      "grad_norm": 2.3451461791992188,
+      "learning_rate": 9.690332185023718e-05,
+      "loss": 2.1151,
+      "step": 1250
+    },
+    {
+      "epoch": 0.1817124582061346,
+      "eval_loss": 2.1646382808685303,
+      "eval_runtime": 18.8171,
+      "eval_samples_per_second": 175.426,
+      "eval_steps_per_second": 11.001,
+      "step": 1250
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 3.259402418923766e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null