Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2050/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2050/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2050/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2050/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2050/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +238 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2e4e591593ddd75dbf24587fcbcc927b7e1d83a18cc4d79fb624322ab4dcf29
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:a6b3d9d6f8c7c3d98a19f31f4f971e689cc6fdfb0852e1e518bf400fc7d18e3e
 size 1037269336

last-checkpoint/global_step2050/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5f1f50cf1df89883314c83ce115d4bd0697b7a001c3f0a39c8e9d04a112b49f3
+size 781993445

last-checkpoint/global_step2050/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8e6cf7468130c623904f39ab9c7b6335e00d8487910ecbd3230398055578d41
+size 781993509

last-checkpoint/global_step2050/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cb7f938d861138b5eda0666f727aaa6c119491f9af743c96888b33a0d9720c3
+size 781993509

last-checkpoint/global_step2050/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7abc0b33c1f2b6911a516a1d19e9a578ec50b64a476e6c17539e75f003861528
+size 781993509

last-checkpoint/global_step2050/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ab06e3cbab5dd716dc39bd47d864f0e8bd999fd1f98642aa32b82f488405e614
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1900~~


1	+ global_step2050

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4559053f699be6df3895339df916e2ce9966a4034977cffc0d99dade1ee9496e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:c193fe0eb5414b6e7724a1b6744c6fa4f71192c50142788a1655017eb0888732
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7aab77de253b0dca254534a6073da9f6bb65e00a58ae9efbd90fafd066ad0156
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:7433361eaf9398847ea003a5f4af9a337f1cc9a3b83827c19956da148a1d9e34
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f4896d513f64ca305b2f209b96552a5a9970735a6441fbabe62fba495cba0cd
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e80352d2361ac117f2bf39b8122fb7a7bcfa982eaa10345a5e5e36808edcf2c
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f5bb3998e16522e731f7c4b020736a29330c3ce56c42847585411d4912a03c7e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:af1d5a16d78e90cc8be44fb0342444095eba9473e2cb4a34b58006386e796243
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ec5e0cbf05159acfd6692fdbfc765d0c7fdc9d5c3922f19ed25948084c2b7a92
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c2c94b278df9a49d0ea9e3b3354a733420163871be4c32635bfe524c284f7ac
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.118328332901001,
   "best_model_checkpoint": null,
-  "epoch": 0.2762029364733246,
   "eval_steps": 50,
-  "global_step": 1900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2972,6 +2972,240 @@
       "eval_samples_per_second": 175.116,
       "eval_steps_per_second": 10.981,
       "step": 1900
     }
   ],
   "logging_steps": 5,
@@ -3000,7 +3234,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.940882264289444e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.1106083393096924,
   "best_model_checkpoint": null,
+  "epoch": 0.2980084314580608,
   "eval_steps": 50,
+  "global_step": 2050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.116,
       "eval_steps_per_second": 10.981,
       "step": 1900
+    },
+    {
+      "epoch": 0.2769297863061492,
+      "grad_norm": 2.4674739837646484,
+      "learning_rate": 9.220938228335823e-05,
+      "loss": 2.3273,
+      "step": 1905
+    },
+    {
+      "epoch": 0.2776566361389737,
+      "grad_norm": 2.532355546951294,
+      "learning_rate": 9.216626932892173e-05,
+      "loss": 2.1482,
+      "step": 1910
+    },
+    {
+      "epoch": 0.27838348597179824,
+      "grad_norm": 2.4314658641815186,
+      "learning_rate": 9.212305046859271e-05,
+      "loss": 2.2897,
+      "step": 1915
+    },
+    {
+      "epoch": 0.27911033580462274,
+      "grad_norm": 2.5094339847564697,
+      "learning_rate": 9.20797258111746e-05,
+      "loss": 2.2804,
+      "step": 1920
+    },
+    {
+      "epoch": 0.2798371856374473,
+      "grad_norm": 2.559231758117676,
+      "learning_rate": 9.203629546573719e-05,
+      "loss": 2.0258,
+      "step": 1925
+    },
+    {
+      "epoch": 0.28056403547027187,
+      "grad_norm": 2.7684295177459717,
+      "learning_rate": 9.199275954161631e-05,
+      "loss": 2.0826,
+      "step": 1930
+    },
+    {
+      "epoch": 0.28129088530309637,
+      "grad_norm": 2.8592333793640137,
+      "learning_rate": 9.19491181484136e-05,
+      "loss": 2.0619,
+      "step": 1935
+    },
+    {
+      "epoch": 0.28201773513592093,
+      "grad_norm": 2.4586992263793945,
+      "learning_rate": 9.190537139599621e-05,
+      "loss": 2.0845,
+      "step": 1940
+    },
+    {
+      "epoch": 0.28274458496874544,
+      "grad_norm": 2.6051766872406006,
+      "learning_rate": 9.186151939449656e-05,
+      "loss": 2.2766,
+      "step": 1945
+    },
+    {
+      "epoch": 0.28347143480157,
+      "grad_norm": 2.544299602508545,
+      "learning_rate": 9.181756225431198e-05,
+      "loss": 2.2845,
+      "step": 1950
+    },
+    {
+      "epoch": 0.28347143480157,
+      "eval_loss": 2.1199252605438232,
+      "eval_runtime": 21.7179,
+      "eval_samples_per_second": 151.994,
+      "eval_steps_per_second": 9.531,
+      "step": 1950
+    },
+    {
+      "epoch": 0.28419828463439456,
+      "grad_norm": 2.257642984390259,
+      "learning_rate": 9.177350008610454e-05,
+      "loss": 2.1782,
+      "step": 1955
+    },
+    {
+      "epoch": 0.28492513446721907,
+      "grad_norm": 2.503793478012085,
+      "learning_rate": 9.17293330008007e-05,
+      "loss": 1.9996,
+      "step": 1960
+    },
+    {
+      "epoch": 0.2856519843000436,
+      "grad_norm": 2.571162700653076,
+      "learning_rate": 9.168506110959102e-05,
+      "loss": 2.1955,
+      "step": 1965
+    },
+    {
+      "epoch": 0.28637883413286813,
+      "grad_norm": 2.426426649093628,
+      "learning_rate": 9.164068452392995e-05,
+      "loss": 2.349,
+      "step": 1970
+    },
+    {
+      "epoch": 0.2871056839656927,
+      "grad_norm": 2.418959140777588,
+      "learning_rate": 9.159620335553549e-05,
+      "loss": 2.2726,
+      "step": 1975
+    },
+    {
+      "epoch": 0.28783253379851725,
+      "grad_norm": 2.270207166671753,
+      "learning_rate": 9.155161771638894e-05,
+      "loss": 2.1158,
+      "step": 1980
+    },
+    {
+      "epoch": 0.28855938363134176,
+      "grad_norm": 2.4553415775299072,
+      "learning_rate": 9.150692771873457e-05,
+      "loss": 2.2628,
+      "step": 1985
+    },
+    {
+      "epoch": 0.2892862334641663,
+      "grad_norm": 2.6823744773864746,
+      "learning_rate": 9.14621334750794e-05,
+      "loss": 2.2798,
+      "step": 1990
+    },
+    {
+      "epoch": 0.2900130832969908,
+      "grad_norm": 2.46555757522583,
+      "learning_rate": 9.141723509819289e-05,
+      "loss": 2.1324,
+      "step": 1995
+    },
+    {
+      "epoch": 0.2907399331298154,
+      "grad_norm": 2.363006353378296,
+      "learning_rate": 9.137223270110667e-05,
+      "loss": 2.0691,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2907399331298154,
+      "eval_loss": 2.1202690601348877,
+      "eval_runtime": 18.9518,
+      "eval_samples_per_second": 174.179,
+      "eval_steps_per_second": 10.922,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2914667829626399,
+      "grad_norm": 2.6231467723846436,
+      "learning_rate": 9.132712639711419e-05,
+      "loss": 2.188,
+      "step": 2005
+    },
+    {
+      "epoch": 0.29219363279546445,
+      "grad_norm": 2.40796160697937,
+      "learning_rate": 9.128191629977054e-05,
+      "loss": 2.3451,
+      "step": 2010
+    },
+    {
+      "epoch": 0.292920482628289,
+      "grad_norm": 2.8170089721679688,
+      "learning_rate": 9.123660252289206e-05,
+      "loss": 2.2494,
+      "step": 2015
+    },
+    {
+      "epoch": 0.2936473324611135,
+      "grad_norm": 2.571594715118408,
+      "learning_rate": 9.119118518055617e-05,
+      "loss": 2.1625,
+      "step": 2020
+    },
+    {
+      "epoch": 0.2943741822939381,
+      "grad_norm": 2.5995700359344482,
+      "learning_rate": 9.114566438710093e-05,
+      "loss": 2.1386,
+      "step": 2025
+    },
+    {
+      "epoch": 0.2951010321267626,
+      "grad_norm": 2.276432991027832,
+      "learning_rate": 9.11000402571249e-05,
+      "loss": 2.1441,
+      "step": 2030
+    },
+    {
+      "epoch": 0.29582788195958715,
+      "grad_norm": 2.379159450531006,
+      "learning_rate": 9.105431290548679e-05,
+      "loss": 2.1499,
+      "step": 2035
+    },
+    {
+      "epoch": 0.2965547317924117,
+      "grad_norm": 2.4301207065582275,
+      "learning_rate": 9.100848244730514e-05,
+      "loss": 2.2989,
+      "step": 2040
+    },
+    {
+      "epoch": 0.2972815816252362,
+      "grad_norm": 2.3967955112457275,
+      "learning_rate": 9.096254899795806e-05,
+      "loss": 2.1492,
+      "step": 2045
+    },
+    {
+      "epoch": 0.2980084314580608,
+      "grad_norm": 2.603433847427368,
+      "learning_rate": 9.091651267308299e-05,
+      "loss": 2.195,
+      "step": 2050
+    },
+    {
+      "epoch": 0.2980084314580608,
+      "eval_loss": 2.1106083393096924,
+      "eval_runtime": 18.7966,
+      "eval_samples_per_second": 175.617,
+      "eval_steps_per_second": 11.013,
+      "step": 2050
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.336645061784371e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null