Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step2200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step2200/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +238 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a6b3d9d6f8c7c3d98a19f31f4f971e689cc6fdfb0852e1e518bf400fc7d18e3e
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:19b1fa32ac470abea9aaed5df0314fdf8255e2f5d17488e027920e596ac1b454
 size 1037269336

last-checkpoint/global_step2200/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:17f06d8019305880e63ff917b8eaeade273a1f4efe92b142374a9f453b975ba1
+size 781993445

last-checkpoint/global_step2200/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d88ca866ed4caf5fe9bac9eb2dbf7945afd594a1ced48078e756b2ec4f52391
+size 781993509

last-checkpoint/global_step2200/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3e2c549dac5e475a7e15a608b79addfb82769ab62a4fb5a74e1660ba75c8c15f
+size 781993509

last-checkpoint/global_step2200/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:577761a19602e32eca30c81aefb3456cd3a26b9218d94e1ea056cc48e18c2862
+size 781993509

last-checkpoint/global_step2200/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3476292ffcb6799b5340968f39c80013d42c347ec1a8f3b423d91fa1ade313f7
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2050~~


1	+ global_step2200

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c193fe0eb5414b6e7724a1b6744c6fa4f71192c50142788a1655017eb0888732
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e9aa753095cc0a44fced50afca6bff1b99146c481ddc3dc764d689ff5546d5fd
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7433361eaf9398847ea003a5f4af9a337f1cc9a3b83827c19956da148a1d9e34
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:90c2966bfb4a402e04ec2751d9f8452dc016d605399a989dce9bed4000125da0
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e80352d2361ac117f2bf39b8122fb7a7bcfa982eaa10345a5e5e36808edcf2c
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:68fa3782d3dbab732db659905737cfd4c32e0162423b6b3bf8864f2d1fee1b91
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af1d5a16d78e90cc8be44fb0342444095eba9473e2cb4a34b58006386e796243
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:e218ffc86ec50875e9f6816271fc0465b75694055819b0e37bcd282c94f6dbe5
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c2c94b278df9a49d0ea9e3b3354a733420163871be4c32635bfe524c284f7ac
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:0282a728c75d0bb9e123936361d8d60683d939f3df4b2863405d14fc34b553e7
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.1106083393096924,
   "best_model_checkpoint": null,
-  "epoch": 0.2980084314580608,
   "eval_steps": 50,
-  "global_step": 2050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3206,6 +3206,240 @@
       "eval_samples_per_second": 175.617,
       "eval_steps_per_second": 11.013,
       "step": 2050
     }
   ],
   "logging_steps": 5,
@@ -3234,7 +3468,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.336645061784371e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.08577561378479,
   "best_model_checkpoint": null,
+  "epoch": 0.31981392644279694,
   "eval_steps": 50,
+  "global_step": 2200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.617,
       "eval_steps_per_second": 11.013,
       "step": 2050
+    },
+    {
+      "epoch": 0.2987352812908853,
+      "grad_norm": 2.2958388328552246,
+      "learning_rate": 9.087037358857628e-05,
+      "loss": 2.1674,
+      "step": 2055
+    },
+    {
+      "epoch": 0.29946213112370984,
+      "grad_norm": 2.6375505924224854,
+      "learning_rate": 9.082413186059305e-05,
+      "loss": 2.0371,
+      "step": 2060
+    },
+    {
+      "epoch": 0.3001889809565344,
+      "grad_norm": 2.563561201095581,
+      "learning_rate": 9.077778760554678e-05,
+      "loss": 2.2449,
+      "step": 2065
+    },
+    {
+      "epoch": 0.3009158307893589,
+      "grad_norm": 2.3851094245910645,
+      "learning_rate": 9.07313409401091e-05,
+      "loss": 2.2764,
+      "step": 2070
+    },
+    {
+      "epoch": 0.30164268062218347,
+      "grad_norm": 2.5274460315704346,
+      "learning_rate": 9.068479198120939e-05,
+      "loss": 1.9841,
+      "step": 2075
+    },
+    {
+      "epoch": 0.302369530455008,
+      "grad_norm": 2.51540470123291,
+      "learning_rate": 9.063814084603465e-05,
+      "loss": 2.0978,
+      "step": 2080
+    },
+    {
+      "epoch": 0.30309638028783253,
+      "grad_norm": 2.290086507797241,
+      "learning_rate": 9.059138765202903e-05,
+      "loss": 2.0059,
+      "step": 2085
+    },
+    {
+      "epoch": 0.3038232301206571,
+      "grad_norm": 2.4995152950286865,
+      "learning_rate": 9.054453251689364e-05,
+      "loss": 2.2743,
+      "step": 2090
+    },
+    {
+      "epoch": 0.3045500799534816,
+      "grad_norm": 2.180800199508667,
+      "learning_rate": 9.049757555858624e-05,
+      "loss": 2.1006,
+      "step": 2095
+    },
+    {
+      "epoch": 0.30527692978630616,
+      "grad_norm": 2.5430526733398438,
+      "learning_rate": 9.04505168953209e-05,
+      "loss": 2.2312,
+      "step": 2100
+    },
+    {
+      "epoch": 0.30527692978630616,
+      "eval_loss": 2.094419240951538,
+      "eval_runtime": 21.9822,
+      "eval_samples_per_second": 150.167,
+      "eval_steps_per_second": 9.417,
+      "step": 2100
+    },
+    {
+      "epoch": 0.30600377961913067,
+      "grad_norm": 2.994030237197876,
+      "learning_rate": 9.040335664556774e-05,
+      "loss": 2.1454,
+      "step": 2105
+    },
+    {
+      "epoch": 0.30673062945195523,
+      "grad_norm": 2.507899761199951,
+      "learning_rate": 9.035609492805267e-05,
+      "loss": 2.3506,
+      "step": 2110
+    },
+    {
+      "epoch": 0.3074574792847798,
+      "grad_norm": 2.3985066413879395,
+      "learning_rate": 9.030873186175699e-05,
+      "loss": 2.1076,
+      "step": 2115
+    },
+    {
+      "epoch": 0.3081843291176043,
+      "grad_norm": 2.315556764602661,
+      "learning_rate": 9.026126756591716e-05,
+      "loss": 1.9807,
+      "step": 2120
+    },
+    {
+      "epoch": 0.30891117895042886,
+      "grad_norm": 2.4136197566986084,
+      "learning_rate": 9.021370216002447e-05,
+      "loss": 2.2067,
+      "step": 2125
+    },
+    {
+      "epoch": 0.30963802878325336,
+      "grad_norm": 2.6457340717315674,
+      "learning_rate": 9.016603576382481e-05,
+      "loss": 2.3536,
+      "step": 2130
+    },
+    {
+      "epoch": 0.3103648786160779,
+      "grad_norm": 2.527038097381592,
+      "learning_rate": 9.011826849731824e-05,
+      "loss": 2.1984,
+      "step": 2135
+    },
+    {
+      "epoch": 0.3110917284489025,
+      "grad_norm": 2.422018527984619,
+      "learning_rate": 9.007040048075882e-05,
+      "loss": 2.3617,
+      "step": 2140
+    },
+    {
+      "epoch": 0.311818578281727,
+      "grad_norm": 2.45200777053833,
+      "learning_rate": 9.002243183465422e-05,
+      "loss": 2.2631,
+      "step": 2145
+    },
+    {
+      "epoch": 0.31254542811455155,
+      "grad_norm": 2.2823517322540283,
+      "learning_rate": 8.997436267976544e-05,
+      "loss": 1.9974,
+      "step": 2150
+    },
+    {
+      "epoch": 0.31254542811455155,
+      "eval_loss": 2.101454019546509,
+      "eval_runtime": 18.9568,
+      "eval_samples_per_second": 174.133,
+      "eval_steps_per_second": 10.92,
+      "step": 2150
+    },
+    {
+      "epoch": 0.31327227794737605,
+      "grad_norm": 2.5826852321624756,
+      "learning_rate": 8.992619313710653e-05,
+      "loss": 2.2736,
+      "step": 2155
+    },
+    {
+      "epoch": 0.3139991277802006,
+      "grad_norm": 2.4211437702178955,
+      "learning_rate": 8.987792332794426e-05,
+      "loss": 2.2469,
+      "step": 2160
+    },
+    {
+      "epoch": 0.3147259776130252,
+      "grad_norm": 3.2002980709075928,
+      "learning_rate": 8.98295533737978e-05,
+      "loss": 2.2387,
+      "step": 2165
+    },
+    {
+      "epoch": 0.3154528274458497,
+      "grad_norm": 2.8662610054016113,
+      "learning_rate": 8.978108339643846e-05,
+      "loss": 2.2728,
+      "step": 2170
+    },
+    {
+      "epoch": 0.31617967727867424,
+      "grad_norm": 2.5767691135406494,
+      "learning_rate": 8.973251351788936e-05,
+      "loss": 2.0728,
+      "step": 2175
+    },
+    {
+      "epoch": 0.31690652711149875,
+      "grad_norm": 2.2617924213409424,
+      "learning_rate": 8.968384386042512e-05,
+      "loss": 2.0235,
+      "step": 2180
+    },
+    {
+      "epoch": 0.3176333769443233,
+      "grad_norm": 2.60357928276062,
+      "learning_rate": 8.96350745465715e-05,
+      "loss": 2.0803,
+      "step": 2185
+    },
+    {
+      "epoch": 0.3183602267771478,
+      "grad_norm": 2.360905408859253,
+      "learning_rate": 8.958620569910522e-05,
+      "loss": 2.1212,
+      "step": 2190
+    },
+    {
+      "epoch": 0.3190870766099724,
+      "grad_norm": 2.760329246520996,
+      "learning_rate": 8.953723744105356e-05,
+      "loss": 2.2397,
+      "step": 2195
+    },
+    {
+      "epoch": 0.31981392644279694,
+      "grad_norm": 2.653019428253174,
+      "learning_rate": 8.948816989569402e-05,
+      "loss": 2.1049,
+      "step": 2200
+    },
+    {
+      "epoch": 0.31981392644279694,
+      "eval_loss": 2.08577561378479,
+      "eval_runtime": 18.7698,
+      "eval_samples_per_second": 175.867,
+      "eval_steps_per_second": 11.028,
+      "step": 2200
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.7344243893744435e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null