Training in progress, epoch 0, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/global_step1400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1400/mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +238 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59c72492ae77112d7498629e7110aa4ead00892b60bfde7a53cdde23e0a2a87e
 size 1037269336

 version https://git-lfs.github.com/spec/v1
+oid sha256:099138994a05956d4ad7412e1c77594651af3a2aa230c7317bfb36b46e773219
 size 1037269336

last-checkpoint/global_step1400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:931bf2b3aa0cd0103da716b1bb3371bd68e7c5d66027cb953138845658fa82da
+size 781993445

last-checkpoint/global_step1400/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c67ff6fdf0d60a40dcc05f16952bf7c1a50087f648497be91a731f90289ffbd
+size 781993509

last-checkpoint/global_step1400/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:75b9548a8e037a9855db805a9fca7c84c919b39c663e5afd1433444e63ac2492
+size 781993509

last-checkpoint/global_step1400/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:62824a35bbc11118f6c0b47721acdc04b73827ae3edb9e1e83c147a91353174e
+size 781993509

last-checkpoint/global_step1400/mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:541ccf4a60928b2c17f8cd479db9a00a3ccc251fe7d9ce5b0b2b5585832613f5
+size 2610290277

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step1250~~


1	+ global_step1400

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed87dcb091d4ef7e28c34173b3e5e817c8a65a26c060e643a15f114db3b0387e
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0659f7df65a8d4f022538c1db1324bb83c98939fba11457f135a834e4fc8b08d
 size 15429

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f34f165e5ce4e6a030cf3446153db3218902f01675bb6ef508a5d91da25fb4b4
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:0774f2829e7ea47ef6e28c2b3b1640314596ceb8b0712423ec369fe44281c840
 size 15429

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa19ff1a67f27b22564aa2ddebd6a615ac92d0b0794aa763662b482303827931
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:88f44ee23c1ea07ac60d274eaef197906028fd3d21288357504503497316897e
 size 15429

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fff90a5aceb3cd4a5999415d57df5f60aeb2a804a347e1c874416d7c196e1499
 size 15429

 version https://git-lfs.github.com/spec/v1
+oid sha256:a15b31e0a15dc06b8a90dc969f3b213dbad5faacc1b3e26d1dd6b1716d9b3394
 size 15429

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3d49af4b0761a2e15e6280ed21708d43c8b8fb5531bab12134da87b28369ed4b
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:1937275837d80b853c7dc3d5d6eec94618d6af1bb9c3bc4f9035a475fc209b5a
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
   "best_global_step": null,
-  "best_metric": 2.1646382808685303,
   "best_model_checkpoint": null,
-  "epoch": 0.1817124582061346,
   "eval_steps": 50,
-  "global_step": 1250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1958,6 +1958,240 @@
       "eval_samples_per_second": 175.426,
       "eval_steps_per_second": 11.001,
       "step": 1250
     }
   ],
   "logging_steps": 5,
@@ -1986,7 +2220,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.259402418923766e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": null,
+  "best_metric": 2.156383514404297,
   "best_model_checkpoint": null,
+  "epoch": 0.20351795319087077,
   "eval_steps": 50,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 175.426,
       "eval_steps_per_second": 11.001,
       "step": 1250
+    },
+    {
+      "epoch": 0.18243930803895916,
+      "grad_norm": 2.6892552375793457,
+      "learning_rate": 9.687491790245934e-05,
+      "loss": 2.1997,
+      "step": 1255
+    },
+    {
+      "epoch": 0.1831661578717837,
+      "grad_norm": 3.251024007797241,
+      "learning_rate": 9.684639619477183e-05,
+      "loss": 2.2394,
+      "step": 1260
+    },
+    {
+      "epoch": 0.18389300770460823,
+      "grad_norm": 2.727262496948242,
+      "learning_rate": 9.6817756798978e-05,
+      "loss": 2.3058,
+      "step": 1265
+    },
+    {
+      "epoch": 0.18461985753743276,
+      "grad_norm": 2.5505638122558594,
+      "learning_rate": 9.678899978717747e-05,
+      "loss": 2.3825,
+      "step": 1270
+    },
+    {
+      "epoch": 0.1853467073702573,
+      "grad_norm": 2.5758070945739746,
+      "learning_rate": 9.676012523176601e-05,
+      "loss": 2.1274,
+      "step": 1275
+    },
+    {
+      "epoch": 0.18607355720308183,
+      "grad_norm": 2.4207687377929688,
+      "learning_rate": 9.67311332054353e-05,
+      "loss": 2.2879,
+      "step": 1280
+    },
+    {
+      "epoch": 0.1868004070359064,
+      "grad_norm": 2.7668607234954834,
+      "learning_rate": 9.670202378117268e-05,
+      "loss": 2.3968,
+      "step": 1285
+    },
+    {
+      "epoch": 0.18752725686873092,
+      "grad_norm": 2.7199885845184326,
+      "learning_rate": 9.667279703226111e-05,
+      "loss": 2.3093,
+      "step": 1290
+    },
+    {
+      "epoch": 0.18825410670155546,
+      "grad_norm": 2.2902231216430664,
+      "learning_rate": 9.664345303227893e-05,
+      "loss": 2.2313,
+      "step": 1295
+    },
+    {
+      "epoch": 0.18898095653438,
+      "grad_norm": 2.6537952423095703,
+      "learning_rate": 9.661399185509959e-05,
+      "loss": 2.2216,
+      "step": 1300
+    },
+    {
+      "epoch": 0.18898095653438,
+      "eval_loss": 2.1652886867523193,
+      "eval_runtime": 22.3841,
+      "eval_samples_per_second": 147.471,
+      "eval_steps_per_second": 9.248,
+      "step": 1300
+    },
+    {
+      "epoch": 0.18970780636720452,
+      "grad_norm": 2.699932336807251,
+      "learning_rate": 9.658441357489157e-05,
+      "loss": 2.2718,
+      "step": 1305
+    },
+    {
+      "epoch": 0.19043465620002908,
+      "grad_norm": 2.2263143062591553,
+      "learning_rate": 9.655471826611817e-05,
+      "loss": 2.17,
+      "step": 1310
+    },
+    {
+      "epoch": 0.19116150603285362,
+      "grad_norm": 2.5049476623535156,
+      "learning_rate": 9.652490600353728e-05,
+      "loss": 2.2691,
+      "step": 1315
+    },
+    {
+      "epoch": 0.19188835586567815,
+      "grad_norm": 2.3425512313842773,
+      "learning_rate": 9.649497686220124e-05,
+      "loss": 2.1081,
+      "step": 1320
+    },
+    {
+      "epoch": 0.19261520569850268,
+      "grad_norm": 2.410156726837158,
+      "learning_rate": 9.646493091745662e-05,
+      "loss": 2.1548,
+      "step": 1325
+    },
+    {
+      "epoch": 0.19334205553132722,
+      "grad_norm": 2.3801674842834473,
+      "learning_rate": 9.643476824494408e-05,
+      "loss": 2.3055,
+      "step": 1330
+    },
+    {
+      "epoch": 0.19406890536415178,
+      "grad_norm": 2.3507750034332275,
+      "learning_rate": 9.640448892059808e-05,
+      "loss": 2.2072,
+      "step": 1335
+    },
+    {
+      "epoch": 0.1947957551969763,
+      "grad_norm": 2.3552613258361816,
+      "learning_rate": 9.63740930206468e-05,
+      "loss": 2.1899,
+      "step": 1340
+    },
+    {
+      "epoch": 0.19552260502980084,
+      "grad_norm": 2.4262423515319824,
+      "learning_rate": 9.634358062161187e-05,
+      "loss": 2.059,
+      "step": 1345
+    },
+    {
+      "epoch": 0.19624945486262538,
+      "grad_norm": 2.285623073577881,
+      "learning_rate": 9.631295180030823e-05,
+      "loss": 2.2887,
+      "step": 1350
+    },
+    {
+      "epoch": 0.19624945486262538,
+      "eval_loss": 2.168858051300049,
+      "eval_runtime": 18.8242,
+      "eval_samples_per_second": 175.359,
+      "eval_steps_per_second": 10.996,
+      "step": 1350
+    },
+    {
+      "epoch": 0.1969763046954499,
+      "grad_norm": 2.717876434326172,
+      "learning_rate": 9.628220663384389e-05,
+      "loss": 2.2158,
+      "step": 1355
+    },
+    {
+      "epoch": 0.19770315452827447,
+      "grad_norm": 2.481752872467041,
+      "learning_rate": 9.62513451996198e-05,
+      "loss": 2.1252,
+      "step": 1360
+    },
+    {
+      "epoch": 0.198430004361099,
+      "grad_norm": 2.680485725402832,
+      "learning_rate": 9.622036757532952e-05,
+      "loss": 2.3132,
+      "step": 1365
+    },
+    {
+      "epoch": 0.19915685419392354,
+      "grad_norm": 2.589087724685669,
+      "learning_rate": 9.618927383895924e-05,
+      "loss": 2.3242,
+      "step": 1370
+    },
+    {
+      "epoch": 0.19988370402674807,
+      "grad_norm": 2.7027056217193604,
+      "learning_rate": 9.615806406878738e-05,
+      "loss": 2.228,
+      "step": 1375
+    },
+    {
+      "epoch": 0.2006105538595726,
+      "grad_norm": 2.358421564102173,
+      "learning_rate": 9.612673834338451e-05,
+      "loss": 2.2923,
+      "step": 1380
+    },
+    {
+      "epoch": 0.20133740369239714,
+      "grad_norm": 2.9651687145233154,
+      "learning_rate": 9.609529674161311e-05,
+      "loss": 2.2235,
+      "step": 1385
+    },
+    {
+      "epoch": 0.2020642535252217,
+      "grad_norm": 2.6667802333831787,
+      "learning_rate": 9.606373934262737e-05,
+      "loss": 2.2205,
+      "step": 1390
+    },
+    {
+      "epoch": 0.20279110335804623,
+      "grad_norm": 2.5625758171081543,
+      "learning_rate": 9.603206622587299e-05,
+      "loss": 2.2178,
+      "step": 1395
+    },
+    {
+      "epoch": 0.20351795319087077,
+      "grad_norm": 2.4167873859405518,
+      "learning_rate": 9.6000277471087e-05,
+      "loss": 2.1721,
+      "step": 1400
+    },
+    {
+      "epoch": 0.20351795319087077,
+      "eval_loss": 2.156383514404297,
+      "eval_runtime": 18.7682,
+      "eval_samples_per_second": 175.883,
+      "eval_steps_per_second": 11.029,
+      "step": 1400
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 3.654657124471931e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null