Training in progress, step 504, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +395 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a9ecc8f22f2d134fb829455d62e5eda965f38301e3ee95766f8156c52d05093
 size 1824599104

 version https://git-lfs.github.com/spec/v1
+oid sha256:38d0011b7e613a29d5e131744cf9551b13d670173b611c938455f075b5670162
 size 1824599104

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:86d8193f3a86823f5c4bfa0eacdb2b01a1e2d4833a8667b609b4e2bca7217d19
 size 3649546931

 version https://git-lfs.github.com/spec/v1
+oid sha256:e16932099408d52ff2c49f7820fe2ff8dfa04000b793ddda91e43c81562d745e
 size 3649546931

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f208840ef7b8768cb1d5d41027f6f54749723d1944c14ce8b8bc0e95cc382606
 size 1824732017

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f84a51fc1320d3e9e50e59e4a5b035e5730a7972076835884e11a7038f65480
 size 1824732017

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:885e639a7848dfb73b3873d4a966790b7dec9c1825488c160bcd315387591bc1
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb2ac806a466383eb93df8ea80a99b3712cfe8151e695c0b1f758cdeecaffe3f
 size 14917

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20f4c60ba7d22e6ff36124bc1136d96ba5f590431a7bbb775918806c0c101306
 size 14917

 version https://git-lfs.github.com/spec/v1
+oid sha256:1792063418a35fb366dea84068243d35d9402e3b9a3f5eb21e797819c64aabaf
 size 14917

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5316c25576f6827cfc59e409ab7ee8cf3345edb0500b89ef3e46d8b194b79a11
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cbf2b75e2a57c11b63da0a0bf35923f452238d3e3de2a4a72ee75dbf9a6674a
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.8086642599277978,
   "eval_steps": 500,
-  "global_step": 448,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3144,6 +3144,398 @@
       "learning_rate": 7.10455764075067e-06,
       "loss": 2.3279,
       "step": 448
     }
   ],
   "logging_steps": 1,
@@ -3163,7 +3555,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.95833078219119e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9097472924187726,
   "eval_steps": 500,
+  "global_step": 504,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 7.10455764075067e-06,
       "loss": 2.3279,
       "step": 448
+    },
+    {
+      "epoch": 0.8104693140794224,
+      "grad_norm": 0.47747042775154114,
+      "learning_rate": 7.080242751180042e-06,
+      "loss": 2.268,
+      "step": 449
+    },
+    {
+      "epoch": 0.8122743682310469,
+      "grad_norm": 0.4877883195877075,
+      "learning_rate": 7.055630936227952e-06,
+      "loss": 2.1942,
+      "step": 450
+    },
+    {
+      "epoch": 0.8140794223826715,
+      "grad_norm": 0.5198360681533813,
+      "learning_rate": 7.030716723549489e-06,
+      "loss": 2.5021,
+      "step": 451
+    },
+    {
+      "epoch": 0.8158844765342961,
+      "grad_norm": 0.642713725566864,
+      "learning_rate": 7.005494505494505e-06,
+      "loss": 2.4711,
+      "step": 452
+    },
+    {
+      "epoch": 0.8176895306859205,
+      "grad_norm": 0.6020970344543457,
+      "learning_rate": 6.979958534899792e-06,
+      "loss": 2.6217,
+      "step": 453
+    },
+    {
+      "epoch": 0.8194945848375451,
+      "grad_norm": 1.4466404914855957,
+      "learning_rate": 6.954102920723228e-06,
+      "loss": 2.52,
+      "step": 454
+    },
+    {
+      "epoch": 0.8212996389891697,
+      "grad_norm": 0.4950203001499176,
+      "learning_rate": 6.927921623512947e-06,
+      "loss": 2.2925,
+      "step": 455
+    },
+    {
+      "epoch": 0.8231046931407943,
+      "grad_norm": 0.5081182718276978,
+      "learning_rate": 6.901408450704225e-06,
+      "loss": 2.229,
+      "step": 456
+    },
+    {
+      "epoch": 0.8249097472924187,
+      "grad_norm": 0.48568499088287354,
+      "learning_rate": 6.874557051736357e-06,
+      "loss": 2.2602,
+      "step": 457
+    },
+    {
+      "epoch": 0.8267148014440433,
+      "grad_norm": 0.659635603427887,
+      "learning_rate": 6.847360912981457e-06,
+      "loss": 2.1938,
+      "step": 458
+    },
+    {
+      "epoch": 0.8285198555956679,
+      "grad_norm": 0.5137075781822205,
+      "learning_rate": 6.81981335247667e-06,
+      "loss": 2.3663,
+      "step": 459
+    },
+    {
+      "epoch": 0.8303249097472925,
+      "grad_norm": 0.5395336151123047,
+      "learning_rate": 6.791907514450867e-06,
+      "loss": 2.3545,
+      "step": 460
+    },
+    {
+      "epoch": 0.8321299638989169,
+      "grad_norm": 1.247609257698059,
+      "learning_rate": 6.763636363636363e-06,
+      "loss": 2.3752,
+      "step": 461
+    },
+    {
+      "epoch": 0.8339350180505415,
+      "grad_norm": 0.4546639919281006,
+      "learning_rate": 6.734992679355783e-06,
+      "loss": 2.3414,
+      "step": 462
+    },
+    {
+      "epoch": 0.8357400722021661,
+      "grad_norm": 1.2336573600769043,
+      "learning_rate": 6.70596904937362e-06,
+      "loss": 2.4396,
+      "step": 463
+    },
+    {
+      "epoch": 0.8375451263537906,
+      "grad_norm": 0.4393303692340851,
+      "learning_rate": 6.676557863501484e-06,
+      "loss": 2.2201,
+      "step": 464
+    },
+    {
+      "epoch": 0.8393501805054152,
+      "grad_norm": 0.7220252752304077,
+      "learning_rate": 6.646751306945482e-06,
+      "loss": 2.2517,
+      "step": 465
+    },
+    {
+      "epoch": 0.8411552346570397,
+      "grad_norm": 0.5886508226394653,
+      "learning_rate": 6.616541353383459e-06,
+      "loss": 2.5818,
+      "step": 466
+    },
+    {
+      "epoch": 0.8429602888086642,
+      "grad_norm": 0.43092313408851624,
+      "learning_rate": 6.585919757759274e-06,
+      "loss": 2.3287,
+      "step": 467
+    },
+    {
+      "epoch": 0.8447653429602888,
+      "grad_norm": 0.5468039512634277,
+      "learning_rate": 6.554878048780487e-06,
+      "loss": 2.3269,
+      "step": 468
+    },
+    {
+      "epoch": 0.8465703971119134,
+      "grad_norm": 0.47726455330848694,
+      "learning_rate": 6.523407521105143e-06,
+      "loss": 2.4202,
+      "step": 469
+    },
+    {
+      "epoch": 0.8483754512635379,
+      "grad_norm": 0.5380074381828308,
+      "learning_rate": 6.491499227202473e-06,
+      "loss": 2.4387,
+      "step": 470
+    },
+    {
+      "epoch": 0.8501805054151624,
+      "grad_norm": 0.521969735622406,
+      "learning_rate": 6.459143968871595e-06,
+      "loss": 2.2393,
+      "step": 471
+    },
+    {
+      "epoch": 0.851985559566787,
+      "grad_norm": 1.7683531045913696,
+      "learning_rate": 6.426332288401255e-06,
+      "loss": 2.0042,
+      "step": 472
+    },
+    {
+      "epoch": 0.8537906137184116,
+      "grad_norm": 0.5432044863700867,
+      "learning_rate": 6.393054459352802e-06,
+      "loss": 2.613,
+      "step": 473
+    },
+    {
+      "epoch": 0.855595667870036,
+      "grad_norm": 1.0683743953704834,
+      "learning_rate": 6.359300476947537e-06,
+      "loss": 2.6203,
+      "step": 474
+    },
+    {
+      "epoch": 0.8574007220216606,
+      "grad_norm": 0.7491397857666016,
+      "learning_rate": 6.3250600480384304e-06,
+      "loss": 2.2519,
+      "step": 475
+    },
+    {
+      "epoch": 0.8592057761732852,
+      "grad_norm": 0.5388492345809937,
+      "learning_rate": 6.290322580645162e-06,
+      "loss": 2.6697,
+      "step": 476
+    },
+    {
+      "epoch": 0.8610108303249098,
+      "grad_norm": 0.6041284799575806,
+      "learning_rate": 6.2550771730300575e-06,
+      "loss": 2.3559,
+      "step": 477
+    },
+    {
+      "epoch": 0.8628158844765343,
+      "grad_norm": 2.10063099861145,
+      "learning_rate": 6.2193126022913265e-06,
+      "loss": 2.2704,
+      "step": 478
+    },
+    {
+      "epoch": 0.8646209386281588,
+      "grad_norm": 0.5261618494987488,
+      "learning_rate": 6.183017312448475e-06,
+      "loss": 2.1879,
+      "step": 479
+    },
+    {
+      "epoch": 0.8664259927797834,
+      "grad_norm": 0.7307838201522827,
+      "learning_rate": 6.146179401993355e-06,
+      "loss": 2.205,
+      "step": 480
+    },
+    {
+      "epoch": 0.868231046931408,
+      "grad_norm": 0.4849015474319458,
+      "learning_rate": 6.1087866108786605e-06,
+      "loss": 2.4929,
+      "step": 481
+    },
+    {
+      "epoch": 0.8700361010830325,
+      "grad_norm": 0.6549043655395508,
+      "learning_rate": 6.0708263069139976e-06,
+      "loss": 2.0747,
+      "step": 482
+    },
+    {
+      "epoch": 0.871841155234657,
+      "grad_norm": 0.4754807651042938,
+      "learning_rate": 6.0322854715378085e-06,
+      "loss": 2.1042,
+      "step": 483
+    },
+    {
+      "epoch": 0.8736462093862816,
+      "grad_norm": 0.5533527135848999,
+      "learning_rate": 5.993150684931507e-06,
+      "loss": 2.5076,
+      "step": 484
+    },
+    {
+      "epoch": 0.8754512635379061,
+      "grad_norm": 0.5143368244171143,
+      "learning_rate": 5.953408110440034e-06,
+      "loss": 2.2678,
+      "step": 485
+    },
+    {
+      "epoch": 0.8772563176895307,
+      "grad_norm": 0.4785096347332001,
+      "learning_rate": 5.9130434782608696e-06,
+      "loss": 2.4127,
+      "step": 486
+    },
+    {
+      "epoch": 0.8790613718411552,
+      "grad_norm": 0.9804636240005493,
+      "learning_rate": 5.872042068361087e-06,
+      "loss": 2.567,
+      "step": 487
+    },
+    {
+      "epoch": 0.8808664259927798,
+      "grad_norm": 0.6786078810691833,
+      "learning_rate": 5.830388692579505e-06,
+      "loss": 2.8093,
+      "step": 488
+    },
+    {
+      "epoch": 0.8826714801444043,
+      "grad_norm": 0.5135942697525024,
+      "learning_rate": 5.78806767586821e-06,
+      "loss": 2.2935,
+      "step": 489
+    },
+    {
+      "epoch": 0.8844765342960289,
+      "grad_norm": 0.5666589140892029,
+      "learning_rate": 5.7450628366247755e-06,
+      "loss": 2.4249,
+      "step": 490
+    },
+    {
+      "epoch": 0.8862815884476535,
+      "grad_norm": 2.5704774856567383,
+      "learning_rate": 5.7013574660633486e-06,
+      "loss": 2.3688,
+      "step": 491
+    },
+    {
+      "epoch": 0.8880866425992779,
+      "grad_norm": 0.4560219943523407,
+      "learning_rate": 5.656934306569343e-06,
+      "loss": 2.1992,
+      "step": 492
+    },
+    {
+      "epoch": 0.8898916967509025,
+      "grad_norm": 0.4998960494995117,
+      "learning_rate": 5.611775528978841e-06,
+      "loss": 2.2708,
+      "step": 493
+    },
+    {
+      "epoch": 0.8916967509025271,
+      "grad_norm": 0.5405519604682922,
+      "learning_rate": 5.565862708719851e-06,
+      "loss": 2.0934,
+      "step": 494
+    },
+    {
+      "epoch": 0.8935018050541517,
+      "grad_norm": 0.42325398325920105,
+      "learning_rate": 5.519176800748362e-06,
+      "loss": 2.3872,
+      "step": 495
+    },
+    {
+      "epoch": 0.8953068592057761,
+      "grad_norm": 0.8842243552207947,
+      "learning_rate": 5.4716981132075475e-06,
+      "loss": 2.3562,
+      "step": 496
+    },
+    {
+      "epoch": 0.8971119133574007,
+      "grad_norm": 0.8491457104682922,
+      "learning_rate": 5.423406279733587e-06,
+      "loss": 2.2841,
+      "step": 497
+    },
+    {
+      "epoch": 0.8989169675090253,
+      "grad_norm": 0.6096642017364502,
+      "learning_rate": 5.374280230326295e-06,
+      "loss": 2.6791,
+      "step": 498
+    },
+    {
+      "epoch": 0.9007220216606499,
+      "grad_norm": 0.6584725975990295,
+      "learning_rate": 5.324298160696999e-06,
+      "loss": 2.2986,
+      "step": 499
+    },
+    {
+      "epoch": 0.9025270758122743,
+      "grad_norm": 0.5640181303024292,
+      "learning_rate": 5.2734375e-06,
+      "loss": 2.1596,
+      "step": 500
+    },
+    {
+      "epoch": 0.9043321299638989,
+      "grad_norm": 0.5127259492874146,
+      "learning_rate": 5.22167487684729e-06,
+      "loss": 2.7908,
+      "step": 501
+    },
+    {
+      "epoch": 0.9061371841155235,
+      "grad_norm": 0.6018031239509583,
+      "learning_rate": 5.168986083499006e-06,
+      "loss": 2.5961,
+      "step": 502
+    },
+    {
+      "epoch": 0.907942238267148,
+      "grad_norm": 0.9906480312347412,
+      "learning_rate": 5.115346038114343e-06,
+      "loss": 2.7193,
+      "step": 503
+    },
+    {
+      "epoch": 0.9097472924187726,
+      "grad_norm": 0.39638206362724304,
+      "learning_rate": 5.060728744939272e-06,
+      "loss": 2.1839,
+      "step": 504
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.4632785742536376e+18,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null