Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c302dc1f7d4b868ed2fec7fb599c56ab89a9be3b061d10a09c33f91bc884118
 size 3537299144

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd69768e6c7362e7034401e4891974deb19956c18b21ba3b31f81853efbb627b
 size 3537299144

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c82c2ea846bada76c6987cfb10fc7217cfd00b4b82d0021a138e9add209aaec9
 size 1798933287

 version https://git-lfs.github.com/spec/v1
+oid sha256:38440800300a79f86e4139287e715f395d397c23b6a41359b4d1bf2f7d2aa355
 size 1798933287

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ccb8eeb935749fc43744e0a5eeacdf6f0f10253be15266a497cbca0ffaa2573
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec2cf52e4c3f15759e904ba93b5a10165bb850df54a226c7977bcfa5b79f76fb
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83429aff07094f43f6ae84f250d5d91c95fca2dfaf4ecddce133674cbbfe1442
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fa42c1f1d72d6fd251db37cabd50277c40b6993f9c2917ab544677f4cec64b3
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3454231433506045,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -366,6 +366,364 @@
       "eval_samples_per_second": 2.414,
       "eval_steps_per_second": 0.606,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -385,7 +743,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0220481364790016e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.690846286701209,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 2.414,
       "eval_steps_per_second": 0.606,
       "step": 50
+    },
+    {
+      "epoch": 0.35233160621761656,
+      "grad_norm": 0.26529672741889954,
+      "learning_rate": 7.660160382576683e-06,
+      "loss": 2.0817,
+      "step": 51
+    },
+    {
+      "epoch": 0.3592400690846287,
+      "grad_norm": 0.2169308364391327,
+      "learning_rate": 7.564496387029532e-06,
+      "loss": 1.7478,
+      "step": 52
+    },
+    {
+      "epoch": 0.36614853195164077,
+      "grad_norm": 0.24268858134746552,
+      "learning_rate": 7.467541090321735e-06,
+      "loss": 1.8318,
+      "step": 53
+    },
+    {
+      "epoch": 0.37305699481865284,
+      "grad_norm": 0.2409997284412384,
+      "learning_rate": 7.369343312364994e-06,
+      "loss": 1.7587,
+      "step": 54
+    },
+    {
+      "epoch": 0.3799654576856649,
+      "grad_norm": 0.25278374552726746,
+      "learning_rate": 7.269952498697734e-06,
+      "loss": 1.9785,
+      "step": 55
+    },
+    {
+      "epoch": 0.38687392055267705,
+      "grad_norm": 0.23796814680099487,
+      "learning_rate": 7.169418695587791e-06,
+      "loss": 1.8941,
+      "step": 56
+    },
+    {
+      "epoch": 0.39378238341968913,
+      "grad_norm": 0.21832697093486786,
+      "learning_rate": 7.067792524832604e-06,
+      "loss": 1.7578,
+      "step": 57
+    },
+    {
+      "epoch": 0.4006908462867012,
+      "grad_norm": 0.2829532027244568,
+      "learning_rate": 6.965125158269619e-06,
+      "loss": 2.1754,
+      "step": 58
+    },
+    {
+      "epoch": 0.4075993091537133,
+      "grad_norm": 0.2926061451435089,
+      "learning_rate": 6.8614682920097265e-06,
+      "loss": 2.4897,
+      "step": 59
+    },
+    {
+      "epoch": 0.41450777202072536,
+      "grad_norm": 0.2706138491630554,
+      "learning_rate": 6.7568741204067145e-06,
+      "loss": 2.0711,
+      "step": 60
+    },
+    {
+      "epoch": 0.4214162348877375,
+      "grad_norm": 0.22621501982212067,
+      "learning_rate": 6.651395309775837e-06,
+      "loss": 1.8491,
+      "step": 61
+    },
+    {
+      "epoch": 0.4283246977547496,
+      "grad_norm": 0.2318510115146637,
+      "learning_rate": 6.545084971874738e-06,
+      "loss": 1.7088,
+      "step": 62
+    },
+    {
+      "epoch": 0.43523316062176165,
+      "grad_norm": 0.2396102398633957,
+      "learning_rate": 6.437996637160086e-06,
+      "loss": 1.8507,
+      "step": 63
+    },
+    {
+      "epoch": 0.4421416234887737,
+      "grad_norm": 0.26362478733062744,
+      "learning_rate": 6.330184227833376e-06,
+      "loss": 1.9226,
+      "step": 64
+    },
+    {
+      "epoch": 0.44905008635578586,
+      "grad_norm": 0.24076825380325317,
+      "learning_rate": 6.2217020306894705e-06,
+      "loss": 1.7639,
+      "step": 65
+    },
+    {
+      "epoch": 0.45595854922279794,
+      "grad_norm": 0.24980144202709198,
+      "learning_rate": 6.112604669781572e-06,
+      "loss": 1.911,
+      "step": 66
+    },
+    {
+      "epoch": 0.46286701208981,
+      "grad_norm": 0.2638571858406067,
+      "learning_rate": 6.002947078916365e-06,
+      "loss": 2.0759,
+      "step": 67
+    },
+    {
+      "epoch": 0.4697754749568221,
+      "grad_norm": 0.29171910881996155,
+      "learning_rate": 5.892784473993184e-06,
+      "loss": 2.0647,
+      "step": 68
+    },
+    {
+      "epoch": 0.47668393782383417,
+      "grad_norm": 0.2925715744495392,
+      "learning_rate": 5.782172325201155e-06,
+      "loss": 2.0447,
+      "step": 69
+    },
+    {
+      "epoch": 0.4835924006908463,
+      "grad_norm": 0.23386667668819427,
+      "learning_rate": 5.671166329088278e-06,
+      "loss": 1.852,
+      "step": 70
+    },
+    {
+      "epoch": 0.4905008635578584,
+      "grad_norm": 0.24327710270881653,
+      "learning_rate": 5.559822380516539e-06,
+      "loss": 1.8899,
+      "step": 71
+    },
+    {
+      "epoch": 0.49740932642487046,
+      "grad_norm": 0.2617882192134857,
+      "learning_rate": 5.448196544517168e-06,
+      "loss": 2.0904,
+      "step": 72
+    },
+    {
+      "epoch": 0.5043177892918825,
+      "grad_norm": 0.2401256114244461,
+      "learning_rate": 5.336345028060199e-06,
+      "loss": 1.8795,
+      "step": 73
+    },
+    {
+      "epoch": 0.5112262521588946,
+      "grad_norm": 0.2712593674659729,
+      "learning_rate": 5.224324151752575e-06,
+      "loss": 2.0559,
+      "step": 74
+    },
+    {
+      "epoch": 0.5181347150259067,
+      "grad_norm": 0.2670513391494751,
+      "learning_rate": 5.112190321479026e-06,
+      "loss": 2.0488,
+      "step": 75
+    },
+    {
+      "epoch": 0.5250431778929189,
+      "grad_norm": 0.2406473010778427,
+      "learning_rate": 5e-06,
+      "loss": 1.9381,
+      "step": 76
+    },
+    {
+      "epoch": 0.531951640759931,
+      "grad_norm": 0.2831808030605316,
+      "learning_rate": 4.887809678520976e-06,
+      "loss": 2.137,
+      "step": 77
+    },
+    {
+      "epoch": 0.538860103626943,
+      "grad_norm": 0.2615388333797455,
+      "learning_rate": 4.775675848247427e-06,
+      "loss": 2.0174,
+      "step": 78
+    },
+    {
+      "epoch": 0.5457685664939551,
+      "grad_norm": 0.2528943121433258,
+      "learning_rate": 4.663654971939802e-06,
+      "loss": 1.8625,
+      "step": 79
+    },
+    {
+      "epoch": 0.5526770293609672,
+      "grad_norm": 0.23635736107826233,
+      "learning_rate": 4.551803455482833e-06,
+      "loss": 1.8214,
+      "step": 80
+    },
+    {
+      "epoch": 0.5595854922279793,
+      "grad_norm": 0.27131161093711853,
+      "learning_rate": 4.4401776194834615e-06,
+      "loss": 1.9002,
+      "step": 81
+    },
+    {
+      "epoch": 0.5664939550949913,
+      "grad_norm": 0.25781673192977905,
+      "learning_rate": 4.3288336709117246e-06,
+      "loss": 1.9126,
+      "step": 82
+    },
+    {
+      "epoch": 0.5734024179620034,
+      "grad_norm": 0.2586870789527893,
+      "learning_rate": 4.217827674798845e-06,
+      "loss": 1.9539,
+      "step": 83
+    },
+    {
+      "epoch": 0.5803108808290155,
+      "grad_norm": 0.2633845806121826,
+      "learning_rate": 4.107215526006818e-06,
+      "loss": 1.9201,
+      "step": 84
+    },
+    {
+      "epoch": 0.5872193436960277,
+      "grad_norm": 0.2853638231754303,
+      "learning_rate": 3.997052921083637e-06,
+      "loss": 2.0815,
+      "step": 85
+    },
+    {
+      "epoch": 0.5941278065630398,
+      "grad_norm": 0.2256501466035843,
+      "learning_rate": 3.887395330218429e-06,
+      "loss": 1.6324,
+      "step": 86
+    },
+    {
+      "epoch": 0.6010362694300518,
+      "grad_norm": 0.27014851570129395,
+      "learning_rate": 3.778297969310529e-06,
+      "loss": 1.8823,
+      "step": 87
+    },
+    {
+      "epoch": 0.6079447322970639,
+      "grad_norm": 0.2682372033596039,
+      "learning_rate": 3.669815772166625e-06,
+      "loss": 1.8645,
+      "step": 88
+    },
+    {
+      "epoch": 0.614853195164076,
+      "grad_norm": 0.2270493060350418,
+      "learning_rate": 3.562003362839914e-06,
+      "loss": 1.8234,
+      "step": 89
+    },
+    {
+      "epoch": 0.6217616580310881,
+      "grad_norm": 0.255436509847641,
+      "learning_rate": 3.4549150281252635e-06,
+      "loss": 1.9353,
+      "step": 90
+    },
+    {
+      "epoch": 0.6286701208981001,
+      "grad_norm": 0.2589050233364105,
+      "learning_rate": 3.3486046902241663e-06,
+      "loss": 1.998,
+      "step": 91
+    },
+    {
+      "epoch": 0.6355785837651122,
+      "grad_norm": 0.24356301128864288,
+      "learning_rate": 3.2431258795932863e-06,
+      "loss": 1.7773,
+      "step": 92
+    },
+    {
+      "epoch": 0.6424870466321243,
+      "grad_norm": 0.27413704991340637,
+      "learning_rate": 3.1385317079902743e-06,
+      "loss": 1.9753,
+      "step": 93
+    },
+    {
+      "epoch": 0.6493955094991365,
+      "grad_norm": 0.2753913700580597,
+      "learning_rate": 3.0348748417303826e-06,
+      "loss": 2.1045,
+      "step": 94
+    },
+    {
+      "epoch": 0.6563039723661486,
+      "grad_norm": 0.29331421852111816,
+      "learning_rate": 2.932207475167398e-06,
+      "loss": 2.2978,
+      "step": 95
+    },
+    {
+      "epoch": 0.6632124352331606,
+      "grad_norm": 0.24595493078231812,
+      "learning_rate": 2.83058130441221e-06,
+      "loss": 1.9159,
+      "step": 96
+    },
+    {
+      "epoch": 0.6701208981001727,
+      "grad_norm": 0.24188601970672607,
+      "learning_rate": 2.7300475013022666e-06,
+      "loss": 1.7877,
+      "step": 97
+    },
+    {
+      "epoch": 0.6770293609671848,
+      "grad_norm": 0.2542547285556793,
+      "learning_rate": 2.6306566876350072e-06,
+      "loss": 1.9244,
+      "step": 98
+    },
+    {
+      "epoch": 0.6839378238341969,
+      "grad_norm": 0.2622241973876953,
+      "learning_rate": 2.532458909678266e-06,
+      "loss": 1.7582,
+      "step": 99
+    },
+    {
+      "epoch": 0.690846286701209,
+      "grad_norm": 0.25373589992523193,
+      "learning_rate": 2.43550361297047e-06,
+      "loss": 2.0471,
+      "step": 100
+    },
+    {
+      "epoch": 0.690846286701209,
+      "eval_loss": 0.5006352066993713,
+      "eval_runtime": 214.2546,
+      "eval_samples_per_second": 2.399,
+      "eval_steps_per_second": 0.602,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.0400273584358912e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null