Upload checkpoint-30

Browse files

Files changed (4) hide show

model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
trainer_state.json +124 -124
training_args.bin +1 -1

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2e62180cb948d2fc691d3e6bdc6e6cec102b87801a5cf8ec6f9106fd0f93b31f
 size 4967215360

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd2cdece46b452ec010d55b01a2b724d773ed26dbe3890a2db995aa8af278f15
 size 4967215360

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b479e35fca65e6130d442f9b05c99cff1fb1b1f526bbc383810e2ba6c4a8933c
 size 3077766632

 version https://git-lfs.github.com/spec/v1
+oid sha256:70df4cbf577b2f3bb995d52059564bda214f5c93f5709b885a6135f6035a38f7
 size 3077766632

trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.7007299270072993,
   "eval_steps": 1000,
   "global_step": 30,
   "is_hyper_param_search": false,
@@ -10,220 +10,220 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.058394160583941604,
-      "grad_norm": 4.656690719780717,
       "learning_rate": 0.0,
-      "loss": 0.4427,
       "step": 1
     },
     {
-      "epoch": 0.11678832116788321,
-      "grad_norm": 4.86023891396574,
-      "learning_rate": 1.6666666666666667e-06,
-      "loss": 0.4479,
       "step": 2
     },
     {
-      "epoch": 0.17518248175182483,
-      "grad_norm": 4.720432036194861,
-      "learning_rate": 3.3333333333333333e-06,
-      "loss": 0.438,
       "step": 3
     },
     {
-      "epoch": 0.23357664233576642,
-      "grad_norm": 2.7065388639758448,
-      "learning_rate": 5e-06,
-      "loss": 0.4169,
       "step": 4
     },
     {
-      "epoch": 0.291970802919708,
-      "grad_norm": 2.1869690387653904,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 0.4031,
       "step": 5
     },
     {
-      "epoch": 0.35036496350364965,
-      "grad_norm": 1.6374910771466962,
-      "learning_rate": 8.333333333333334e-06,
-      "loss": 0.3685,
       "step": 6
     },
     {
-      "epoch": 0.40875912408759124,
-      "grad_norm": 1.5026227694746652,
-      "learning_rate": 1e-05,
-      "loss": 0.3638,
       "step": 7
     },
     {
-      "epoch": 0.46715328467153283,
-      "grad_norm": 1.7874379044083826,
-      "learning_rate": 9.987820251299121e-06,
-      "loss": 0.3384,
       "step": 8
     },
     {
-      "epoch": 0.5255474452554745,
-      "grad_norm": 1.399545646496995,
-      "learning_rate": 9.951340343707852e-06,
-      "loss": 0.3199,
       "step": 9
     },
     {
-      "epoch": 0.583941605839416,
-      "grad_norm": 0.9591867357924391,
-      "learning_rate": 9.890738003669029e-06,
-      "loss": 0.3052,
       "step": 10
     },
     {
-      "epoch": 0.6423357664233577,
-      "grad_norm": 1.1005637398680819,
-      "learning_rate": 9.806308479691595e-06,
-      "loss": 0.3048,
       "step": 11
     },
     {
-      "epoch": 0.7007299270072993,
-      "grad_norm": 1.0830814869796386,
-      "learning_rate": 9.698463103929542e-06,
-      "loss": 0.3054,
       "step": 12
     },
     {
-      "epoch": 0.7591240875912408,
-      "grad_norm": 0.6865164477755549,
-      "learning_rate": 9.567727288213005e-06,
-      "loss": 0.2981,
       "step": 13
     },
     {
-      "epoch": 0.8175182481751825,
-      "grad_norm": 0.5516228834269103,
-      "learning_rate": 9.414737964294636e-06,
-      "loss": 0.2911,
       "step": 14
     },
     {
-      "epoch": 0.8759124087591241,
-      "grad_norm": 0.5820793130011475,
-      "learning_rate": 9.24024048078213e-06,
-      "loss": 0.2853,
       "step": 15
     },
     {
-      "epoch": 0.9343065693430657,
-      "grad_norm": 0.4932271006804814,
-      "learning_rate": 9.045084971874738e-06,
-      "loss": 0.2869,
       "step": 16
     },
     {
-      "epoch": 0.9927007299270073,
-      "grad_norm": 0.4055326985718036,
-      "learning_rate": 8.83022221559489e-06,
-      "loss": 0.2839,
       "step": 17
     },
     {
-      "epoch": 1.0,
-      "grad_norm": 0.4055326985718036,
-      "learning_rate": 8.596699001693257e-06,
-      "loss": 0.2804,
       "step": 18
     },
     {
-      "epoch": 1.0583941605839415,
-      "grad_norm": 0.7337766666428717,
-      "learning_rate": 8.345653031794292e-06,
-      "loss": 0.2726,
       "step": 19
     },
     {
-      "epoch": 1.1167883211678833,
-      "grad_norm": 0.3691176180981217,
-      "learning_rate": 8.078307376628292e-06,
-      "loss": 0.276,
       "step": 20
     },
     {
-      "epoch": 1.1751824817518248,
-      "grad_norm": 0.344408713464,
-      "learning_rate": 7.795964517353734e-06,
-      "loss": 0.2691,
       "step": 21
     },
     {
-      "epoch": 1.2335766423357664,
-      "grad_norm": 0.33587123887427156,
-      "learning_rate": 7.500000000000001e-06,
-      "loss": 0.2708,
       "step": 22
     },
     {
-      "epoch": 1.2919708029197081,
-      "grad_norm": 0.36312692209169634,
-      "learning_rate": 7.191855733945388e-06,
-      "loss": 0.2722,
       "step": 23
     },
     {
-      "epoch": 1.3503649635036497,
-      "grad_norm": 0.3467493765316541,
-      "learning_rate": 6.873032967079562e-06,
-      "loss": 0.2684,
       "step": 24
     },
     {
-      "epoch": 1.4087591240875912,
-      "grad_norm": 0.29985014243285585,
-      "learning_rate": 6.545084971874738e-06,
-      "loss": 0.2644,
       "step": 25
     },
     {
-      "epoch": 1.4671532846715327,
-      "grad_norm": 0.3009900653944404,
-      "learning_rate": 6.209609477998339e-06,
-      "loss": 0.2688,
       "step": 26
     },
     {
-      "epoch": 1.5255474452554745,
-      "grad_norm": 0.3055997904476839,
-      "learning_rate": 5.8682408883346535e-06,
-      "loss": 0.269,
       "step": 27
     },
     {
-      "epoch": 1.583941605839416,
-      "grad_norm": 0.30028028239827603,
-      "learning_rate": 5.522642316338268e-06,
-      "loss": 0.2656,
       "step": 28
     },
     {
-      "epoch": 1.6423357664233578,
-      "grad_norm": 0.2763150426486829,
-      "learning_rate": 5.174497483512506e-06,
-      "loss": 0.2603,
       "step": 29
     },
     {
-      "epoch": 1.7007299270072993,
-      "grad_norm": 0.2701531414864163,
-      "learning_rate": 4.825502516487497e-06,
-      "loss": 0.2624,
       "step": 30
     }
   ],
   "logging_steps": 1,
-  "max_steps": 51,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -237,8 +237,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 71710518804480.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11121408711770157,
   "eval_steps": 1000,
   "global_step": 30,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0037071362372567192,
+      "grad_norm": 4.805793835959296,
       "learning_rate": 0.0,
+      "loss": 0.4732,
       "step": 1
     },
     {
+      "epoch": 0.0074142724745134385,
+      "grad_norm": 4.999676761082255,
+      "learning_rate": 1.8518518518518518e-07,
+      "loss": 0.5107,
       "step": 2
     },
     {
+      "epoch": 0.011121408711770158,
+      "grad_norm": 4.864588159866656,
+      "learning_rate": 3.7037037037037036e-07,
+      "loss": 0.4708,
       "step": 3
     },
     {
+      "epoch": 0.014828544949026877,
+      "grad_norm": 5.136331269447859,
+      "learning_rate": 5.555555555555555e-07,
+      "loss": 0.5024,
       "step": 4
     },
     {
+      "epoch": 0.018535681186283594,
+      "grad_norm": 4.731519955515801,
+      "learning_rate": 7.407407407407407e-07,
+      "loss": 0.4598,
       "step": 5
     },
     {
+      "epoch": 0.022242817423540315,
+      "grad_norm": 4.567784280784228,
+      "learning_rate": 9.259259259259259e-07,
+      "loss": 0.4717,
       "step": 6
     },
     {
+      "epoch": 0.025949953660797033,
+      "grad_norm": 4.522993398842187,
+      "learning_rate": 1.111111111111111e-06,
+      "loss": 0.4649,
       "step": 7
     },
     {
+      "epoch": 0.029657089898053754,
+      "grad_norm": 2.864282407749261,
+      "learning_rate": 1.2962962962962962e-06,
+      "loss": 0.4499,
       "step": 8
     },
     {
+      "epoch": 0.033364226135310475,
+      "grad_norm": 2.781272716749165,
+      "learning_rate": 1.4814814814814815e-06,
+      "loss": 0.4952,
       "step": 9
     },
     {
+      "epoch": 0.03707136237256719,
+      "grad_norm": 2.546317122615437,
+      "learning_rate": 1.6666666666666667e-06,
+      "loss": 0.4487,
       "step": 10
     },
     {
+      "epoch": 0.04077849860982391,
+      "grad_norm": 2.700137363750789,
+      "learning_rate": 1.8518518518518519e-06,
+      "loss": 0.4335,
       "step": 11
     },
     {
+      "epoch": 0.04448563484708063,
+      "grad_norm": 2.7541576896447233,
+      "learning_rate": 2.037037037037037e-06,
+      "loss": 0.4371,
       "step": 12
     },
     {
+      "epoch": 0.04819277108433735,
+      "grad_norm": 2.8211373607312447,
+      "learning_rate": 2.222222222222222e-06,
+      "loss": 0.4374,
       "step": 13
     },
     {
+      "epoch": 0.051899907321594066,
+      "grad_norm": 2.762988661288179,
+      "learning_rate": 2.4074074074074075e-06,
+      "loss": 0.4609,
       "step": 14
     },
     {
+      "epoch": 0.05560704355885079,
+      "grad_norm": 2.0744764582695923,
+      "learning_rate": 2.5925925925925925e-06,
+      "loss": 0.3954,
       "step": 15
     },
     {
+      "epoch": 0.05931417979610751,
+      "grad_norm": 2.0106943337826277,
+      "learning_rate": 2.7777777777777783e-06,
+      "loss": 0.3589,
       "step": 16
     },
     {
+      "epoch": 0.06302131603336422,
+      "grad_norm": 1.9151145546731518,
+      "learning_rate": 2.962962962962963e-06,
+      "loss": 0.374,
       "step": 17
     },
     {
+      "epoch": 0.06672845227062095,
+      "grad_norm": 1.7742581344696668,
+      "learning_rate": 3.1481481481481483e-06,
+      "loss": 0.4013,
       "step": 18
     },
     {
+      "epoch": 0.07043558850787766,
+      "grad_norm": 1.5873818678054419,
+      "learning_rate": 3.3333333333333333e-06,
+      "loss": 0.3847,
       "step": 19
     },
     {
+      "epoch": 0.07414272474513438,
+      "grad_norm": 1.1782654410938447,
+      "learning_rate": 3.5185185185185187e-06,
+      "loss": 0.3392,
       "step": 20
     },
     {
+      "epoch": 0.0778498609823911,
+      "grad_norm": 1.2100197827995287,
+      "learning_rate": 3.7037037037037037e-06,
+      "loss": 0.3174,
       "step": 21
     },
     {
+      "epoch": 0.08155699721964782,
+      "grad_norm": 1.3105688995199969,
+      "learning_rate": 3.88888888888889e-06,
+      "loss": 0.3774,
       "step": 22
     },
     {
+      "epoch": 0.08526413345690455,
+      "grad_norm": 1.0431241378849054,
+      "learning_rate": 4.074074074074074e-06,
+      "loss": 0.3329,
       "step": 23
     },
     {
+      "epoch": 0.08897126969416126,
+      "grad_norm": 0.8631707844136063,
+      "learning_rate": 4.2592592592592596e-06,
+      "loss": 0.2954,
       "step": 24
     },
     {
+      "epoch": 0.09267840593141798,
+      "grad_norm": 0.890999961539687,
+      "learning_rate": 4.444444444444444e-06,
+      "loss": 0.3143,
       "step": 25
     },
     {
+      "epoch": 0.0963855421686747,
+      "grad_norm": 0.8696087553408013,
+      "learning_rate": 4.62962962962963e-06,
+      "loss": 0.3012,
       "step": 26
     },
     {
+      "epoch": 0.10009267840593142,
+      "grad_norm": 0.9182891405006179,
+      "learning_rate": 4.814814814814815e-06,
+      "loss": 0.2918,
       "step": 27
     },
     {
+      "epoch": 0.10379981464318813,
+      "grad_norm": 0.9323649589307044,
+      "learning_rate": 5e-06,
+      "loss": 0.2953,
       "step": 28
     },
     {
+      "epoch": 0.10750695088044486,
+      "grad_norm": 0.812755436108598,
+      "learning_rate": 5.185185185185185e-06,
+      "loss": 0.3003,
       "step": 29
     },
     {
+      "epoch": 0.11121408711770157,
+      "grad_norm": 0.7059616195446038,
+      "learning_rate": 5.370370370370371e-06,
+      "loss": 0.2843,
       "step": 30
     }
   ],
   "logging_steps": 1,
+  "max_steps": 538,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 10,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 8820667908096.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:53c6f4efddf302c1bffd66ab18844ca3866955a21ba82011ba2b03f6c0e75c9d
 size 7672

 version https://git-lfs.github.com/spec/v1
+oid sha256:a64ffa12d6705d8296a8b6f2566b231894f0a3dd59a90b16aa729e1533fd4fa8
 size 7672