Upload folder using huggingface_hub

4c21da6 verified 10 months ago

29.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 14.0,
	"eval_steps": 500,
	"global_step": 14728,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.09505703422053231,
	"grad_norm": 0.9250678420066833,
	"learning_rate": 3.95882818685669e-05,
	"loss": 6.6663,
	"step": 100
	},
	{
	"epoch": 0.19011406844106463,
	"grad_norm": 1.117205262184143,
	"learning_rate": 7.91765637371338e-05,
	"loss": 4.145,
	"step": 200
	},
	{
	"epoch": 0.28517110266159695,
	"grad_norm": 1.3325448036193848,
	"learning_rate": 0.00011876484560570071,
	"loss": 3.8608,
	"step": 300
	},
	{
	"epoch": 0.38022813688212925,
	"grad_norm": 0.9613128900527954,
	"learning_rate": 0.0001583531274742676,
	"loss": 3.768,
	"step": 400
	},
	{
	"epoch": 0.4752851711026616,
	"grad_norm": 1.1198444366455078,
	"learning_rate": 0.00019794140934283454,
	"loss": 3.7093,
	"step": 500
	},
	{
	"epoch": 0.5703422053231939,
	"grad_norm": 1.0210366249084473,
	"learning_rate": 0.00023752969121140142,
	"loss": 3.6664,
	"step": 600
	},
	{
	"epoch": 0.6653992395437263,
	"grad_norm": 0.9687440395355225,
	"learning_rate": 0.00027711797307996834,
	"loss": 3.5409,
	"step": 700
	},
	{
	"epoch": 0.7604562737642585,
	"grad_norm": 1.4981633424758911,
	"learning_rate": 0.0003167062549485352,
	"loss": 3.3992,
	"step": 800
	},
	{
	"epoch": 0.8555133079847909,
	"grad_norm": 0.8627603650093079,
	"learning_rate": 0.00035629453681710216,
	"loss": 3.1727,
	"step": 900
	},
	{
	"epoch": 0.9505703422053232,
	"grad_norm": 0.9925593733787537,
	"learning_rate": 0.0003958828186856691,
	"loss": 2.9724,
	"step": 1000
	},
	{
	"epoch": 1.0,
	"eval_loss": 2.6960370540618896,
	"eval_runtime": 3.7345,
	"eval_samples_per_second": 1897.152,
	"eval_steps_per_second": 118.622,
	"step": 1052
	},
	{
	"epoch": 1.0456273764258555,
	"grad_norm": 0.9267619848251343,
	"learning_rate": 0.00043547110055423594,
	"loss": 2.7022,
	"step": 1100
	},
	{
	"epoch": 1.1406844106463878,
	"grad_norm": 0.7666485905647278,
	"learning_rate": 0.00047505938242280285,
	"loss": 2.5641,
	"step": 1200
	},
	{
	"epoch": 1.2357414448669202,
	"grad_norm": 0.5969619154930115,
	"learning_rate": 0.0004990645699549983,
	"loss": 2.5058,
	"step": 1300
	},
	{
	"epoch": 1.3307984790874525,
	"grad_norm": 0.7782655358314514,
	"learning_rate": 0.0004965363806441826,
	"loss": 2.4665,
	"step": 1400
	},
	{
	"epoch": 1.4258555133079849,
	"grad_norm": 0.8928040266036987,
	"learning_rate": 0.000494008191333367,
	"loss": 2.4311,
	"step": 1500
	},
	{
	"epoch": 1.5209125475285172,
	"grad_norm": 0.8687949180603027,
	"learning_rate": 0.0004914800020225515,
	"loss": 2.3964,
	"step": 1600
	},
	{
	"epoch": 1.6159695817490496,
	"grad_norm": 0.6245518922805786,
	"learning_rate": 0.0004889518127117359,
	"loss": 2.374,
	"step": 1700
	},
	{
	"epoch": 1.7110266159695817,
	"grad_norm": 0.6903976202011108,
	"learning_rate": 0.0004864236234009203,
	"loss": 2.3606,
	"step": 1800
	},
	{
	"epoch": 1.806083650190114,
	"grad_norm": 0.8996257781982422,
	"learning_rate": 0.00048389543409010466,
	"loss": 2.3376,
	"step": 1900
	},
	{
	"epoch": 1.9011406844106464,
	"grad_norm": 0.734466016292572,
	"learning_rate": 0.0004813672447792891,
	"loss": 2.3226,
	"step": 2000
	},
	{
	"epoch": 1.9961977186311786,
	"grad_norm": 0.6836825013160706,
	"learning_rate": 0.0004788390554684735,
	"loss": 2.3108,
	"step": 2100
	},
	{
	"epoch": 2.0,
	"eval_loss": 2.285733461380005,
	"eval_runtime": 3.623,
	"eval_samples_per_second": 1955.579,
	"eval_steps_per_second": 122.275,
	"step": 2104
	},
	{
	"epoch": 2.091254752851711,
	"grad_norm": 0.5974160432815552,
	"learning_rate": 0.0004763108661576579,
	"loss": 2.2585,
	"step": 2200
	},
	{
	"epoch": 2.1863117870722433,
	"grad_norm": 0.788093626499176,
	"learning_rate": 0.0004737826768468423,
	"loss": 2.264,
	"step": 2300
	},
	{
	"epoch": 2.2813688212927756,
	"grad_norm": 0.7451100945472717,
	"learning_rate": 0.00047125448753602674,
	"loss": 2.2504,
	"step": 2400
	},
	{
	"epoch": 2.376425855513308,
	"grad_norm": 0.6724629998207092,
	"learning_rate": 0.0004687262982252111,
	"loss": 2.2358,
	"step": 2500
	},
	{
	"epoch": 2.4714828897338403,
	"grad_norm": 0.6606141924858093,
	"learning_rate": 0.00046619810891439554,
	"loss": 2.2301,
	"step": 2600
	},
	{
	"epoch": 2.5665399239543727,
	"grad_norm": 0.6599621772766113,
	"learning_rate": 0.0004636699196035799,
	"loss": 2.2268,
	"step": 2700
	},
	{
	"epoch": 2.661596958174905,
	"grad_norm": 0.6633493304252625,
	"learning_rate": 0.00046114173029276434,
	"loss": 2.2247,
	"step": 2800
	},
	{
	"epoch": 2.7566539923954374,
	"grad_norm": 0.6308265328407288,
	"learning_rate": 0.00045861354098194877,
	"loss": 2.2221,
	"step": 2900
	},
	{
	"epoch": 2.8517110266159698,
	"grad_norm": 0.6383451223373413,
	"learning_rate": 0.00045608535167113314,
	"loss": 2.2274,
	"step": 3000
	},
	{
	"epoch": 2.9467680608365017,
	"grad_norm": 0.61512291431427,
	"learning_rate": 0.00045355716236031757,
	"loss": 2.2067,
	"step": 3100
	},
	{
	"epoch": 3.0,
	"eval_loss": 2.2008087635040283,
	"eval_runtime": 3.5613,
	"eval_samples_per_second": 1989.445,
	"eval_steps_per_second": 124.393,
	"step": 3156
	},
	{
	"epoch": 3.041825095057034,
	"grad_norm": 0.7461186647415161,
	"learning_rate": 0.00045102897304950194,
	"loss": 2.1882,
	"step": 3200
	},
	{
	"epoch": 3.1368821292775664,
	"grad_norm": 0.6590662598609924,
	"learning_rate": 0.00044850078373868637,
	"loss": 2.1662,
	"step": 3300
	},
	{
	"epoch": 3.2319391634980987,
	"grad_norm": 0.5832785964012146,
	"learning_rate": 0.00044597259442787074,
	"loss": 2.1603,
	"step": 3400
	},
	{
	"epoch": 3.326996197718631,
	"grad_norm": 0.6356543898582458,
	"learning_rate": 0.00044344440511705517,
	"loss": 2.1601,
	"step": 3500
	},
	{
	"epoch": 3.4220532319391634,
	"grad_norm": 0.7197031378746033,
	"learning_rate": 0.0004409162158062396,
	"loss": 2.1567,
	"step": 3600
	},
	{
	"epoch": 3.517110266159696,
	"grad_norm": 0.5856086611747742,
	"learning_rate": 0.00043838802649542397,
	"loss": 2.1588,
	"step": 3700
	},
	{
	"epoch": 3.612167300380228,
	"grad_norm": 0.6212655305862427,
	"learning_rate": 0.00043585983718460834,
	"loss": 2.1565,
	"step": 3800
	},
	{
	"epoch": 3.7072243346007605,
	"grad_norm": 0.6765671968460083,
	"learning_rate": 0.0004333316478737928,
	"loss": 2.1667,
	"step": 3900
	},
	{
	"epoch": 3.802281368821293,
	"grad_norm": 0.6720090508460999,
	"learning_rate": 0.0004308034585629772,
	"loss": 2.1675,
	"step": 4000
	},
	{
	"epoch": 3.897338403041825,
	"grad_norm": 0.7150991559028625,
	"learning_rate": 0.00042827526925216157,
	"loss": 2.1474,
	"step": 4100
	},
	{
	"epoch": 3.9923954372623576,
	"grad_norm": 0.5831249356269836,
	"learning_rate": 0.00042574707994134605,
	"loss": 2.1485,
	"step": 4200
	},
	{
	"epoch": 4.0,
	"eval_loss": 2.15364408493042,
	"eval_runtime": 3.644,
	"eval_samples_per_second": 1944.292,
	"eval_steps_per_second": 121.57,
	"step": 4208
	},
	{
	"epoch": 4.08745247148289,
	"grad_norm": 0.6653150916099548,
	"learning_rate": 0.0004232188906305304,
	"loss": 2.0899,
	"step": 4300
	},
	{
	"epoch": 4.182509505703422,
	"grad_norm": 0.7235066294670105,
	"learning_rate": 0.0004206907013197148,
	"loss": 2.0982,
	"step": 4400
	},
	{
	"epoch": 4.277566539923955,
	"grad_norm": 0.7326545715332031,
	"learning_rate": 0.0004181625120088992,
	"loss": 2.1007,
	"step": 4500
	},
	{
	"epoch": 4.3726235741444865,
	"grad_norm": 0.6236776113510132,
	"learning_rate": 0.00041563432269808365,
	"loss": 2.1031,
	"step": 4600
	},
	{
	"epoch": 4.467680608365019,
	"grad_norm": 0.5669475197792053,
	"learning_rate": 0.000413106133387268,
	"loss": 2.1087,
	"step": 4700
	},
	{
	"epoch": 4.562737642585551,
	"grad_norm": 0.5483006834983826,
	"learning_rate": 0.00041057794407645245,
	"loss": 2.1034,
	"step": 4800
	},
	{
	"epoch": 4.657794676806084,
	"grad_norm": 0.5456926822662354,
	"learning_rate": 0.0004080497547656369,
	"loss": 2.1065,
	"step": 4900
	},
	{
	"epoch": 4.752851711026616,
	"grad_norm": 0.9545803666114807,
	"learning_rate": 0.00040552156545482125,
	"loss": 2.1168,
	"step": 5000
	},
	{
	"epoch": 4.847908745247148,
	"grad_norm": 0.5378767251968384,
	"learning_rate": 0.0004029933761440057,
	"loss": 2.1107,
	"step": 5100
	},
	{
	"epoch": 4.942965779467681,
	"grad_norm": 0.629880964756012,
	"learning_rate": 0.00040046518683319005,
	"loss": 2.0983,
	"step": 5200
	},
	{
	"epoch": 5.0,
	"eval_loss": 2.132718801498413,
	"eval_runtime": 3.6373,
	"eval_samples_per_second": 1947.857,
	"eval_steps_per_second": 121.793,
	"step": 5260
	},
	{
	"epoch": 5.038022813688213,
	"grad_norm": 0.5900342464447021,
	"learning_rate": 0.0003979369975223745,
	"loss": 2.0758,
	"step": 5300
	},
	{
	"epoch": 5.133079847908745,
	"grad_norm": 0.6181082129478455,
	"learning_rate": 0.0003954088082115589,
	"loss": 2.041,
	"step": 5400
	},
	{
	"epoch": 5.228136882129277,
	"grad_norm": 0.6756412386894226,
	"learning_rate": 0.0003928806189007433,
	"loss": 2.0548,
	"step": 5500
	},
	{
	"epoch": 5.32319391634981,
	"grad_norm": 0.6649320125579834,
	"learning_rate": 0.0003903524295899277,
	"loss": 2.0438,
	"step": 5600
	},
	{
	"epoch": 5.418250950570342,
	"grad_norm": 0.5628513693809509,
	"learning_rate": 0.00038782424027911214,
	"loss": 2.0485,
	"step": 5700
	},
	{
	"epoch": 5.513307984790875,
	"grad_norm": 0.6923677921295166,
	"learning_rate": 0.0003852960509682965,
	"loss": 2.063,
	"step": 5800
	},
	{
	"epoch": 5.608365019011407,
	"grad_norm": 0.6819363236427307,
	"learning_rate": 0.0003827678616574809,
	"loss": 2.0618,
	"step": 5900
	},
	{
	"epoch": 5.7034220532319395,
	"grad_norm": 0.6446284055709839,
	"learning_rate": 0.00038023967234666537,
	"loss": 2.0674,
	"step": 6000
	},
	{
	"epoch": 5.798479087452471,
	"grad_norm": 0.6319680213928223,
	"learning_rate": 0.00037771148303584974,
	"loss": 2.061,
	"step": 6100
	},
	{
	"epoch": 5.893536121673003,
	"grad_norm": 0.6318814754486084,
	"learning_rate": 0.0003751832937250341,
	"loss": 2.0656,
	"step": 6200
	},
	{
	"epoch": 5.988593155893536,
	"grad_norm": 0.6261875033378601,
	"learning_rate": 0.0003726551044142186,
	"loss": 2.0663,
	"step": 6300
	},
	{
	"epoch": 6.0,
	"eval_loss": 2.1098814010620117,
	"eval_runtime": 3.698,
	"eval_samples_per_second": 1915.889,
	"eval_steps_per_second": 119.794,
	"step": 6312
	},
	{
	"epoch": 6.083650190114068,
	"grad_norm": 0.6620230674743652,
	"learning_rate": 0.00037012691510340297,
	"loss": 1.9996,
	"step": 6400
	},
	{
	"epoch": 6.178707224334601,
	"grad_norm": 1.0794607400894165,
	"learning_rate": 0.00036759872579258734,
	"loss": 2.0018,
	"step": 6500
	},
	{
	"epoch": 6.273764258555133,
	"grad_norm": 1.372861385345459,
	"learning_rate": 0.00036507053648177177,
	"loss": 2.0059,
	"step": 6600
	},
	{
	"epoch": 6.3688212927756656,
	"grad_norm": 0.5926664471626282,
	"learning_rate": 0.0003625423471709562,
	"loss": 2.012,
	"step": 6700
	},
	{
	"epoch": 6.4638783269961975,
	"grad_norm": 0.7855852246284485,
	"learning_rate": 0.00036001415786014057,
	"loss": 2.0128,
	"step": 6800
	},
	{
	"epoch": 6.55893536121673,
	"grad_norm": 0.6684075593948364,
	"learning_rate": 0.000357485968549325,
	"loss": 2.0221,
	"step": 6900
	},
	{
	"epoch": 6.653992395437262,
	"grad_norm": 0.628013014793396,
	"learning_rate": 0.00035495777923850937,
	"loss": 2.0159,
	"step": 7000
	},
	{
	"epoch": 6.749049429657795,
	"grad_norm": 0.7943947911262512,
	"learning_rate": 0.0003524295899276938,
	"loss": 2.0223,
	"step": 7100
	},
	{
	"epoch": 6.844106463878327,
	"grad_norm": 0.645799994468689,
	"learning_rate": 0.0003499014006168782,
	"loss": 2.0206,
	"step": 7200
	},
	{
	"epoch": 6.93916349809886,
	"grad_norm": 0.6603648066520691,
	"learning_rate": 0.0003473732113060626,
	"loss": 2.0304,
	"step": 7300
	},
	{
	"epoch": 7.0,
	"eval_loss": 2.099062919616699,
	"eval_runtime": 3.631,
	"eval_samples_per_second": 1951.251,
	"eval_steps_per_second": 122.005,
	"step": 7364
	},
	{
	"epoch": 7.034220532319392,
	"grad_norm": 0.6082973480224609,
	"learning_rate": 0.000344845021995247,
	"loss": 2.0039,
	"step": 7400
	},
	{
	"epoch": 7.129277566539924,
	"grad_norm": 0.673995852470398,
	"learning_rate": 0.0003423168326844314,
	"loss": 1.9663,
	"step": 7500
	},
	{
	"epoch": 7.224334600760456,
	"grad_norm": 0.675037682056427,
	"learning_rate": 0.0003397886433736158,
	"loss": 1.9696,
	"step": 7600
	},
	{
	"epoch": 7.319391634980988,
	"grad_norm": 0.6488978266716003,
	"learning_rate": 0.0003372604540628002,
	"loss": 1.9701,
	"step": 7700
	},
	{
	"epoch": 7.414448669201521,
	"grad_norm": 0.8255399465560913,
	"learning_rate": 0.0003347322647519846,
	"loss": 1.9654,
	"step": 7800
	},
	{
	"epoch": 7.509505703422053,
	"grad_norm": 1.2661654949188232,
	"learning_rate": 0.00033220407544116905,
	"loss": 1.9736,
	"step": 7900
	},
	{
	"epoch": 7.604562737642586,
	"grad_norm": 0.6545805335044861,
	"learning_rate": 0.0003296758861303534,
	"loss": 1.9783,
	"step": 8000
	},
	{
	"epoch": 7.699619771863118,
	"grad_norm": 0.8890361189842224,
	"learning_rate": 0.00032714769681953785,
	"loss": 1.9807,
	"step": 8100
	},
	{
	"epoch": 7.79467680608365,
	"grad_norm": 0.6547899842262268,
	"learning_rate": 0.0003246195075087223,
	"loss": 1.9723,
	"step": 8200
	},
	{
	"epoch": 7.889733840304182,
	"grad_norm": 1.1239402294158936,
	"learning_rate": 0.00032209131819790665,
	"loss": 1.9734,
	"step": 8300
	},
	{
	"epoch": 7.984790874524715,
	"grad_norm": 0.6624830961227417,
	"learning_rate": 0.000319563128887091,
	"loss": 1.9869,
	"step": 8400
	},
	{
	"epoch": 8.0,
	"eval_loss": 2.1034328937530518,
	"eval_runtime": 3.6013,
	"eval_samples_per_second": 1967.337,
	"eval_steps_per_second": 123.011,
	"step": 8416
	},
	{
	"epoch": 8.079847908745247,
	"grad_norm": 0.6550971269607544,
	"learning_rate": 0.0003170349395762755,
	"loss": 1.9223,
	"step": 8500
	},
	{
	"epoch": 8.17490494296578,
	"grad_norm": 0.660987138748169,
	"learning_rate": 0.0003145067502654599,
	"loss": 1.9245,
	"step": 8600
	},
	{
	"epoch": 8.269961977186313,
	"grad_norm": 0.759884774684906,
	"learning_rate": 0.00031197856095464425,
	"loss": 1.9235,
	"step": 8700
	},
	{
	"epoch": 8.365019011406844,
	"grad_norm": 0.9319919347763062,
	"learning_rate": 0.00030945037164382874,
	"loss": 1.9239,
	"step": 8800
	},
	{
	"epoch": 8.460076045627376,
	"grad_norm": 0.6610597968101501,
	"learning_rate": 0.0003069221823330131,
	"loss": 1.928,
	"step": 8900
	},
	{
	"epoch": 8.55513307984791,
	"grad_norm": 0.7076143622398376,
	"learning_rate": 0.0003043939930221975,
	"loss": 1.9289,
	"step": 9000
	},
	{
	"epoch": 8.65019011406844,
	"grad_norm": 0.6368849873542786,
	"learning_rate": 0.0003018658037113819,
	"loss": 1.932,
	"step": 9100
	},
	{
	"epoch": 8.745247148288973,
	"grad_norm": 0.7639185786247253,
	"learning_rate": 0.00029933761440056634,
	"loss": 1.9485,
	"step": 9200
	},
	{
	"epoch": 8.840304182509506,
	"grad_norm": 1.0823330879211426,
	"learning_rate": 0.0002968094250897507,
	"loss": 1.9447,
	"step": 9300
	},
	{
	"epoch": 8.935361216730039,
	"grad_norm": 0.8542035222053528,
	"learning_rate": 0.00029428123577893514,
	"loss": 1.942,
	"step": 9400
	},
	{
	"epoch": 9.0,
	"eval_loss": 2.0947535037994385,
	"eval_runtime": 3.6147,
	"eval_samples_per_second": 1960.063,
	"eval_steps_per_second": 122.556,
	"step": 9468
	},
	{
	"epoch": 9.03041825095057,
	"grad_norm": 0.7601971626281738,
	"learning_rate": 0.00029175304646811956,
	"loss": 1.9243,
	"step": 9500
	},
	{
	"epoch": 9.125475285171103,
	"grad_norm": 0.7461040019989014,
	"learning_rate": 0.00028922485715730394,
	"loss": 1.8704,
	"step": 9600
	},
	{
	"epoch": 9.220532319391635,
	"grad_norm": 0.7719326019287109,
	"learning_rate": 0.00028669666784648836,
	"loss": 1.8832,
	"step": 9700
	},
	{
	"epoch": 9.315589353612168,
	"grad_norm": 0.716136634349823,
	"learning_rate": 0.00028416847853567274,
	"loss": 1.8787,
	"step": 9800
	},
	{
	"epoch": 9.4106463878327,
	"grad_norm": 0.6928532123565674,
	"learning_rate": 0.00028164028922485717,
	"loss": 1.8855,
	"step": 9900
	},
	{
	"epoch": 9.505703422053232,
	"grad_norm": 0.7696681618690491,
	"learning_rate": 0.0002791120999140416,
	"loss": 1.8855,
	"step": 10000
	},
	{
	"epoch": 9.600760456273765,
	"grad_norm": 0.8969391584396362,
	"learning_rate": 0.00027658391060322597,
	"loss": 1.9034,
	"step": 10100
	},
	{
	"epoch": 9.695817490494296,
	"grad_norm": 0.8469530940055847,
	"learning_rate": 0.00027405572129241034,
	"loss": 1.8965,
	"step": 10200
	},
	{
	"epoch": 9.790874524714829,
	"grad_norm": 0.7956866025924683,
	"learning_rate": 0.0002715275319815948,
	"loss": 1.9087,
	"step": 10300
	},
	{
	"epoch": 9.885931558935361,
	"grad_norm": 0.8293343782424927,
	"learning_rate": 0.0002689993426707792,
	"loss": 1.9177,
	"step": 10400
	},
	{
	"epoch": 9.980988593155894,
	"grad_norm": 0.7472631931304932,
	"learning_rate": 0.00026647115335996357,
	"loss": 1.9082,
	"step": 10500
	},
	{
	"epoch": 10.0,
	"eval_loss": 2.097904920578003,
	"eval_runtime": 3.5592,
	"eval_samples_per_second": 1990.641,
	"eval_steps_per_second": 124.468,
	"step": 10520
	},
	{
	"epoch": 10.076045627376425,
	"grad_norm": 0.7787309288978577,
	"learning_rate": 0.00026394296404914805,
	"loss": 1.8393,
	"step": 10600
	},
	{
	"epoch": 10.171102661596958,
	"grad_norm": 1.3328174352645874,
	"learning_rate": 0.0002614147747383324,
	"loss": 1.8283,
	"step": 10700
	},
	{
	"epoch": 10.26615969581749,
	"grad_norm": 0.7740694284439087,
	"learning_rate": 0.0002588865854275168,
	"loss": 1.8422,
	"step": 10800
	},
	{
	"epoch": 10.361216730038024,
	"grad_norm": 0.828940749168396,
	"learning_rate": 0.0002563583961167012,
	"loss": 1.8516,
	"step": 10900
	},
	{
	"epoch": 10.456273764258555,
	"grad_norm": 0.751752495765686,
	"learning_rate": 0.00025383020680588565,
	"loss": 1.8624,
	"step": 11000
	},
	{
	"epoch": 10.551330798479087,
	"grad_norm": 0.9940192103385925,
	"learning_rate": 0.00025130201749507,
	"loss": 1.8599,
	"step": 11100
	},
	{
	"epoch": 10.64638783269962,
	"grad_norm": 0.8591569066047668,
	"learning_rate": 0.00024877382818425445,
	"loss": 1.8581,
	"step": 11200
	},
	{
	"epoch": 10.741444866920151,
	"grad_norm": 0.7676281332969666,
	"learning_rate": 0.0002462456388734388,
	"loss": 1.8637,
	"step": 11300
	},
	{
	"epoch": 10.836501901140684,
	"grad_norm": 0.7896871566772461,
	"learning_rate": 0.00024371744956262325,
	"loss": 1.8606,
	"step": 11400
	},
	{
	"epoch": 10.931558935361217,
	"grad_norm": 0.8302274942398071,
	"learning_rate": 0.00024118926025180765,
	"loss": 1.8656,
	"step": 11500
	},
	{
	"epoch": 11.0,
	"eval_loss": 2.0961618423461914,
	"eval_runtime": 3.6362,
	"eval_samples_per_second": 1948.473,
	"eval_steps_per_second": 121.831,
	"step": 11572
	},
	{
	"epoch": 11.02661596958175,
	"grad_norm": 0.8891871571540833,
	"learning_rate": 0.00023866107094099208,
	"loss": 1.8522,
	"step": 11600
	},
	{
	"epoch": 11.12167300380228,
	"grad_norm": 0.7549653649330139,
	"learning_rate": 0.00023613288163017645,
	"loss": 1.7913,
	"step": 11700
	},
	{
	"epoch": 11.216730038022813,
	"grad_norm": 0.8127674460411072,
	"learning_rate": 0.00023360469231936088,
	"loss": 1.8102,
	"step": 11800
	},
	{
	"epoch": 11.311787072243346,
	"grad_norm": 0.841659426689148,
	"learning_rate": 0.0002310765030085453,
	"loss": 1.803,
	"step": 11900
	},
	{
	"epoch": 11.406844106463879,
	"grad_norm": 0.8460645079612732,
	"learning_rate": 0.00022854831369772968,
	"loss": 1.8201,
	"step": 12000
	},
	{
	"epoch": 11.50190114068441,
	"grad_norm": 0.7932580709457397,
	"learning_rate": 0.0002260201243869141,
	"loss": 1.811,
	"step": 12100
	},
	{
	"epoch": 11.596958174904943,
	"grad_norm": 0.8419378399848938,
	"learning_rate": 0.0002234919350760985,
	"loss": 1.8145,
	"step": 12200
	},
	{
	"epoch": 11.692015209125476,
	"grad_norm": 0.8346748352050781,
	"learning_rate": 0.0002209637457652829,
	"loss": 1.8328,
	"step": 12300
	},
	{
	"epoch": 11.787072243346007,
	"grad_norm": 1.019510269165039,
	"learning_rate": 0.0002184355564544673,
	"loss": 1.8257,
	"step": 12400
	},
	{
	"epoch": 11.88212927756654,
	"grad_norm": 0.8175719976425171,
	"learning_rate": 0.00021590736714365173,
	"loss": 1.8274,
	"step": 12500
	},
	{
	"epoch": 11.977186311787072,
	"grad_norm": 0.7476153373718262,
	"learning_rate": 0.00021337917783283614,
	"loss": 1.8361,
	"step": 12600
	},
	{
	"epoch": 12.0,
	"eval_loss": 2.1029505729675293,
	"eval_runtime": 3.5932,
	"eval_samples_per_second": 1971.782,
	"eval_steps_per_second": 123.289,
	"step": 12624
	},
	{
	"epoch": 12.072243346007605,
	"grad_norm": 0.8637651205062866,
	"learning_rate": 0.00021085098852202054,
	"loss": 1.7684,
	"step": 12700
	},
	{
	"epoch": 12.167300380228136,
	"grad_norm": 0.80800461769104,
	"learning_rate": 0.00020832279921120496,
	"loss": 1.7703,
	"step": 12800
	},
	{
	"epoch": 12.262357414448669,
	"grad_norm": 1.0111021995544434,
	"learning_rate": 0.00020579460990038934,
	"loss": 1.7809,
	"step": 12900
	},
	{
	"epoch": 12.357414448669202,
	"grad_norm": 0.8477798700332642,
	"learning_rate": 0.00020326642058957376,
	"loss": 1.7795,
	"step": 13000
	},
	{
	"epoch": 12.452471482889734,
	"grad_norm": 0.8284028172492981,
	"learning_rate": 0.00020073823127875814,
	"loss": 1.7803,
	"step": 13100
	},
	{
	"epoch": 12.547528517110266,
	"grad_norm": 0.7752136588096619,
	"learning_rate": 0.00019821004196794256,
	"loss": 1.7836,
	"step": 13200
	},
	{
	"epoch": 12.642585551330798,
	"grad_norm": 0.8929184675216675,
	"learning_rate": 0.00019568185265712696,
	"loss": 1.7724,
	"step": 13300
	},
	{
	"epoch": 12.737642585551331,
	"grad_norm": 0.8475900888442993,
	"learning_rate": 0.00019315366334631136,
	"loss": 1.7891,
	"step": 13400
	},
	{
	"epoch": 12.832699619771864,
	"grad_norm": 0.9029939770698547,
	"learning_rate": 0.0001906254740354958,
	"loss": 1.7888,
	"step": 13500
	},
	{
	"epoch": 12.927756653992395,
	"grad_norm": 0.841206967830658,
	"learning_rate": 0.0001880972847246802,
	"loss": 1.8005,
	"step": 13600
	},
	{
	"epoch": 13.0,
	"eval_loss": 2.1176211833953857,
	"eval_runtime": 3.6226,
	"eval_samples_per_second": 1955.796,
	"eval_steps_per_second": 122.289,
	"step": 13676
	},
	{
	"epoch": 13.022813688212928,
	"grad_norm": 0.786509096622467,
	"learning_rate": 0.0001855690954138646,
	"loss": 1.7784,
	"step": 13700
	},
	{
	"epoch": 13.11787072243346,
	"grad_norm": 0.8644747734069824,
	"learning_rate": 0.000183040906103049,
	"loss": 1.7234,
	"step": 13800
	},
	{
	"epoch": 13.212927756653992,
	"grad_norm": 0.8760172128677368,
	"learning_rate": 0.00018051271679223342,
	"loss": 1.7308,
	"step": 13900
	},
	{
	"epoch": 13.307984790874524,
	"grad_norm": 0.7858941555023193,
	"learning_rate": 0.0001779845274814178,
	"loss": 1.7318,
	"step": 14000
	},
	{
	"epoch": 13.403041825095057,
	"grad_norm": 0.8771238327026367,
	"learning_rate": 0.00017545633817060222,
	"loss": 1.7473,
	"step": 14100
	},
	{
	"epoch": 13.49809885931559,
	"grad_norm": 0.8886803984642029,
	"learning_rate": 0.00017292814885978665,
	"loss": 1.7491,
	"step": 14200
	},
	{
	"epoch": 13.593155893536121,
	"grad_norm": 0.8704127669334412,
	"learning_rate": 0.00017039995954897102,
	"loss": 1.7548,
	"step": 14300
	},
	{
	"epoch": 13.688212927756654,
	"grad_norm": 1.2635705471038818,
	"learning_rate": 0.00016787177023815545,
	"loss": 1.7532,
	"step": 14400
	},
	{
	"epoch": 13.783269961977187,
	"grad_norm": 0.9218750596046448,
	"learning_rate": 0.00016534358092733985,
	"loss": 1.7531,
	"step": 14500
	},
	{
	"epoch": 13.87832699619772,
	"grad_norm": 0.9513919353485107,
	"learning_rate": 0.00016281539161652425,
	"loss": 1.7618,
	"step": 14600
	},
	{
	"epoch": 13.97338403041825,
	"grad_norm": 1.010962963104248,
	"learning_rate": 0.00016028720230570865,
	"loss": 1.7646,
	"step": 14700
	},
	{
	"epoch": 14.0,
	"eval_loss": 2.130631923675537,
	"eval_runtime": 3.6539,
	"eval_samples_per_second": 1938.998,
	"eval_steps_per_second": 121.239,
	"step": 14728
	}
	],
	"logging_steps": 100,
	"max_steps": 21040,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 20,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 5.6215157665850184e+16,
	"train_batch_size": 128,
	"trial_name": null,
	"trial_params": null
	}