Upload folder using huggingface_hub

4588d97 verified 12 months ago

25.1 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 2.996770721205597,
	"eval_steps": 500,
	"global_step": 1392,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.021528525296017224,
	"grad_norm": 1.8190886974334717,
	"learning_rate": 2.9996179993481906e-05,
	"loss": 0.264,
	"step": 10
	},
	{
	"epoch": 0.04305705059203445,
	"grad_norm": 4.23043966293335,
	"learning_rate": 2.9984721919587606e-05,
	"loss": 0.1028,
	"step": 20
	},
	{
	"epoch": 0.06458557588805167,
	"grad_norm": 1.842679738998413,
	"learning_rate": 2.996563161430602e-05,
	"loss": 0.114,
	"step": 30
	},
	{
	"epoch": 0.0861141011840689,
	"grad_norm": 4.223649978637695,
	"learning_rate": 2.9938918800982563e-05,
	"loss": 0.0948,
	"step": 40
	},
	{
	"epoch": 0.10764262648008611,
	"grad_norm": 2.1200666427612305,
	"learning_rate": 2.9904597085366708e-05,
	"loss": 0.1096,
	"step": 50
	},
	{
	"epoch": 0.12917115177610333,
	"grad_norm": 2.793856143951416,
	"learning_rate": 2.9862683948682103e-05,
	"loss": 0.0956,
	"step": 60
	},
	{
	"epoch": 0.15069967707212056,
	"grad_norm": 1.9462778568267822,
	"learning_rate": 2.9813200738722784e-05,
	"loss": 0.1017,
	"step": 70
	},
	{
	"epoch": 0.1722282023681378,
	"grad_norm": 2.255049228668213,
	"learning_rate": 2.975617265898004e-05,
	"loss": 0.0694,
	"step": 80
	},
	{
	"epoch": 0.193756727664155,
	"grad_norm": 1.4251642227172852,
	"learning_rate": 2.9691628755805377e-05,
	"loss": 0.069,
	"step": 90
	},
	{
	"epoch": 0.21528525296017223,
	"grad_norm": 1.512846827507019,
	"learning_rate": 2.961960190361624e-05,
	"loss": 0.0861,
	"step": 100
	},
	{
	"epoch": 0.23681377825618946,
	"grad_norm": 1.1422572135925293,
	"learning_rate": 2.9540128788151935e-05,
	"loss": 0.0829,
	"step": 110
	},
	{
	"epoch": 0.25834230355220666,
	"grad_norm": 3.0731289386749268,
	"learning_rate": 2.9453249887788343e-05,
	"loss": 0.0811,
	"step": 120
	},
	{
	"epoch": 0.2798708288482239,
	"grad_norm": 3.031052350997925,
	"learning_rate": 2.9359009452920893e-05,
	"loss": 0.0762,
	"step": 130
	},
	{
	"epoch": 0.3013993541442411,
	"grad_norm": 2.248966932296753,
	"learning_rate": 2.925745548342631e-05,
	"loss": 0.0835,
	"step": 140
	},
	{
	"epoch": 0.32292787944025836,
	"grad_norm": 0.9142462611198425,
	"learning_rate": 2.9148639704214645e-05,
	"loss": 0.074,
	"step": 150
	},
	{
	"epoch": 0.3444564047362756,
	"grad_norm": 2.3527843952178955,
	"learning_rate": 2.9032617538884018e-05,
	"loss": 0.0674,
	"step": 160
	},
	{
	"epoch": 0.36598493003229277,
	"grad_norm": 2.349313259124756,
	"learning_rate": 2.890944808149146e-05,
	"loss": 0.0934,
	"step": 170
	},
	{
	"epoch": 0.38751345532831,
	"grad_norm": 0.6645804643630981,
	"learning_rate": 2.877919406645433e-05,
	"loss": 0.0759,
	"step": 180
	},
	{
	"epoch": 0.40904198062432723,
	"grad_norm": 1.5764023065567017,
	"learning_rate": 2.864192183659747e-05,
	"loss": 0.0725,
	"step": 190
	},
	{
	"epoch": 0.43057050592034446,
	"grad_norm": 2.184178590774536,
	"learning_rate": 2.84977013093626e-05,
	"loss": 0.0542,
	"step": 200
	},
	{
	"epoch": 0.4520990312163617,
	"grad_norm": 1.8497698307037354,
	"learning_rate": 2.8346605941196927e-05,
	"loss": 0.0837,
	"step": 210
	},
	{
	"epoch": 0.4736275565123789,
	"grad_norm": 1.5373315811157227,
	"learning_rate": 2.818871269013928e-05,
	"loss": 0.0717,
	"step": 220
	},
	{
	"epoch": 0.4951560818083961,
	"grad_norm": 1.3783589601516724,
	"learning_rate": 2.8024101976622762e-05,
	"loss": 0.0577,
	"step": 230
	},
	{
	"epoch": 0.5166846071044133,
	"grad_norm": 4.914410591125488,
	"learning_rate": 2.7852857642513838e-05,
	"loss": 0.0705,
	"step": 240
	},
	{
	"epoch": 0.5382131324004306,
	"grad_norm": 0.8398504853248596,
	"learning_rate": 2.7675066908408852e-05,
	"loss": 0.0716,
	"step": 250
	},
	{
	"epoch": 0.5597416576964478,
	"grad_norm": 1.0903675556182861,
	"learning_rate": 2.7490820329209546e-05,
	"loss": 0.08,
	"step": 260
	},
	{
	"epoch": 0.581270182992465,
	"grad_norm": 1.7572460174560547,
	"learning_rate": 2.7300211748000386e-05,
	"loss": 0.0741,
	"step": 270
	},
	{
	"epoch": 0.6027987082884823,
	"grad_norm": 1.668867588043213,
	"learning_rate": 2.7103338248251055e-05,
	"loss": 0.0631,
	"step": 280
	},
	{
	"epoch": 0.6243272335844995,
	"grad_norm": 1.9639641046524048,
	"learning_rate": 2.6900300104368527e-05,
	"loss": 0.0802,
	"step": 290
	},
	{
	"epoch": 0.6458557588805167,
	"grad_norm": 1.3819113969802856,
	"learning_rate": 2.6691200730623874e-05,
	"loss": 0.0647,
	"step": 300
	},
	{
	"epoch": 0.667384284176534,
	"grad_norm": 1.6586377620697021,
	"learning_rate": 2.6476146628479847e-05,
	"loss": 0.0626,
	"step": 310
	},
	{
	"epoch": 0.6889128094725512,
	"grad_norm": 0.7640856504440308,
	"learning_rate": 2.6255247332346036e-05,
	"loss": 0.0717,
	"step": 320
	},
	{
	"epoch": 0.7104413347685683,
	"grad_norm": 0.8930771350860596,
	"learning_rate": 2.602861535378925e-05,
	"loss": 0.0617,
	"step": 330
	},
	{
	"epoch": 0.7319698600645855,
	"grad_norm": 0.9496339559555054,
	"learning_rate": 2.5796366124227532e-05,
	"loss": 0.0672,
	"step": 340
	},
	{
	"epoch": 0.7534983853606028,
	"grad_norm": 3.019853115081787,
	"learning_rate": 2.5558617936136984e-05,
	"loss": 0.0702,
	"step": 350
	},
	{
	"epoch": 0.77502691065662,
	"grad_norm": 0.9336963295936584,
	"learning_rate": 2.531549188280135e-05,
	"loss": 0.0697,
	"step": 360
	},
	{
	"epoch": 0.7965554359526372,
	"grad_norm": 0.7075727581977844,
	"learning_rate": 2.50671117966351e-05,
	"loss": 0.074,
	"step": 370
	},
	{
	"epoch": 0.8180839612486545,
	"grad_norm": 0.5153305530548096,
	"learning_rate": 2.481360418611132e-05,
	"loss": 0.0566,
	"step": 380
	},
	{
	"epoch": 0.8396124865446717,
	"grad_norm": 0.5062828660011292,
	"learning_rate": 2.4555098171326616e-05,
	"loss": 0.0792,
	"step": 390
	},
	{
	"epoch": 0.8611410118406889,
	"grad_norm": 1.255761742591858,
	"learning_rate": 2.4291725418235848e-05,
	"loss": 0.0445,
	"step": 400
	},
	{
	"epoch": 0.8826695371367062,
	"grad_norm": 0.9719372391700745,
	"learning_rate": 2.4023620071590147e-05,
	"loss": 0.0553,
	"step": 410
	},
	{
	"epoch": 0.9041980624327234,
	"grad_norm": 1.868668794631958,
	"learning_rate": 2.3750918686612414e-05,
	"loss": 0.0555,
	"step": 420
	},
	{
	"epoch": 0.9257265877287406,
	"grad_norm": 0.34430617094039917,
	"learning_rate": 2.3473760159445058e-05,
	"loss": 0.0611,
	"step": 430
	},
	{
	"epoch": 0.9472551130247578,
	"grad_norm": 1.189942717552185,
	"learning_rate": 2.3192285656405456e-05,
	"loss": 0.0571,
	"step": 440
	},
	{
	"epoch": 0.9687836383207751,
	"grad_norm": 0.5107014179229736,
	"learning_rate": 2.2906638542085117e-05,
	"loss": 0.0635,
	"step": 450
	},
	{
	"epoch": 0.9903121636167922,
	"grad_norm": 0.685809850692749,
	"learning_rate": 2.2616964306329183e-05,
	"loss": 0.0584,
	"step": 460
	},
	{
	"epoch": 1.0118406889128095,
	"grad_norm": 3.305742025375366,
	"learning_rate": 2.2323410490133485e-05,
	"loss": 0.0569,
	"step": 470
	},
	{
	"epoch": 1.0333692142088267,
	"grad_norm": 1.87465500831604,
	"learning_rate": 2.2026126610496852e-05,
	"loss": 0.0481,
	"step": 480
	},
	{
	"epoch": 1.054897739504844,
	"grad_norm": 0.7248936295509338,
	"learning_rate": 2.172526408426702e-05,
	"loss": 0.0295,
	"step": 490
	},
	{
	"epoch": 1.0764262648008611,
	"grad_norm": 0.670519232749939,
	"learning_rate": 2.1420976151018813e-05,
	"loss": 0.0385,
	"step": 500
	},
	{
	"epoch": 1.0979547900968785,
	"grad_norm": 1.4730095863342285,
	"learning_rate": 2.1113417795004016e-05,
	"loss": 0.063,
	"step": 510
	},
	{
	"epoch": 1.1194833153928956,
	"grad_norm": 1.3478758335113525,
	"learning_rate": 2.0802745666212592e-05,
	"loss": 0.0528,
	"step": 520
	},
	{
	"epoch": 1.141011840688913,
	"grad_norm": 0.6316215991973877,
	"learning_rate": 2.048911800058546e-05,
	"loss": 0.0347,
	"step": 530
	},
	{
	"epoch": 1.16254036598493,
	"grad_norm": 1.4956326484680176,
	"learning_rate": 2.0172694539419557e-05,
	"loss": 0.049,
	"step": 540
	},
	{
	"epoch": 1.1840688912809472,
	"grad_norm": 1.1988089084625244,
	"learning_rate": 1.9853636448006094e-05,
	"loss": 0.0471,
	"step": 550
	},
	{
	"epoch": 1.2055974165769645,
	"grad_norm": 1.2572044134140015,
	"learning_rate": 1.953210623354359e-05,
	"loss": 0.06,
	"step": 560
	},
	{
	"epoch": 1.2271259418729816,
	"grad_norm": 0.7759698033332825,
	"learning_rate": 1.9208267662367378e-05,
	"loss": 0.043,
	"step": 570
	},
	{
	"epoch": 1.248654467168999,
	"grad_norm": 1.9407209157943726,
	"learning_rate": 1.888228567653781e-05,
	"loss": 0.051,
	"step": 580
	},
	{
	"epoch": 1.270182992465016,
	"grad_norm": 1.0966278314590454,
	"learning_rate": 1.8554326309829654e-05,
	"loss": 0.0359,
	"step": 590
	},
	{
	"epoch": 1.2917115177610334,
	"grad_norm": 2.063629150390625,
	"learning_rate": 1.8224556603165363e-05,
	"loss": 0.0484,
	"step": 600
	},
	{
	"epoch": 1.3132400430570506,
	"grad_norm": 1.6178653240203857,
	"learning_rate": 1.7893144519535468e-05,
	"loss": 0.045,
	"step": 610
	},
	{
	"epoch": 1.334768568353068,
	"grad_norm": 0.26466497778892517,
	"learning_rate": 1.7560258858449248e-05,
	"loss": 0.0528,
	"step": 620
	},
	{
	"epoch": 1.356297093649085,
	"grad_norm": 1.890158772468567,
	"learning_rate": 1.7226069169959393e-05,
	"loss": 0.0527,
	"step": 630
	},
	{
	"epoch": 1.3778256189451024,
	"grad_norm": 1.3726129531860352,
	"learning_rate": 1.689074566830434e-05,
	"loss": 0.0389,
	"step": 640
	},
	{
	"epoch": 1.3993541442411195,
	"grad_norm": 1.0230239629745483,
	"learning_rate": 1.655445914521236e-05,
	"loss": 0.0506,
	"step": 650
	},
	{
	"epoch": 1.4208826695371366,
	"grad_norm": 0.8005169630050659,
	"learning_rate": 1.621738088291147e-05,
	"loss": 0.0455,
	"step": 660
	},
	{
	"epoch": 1.442411194833154,
	"grad_norm": 1.1895893812179565,
	"learning_rate": 1.587968256688955e-05,
	"loss": 0.039,
	"step": 670
	},
	{
	"epoch": 1.4639397201291713,
	"grad_norm": 1.9981929063796997,
	"learning_rate": 1.5541536198449044e-05,
	"loss": 0.0512,
	"step": 680
	},
	{
	"epoch": 1.4854682454251884,
	"grad_norm": 1.5658233165740967,
	"learning_rate": 1.5203114007100828e-05,
	"loss": 0.0263,
	"step": 690
	},
	{
	"epoch": 1.5069967707212055,
	"grad_norm": 2.838642120361328,
	"learning_rate": 1.4864588362841808e-05,
	"loss": 0.0481,
	"step": 700
	},
	{
	"epoch": 1.5285252960172229,
	"grad_norm": 0.6982723474502563,
	"learning_rate": 1.4526131688360996e-05,
	"loss": 0.0417,
	"step": 710
	},
	{
	"epoch": 1.55005382131324,
	"grad_norm": 1.7505388259887695,
	"learning_rate": 1.4187916371218739e-05,
	"loss": 0.0486,
	"step": 720
	},
	{
	"epoch": 1.571582346609257,
	"grad_norm": 2.41610050201416,
	"learning_rate": 1.3850114676043837e-05,
	"loss": 0.0249,
	"step": 730
	},
	{
	"epoch": 1.5931108719052745,
	"grad_norm": 1.3201218843460083,
	"learning_rate": 1.3512898656793283e-05,
	"loss": 0.042,
	"step": 740
	},
	{
	"epoch": 1.6146393972012918,
	"grad_norm": 0.9440786838531494,
	"learning_rate": 1.3176440069119275e-05,
	"loss": 0.0592,
	"step": 750
	},
	{
	"epoch": 1.636167922497309,
	"grad_norm": 0.5338843464851379,
	"learning_rate": 1.2840910282888211e-05,
	"loss": 0.0405,
	"step": 760
	},
	{
	"epoch": 1.657696447793326,
	"grad_norm": 1.0818413496017456,
	"learning_rate": 1.2506480194896155e-05,
	"loss": 0.0508,
	"step": 770
	},
	{
	"epoch": 1.6792249730893434,
	"grad_norm": 1.209283471107483,
	"learning_rate": 1.2173320141825232e-05,
	"loss": 0.0342,
	"step": 780
	},
	{
	"epoch": 1.7007534983853607,
	"grad_norm": 2.5324923992156982,
	"learning_rate": 1.1841599813485341e-05,
	"loss": 0.046,
	"step": 790
	},
	{
	"epoch": 1.7222820236813778,
	"grad_norm": 1.514676809310913,
	"learning_rate": 1.1511488166385349e-05,
	"loss": 0.0348,
	"step": 800
	},
	{
	"epoch": 1.743810548977395,
	"grad_norm": 1.4090155363082886,
	"learning_rate": 1.1183153337677734e-05,
	"loss": 0.0455,
	"step": 810
	},
	{
	"epoch": 1.7653390742734123,
	"grad_norm": 2.2600796222686768,
	"learning_rate": 1.0856762559520605e-05,
	"loss": 0.0542,
	"step": 820
	},
	{
	"epoch": 1.7868675995694296,
	"grad_norm": 1.2120071649551392,
	"learning_rate": 1.0532482073900628e-05,
	"loss": 0.0323,
	"step": 830
	},
	{
	"epoch": 1.8083961248654468,
	"grad_norm": 1.3877032995224,
	"learning_rate": 1.0210477047960303e-05,
	"loss": 0.0456,
	"step": 840
	},
	{
	"epoch": 1.8299246501614639,
	"grad_norm": 0.9278028607368469,
	"learning_rate": 9.89091148987269e-06,
	"loss": 0.037,
	"step": 850
	},
	{
	"epoch": 1.8514531754574812,
	"grad_norm": 2.1230030059814453,
	"learning_rate": 9.573948165306438e-06,
	"loss": 0.0452,
	"step": 860
	},
	{
	"epoch": 1.8729817007534983,
	"grad_norm": 0.6858197450637817,
	"learning_rate": 9.259748514523654e-06,
	"loss": 0.0536,
	"step": 870
	},
	{
	"epoch": 1.8945102260495155,
	"grad_norm": 1.1023917198181152,
	"learning_rate": 8.948472570152874e-06,
	"loss": 0.0553,
	"step": 880
	},
	{
	"epoch": 1.9160387513455328,
	"grad_norm": 0.5614004731178284,
	"learning_rate": 8.64027887567895e-06,
	"loss": 0.0479,
	"step": 890
	},
	{
	"epoch": 1.9375672766415502,
	"grad_norm": 1.0492910146713257,
	"learning_rate": 8.33532440469145e-06,
	"loss": 0.0438,
	"step": 900
	},
	{
	"epoch": 1.9590958019375673,
	"grad_norm": 0.30423790216445923,
	"learning_rate": 8.033764480932616e-06,
	"loss": 0.028,
	"step": 910
	},
	{
	"epoch": 1.9806243272335844,
	"grad_norm": 1.6426568031311035,
	"learning_rate": 7.735752699185711e-06,
	"loss": 0.0574,
	"step": 920
	},
	{
	"epoch": 2.0021528525296017,
	"grad_norm": 1.1288621425628662,
	"learning_rate": 7.441440847043883e-06,
	"loss": 0.0255,
	"step": 930
	},
	{
	"epoch": 2.023681377825619,
	"grad_norm": 0.26666760444641113,
	"learning_rate": 7.150978827599619e-06,
	"loss": 0.028,
	"step": 940
	},
	{
	"epoch": 2.045209903121636,
	"grad_norm": 0.33629775047302246,
	"learning_rate": 6.864514583093911e-06,
	"loss": 0.0178,
	"step": 950
	},
	{
	"epoch": 2.0667384284176533,
	"grad_norm": 0.4371579885482788,
	"learning_rate": 6.582194019564266e-06,
	"loss": 0.0197,
	"step": 960
	},
	{
	"epoch": 2.0882669537136707,
	"grad_norm": 1.305396318435669,
	"learning_rate": 6.304160932529721e-06,
	"loss": 0.03,
	"step": 970
	},
	{
	"epoch": 2.109795479009688,
	"grad_norm": 6.668363571166992,
	"learning_rate": 6.0305569337509225e-06,
	"loss": 0.0309,
	"step": 980
	},
	{
	"epoch": 2.131324004305705,
	"grad_norm": 1.8910939693450928,
	"learning_rate": 5.761521379102343e-06,
	"loss": 0.0262,
	"step": 990
	},
	{
	"epoch": 2.1528525296017222,
	"grad_norm": 1.481408953666687,
	"learning_rate": 5.497191297593647e-06,
	"loss": 0.0337,
	"step": 1000
	},
	{
	"epoch": 2.1743810548977396,
	"grad_norm": 1.0818077325820923,
	"learning_rate": 5.237701321576063e-06,
	"loss": 0.0365,
	"step": 1010
	},
	{
	"epoch": 2.195909580193757,
	"grad_norm": 1.0381739139556885,
	"learning_rate": 4.98318361816957e-06,
	"loss": 0.0228,
	"step": 1020
	},
	{
	"epoch": 2.217438105489774,
	"grad_norm": 0.31783393025398254,
	"learning_rate": 4.733767821945621e-06,
	"loss": 0.0278,
	"step": 1030
	},
	{
	"epoch": 2.238966630785791,
	"grad_norm": 2.5186619758605957,
	"learning_rate": 4.4895809688998655e-06,
	"loss": 0.0302,
	"step": 1040
	},
	{
	"epoch": 2.2604951560818085,
	"grad_norm": 0.6198469400405884,
	"learning_rate": 4.25074743174833e-06,
	"loss": 0.0138,
	"step": 1050
	},
	{
	"epoch": 2.282023681377826,
	"grad_norm": 0.8775982856750488,
	"learning_rate": 4.017388856580178e-06,
	"loss": 0.0218,
	"step": 1060
	},
	{
	"epoch": 2.3035522066738428,
	"grad_norm": 0.4356814920902252,
	"learning_rate": 3.7896241008991596e-06,
	"loss": 0.0284,
	"step": 1070
	},
	{
	"epoch": 2.32508073196986,
	"grad_norm": 1.0270265340805054,
	"learning_rate": 3.567569173085455e-06,
	"loss": 0.0169,
	"step": 1080
	},
	{
	"epoch": 2.3466092572658774,
	"grad_norm": 1.2356810569763184,
	"learning_rate": 3.351337173308607e-06,
	"loss": 0.0145,
	"step": 1090
	},
	{
	"epoch": 2.3681377825618943,
	"grad_norm": 0.17152564227581024,
	"learning_rate": 3.1410382359217645e-06,
	"loss": 0.0249,
	"step": 1100
	},
	{
	"epoch": 2.3896663078579117,
	"grad_norm": 0.13272231817245483,
	"learning_rate": 2.9367794733664637e-06,
	"loss": 0.0296,
	"step": 1110
	},
	{
	"epoch": 2.411194833153929,
	"grad_norm": 2.4926042556762695,
	"learning_rate": 2.7386649216166233e-06,
	"loss": 0.031,
	"step": 1120
	},
	{
	"epoch": 2.4327233584499464,
	"grad_norm": 0.5246890783309937,
	"learning_rate": 2.546795487189436e-06,
	"loss": 0.0294,
	"step": 1130
	},
	{
	"epoch": 2.4542518837459633,
	"grad_norm": 1.739809513092041,
	"learning_rate": 2.361268895750264e-06,
	"loss": 0.0352,
	"step": 1140
	},
	{
	"epoch": 2.4757804090419806,
	"grad_norm": 0.07230955362319946,
	"learning_rate": 2.1821796423375766e-06,
	"loss": 0.0177,
	"step": 1150
	},
	{
	"epoch": 2.497308934337998,
	"grad_norm": 1.795920491218567,
	"learning_rate": 2.0096189432334194e-06,
	"loss": 0.032,
	"step": 1160
	},
	{
	"epoch": 2.518837459634015,
	"grad_norm": 0.4120383560657501,
	"learning_rate": 1.843674689503846e-06,
	"loss": 0.0244,
	"step": 1170
	},
	{
	"epoch": 2.540365984930032,
	"grad_norm": 1.3315762281417847,
	"learning_rate": 1.6844314022329676e-06,
	"loss": 0.0126,
	"step": 1180
	},
	{
	"epoch": 2.5618945102260495,
	"grad_norm": 0.9914199709892273,
	"learning_rate": 1.5319701894735023e-06,
	"loss": 0.022,
	"step": 1190
	},
	{
	"epoch": 2.583423035522067,
	"grad_norm": 0.9357948303222656,
	"learning_rate": 1.3863687049356465e-06,
	"loss": 0.0181,
	"step": 1200
	},
	{
	"epoch": 2.604951560818084,
	"grad_norm": 2.104593515396118,
	"learning_rate": 1.247701108435394e-06,
	"loss": 0.0241,
	"step": 1210
	},
	{
	"epoch": 2.626480086114101,
	"grad_norm": 1.0621205568313599,
	"learning_rate": 1.116038028122413e-06,
	"loss": 0.0292,
	"step": 1220
	},
	{
	"epoch": 2.6480086114101185,
	"grad_norm": 1.7859629392623901,
	"learning_rate": 9.914465245067022e-07,
	"loss": 0.0201,
	"step": 1230
	},
	{
	"epoch": 2.669537136706136,
	"grad_norm": 1.8932825326919556,
	"learning_rate": 8.7399005630238e-07,
	"loss": 0.0313,
	"step": 1240
	},
	{
	"epoch": 2.6910656620021527,
	"grad_norm": 1.2083765268325806,
	"learning_rate": 7.637284481059998e-07,
	"loss": 0.0311,
	"step": 1250
	},
	{
	"epoch": 2.71259418729817,
	"grad_norm": 0.1731128990650177,
	"learning_rate": 6.607178599258268e-07,
	"loss": 0.0134,
	"step": 1260
	},
	{
	"epoch": 2.7341227125941874,
	"grad_norm": 1.8263607025146484,
	"learning_rate": 5.650107585776348e-07,
	"loss": 0.0348,
	"step": 1270
	},
	{
	"epoch": 2.7556512378902047,
	"grad_norm": 1.52913498878479,
	"learning_rate": 4.766558909615504e-07,
	"loss": 0.0238,
	"step": 1280
	},
	{
	"epoch": 2.7771797631862216,
	"grad_norm": 1.0334974527359009,
	"learning_rate": 3.9569825923360503e-07,
	"loss": 0.0285,
	"step": 1290
	},
	{
	"epoch": 2.798708288482239,
	"grad_norm": 0.5131074786186218,
	"learning_rate": 3.22179097884579e-07,
	"loss": 0.0284,
	"step": 1300
	},
	{
	"epoch": 2.8202368137782563,
	"grad_norm": 0.869399905204773,
	"learning_rate": 2.5613585273788264e-07,
	"loss": 0.0312,
	"step": 1310
	},
	{
	"epoch": 2.841765339074273,
	"grad_norm": 1.1290533542633057,
	"learning_rate": 1.9760216187710788e-07,
	"loss": 0.0259,
	"step": 1320
	},
	{
	"epoch": 2.8632938643702905,
	"grad_norm": 0.23688088357448578,
	"learning_rate": 1.4660783851300318e-07,
	"loss": 0.0263,
	"step": 1330
	},
	{
	"epoch": 2.884822389666308,
	"grad_norm": 1.1585010290145874,
	"learning_rate": 1.0317885579858522e-07,
	"loss": 0.0175,
	"step": 1340
	},
	{
	"epoch": 2.9063509149623252,
	"grad_norm": 0.5305848717689514,
	"learning_rate": 6.733733360012761e-08,
	"loss": 0.0379,
	"step": 1350
	},
	{
	"epoch": 2.9278794402583426,
	"grad_norm": 1.1688823699951172,
	"learning_rate": 3.910152723075322e-08,
	"loss": 0.0401,
	"step": 1360
	},
	{
	"epoch": 2.9494079655543595,
	"grad_norm": 1.1842941045761108,
	"learning_rate": 1.848581815237671e-08,
	"loss": 0.0174,
	"step": 1370
	},
	{
	"epoch": 2.970936490850377,
	"grad_norm": 0.9176095724105835,
	"learning_rate": 5.50070665074065e-09,
	"loss": 0.0218,
	"step": 1380
	},
	{
	"epoch": 2.9924650161463937,
	"grad_norm": 2.5070579051971436,
	"learning_rate": 1.5280648725357615e-10,
	"loss": 0.0288,
	"step": 1390
	},
	{
	"epoch": 2.996770721205597,
	"step": 1392,
	"total_flos": 2.2176668825577062e+17,
	"train_loss": 0.04948104658677917,
	"train_runtime": 1703.925,
	"train_samples_per_second": 6.543,
	"train_steps_per_second": 0.817
	}
	],
	"logging_steps": 10,
	"max_steps": 1392,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.2176668825577062e+17,
	"train_batch_size": 4,
	"trial_name": null,
	"trial_params": null
	}