Upload checkpoint-1800 from Qwen2.5-VL training

4944d4b verified 10 months ago

32.2 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.10252758988964045,
	"eval_steps": 500,
	"global_step": 1800,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0005695977216091135,
	"grad_norm": 21.049573670903968,
	"learning_rate": 3.4155597722960153e-09,
	"loss": 0.4919,
	"step": 10
	},
	{
	"epoch": 0.001139195443218227,
	"grad_norm": 20.80684714819707,
	"learning_rate": 7.210626185958254e-09,
	"loss": 0.4437,
	"step": 20
	},
	{
	"epoch": 0.0017087931648273407,
	"grad_norm": 33.130290630821996,
	"learning_rate": 1.1005692599620494e-08,
	"loss": 0.5198,
	"step": 30
	},
	{
	"epoch": 0.002278390886436454,
	"grad_norm": 12.510945540397115,
	"learning_rate": 1.4800759013282731e-08,
	"loss": 0.4968,
	"step": 40
	},
	{
	"epoch": 0.002847988608045568,
	"grad_norm": 15.943493472335307,
	"learning_rate": 1.859582542694497e-08,
	"loss": 0.4409,
	"step": 50
	},
	{
	"epoch": 0.0034175863296546814,
	"grad_norm": 42.406097387194166,
	"learning_rate": 2.239089184060721e-08,
	"loss": 0.4684,
	"step": 60
	},
	{
	"epoch": 0.003987184051263795,
	"grad_norm": 24.406933558360457,
	"learning_rate": 2.6185958254269448e-08,
	"loss": 0.478,
	"step": 70
	},
	{
	"epoch": 0.004556781772872908,
	"grad_norm": 29.842569661833632,
	"learning_rate": 2.9981024667931685e-08,
	"loss": 0.4511,
	"step": 80
	},
	{
	"epoch": 0.005126379494482022,
	"grad_norm": 42.41367434650834,
	"learning_rate": 3.3776091081593926e-08,
	"loss": 0.4326,
	"step": 90
	},
	{
	"epoch": 0.005695977216091136,
	"grad_norm": 19.885296598548557,
	"learning_rate": 3.757115749525617e-08,
	"loss": 0.4347,
	"step": 100
	},
	{
	"epoch": 0.006265574937700249,
	"grad_norm": 25.71810252475294,
	"learning_rate": 4.13662239089184e-08,
	"loss": 0.4735,
	"step": 110
	},
	{
	"epoch": 0.006835172659309363,
	"grad_norm": 30.792769140339338,
	"learning_rate": 4.516129032258064e-08,
	"loss": 0.4933,
	"step": 120
	},
	{
	"epoch": 0.007404770380918476,
	"grad_norm": 16.942087666916184,
	"learning_rate": 4.8956356736242883e-08,
	"loss": 0.508,
	"step": 130
	},
	{
	"epoch": 0.00797436810252759,
	"grad_norm": 13.25121169703299,
	"learning_rate": 5.275142314990512e-08,
	"loss": 0.4854,
	"step": 140
	},
	{
	"epoch": 0.008543965824136704,
	"grad_norm": 26.66597693714079,
	"learning_rate": 5.654648956356736e-08,
	"loss": 0.4939,
	"step": 150
	},
	{
	"epoch": 0.009113563545745816,
	"grad_norm": 25.56128647346689,
	"learning_rate": 6.03415559772296e-08,
	"loss": 0.4886,
	"step": 160
	},
	{
	"epoch": 0.00968316126735493,
	"grad_norm": 24.66360202992372,
	"learning_rate": 6.413662239089184e-08,
	"loss": 0.5195,
	"step": 170
	},
	{
	"epoch": 0.010252758988964043,
	"grad_norm": 29.34378737951036,
	"learning_rate": 6.793168880455408e-08,
	"loss": 0.4434,
	"step": 180
	},
	{
	"epoch": 0.010822356710573158,
	"grad_norm": 56.85479253251122,
	"learning_rate": 7.172675521821632e-08,
	"loss": 0.421,
	"step": 190
	},
	{
	"epoch": 0.011391954432182272,
	"grad_norm": 32.3202020199265,
	"learning_rate": 7.552182163187856e-08,
	"loss": 0.447,
	"step": 200
	},
	{
	"epoch": 0.011961552153791384,
	"grad_norm": 30.909848483794523,
	"learning_rate": 7.931688804554079e-08,
	"loss": 0.4677,
	"step": 210
	},
	{
	"epoch": 0.012531149875400499,
	"grad_norm": 25.632205852181723,
	"learning_rate": 8.311195445920303e-08,
	"loss": 0.4739,
	"step": 220
	},
	{
	"epoch": 0.013100747597009611,
	"grad_norm": 17.49619627631964,
	"learning_rate": 8.690702087286526e-08,
	"loss": 0.4753,
	"step": 230
	},
	{
	"epoch": 0.013670345318618726,
	"grad_norm": 33.64843713209131,
	"learning_rate": 9.07020872865275e-08,
	"loss": 0.485,
	"step": 240
	},
	{
	"epoch": 0.01423994304022784,
	"grad_norm": 34.99600769438769,
	"learning_rate": 9.449715370018974e-08,
	"loss": 0.4711,
	"step": 250
	},
	{
	"epoch": 0.014809540761836952,
	"grad_norm": 29.524926487531715,
	"learning_rate": 9.829222011385198e-08,
	"loss": 0.4665,
	"step": 260
	},
	{
	"epoch": 0.015379138483446067,
	"grad_norm": 13.568503433545974,
	"learning_rate": 1.0208728652751421e-07,
	"loss": 0.4457,
	"step": 270
	},
	{
	"epoch": 0.01594873620505518,
	"grad_norm": 24.811742737462957,
	"learning_rate": 1.0588235294117647e-07,
	"loss": 0.4924,
	"step": 280
	},
	{
	"epoch": 0.016518333926664294,
	"grad_norm": 14.269729917230158,
	"learning_rate": 1.0967741935483869e-07,
	"loss": 0.4603,
	"step": 290
	},
	{
	"epoch": 0.017087931648273408,
	"grad_norm": 16.274688413588088,
	"learning_rate": 1.1347248576850095e-07,
	"loss": 0.5013,
	"step": 300
	},
	{
	"epoch": 0.017657529369882522,
	"grad_norm": 25.477411052433148,
	"learning_rate": 1.1726755218216317e-07,
	"loss": 0.4705,
	"step": 310
	},
	{
	"epoch": 0.018227127091491633,
	"grad_norm": 19.70072062267979,
	"learning_rate": 1.2106261859582542e-07,
	"loss": 0.4611,
	"step": 320
	},
	{
	"epoch": 0.018796724813100747,
	"grad_norm": 13.857865555631838,
	"learning_rate": 1.2485768500948766e-07,
	"loss": 0.4363,
	"step": 330
	},
	{
	"epoch": 0.01936632253470986,
	"grad_norm": 36.710229582900936,
	"learning_rate": 1.286527514231499e-07,
	"loss": 0.4937,
	"step": 340
	},
	{
	"epoch": 0.019935920256318976,
	"grad_norm": 16.21485980059241,
	"learning_rate": 1.3244781783681214e-07,
	"loss": 0.4843,
	"step": 350
	},
	{
	"epoch": 0.020505517977928087,
	"grad_norm": 18.51035631765946,
	"learning_rate": 1.3624288425047438e-07,
	"loss": 0.4953,
	"step": 360
	},
	{
	"epoch": 0.0210751156995372,
	"grad_norm": 109.65864479439105,
	"learning_rate": 1.4003795066413662e-07,
	"loss": 0.4452,
	"step": 370
	},
	{
	"epoch": 0.021644713421146315,
	"grad_norm": 26.812069103996944,
	"learning_rate": 1.4383301707779884e-07,
	"loss": 0.4745,
	"step": 380
	},
	{
	"epoch": 0.02221431114275543,
	"grad_norm": 750.501418758497,
	"learning_rate": 1.476280834914611e-07,
	"loss": 0.4178,
	"step": 390
	},
	{
	"epoch": 0.022783908864364544,
	"grad_norm": 12.593443551819714,
	"learning_rate": 1.5142314990512332e-07,
	"loss": 0.4774,
	"step": 400
	},
	{
	"epoch": 0.023353506585973655,
	"grad_norm": 41.1730678527844,
	"learning_rate": 1.5521821631878558e-07,
	"loss": 0.5109,
	"step": 410
	},
	{
	"epoch": 0.02392310430758277,
	"grad_norm": 16.51074339271402,
	"learning_rate": 1.590132827324478e-07,
	"loss": 0.4692,
	"step": 420
	},
	{
	"epoch": 0.024492702029191883,
	"grad_norm": 11.523289642261012,
	"learning_rate": 1.6280834914611007e-07,
	"loss": 0.417,
	"step": 430
	},
	{
	"epoch": 0.025062299750800997,
	"grad_norm": 21.107219252953012,
	"learning_rate": 1.6660341555977228e-07,
	"loss": 0.3798,
	"step": 440
	},
	{
	"epoch": 0.025631897472410112,
	"grad_norm": 8.312935431045693,
	"learning_rate": 1.7039848197343455e-07,
	"loss": 0.4586,
	"step": 450
	},
	{
	"epoch": 0.026201495194019223,
	"grad_norm": 17.659714103179056,
	"learning_rate": 1.7419354838709676e-07,
	"loss": 0.4637,
	"step": 460
	},
	{
	"epoch": 0.026771092915628337,
	"grad_norm": 35.28046535756356,
	"learning_rate": 1.77988614800759e-07,
	"loss": 0.4591,
	"step": 470
	},
	{
	"epoch": 0.02734069063723745,
	"grad_norm": 17.475339931922075,
	"learning_rate": 1.8178368121442124e-07,
	"loss": 0.4884,
	"step": 480
	},
	{
	"epoch": 0.027910288358846565,
	"grad_norm": 12.775420545423671,
	"learning_rate": 1.8557874762808349e-07,
	"loss": 0.4355,
	"step": 490
	},
	{
	"epoch": 0.02847988608045568,
	"grad_norm": 22.58921652660408,
	"learning_rate": 1.8937381404174573e-07,
	"loss": 0.5028,
	"step": 500
	},
	{
	"epoch": 0.02904948380206479,
	"grad_norm": 21.649711297403396,
	"learning_rate": 1.9316888045540797e-07,
	"loss": 0.4595,
	"step": 510
	},
	{
	"epoch": 0.029619081523673905,
	"grad_norm": 61.88775690696106,
	"learning_rate": 1.969639468690702e-07,
	"loss": 0.4419,
	"step": 520
	},
	{
	"epoch": 0.03018867924528302,
	"grad_norm": 18.72064581371778,
	"learning_rate": 1.9999999319386685e-07,
	"loss": 0.4346,
	"step": 530
	},
	{
	"epoch": 0.030758276966892133,
	"grad_norm": 20.753732350716753,
	"learning_rate": 1.9999975497930434e-07,
	"loss": 0.4233,
	"step": 540
	},
	{
	"epoch": 0.03132787468850125,
	"grad_norm": 50.13806900167064,
	"learning_rate": 1.999991764590115e-07,
	"loss": 0.4471,
	"step": 550
	},
	{
	"epoch": 0.03189747241011036,
	"grad_norm": 15.313720228827242,
	"learning_rate": 1.99998257634957e-07,
	"loss": 0.4284,
	"step": 560
	},
	{
	"epoch": 0.032467070131719476,
	"grad_norm": 13.936702397387482,
	"learning_rate": 1.999969985102677e-07,
	"loss": 0.4901,
	"step": 570
	},
	{
	"epoch": 0.03303666785332859,
	"grad_norm": 13.608501418916317,
	"learning_rate": 1.9999539908922847e-07,
	"loss": 0.4853,
	"step": 580
	},
	{
	"epoch": 0.0336062655749377,
	"grad_norm": 15.107322868355896,
	"learning_rate": 1.9999345937728225e-07,
	"loss": 0.4361,
	"step": 590
	},
	{
	"epoch": 0.034175863296546816,
	"grad_norm": 32.40056901599672,
	"learning_rate": 1.9999117938103e-07,
	"loss": 0.5263,
	"step": 600
	},
	{
	"epoch": 0.034745461018155926,
	"grad_norm": 9.964058712960675,
	"learning_rate": 1.9998855910823074e-07,
	"loss": 0.4443,
	"step": 610
	},
	{
	"epoch": 0.035315058739765044,
	"grad_norm": 22.67319149302576,
	"learning_rate": 1.999855985678014e-07,
	"loss": 0.453,
	"step": 620
	},
	{
	"epoch": 0.035884656461374155,
	"grad_norm": 32.08276760500707,
	"learning_rate": 1.9998229776981686e-07,
	"loss": 0.4704,
	"step": 630
	},
	{
	"epoch": 0.036454254182983266,
	"grad_norm": 35.57871112406775,
	"learning_rate": 1.9997865672551e-07,
	"loss": 0.4567,
	"step": 640
	},
	{
	"epoch": 0.037023851904592384,
	"grad_norm": 30.629691553067705,
	"learning_rate": 1.9997467544727151e-07,
	"loss": 0.4657,
	"step": 650
	},
	{
	"epoch": 0.037593449626201494,
	"grad_norm": 16.79894739182948,
	"learning_rate": 1.9997035394864997e-07,
	"loss": 0.4889,
	"step": 660
	},
	{
	"epoch": 0.03816304734781061,
	"grad_norm": 24.064206535589015,
	"learning_rate": 1.9996569224435164e-07,
	"loss": 0.4541,
	"step": 670
	},
	{
	"epoch": 0.03873264506941972,
	"grad_norm": 15.092611591816881,
	"learning_rate": 1.9996069035024073e-07,
	"loss": 0.4437,
	"step": 680
	},
	{
	"epoch": 0.039302242791028834,
	"grad_norm": 10.567345786993243,
	"learning_rate": 1.9995534828333894e-07,
	"loss": 0.4567,
	"step": 690
	},
	{
	"epoch": 0.03987184051263795,
	"grad_norm": 15.772143297135706,
	"learning_rate": 1.9994966606182567e-07,
	"loss": 0.4429,
	"step": 700
	},
	{
	"epoch": 0.04044143823424706,
	"grad_norm": 23.454081623401972,
	"learning_rate": 1.9994364370503791e-07,
	"loss": 0.4874,
	"step": 710
	},
	{
	"epoch": 0.04101103595585617,
	"grad_norm": 25.771274144252004,
	"learning_rate": 1.9993728123347014e-07,
	"loss": 0.4804,
	"step": 720
	},
	{
	"epoch": 0.04158063367746529,
	"grad_norm": 38.49240584512041,
	"learning_rate": 1.9993057866877422e-07,
	"loss": 0.4851,
	"step": 730
	},
	{
	"epoch": 0.0421502313990744,
	"grad_norm": 14.490580753823508,
	"learning_rate": 1.999235360337595e-07,
	"loss": 0.5076,
	"step": 740
	},
	{
	"epoch": 0.04271982912068352,
	"grad_norm": 73.59426722231183,
	"learning_rate": 1.999161533523925e-07,
	"loss": 0.4716,
	"step": 750
	},
	{
	"epoch": 0.04328942684229263,
	"grad_norm": 85.76885571174373,
	"learning_rate": 1.9990843064979692e-07,
	"loss": 0.4993,
	"step": 760
	},
	{
	"epoch": 0.04385902456390174,
	"grad_norm": 14.903196926933902,
	"learning_rate": 1.999003679522537e-07,
	"loss": 0.4791,
	"step": 770
	},
	{
	"epoch": 0.04442862228551086,
	"grad_norm": 18.928061501180686,
	"learning_rate": 1.9989196528720064e-07,
	"loss": 0.4483,
	"step": 780
	},
	{
	"epoch": 0.04499822000711997,
	"grad_norm": 19.436313523994027,
	"learning_rate": 1.9988322268323266e-07,
	"loss": 0.4549,
	"step": 790
	},
	{
	"epoch": 0.04556781772872909,
	"grad_norm": 38.861669459737385,
	"learning_rate": 1.9987414017010133e-07,
	"loss": 0.4298,
	"step": 800
	},
	{
	"epoch": 0.0461374154503382,
	"grad_norm": 24.571115668775043,
	"learning_rate": 1.998647177787151e-07,
	"loss": 0.4558,
	"step": 810
	},
	{
	"epoch": 0.04670701317194731,
	"grad_norm": 19.706898075912328,
	"learning_rate": 1.9985495554113894e-07,
	"loss": 0.4366,
	"step": 820
	},
	{
	"epoch": 0.04727661089355643,
	"grad_norm": 33.9617977848147,
	"learning_rate": 1.998448534905944e-07,
	"loss": 0.4577,
	"step": 830
	},
	{
	"epoch": 0.04784620861516554,
	"grad_norm": 42.96396193732204,
	"learning_rate": 1.9983441166145946e-07,
	"loss": 0.4851,
	"step": 840
	},
	{
	"epoch": 0.048415806336774656,
	"grad_norm": 21.29503243417614,
	"learning_rate": 1.998236300892683e-07,
	"loss": 0.4807,
	"step": 850
	},
	{
	"epoch": 0.048985404058383766,
	"grad_norm": 31.984418484238574,
	"learning_rate": 1.9981250881071133e-07,
	"loss": 0.4281,
	"step": 860
	},
	{
	"epoch": 0.04955500177999288,
	"grad_norm": 23.76695346707812,
	"learning_rate": 1.9980104786363502e-07,
	"loss": 0.4753,
	"step": 870
	},
	{
	"epoch": 0.050124599501601995,
	"grad_norm": 51.49266265495552,
	"learning_rate": 1.9978924728704166e-07,
	"loss": 0.4453,
	"step": 880
	},
	{
	"epoch": 0.050694197223211106,
	"grad_norm": 57.45228883254441,
	"learning_rate": 1.997771071210895e-07,
	"loss": 0.4547,
	"step": 890
	},
	{
	"epoch": 0.051263794944820223,
	"grad_norm": 582.5163847711418,
	"learning_rate": 1.997646274070922e-07,
	"loss": 0.4011,
	"step": 900
	},
	{
	"epoch": 0.051833392666429334,
	"grad_norm": 12.943726869700884,
	"learning_rate": 1.9975180818751908e-07,
	"loss": 0.4156,
	"step": 910
	},
	{
	"epoch": 0.052402990388038445,
	"grad_norm": 15.975864494882453,
	"learning_rate": 1.997386495059948e-07,
	"loss": 0.3637,
	"step": 920
	},
	{
	"epoch": 0.05297258810964756,
	"grad_norm": 20.386395091429563,
	"learning_rate": 1.9972515140729928e-07,
	"loss": 0.4506,
	"step": 930
	},
	{
	"epoch": 0.053542185831256674,
	"grad_norm": 16.014612208992087,
	"learning_rate": 1.9971131393736732e-07,
	"loss": 0.4581,
	"step": 940
	},
	{
	"epoch": 0.05411178355286579,
	"grad_norm": 13.034905667217853,
	"learning_rate": 1.996971371432888e-07,
	"loss": 0.4288,
	"step": 950
	},
	{
	"epoch": 0.0546813812744749,
	"grad_norm": 13.755268105445708,
	"learning_rate": 1.996826210733083e-07,
	"loss": 0.4704,
	"step": 960
	},
	{
	"epoch": 0.05525097899608401,
	"grad_norm": 14.709572404543191,
	"learning_rate": 1.9966776577682488e-07,
	"loss": 0.4514,
	"step": 970
	},
	{
	"epoch": 0.05582057671769313,
	"grad_norm": 267.85069242584797,
	"learning_rate": 1.9965257130439217e-07,
	"loss": 0.4667,
	"step": 980
	},
	{
	"epoch": 0.05639017443930224,
	"grad_norm": 36.2529434259595,
	"learning_rate": 1.9963703770771795e-07,
	"loss": 0.4929,
	"step": 990
	},
	{
	"epoch": 0.05695977216091136,
	"grad_norm": 138.25374119669067,
	"learning_rate": 1.99621165039664e-07,
	"loss": 0.4887,
	"step": 1000
	},
	{
	"epoch": 0.05752936988252047,
	"grad_norm": 37.65440236342901,
	"learning_rate": 1.9960495335424615e-07,
	"loss": 0.4702,
	"step": 1010
	},
	{
	"epoch": 0.05809896760412958,
	"grad_norm": 20.49543757338681,
	"learning_rate": 1.9958840270663377e-07,
	"loss": 0.4421,
	"step": 1020
	},
	{
	"epoch": 0.0586685653257387,
	"grad_norm": 135.86209503027462,
	"learning_rate": 1.9957151315314977e-07,
	"loss": 0.4665,
	"step": 1030
	},
	{
	"epoch": 0.05923816304734781,
	"grad_norm": 16.112172807163798,
	"learning_rate": 1.9955428475127049e-07,
	"loss": 0.4627,
	"step": 1040
	},
	{
	"epoch": 0.05980776076895693,
	"grad_norm": 20.582916516737605,
	"learning_rate": 1.9953671755962525e-07,
	"loss": 0.4728,
	"step": 1050
	},
	{
	"epoch": 0.06037735849056604,
	"grad_norm": 60.603879240132336,
	"learning_rate": 1.995188116379964e-07,
	"loss": 0.4804,
	"step": 1060
	},
	{
	"epoch": 0.06094695621217515,
	"grad_norm": 31.78120339860008,
	"learning_rate": 1.995005670473189e-07,
	"loss": 0.4671,
	"step": 1070
	},
	{
	"epoch": 0.06151655393378427,
	"grad_norm": 24.087070640843212,
	"learning_rate": 1.9948198384968038e-07,
	"loss": 0.4299,
	"step": 1080
	},
	{
	"epoch": 0.06208615165539338,
	"grad_norm": 78.72280950118618,
	"learning_rate": 1.994630621083206e-07,
	"loss": 0.4402,
	"step": 1090
	},
	{
	"epoch": 0.0626557493770025,
	"grad_norm": 26.03024474381767,
	"learning_rate": 1.9944380188763154e-07,
	"loss": 0.4909,
	"step": 1100
	},
	{
	"epoch": 0.0632253470986116,
	"grad_norm": 19.38210538566336,
	"learning_rate": 1.99424203253157e-07,
	"loss": 0.4324,
	"step": 1110
	},
	{
	"epoch": 0.06379494482022072,
	"grad_norm": 96.14283327480236,
	"learning_rate": 1.9940426627159237e-07,
	"loss": 0.3688,
	"step": 1120
	},
	{
	"epoch": 0.06436454254182983,
	"grad_norm": 31.026454060990613,
	"learning_rate": 1.9938399101078453e-07,
	"loss": 0.5005,
	"step": 1130
	},
	{
	"epoch": 0.06493414026343895,
	"grad_norm": 12.493715605004533,
	"learning_rate": 1.9936337753973154e-07,
	"loss": 0.4489,
	"step": 1140
	},
	{
	"epoch": 0.06550373798504806,
	"grad_norm": 12.701919393018652,
	"learning_rate": 1.9934242592858236e-07,
	"loss": 0.4142,
	"step": 1150
	},
	{
	"epoch": 0.06607333570665717,
	"grad_norm": 28.82714425455963,
	"learning_rate": 1.9932113624863676e-07,
	"loss": 0.4932,
	"step": 1160
	},
	{
	"epoch": 0.06664293342826628,
	"grad_norm": 37.0311582587264,
	"learning_rate": 1.9929950857234485e-07,
	"loss": 0.4971,
	"step": 1170
	},
	{
	"epoch": 0.0672125311498754,
	"grad_norm": 117.98131014467332,
	"learning_rate": 1.9927754297330708e-07,
	"loss": 0.4852,
	"step": 1180
	},
	{
	"epoch": 0.06778212887148452,
	"grad_norm": 9.731916201335425,
	"learning_rate": 1.9925523952627379e-07,
	"loss": 0.4253,
	"step": 1190
	},
	{
	"epoch": 0.06835172659309363,
	"grad_norm": 38.263236761476804,
	"learning_rate": 1.992325983071451e-07,
	"loss": 0.4321,
	"step": 1200
	},
	{
	"epoch": 0.06892132431470274,
	"grad_norm": 15.381655794971056,
	"learning_rate": 1.9920961939297058e-07,
	"loss": 0.441,
	"step": 1210
	},
	{
	"epoch": 0.06949092203631185,
	"grad_norm": 15.428597063217957,
	"learning_rate": 1.991863028619489e-07,
	"loss": 0.4968,
	"step": 1220
	},
	{
	"epoch": 0.07006051975792096,
	"grad_norm": 45.071961716711186,
	"learning_rate": 1.9916264879342785e-07,
	"loss": 0.4305,
	"step": 1230
	},
	{
	"epoch": 0.07063011747953009,
	"grad_norm": 27.232374368700274,
	"learning_rate": 1.9913865726790373e-07,
	"loss": 0.4366,
	"step": 1240
	},
	{
	"epoch": 0.0711997152011392,
	"grad_norm": 21.18563628403933,
	"learning_rate": 1.9911432836702127e-07,
	"loss": 0.4833,
	"step": 1250
	},
	{
	"epoch": 0.07176931292274831,
	"grad_norm": 13.543561740630265,
	"learning_rate": 1.990896621735733e-07,
	"loss": 0.4487,
	"step": 1260
	},
	{
	"epoch": 0.07233891064435742,
	"grad_norm": 86.58996123562757,
	"learning_rate": 1.9906465877150058e-07,
	"loss": 0.4773,
	"step": 1270
	},
	{
	"epoch": 0.07290850836596653,
	"grad_norm": 14.872934684284921,
	"learning_rate": 1.9903931824589123e-07,
	"loss": 0.4457,
	"step": 1280
	},
	{
	"epoch": 0.07347810608757566,
	"grad_norm": 33.14051909456766,
	"learning_rate": 1.9901364068298077e-07,
	"loss": 0.4897,
	"step": 1290
	},
	{
	"epoch": 0.07404770380918477,
	"grad_norm": 16.442246412948936,
	"learning_rate": 1.989876261701516e-07,
	"loss": 0.4477,
	"step": 1300
	},
	{
	"epoch": 0.07461730153079388,
	"grad_norm": 15.10709676956974,
	"learning_rate": 1.9896127479593287e-07,
	"loss": 0.542,
	"step": 1310
	},
	{
	"epoch": 0.07518689925240299,
	"grad_norm": 63.44702816378984,
	"learning_rate": 1.9893458665000002e-07,
	"loss": 0.4563,
	"step": 1320
	},
	{
	"epoch": 0.0757564969740121,
	"grad_norm": 11.730796276591832,
	"learning_rate": 1.9890756182317454e-07,
	"loss": 0.4634,
	"step": 1330
	},
	{
	"epoch": 0.07632609469562122,
	"grad_norm": 27.47043509263349,
	"learning_rate": 1.9888020040742367e-07,
	"loss": 0.5072,
	"step": 1340
	},
	{
	"epoch": 0.07689569241723034,
	"grad_norm": 52.27539617258087,
	"learning_rate": 1.9885250249586014e-07,
	"loss": 0.4645,
	"step": 1350
	},
	{
	"epoch": 0.07746529013883945,
	"grad_norm": 12.68105188761479,
	"learning_rate": 1.9882446818274176e-07,
	"loss": 0.4396,
	"step": 1360
	},
	{
	"epoch": 0.07803488786044856,
	"grad_norm": 21.818578525864865,
	"learning_rate": 1.9879609756347113e-07,
	"loss": 0.4814,
	"step": 1370
	},
	{
	"epoch": 0.07860448558205767,
	"grad_norm": 58.13255180180692,
	"learning_rate": 1.987673907345953e-07,
	"loss": 0.4867,
	"step": 1380
	},
	{
	"epoch": 0.07917408330366678,
	"grad_norm": 14.770491903827162,
	"learning_rate": 1.9873834779380556e-07,
	"loss": 0.4893,
	"step": 1390
	},
	{
	"epoch": 0.0797436810252759,
	"grad_norm": 16.635013592634976,
	"learning_rate": 1.987089688399369e-07,
	"loss": 0.4478,
	"step": 1400
	},
	{
	"epoch": 0.08031327874688501,
	"grad_norm": 17.65859576674858,
	"learning_rate": 1.9867925397296784e-07,
	"loss": 0.4944,
	"step": 1410
	},
	{
	"epoch": 0.08088287646849412,
	"grad_norm": 86.88472923093384,
	"learning_rate": 1.9864920329402e-07,
	"loss": 0.4616,
	"step": 1420
	},
	{
	"epoch": 0.08145247419010324,
	"grad_norm": 25.736980272449554,
	"learning_rate": 1.9861881690535784e-07,
	"loss": 0.4348,
	"step": 1430
	},
	{
	"epoch": 0.08202207191171235,
	"grad_norm": 21.180899350268074,
	"learning_rate": 1.9858809491038823e-07,
	"loss": 0.4156,
	"step": 1440
	},
	{
	"epoch": 0.08259166963332147,
	"grad_norm": 94.81320893975935,
	"learning_rate": 1.9855703741366013e-07,
	"loss": 0.4449,
	"step": 1450
	},
	{
	"epoch": 0.08316126735493058,
	"grad_norm": 15.599193486437276,
	"learning_rate": 1.9852564452086424e-07,
	"loss": 0.4869,
	"step": 1460
	},
	{
	"epoch": 0.08373086507653969,
	"grad_norm": 20.953628168685903,
	"learning_rate": 1.9849391633883262e-07,
	"loss": 0.4373,
	"step": 1470
	},
	{
	"epoch": 0.0843004627981488,
	"grad_norm": 38.52912326460994,
	"learning_rate": 1.9846185297553842e-07,
	"loss": 0.4605,
	"step": 1480
	},
	{
	"epoch": 0.08487006051975791,
	"grad_norm": 22.139614672186013,
	"learning_rate": 1.9842945454009527e-07,
	"loss": 0.4333,
	"step": 1490
	},
	{
	"epoch": 0.08543965824136704,
	"grad_norm": 15.268704177226823,
	"learning_rate": 1.9839672114275726e-07,
	"loss": 0.4497,
	"step": 1500
	},
	{
	"epoch": 0.08600925596297615,
	"grad_norm": 29.168893226415655,
	"learning_rate": 1.9836365289491823e-07,
	"loss": 0.4613,
	"step": 1510
	},
	{
	"epoch": 0.08657885368458526,
	"grad_norm": 21.606021719728066,
	"learning_rate": 1.9833024990911165e-07,
	"loss": 0.4617,
	"step": 1520
	},
	{
	"epoch": 0.08714845140619437,
	"grad_norm": 32.88438245448298,
	"learning_rate": 1.9829651229901004e-07,
	"loss": 0.4377,
	"step": 1530
	},
	{
	"epoch": 0.08771804912780348,
	"grad_norm": 14.247154488970322,
	"learning_rate": 1.9826244017942467e-07,
	"loss": 0.4355,
	"step": 1540
	},
	{
	"epoch": 0.08828764684941261,
	"grad_norm": 20.872950619341626,
	"learning_rate": 1.9822803366630527e-07,
	"loss": 0.4497,
	"step": 1550
	},
	{
	"epoch": 0.08885724457102172,
	"grad_norm": 17.850902788048966,
	"learning_rate": 1.9819329287673946e-07,
	"loss": 0.5261,
	"step": 1560
	},
	{
	"epoch": 0.08942684229263083,
	"grad_norm": 16.138046631977943,
	"learning_rate": 1.9815821792895235e-07,
	"loss": 0.4969,
	"step": 1570
	},
	{
	"epoch": 0.08999644001423994,
	"grad_norm": 19.458881544939857,
	"learning_rate": 1.9812280894230636e-07,
	"loss": 0.4784,
	"step": 1580
	},
	{
	"epoch": 0.09056603773584905,
	"grad_norm": 17.653853307895435,
	"learning_rate": 1.9808706603730057e-07,
	"loss": 0.4463,
	"step": 1590
	},
	{
	"epoch": 0.09113563545745818,
	"grad_norm": 15.623914718581604,
	"learning_rate": 1.9805098933557044e-07,
	"loss": 0.4121,
	"step": 1600
	},
	{
	"epoch": 0.09170523317906729,
	"grad_norm": 102.23831398557063,
	"learning_rate": 1.9801457895988732e-07,
	"loss": 0.4202,
	"step": 1610
	},
	{
	"epoch": 0.0922748309006764,
	"grad_norm": 18.72931059613502,
	"learning_rate": 1.9797783503415818e-07,
	"loss": 0.4243,
	"step": 1620
	},
	{
	"epoch": 0.09284442862228551,
	"grad_norm": 237.94062671792636,
	"learning_rate": 1.9794075768342494e-07,
	"loss": 0.4527,
	"step": 1630
	},
	{
	"epoch": 0.09341402634389462,
	"grad_norm": 20.831268870843843,
	"learning_rate": 1.9790334703386428e-07,
	"loss": 0.4888,
	"step": 1640
	},
	{
	"epoch": 0.09398362406550374,
	"grad_norm": 20.77514897368684,
	"learning_rate": 1.9786560321278714e-07,
	"loss": 0.4432,
	"step": 1650
	},
	{
	"epoch": 0.09455322178711285,
	"grad_norm": 30.08308934914739,
	"learning_rate": 1.9782752634863814e-07,
	"loss": 0.4323,
	"step": 1660
	},
	{
	"epoch": 0.09512281950872196,
	"grad_norm": 34.03857180920022,
	"learning_rate": 1.9778911657099544e-07,
	"loss": 0.4347,
	"step": 1670
	},
	{
	"epoch": 0.09569241723033108,
	"grad_norm": 41.38196703392111,
	"learning_rate": 1.9775037401056998e-07,
	"loss": 0.48,
	"step": 1680
	},
	{
	"epoch": 0.09626201495194019,
	"grad_norm": 26.728838791837614,
	"learning_rate": 1.9771129879920522e-07,
	"loss": 0.4541,
	"step": 1690
	},
	{
	"epoch": 0.09683161267354931,
	"grad_norm": 17.319090510690177,
	"learning_rate": 1.976718910698767e-07,
	"loss": 0.47,
	"step": 1700
	},
	{
	"epoch": 0.09740121039515842,
	"grad_norm": 24.927565311503443,
	"learning_rate": 1.9763215095669147e-07,
	"loss": 0.4775,
	"step": 1710
	},
	{
	"epoch": 0.09797080811676753,
	"grad_norm": 35.5217833486329,
	"learning_rate": 1.9759207859488781e-07,
	"loss": 0.4387,
	"step": 1720
	},
	{
	"epoch": 0.09854040583837664,
	"grad_norm": 12.75295290738318,
	"learning_rate": 1.975516741208346e-07,
	"loss": 0.4733,
	"step": 1730
	},
	{
	"epoch": 0.09911000355998575,
	"grad_norm": 23.901764027051986,
	"learning_rate": 1.9751093767203084e-07,
	"loss": 0.4549,
	"step": 1740
	},
	{
	"epoch": 0.09967960128159488,
	"grad_norm": 16.507601695686727,
	"learning_rate": 1.974698693871054e-07,
	"loss": 0.4483,
	"step": 1750
	},
	{
	"epoch": 0.10024919900320399,
	"grad_norm": 20.096118428482878,
	"learning_rate": 1.9742846940581628e-07,
	"loss": 0.4363,
	"step": 1760
	},
	{
	"epoch": 0.1008187967248131,
	"grad_norm": 15.396477204440362,
	"learning_rate": 1.9738673786905045e-07,
	"loss": 0.4871,
	"step": 1770
	},
	{
	"epoch": 0.10138839444642221,
	"grad_norm": 42.5121633336015,
	"learning_rate": 1.9734467491882297e-07,
	"loss": 0.5204,
	"step": 1780
	},
	{
	"epoch": 0.10195799216803132,
	"grad_norm": 28.227316949939553,
	"learning_rate": 1.9730228069827685e-07,
	"loss": 0.4862,
	"step": 1790
	},
	{
	"epoch": 0.10252758988964045,
	"grad_norm": 24.685923174663778,
	"learning_rate": 1.972595553516824e-07,
	"loss": 0.4545,
	"step": 1800
	}
	],
	"logging_steps": 10,
	"max_steps": 17557,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 100,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 571832082890752.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}