Training in progress, step 3300, checkpoint

f7b177d verified 20 days ago

58 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9470512268618166,
	"eval_steps": 300,
	"global_step": 3300,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0028698522026115655,
	"grad_norm": 168.79563903808594,
	"learning_rate": 1.739130434782609e-05,
	"loss": 12.0169,
	"step": 10
	},
	{
	"epoch": 0.005739704405223131,
	"grad_norm": 20.983991622924805,
	"learning_rate": 4.63768115942029e-05,
	"loss": 7.8235,
	"step": 20
	},
	{
	"epoch": 0.008609556607834697,
	"grad_norm": 21.168655395507812,
	"learning_rate": 7.536231884057971e-05,
	"loss": 6.834,
	"step": 30
	},
	{
	"epoch": 0.011479408810446262,
	"grad_norm": 21.57039451599121,
	"learning_rate": 0.00010434782608695653,
	"loss": 3.9023,
	"step": 40
	},
	{
	"epoch": 0.014349261013057828,
	"grad_norm": 48.81906509399414,
	"learning_rate": 0.00013333333333333334,
	"loss": 2.9802,
	"step": 50
	},
	{
	"epoch": 0.017219113215669393,
	"grad_norm": 7.396921157836914,
	"learning_rate": 0.00016231884057971017,
	"loss": 2.6257,
	"step": 60
	},
	{
	"epoch": 0.02008896541828096,
	"grad_norm": 62.19234848022461,
	"learning_rate": 0.00019130434782608697,
	"loss": 2.3201,
	"step": 70
	},
	{
	"epoch": 0.022958817620892524,
	"grad_norm": 8.402580261230469,
	"learning_rate": 0.00019999792781461744,
	"loss": 2.1749,
	"step": 80
	},
	{
	"epoch": 0.02582866982350409,
	"grad_norm": 7.064925670623779,
	"learning_rate": 0.0001999877785419313,
	"loss": 1.8889,
	"step": 90
	},
	{
	"epoch": 0.028698522026115655,
	"grad_norm": 7.678985118865967,
	"learning_rate": 0.0001999691724338023,
	"loss": 1.8161,
	"step": 100
	},
	{
	"epoch": 0.03156837422872722,
	"grad_norm": 9.882554054260254,
	"learning_rate": 0.0001999421110639107,
	"loss": 1.9209,
	"step": 110
	},
	{
	"epoch": 0.034438226431338786,
	"grad_norm": 8.960328102111816,
	"learning_rate": 0.00019990659672107177,
	"loss": 1.8535,
	"step": 120
	},
	{
	"epoch": 0.03730807863395035,
	"grad_norm": 6.723909378051758,
	"learning_rate": 0.00019986263240904216,
	"loss": 1.7978,
	"step": 130
	},
	{
	"epoch": 0.04017793083656192,
	"grad_norm": 14.159058570861816,
	"learning_rate": 0.00019981022184626578,
	"loss": 1.686,
	"step": 140
	},
	{
	"epoch": 0.04304778303917348,
	"grad_norm": 12.402606010437012,
	"learning_rate": 0.00019974936946555948,
	"loss": 1.6932,
	"step": 150
	},
	{
	"epoch": 0.04591763524178505,
	"grad_norm": 7.793806076049805,
	"learning_rate": 0.000199680080413738,
	"loss": 1.5665,
	"step": 160
	},
	{
	"epoch": 0.048787487444396614,
	"grad_norm": 9.647517204284668,
	"learning_rate": 0.0001996023605511786,
	"loss": 1.5892,
	"step": 170
	},
	{
	"epoch": 0.05165733964700818,
	"grad_norm": 7.5883564949035645,
	"learning_rate": 0.00019951621645132556,
	"loss": 1.5003,
	"step": 180
	},
	{
	"epoch": 0.054527191849619745,
	"grad_norm": 9.5863676071167,
	"learning_rate": 0.00019942165540013412,
	"loss": 1.4324,
	"step": 190
	},
	{
	"epoch": 0.05739704405223131,
	"grad_norm": 10.761382102966309,
	"learning_rate": 0.00019931868539545416,
	"loss": 1.2652,
	"step": 200
	},
	{
	"epoch": 0.060266896254842876,
	"grad_norm": 23.32731056213379,
	"learning_rate": 0.00019920731514635396,
	"loss": 1.2868,
	"step": 210
	},
	{
	"epoch": 0.06313674845745444,
	"grad_norm": 15.128023147583008,
	"learning_rate": 0.00019908755407238343,
	"loss": 1.2272,
	"step": 220
	},
	{
	"epoch": 0.066006600660066,
	"grad_norm": 12.924105644226074,
	"learning_rate": 0.00019895941230277744,
	"loss": 1.307,
	"step": 230
	},
	{
	"epoch": 0.06887645286267757,
	"grad_norm": 9.334559440612793,
	"learning_rate": 0.00019882290067559915,
	"loss": 1.1858,
	"step": 240
	},
	{
	"epoch": 0.07174630506528913,
	"grad_norm": 12.918402671813965,
	"learning_rate": 0.0001986780307368233,
	"loss": 1.1668,
	"step": 250
	},
	{
	"epoch": 0.0746161572679007,
	"grad_norm": 8.966814994812012,
	"learning_rate": 0.00019852481473935974,
	"loss": 1.04,
	"step": 260
	},
	{
	"epoch": 0.07748600947051226,
	"grad_norm": 10.825933456420898,
	"learning_rate": 0.000198363265642017,
	"loss": 1.0674,
	"step": 270
	},
	{
	"epoch": 0.08035586167312384,
	"grad_norm": 20.35280418395996,
	"learning_rate": 0.00019819339710840626,
	"loss": 1.1564,
	"step": 280
	},
	{
	"epoch": 0.0832257138757354,
	"grad_norm": 24.500883102416992,
	"learning_rate": 0.00019801522350578577,
	"loss": 1.0751,
	"step": 290
	},
	{
	"epoch": 0.08609556607834697,
	"grad_norm": 8.19206428527832,
	"learning_rate": 0.00019782875990384568,
	"loss": 1.0476,
	"step": 300
	},
	{
	"epoch": 0.08896541828095852,
	"grad_norm": 8.840872764587402,
	"learning_rate": 0.00019763402207343338,
	"loss": 1.0478,
	"step": 310
	},
	{
	"epoch": 0.0918352704835701,
	"grad_norm": 11.326393127441406,
	"learning_rate": 0.00019743102648521967,
	"loss": 1.0235,
	"step": 320
	},
	{
	"epoch": 0.09470512268618166,
	"grad_norm": 15.35113525390625,
	"learning_rate": 0.00019721979030830572,
	"loss": 0.9794,
	"step": 330
	},
	{
	"epoch": 0.09757497488879323,
	"grad_norm": 11.8535795211792,
	"learning_rate": 0.0001970003314087709,
	"loss": 1.0072,
	"step": 340
	},
	{
	"epoch": 0.10044482709140479,
	"grad_norm": 24.779190063476562,
	"learning_rate": 0.0001967726683481617,
	"loss": 1.0056,
	"step": 350
	},
	{
	"epoch": 0.10331467929401636,
	"grad_norm": 20.744426727294922,
	"learning_rate": 0.00019653682038192188,
	"loss": 1.0066,
	"step": 360
	},
	{
	"epoch": 0.10618453149662792,
	"grad_norm": 21.19144630432129,
	"learning_rate": 0.00019629280745776364,
	"loss": 0.9673,
	"step": 370
	},
	{
	"epoch": 0.10905438369923949,
	"grad_norm": 18.140127182006836,
	"learning_rate": 0.0001960406502139808,
	"loss": 0.9903,
	"step": 380
	},
	{
	"epoch": 0.11192423590185105,
	"grad_norm": 19.997053146362305,
	"learning_rate": 0.00019578036997770296,
	"loss": 0.9715,
	"step": 390
	},
	{
	"epoch": 0.11479408810446262,
	"grad_norm": 15.790470123291016,
	"learning_rate": 0.0001955119887630919,
	"loss": 0.9508,
	"step": 400
	},
	{
	"epoch": 0.11766394030707418,
	"grad_norm": 18.330507278442383,
	"learning_rate": 0.0001952355292694795,
	"loss": 0.9867,
	"step": 410
	},
	{
	"epoch": 0.12053379250968575,
	"grad_norm": 13.211642265319824,
	"learning_rate": 0.0001949510148794478,
	"loss": 1.0481,
	"step": 420
	},
	{
	"epoch": 0.12340364471229731,
	"grad_norm": 9.442767143249512,
	"learning_rate": 0.00019465846965685158,
	"loss": 0.9686,
	"step": 430
	},
	{
	"epoch": 0.12627349691490888,
	"grad_norm": 15.597809791564941,
	"learning_rate": 0.00019435791834478293,
	"loss": 1.0821,
	"step": 440
	},
	{
	"epoch": 0.12914334911752046,
	"grad_norm": 13.517879486083984,
	"learning_rate": 0.0001940493863634784,
	"loss": 0.9397,
	"step": 450
	},
	{
	"epoch": 0.132013201320132,
	"grad_norm": 13.031438827514648,
	"learning_rate": 0.00019373289980816917,
	"loss": 1.0009,
	"step": 460
	},
	{
	"epoch": 0.13488305352274357,
	"grad_norm": 14.64666748046875,
	"learning_rate": 0.00019340848544687386,
	"loss": 0.9571,
	"step": 470
	},
	{
	"epoch": 0.13775290572535515,
	"grad_norm": 10.706031799316406,
	"learning_rate": 0.00019307617071813454,
	"loss": 1.0283,
	"step": 480
	},
	{
	"epoch": 0.14062275792796672,
	"grad_norm": 9.723997116088867,
	"learning_rate": 0.00019273598372869603,
	"loss": 0.9815,
	"step": 490
	},
	{
	"epoch": 0.14349261013057826,
	"grad_norm": 9.667860984802246,
	"learning_rate": 0.0001923879532511287,
	"loss": 0.9424,
	"step": 500
	},
	{
	"epoch": 0.14636246233318984,
	"grad_norm": 6.956273078918457,
	"learning_rate": 0.00019203210872139476,
	"loss": 0.9793,
	"step": 510
	},
	{
	"epoch": 0.1492323145358014,
	"grad_norm": 15.395605087280273,
	"learning_rate": 0.00019166848023635883,
	"loss": 1.0637,
	"step": 520
	},
	{
	"epoch": 0.15210216673841298,
	"grad_norm": 23.60310173034668,
	"learning_rate": 0.0001912970985512422,
	"loss": 0.9625,
	"step": 530
	},
	{
	"epoch": 0.15497201894102453,
	"grad_norm": 20.658727645874023,
	"learning_rate": 0.00019091799507702181,
	"loss": 0.9393,
	"step": 540
	},
	{
	"epoch": 0.1578418711436361,
	"grad_norm": 18.22756576538086,
	"learning_rate": 0.0001905312018777733,
	"loss": 0.9354,
	"step": 550
	},
	{
	"epoch": 0.16071172334624767,
	"grad_norm": 11.863499641418457,
	"learning_rate": 0.00019013675166795922,
	"loss": 0.933,
	"step": 560
	},
	{
	"epoch": 0.16358157554885924,
	"grad_norm": 11.65882682800293,
	"learning_rate": 0.00018973467780966202,
	"loss": 0.9119,
	"step": 570
	},
	{
	"epoch": 0.1664514277514708,
	"grad_norm": 11.474069595336914,
	"learning_rate": 0.00018932501430976242,
	"loss": 0.9511,
	"step": 580
	},
	{
	"epoch": 0.16932127995408236,
	"grad_norm": 8.225656509399414,
	"learning_rate": 0.00018890779581706303,
	"loss": 0.9474,
	"step": 590
	},
	{
	"epoch": 0.17219113215669393,
	"grad_norm": 15.780831336975098,
	"learning_rate": 0.00018848305761935797,
	"loss": 0.9528,
	"step": 600
	},
	{
	"epoch": 0.1750609843593055,
	"grad_norm": 9.415815353393555,
	"learning_rate": 0.00018805083564044802,
	"loss": 0.8619,
	"step": 610
	},
	{
	"epoch": 0.17793083656191705,
	"grad_norm": 9.250490188598633,
	"learning_rate": 0.0001876111664371025,
	"loss": 0.9168,
	"step": 620
	},
	{
	"epoch": 0.18080068876452862,
	"grad_norm": 15.730814933776855,
	"learning_rate": 0.0001871640871959672,
	"loss": 0.94,
	"step": 630
	},
	{
	"epoch": 0.1836705409671402,
	"grad_norm": 9.073026657104492,
	"learning_rate": 0.0001867096357304191,
	"loss": 0.9471,
	"step": 640
	},
	{
	"epoch": 0.18654039316975177,
	"grad_norm": 8.982126235961914,
	"learning_rate": 0.00018624785047736842,
	"loss": 0.9177,
	"step": 650
	},
	{
	"epoch": 0.1894102453723633,
	"grad_norm": 10.682122230529785,
	"learning_rate": 0.00018577877049400746,
	"loss": 0.9402,
	"step": 660
	},
	{
	"epoch": 0.19228009757497488,
	"grad_norm": 8.706944465637207,
	"learning_rate": 0.0001853024354545073,
	"loss": 0.8867,
	"step": 670
	},
	{
	"epoch": 0.19514994977758646,
	"grad_norm": 5.8472371101379395,
	"learning_rate": 0.00018481888564666208,
	"loss": 0.9135,
	"step": 680
	},
	{
	"epoch": 0.19801980198019803,
	"grad_norm": 5.432713508605957,
	"learning_rate": 0.00018432816196848172,
	"loss": 0.8525,
	"step": 690
	},
	{
	"epoch": 0.20088965418280957,
	"grad_norm": 28.993038177490234,
	"learning_rate": 0.00018383030592473266,
	"loss": 0.8779,
	"step": 700
	},
	{
	"epoch": 0.20375950638542115,
	"grad_norm": 5.313049793243408,
	"learning_rate": 0.0001833253596234274,
	"loss": 0.9551,
	"step": 710
	},
	{
	"epoch": 0.20662935858803272,
	"grad_norm": 18.639175415039062,
	"learning_rate": 0.00018281336577226327,
	"loss": 0.8694,
	"step": 720
	},
	{
	"epoch": 0.2094992107906443,
	"grad_norm": 15.578129768371582,
	"learning_rate": 0.00018229436767501012,
	"loss": 0.9017,
	"step": 730
	},
	{
	"epoch": 0.21236906299325584,
	"grad_norm": 18.0419864654541,
	"learning_rate": 0.0001817684092278477,
	"loss": 0.8616,
	"step": 740
	},
	{
	"epoch": 0.2152389151958674,
	"grad_norm": 8.34323787689209,
	"learning_rate": 0.00018123553491565308,
	"loss": 0.8902,
	"step": 750
	},
	{
	"epoch": 0.21810876739847898,
	"grad_norm": 8.49802017211914,
	"learning_rate": 0.00018069578980823816,
	"loss": 0.8781,
	"step": 760
	},
	{
	"epoch": 0.22097861960109055,
	"grad_norm": 6.250750541687012,
	"learning_rate": 0.00018014921955653772,
	"loss": 0.8405,
	"step": 770
	},
	{
	"epoch": 0.2238484718037021,
	"grad_norm": 25.283082962036133,
	"learning_rate": 0.00017959587038874822,
	"loss": 0.93,
	"step": 780
	},
	{
	"epoch": 0.22671832400631367,
	"grad_norm": 18.443071365356445,
	"learning_rate": 0.00017903578910641814,
	"loss": 0.9202,
	"step": 790
	},
	{
	"epoch": 0.22958817620892524,
	"grad_norm": 18.457555770874023,
	"learning_rate": 0.0001784690230804892,
	"loss": 0.9446,
	"step": 800
	},
	{
	"epoch": 0.23245802841153682,
	"grad_norm": 7.786270618438721,
	"learning_rate": 0.00017789562024729012,
	"loss": 0.899,
	"step": 810
	},
	{
	"epoch": 0.23532788061414836,
	"grad_norm": 6.527904033660889,
	"learning_rate": 0.00017731562910448202,
	"loss": 0.8866,
	"step": 820
	},
	{
	"epoch": 0.23819773281675993,
	"grad_norm": 8.394437789916992,
	"learning_rate": 0.00017672909870695665,
	"loss": 0.8749,
	"step": 830
	},
	{
	"epoch": 0.2410675850193715,
	"grad_norm": 6.815917491912842,
	"learning_rate": 0.00017613607866268742,
	"loss": 0.8542,
	"step": 840
	},
	{
	"epoch": 0.24393743722198308,
	"grad_norm": 16.42218780517578,
	"learning_rate": 0.00017553661912853347,
	"loss": 0.8658,
	"step": 850
	},
	{
	"epoch": 0.24680728942459462,
	"grad_norm": 14.373140335083008,
	"learning_rate": 0.00017493077080599768,
	"loss": 0.8756,
	"step": 860
	},
	{
	"epoch": 0.2496771416272062,
	"grad_norm": 17.368059158325195,
	"learning_rate": 0.0001743185849369381,
	"loss": 0.9572,
	"step": 870
	},
	{
	"epoch": 0.25254699382981777,
	"grad_norm": 8.744333267211914,
	"learning_rate": 0.0001737001132992344,
	"loss": 0.8743,
	"step": 880
	},
	{
	"epoch": 0.2554168460324293,
	"grad_norm": 9.240042686462402,
	"learning_rate": 0.0001730754082024082,
	"loss": 0.8666,
	"step": 890
	},
	{
	"epoch": 0.2582866982350409,
	"grad_norm": 8.81686782836914,
	"learning_rate": 0.00017244452248319896,
	"loss": 0.8771,
	"step": 900
	},
	{
	"epoch": 0.26115655043765246,
	"grad_norm": 46.30351638793945,
	"learning_rate": 0.00017180750950109504,
	"loss": 0.788,
	"step": 910
	},
	{
	"epoch": 0.264026402640264,
	"grad_norm": 6.262620449066162,
	"learning_rate": 0.0001711644231338208,
	"loss": 0.916,
	"step": 920
	},
	{
	"epoch": 0.2668962548428756,
	"grad_norm": 7.936816215515137,
	"learning_rate": 0.00017051531777277952,
	"loss": 0.8425,
	"step": 930
	},
	{
	"epoch": 0.26976610704548715,
	"grad_norm": 10.233474731445312,
	"learning_rate": 0.00016986024831845296,
	"loss": 0.9159,
	"step": 940
	},
	{
	"epoch": 0.27263595924809875,
	"grad_norm": 13.751338958740234,
	"learning_rate": 0.00016919927017575832,
	"loss": 0.8484,
	"step": 950
	},
	{
	"epoch": 0.2755058114507103,
	"grad_norm": 18.70934295654297,
	"learning_rate": 0.00016853243924936173,
	"loss": 0.8387,
	"step": 960
	},
	{
	"epoch": 0.27837566365332184,
	"grad_norm": 6.2156853675842285,
	"learning_rate": 0.0001678598119389502,
	"loss": 0.9127,
	"step": 970
	},
	{
	"epoch": 0.28124551585593344,
	"grad_norm": 10.486414909362793,
	"learning_rate": 0.00016718144513446127,
	"loss": 0.861,
	"step": 980
	},
	{
	"epoch": 0.284115368058545,
	"grad_norm": 7.782724380493164,
	"learning_rate": 0.00016649739621127146,
	"loss": 0.8739,
	"step": 990
	},
	{
	"epoch": 0.2869852202611565,
	"grad_norm": 30.388168334960938,
	"learning_rate": 0.00016580772302534337,
	"loss": 0.9009,
	"step": 1000
	},
	{
	"epoch": 0.2898550724637681,
	"grad_norm": 7.943617343902588,
	"learning_rate": 0.0001651124839083324,
	"loss": 0.8113,
	"step": 1010
	},
	{
	"epoch": 0.29272492466637967,
	"grad_norm": 8.402076721191406,
	"learning_rate": 0.00016441173766265315,
	"loss": 0.8076,
	"step": 1020
	},
	{
	"epoch": 0.29559477686899127,
	"grad_norm": 7.3927764892578125,
	"learning_rate": 0.00016370554355650584,
	"loss": 0.8263,
	"step": 1030
	},
	{
	"epoch": 0.2984646290716028,
	"grad_norm": 8.749371528625488,
	"learning_rate": 0.0001629939613188638,
	"loss": 0.8673,
	"step": 1040
	},
	{
	"epoch": 0.30133448127421436,
	"grad_norm": 4.924167156219482,
	"learning_rate": 0.0001622770511344213,
	"loss": 0.869,
	"step": 1050
	},
	{
	"epoch": 0.30420433347682596,
	"grad_norm": 34.14529037475586,
	"learning_rate": 0.00016155487363850342,
	"loss": 0.9202,
	"step": 1060
	},
	{
	"epoch": 0.3070741856794375,
	"grad_norm": 13.217582702636719,
	"learning_rate": 0.00016082748991193757,
	"loss": 0.8409,
	"step": 1070
	},
	{
	"epoch": 0.30994403788204905,
	"grad_norm": 19.251298904418945,
	"learning_rate": 0.00016009496147588735,
	"loss": 0.8624,
	"step": 1080
	},
	{
	"epoch": 0.31281389008466065,
	"grad_norm": 52.710453033447266,
	"learning_rate": 0.00015935735028664908,
	"loss": 0.8695,
	"step": 1090
	},
	{
	"epoch": 0.3156837422872722,
	"grad_norm": 15.96419906616211,
	"learning_rate": 0.00015861471873041184,
	"loss": 0.8773,
	"step": 1100
	},
	{
	"epoch": 0.3185535944898838,
	"grad_norm": 7.947400093078613,
	"learning_rate": 0.0001578671296179806,
	"loss": 0.8387,
	"step": 1110
	},
	{
	"epoch": 0.32142344669249534,
	"grad_norm": 13.167436599731445,
	"learning_rate": 0.00015711464617946402,
	"loss": 0.8582,
	"step": 1120
	},
	{
	"epoch": 0.3242932988951069,
	"grad_norm": 11.579595565795898,
	"learning_rate": 0.00015635733205892653,
	"loss": 0.8615,
	"step": 1130
	},
	{
	"epoch": 0.3271631510977185,
	"grad_norm": 4.840546131134033,
	"learning_rate": 0.00015559525130900523,
	"loss": 0.822,
	"step": 1140
	},
	{
	"epoch": 0.33003300330033003,
	"grad_norm": 8.159014701843262,
	"learning_rate": 0.0001548284683854925,
	"loss": 0.8512,
	"step": 1150
	},
	{
	"epoch": 0.3329028555029416,
	"grad_norm": 33.13652038574219,
	"learning_rate": 0.00015405704814188442,
	"loss": 0.8686,
	"step": 1160
	},
	{
	"epoch": 0.3357727077055532,
	"grad_norm": 5.398830890655518,
	"learning_rate": 0.00015328105582389557,
	"loss": 0.8685,
	"step": 1170
	},
	{
	"epoch": 0.3386425599081647,
	"grad_norm": 23.8563289642334,
	"learning_rate": 0.00015250055706394057,
	"loss": 0.8617,
	"step": 1180
	},
	{
	"epoch": 0.3415124121107763,
	"grad_norm": 5.886293411254883,
	"learning_rate": 0.00015171561787558297,
	"loss": 0.8559,
	"step": 1190
	},
	{
	"epoch": 0.34438226431338786,
	"grad_norm": 7.887658596038818,
	"learning_rate": 0.000150926304647952,
	"loss": 0.8811,
	"step": 1200
	},
	{
	"epoch": 0.3472521165159994,
	"grad_norm": 6.111181259155273,
	"learning_rate": 0.00015013268414012742,
	"loss": 0.8297,
	"step": 1210
	},
	{
	"epoch": 0.350121968718611,
	"grad_norm": 6.417325496673584,
	"learning_rate": 0.00014933482347549303,
	"loss": 0.8296,
	"step": 1220
	},
	{
	"epoch": 0.35299182092122255,
	"grad_norm": 48.331573486328125,
	"learning_rate": 0.00014853279013605957,
	"loss": 0.7966,
	"step": 1230
	},
	{
	"epoch": 0.3558616731238341,
	"grad_norm": 8.638408660888672,
	"learning_rate": 0.00014772665195675718,
	"loss": 0.8522,
	"step": 1240
	},
	{
	"epoch": 0.3587315253264457,
	"grad_norm": 6.308197498321533,
	"learning_rate": 0.00014691647711969803,
	"loss": 0.8228,
	"step": 1250
	},
	{
	"epoch": 0.36160137752905724,
	"grad_norm": 6.23061990737915,
	"learning_rate": 0.0001461023341484094,
	"loss": 0.7915,
	"step": 1260
	},
	{
	"epoch": 0.36447122973166884,
	"grad_norm": 6.377804756164551,
	"learning_rate": 0.00014528429190203824,
	"loss": 0.8486,
	"step": 1270
	},
	{
	"epoch": 0.3673410819342804,
	"grad_norm": 6.146363258361816,
	"learning_rate": 0.00014446241956952714,
	"loss": 0.8927,
	"step": 1280
	},
	{
	"epoch": 0.37021093413689193,
	"grad_norm": 3.900587320327759,
	"learning_rate": 0.0001436367866637622,
	"loss": 0.8167,
	"step": 1290
	},
	{
	"epoch": 0.37308078633950353,
	"grad_norm": 8.58018684387207,
	"learning_rate": 0.00014280746301569407,
	"loss": 0.8128,
	"step": 1300
	},
	{
	"epoch": 0.3759506385421151,
	"grad_norm": 5.754461288452148,
	"learning_rate": 0.00014197451876843138,
	"loss": 0.8441,
	"step": 1310
	},
	{
	"epoch": 0.3788204907447266,
	"grad_norm": 7.290277004241943,
	"learning_rate": 0.00014113802437130845,
	"loss": 0.8555,
	"step": 1320
	},
	{
	"epoch": 0.3816903429473382,
	"grad_norm": 43.14801788330078,
	"learning_rate": 0.00014029805057392655,
	"loss": 0.8299,
	"step": 1330
	},
	{
	"epoch": 0.38456019514994977,
	"grad_norm": 5.909049034118652,
	"learning_rate": 0.0001394546684201701,
	"loss": 0.8448,
	"step": 1340
	},
	{
	"epoch": 0.38743004735256137,
	"grad_norm": 4.810829162597656,
	"learning_rate": 0.00013860794924219782,
	"loss": 0.8592,
	"step": 1350
	},
	{
	"epoch": 0.3902998995551729,
	"grad_norm": 6.602210998535156,
	"learning_rate": 0.00013775796465440956,
	"loss": 0.8351,
	"step": 1360
	},
	{
	"epoch": 0.39316975175778446,
	"grad_norm": 7.952111721038818,
	"learning_rate": 0.0001369047865473893,
	"loss": 0.8243,
	"step": 1370
	},
	{
	"epoch": 0.39603960396039606,
	"grad_norm": 8.271283149719238,
	"learning_rate": 0.00013604848708182466,
	"loss": 0.8239,
	"step": 1380
	},
	{
	"epoch": 0.3989094561630076,
	"grad_norm": 12.694669723510742,
	"learning_rate": 0.00013518913868240372,
	"loss": 0.8381,
	"step": 1390
	},
	{
	"epoch": 0.40177930836561915,
	"grad_norm": 22.169252395629883,
	"learning_rate": 0.00013432681403168932,
	"loss": 0.8227,
	"step": 1400
	},
	{
	"epoch": 0.40464916056823075,
	"grad_norm": 127.96073913574219,
	"learning_rate": 0.00013346158606397182,
	"loss": 0.8376,
	"step": 1410
	},
	{
	"epoch": 0.4075190127708423,
	"grad_norm": 12.16250991821289,
	"learning_rate": 0.0001325935279591003,
	"loss": 0.8253,
	"step": 1420
	},
	{
	"epoch": 0.4103888649734539,
	"grad_norm": 11.346808433532715,
	"learning_rate": 0.00013172271313629315,
	"loss": 0.8554,
	"step": 1430
	},
	{
	"epoch": 0.41325871717606544,
	"grad_norm": 18.371610641479492,
	"learning_rate": 0.0001308492152479283,
	"loss": 0.7743,
	"step": 1440
	},
	{
	"epoch": 0.416128569378677,
	"grad_norm": 17.174100875854492,
	"learning_rate": 0.00012997310817331392,
	"loss": 0.8342,
	"step": 1450
	},
	{
	"epoch": 0.4189984215812886,
	"grad_norm": 15.853143692016602,
	"learning_rate": 0.00012909446601243972,
	"loss": 0.8514,
	"step": 1460
	},
	{
	"epoch": 0.4218682737839001,
	"grad_norm": 6.734909534454346,
	"learning_rate": 0.00012821336307970965,
	"loss": 0.7947,
	"step": 1470
	},
	{
	"epoch": 0.42473812598651167,
	"grad_norm": 7.687751770019531,
	"learning_rate": 0.00012732987389765658,
	"loss": 0.8249,
	"step": 1480
	},
	{
	"epoch": 0.4276079781891233,
	"grad_norm": 4.791903972625732,
	"learning_rate": 0.00012644407319063918,
	"loss": 0.7755,
	"step": 1490
	},
	{
	"epoch": 0.4304778303917348,
	"grad_norm": 3.5958361625671387,
	"learning_rate": 0.0001255560358785219,
	"loss": 0.7828,
	"step": 1500
	},
	{
	"epoch": 0.4333476825943464,
	"grad_norm": 5.9140400886535645,
	"learning_rate": 0.00012466583707033832,
	"loss": 0.8044,
	"step": 1510
	},
	{
	"epoch": 0.43621753479695796,
	"grad_norm": 5.575759410858154,
	"learning_rate": 0.00012377355205793854,
	"loss": 0.7996,
	"step": 1520
	},
	{
	"epoch": 0.4390873869995695,
	"grad_norm": 6.771875381469727,
	"learning_rate": 0.00012287925630962107,
	"loss": 0.8261,
	"step": 1530
	},
	{
	"epoch": 0.4419572392021811,
	"grad_norm": 18.849271774291992,
	"learning_rate": 0.00012198302546374978,
	"loss": 0.8224,
	"step": 1540
	},
	{
	"epoch": 0.44482709140479265,
	"grad_norm": 5.645337104797363,
	"learning_rate": 0.00012108493532235666,
	"loss": 0.8185,
	"step": 1550
	},
	{
	"epoch": 0.4476969436074042,
	"grad_norm": 4.3476481437683105,
	"learning_rate": 0.00012018506184473038,
	"loss": 0.7985,
	"step": 1560
	},
	{
	"epoch": 0.4505667958100158,
	"grad_norm": 8.391561508178711,
	"learning_rate": 0.00011928348114099195,
	"loss": 0.7965,
	"step": 1570
	},
	{
	"epoch": 0.45343664801262734,
	"grad_norm": 11.707796096801758,
	"learning_rate": 0.00011838026946565723,
	"loss": 0.8174,
	"step": 1580
	},
	{
	"epoch": 0.45630650021523894,
	"grad_norm": 9.046381950378418,
	"learning_rate": 0.00011747550321118763,
	"loss": 0.8,
	"step": 1590
	},
	{
	"epoch": 0.4591763524178505,
	"grad_norm": 8.26490306854248,
	"learning_rate": 0.00011656925890152877,
	"loss": 0.8229,
	"step": 1600
	},
	{
	"epoch": 0.46204620462046203,
	"grad_norm": 6.398012638092041,
	"learning_rate": 0.00011566161318563821,
	"loss": 0.8027,
	"step": 1610
	},
	{
	"epoch": 0.46491605682307363,
	"grad_norm": 5.92479133605957,
	"learning_rate": 0.0001147526428310027,
	"loss": 0.8094,
	"step": 1620
	},
	{
	"epoch": 0.4677859090256852,
	"grad_norm": 7.79962158203125,
	"learning_rate": 0.00011384242471714512,
	"loss": 0.8049,
	"step": 1630
	},
	{
	"epoch": 0.4706557612282967,
	"grad_norm": 4.564454078674316,
	"learning_rate": 0.00011293103582912221,
	"loss": 0.8382,
	"step": 1640
	},
	{
	"epoch": 0.4735256134309083,
	"grad_norm": 20.43712043762207,
	"learning_rate": 0.00011201855325101332,
	"loss": 0.829,
	"step": 1650
	},
	{
	"epoch": 0.47639546563351987,
	"grad_norm": 5.778446674346924,
	"learning_rate": 0.0001111050541594006,
	"loss": 0.8333,
	"step": 1660
	},
	{
	"epoch": 0.47926531783613147,
	"grad_norm": 5.030070781707764,
	"learning_rate": 0.00011019061581684165,
	"loss": 0.769,
	"step": 1670
	},
	{
	"epoch": 0.482135170038743,
	"grad_norm": 5.967840671539307,
	"learning_rate": 0.00010927531556533456,
	"loss": 0.8041,
	"step": 1680
	},
	{
	"epoch": 0.48500502224135456,
	"grad_norm": 4.707633972167969,
	"learning_rate": 0.00010835923081977673,
	"loss": 0.8105,
	"step": 1690
	},
	{
	"epoch": 0.48787487444396616,
	"grad_norm": 6.354760646820068,
	"learning_rate": 0.0001074424390614169,
	"loss": 0.8031,
	"step": 1700
	},
	{
	"epoch": 0.4907447266465777,
	"grad_norm": 6.2033915519714355,
	"learning_rate": 0.00010652501783130208,
	"loss": 0.7559,
	"step": 1710
	},
	{
	"epoch": 0.49361457884918924,
	"grad_norm": 3.7331125736236572,
	"learning_rate": 0.00010560704472371919,
	"loss": 0.8233,
	"step": 1720
	},
	{
	"epoch": 0.49648443105180085,
	"grad_norm": 9.511772155761719,
	"learning_rate": 0.00010468859737963217,
	"loss": 0.7945,
	"step": 1730
	},
	{
	"epoch": 0.4993542832544124,
	"grad_norm": 12.07361125946045,
	"learning_rate": 0.00010376975348011533,
	"loss": 0.8368,
	"step": 1740
	},
	{
	"epoch": 0.5022241354570239,
	"grad_norm": 4.957511901855469,
	"learning_rate": 0.00010285059073978312,
	"loss": 0.8241,
	"step": 1750
	},
	{
	"epoch": 0.5050939876596355,
	"grad_norm": 4.124336242675781,
	"learning_rate": 0.00010193118690021699,
	"loss": 0.807,
	"step": 1760
	},
	{
	"epoch": 0.5079638398622471,
	"grad_norm": 4.789161205291748,
	"learning_rate": 0.00010101161972339046,
	"loss": 0.8143,
	"step": 1770
	},
	{
	"epoch": 0.5108336920648586,
	"grad_norm": 5.026962757110596,
	"learning_rate": 0.00010009196698509173,
	"loss": 0.7765,
	"step": 1780
	},
	{
	"epoch": 0.5137035442674702,
	"grad_norm": 8.285078048706055,
	"learning_rate": 9.91723064683458e-05,
	"loss": 0.8053,
	"step": 1790
	},
	{
	"epoch": 0.5165733964700818,
	"grad_norm": 4.77803897857666,
	"learning_rate": 9.825271595683548e-05,
	"loss": 0.8072,
	"step": 1800
	},
	{
	"epoch": 0.5194432486726933,
	"grad_norm": 4.466314315795898,
	"learning_rate": 9.73332732283226e-05,
	"loss": 0.7936,
	"step": 1810
	},
	{
	"epoch": 0.5223131008753049,
	"grad_norm": 6.21898078918457,
	"learning_rate": 9.641405604806983e-05,
	"loss": 0.8018,
	"step": 1820
	},
	{
	"epoch": 0.5251829530779165,
	"grad_norm": 3.505802869796753,
	"learning_rate": 9.549514216226311e-05,
	"loss": 0.823,
	"step": 1830
	},
	{
	"epoch": 0.528052805280528,
	"grad_norm": 4.254824161529541,
	"learning_rate": 9.45766092914363e-05,
	"loss": 0.824,
	"step": 1840
	},
	{
	"epoch": 0.5309226574831396,
	"grad_norm": 10.659527778625488,
	"learning_rate": 9.365853512389735e-05,
	"loss": 0.8169,
	"step": 1850
	},
	{
	"epoch": 0.5337925096857512,
	"grad_norm": 5.28292989730835,
	"learning_rate": 9.274099730915778e-05,
	"loss": 0.8076,
	"step": 1860
	},
	{
	"epoch": 0.5366623618883628,
	"grad_norm": 5.907596588134766,
	"learning_rate": 9.182407345136506e-05,
	"loss": 0.7863,
	"step": 1870
	},
	{
	"epoch": 0.5395322140909743,
	"grad_norm": 4.142882347106934,
	"learning_rate": 9.090784110273896e-05,
	"loss": 0.8133,
	"step": 1880
	},
	{
	"epoch": 0.5424020662935859,
	"grad_norm": 4.616401195526123,
	"learning_rate": 8.99923777570124e-05,
	"loss": 0.7853,
	"step": 1890
	},
	{
	"epoch": 0.5452719184961975,
	"grad_norm": 7.957604885101318,
	"learning_rate": 8.907776084287693e-05,
	"loss": 0.8275,
	"step": 1900
	},
	{
	"epoch": 0.548141770698809,
	"grad_norm": 3.326878070831299,
	"learning_rate": 8.816406771743412e-05,
	"loss": 0.7724,
	"step": 1910
	},
	{
	"epoch": 0.5510116229014206,
	"grad_norm": 4.447857856750488,
	"learning_rate": 8.725137565965262e-05,
	"loss": 0.8049,
	"step": 1920
	},
	{
	"epoch": 0.5538814751040322,
	"grad_norm": 5.452672004699707,
	"learning_rate": 8.633976186383217e-05,
	"loss": 0.8034,
	"step": 1930
	},
	{
	"epoch": 0.5567513273066437,
	"grad_norm": 5.054596900939941,
	"learning_rate": 8.542930343307444e-05,
	"loss": 0.7745,
	"step": 1940
	},
	{
	"epoch": 0.5596211795092553,
	"grad_norm": 25.82883071899414,
	"learning_rate": 8.452007737276191e-05,
	"loss": 0.7756,
	"step": 1950
	},
	{
	"epoch": 0.5624910317118669,
	"grad_norm": 4.046459197998047,
	"learning_rate": 8.361216058404468e-05,
	"loss": 0.7597,
	"step": 1960
	},
	{
	"epoch": 0.5653608839144784,
	"grad_norm": 18.29205894470215,
	"learning_rate": 8.270562985733652e-05,
	"loss": 0.7863,
	"step": 1970
	},
	{
	"epoch": 0.56823073611709,
	"grad_norm": 7.219738006591797,
	"learning_rate": 8.180056186581976e-05,
	"loss": 0.7651,
	"step": 1980
	},
	{
	"epoch": 0.5711005883197016,
	"grad_norm": 4.146981716156006,
	"learning_rate": 8.089703315896058e-05,
	"loss": 0.7578,
	"step": 1990
	},
	{
	"epoch": 0.573970440522313,
	"grad_norm": 4.7924675941467285,
	"learning_rate": 7.999512015603438e-05,
	"loss": 0.7974,
	"step": 2000
	},
	{
	"epoch": 0.5768402927249247,
	"grad_norm": 5.102847576141357,
	"learning_rate": 7.909489913966261e-05,
	"loss": 0.805,
	"step": 2010
	},
	{
	"epoch": 0.5797101449275363,
	"grad_norm": 5.353450298309326,
	"learning_rate": 7.819644624936051e-05,
	"loss": 0.7895,
	"step": 2020
	},
	{
	"epoch": 0.5825799971301477,
	"grad_norm": 5.74714469909668,
	"learning_rate": 7.72998374750977e-05,
	"loss": 0.8029,
	"step": 2030
	},
	{
	"epoch": 0.5854498493327593,
	"grad_norm": 4.67111873626709,
	"learning_rate": 7.640514865087077e-05,
	"loss": 0.7763,
	"step": 2040
	},
	{
	"epoch": 0.5883197015353709,
	"grad_norm": 4.226963996887207,
	"learning_rate": 7.551245544828944e-05,
	"loss": 0.7935,
	"step": 2050
	},
	{
	"epoch": 0.5911895537379825,
	"grad_norm": 6.067037105560303,
	"learning_rate": 7.46218333701765e-05,
	"loss": 0.7835,
	"step": 2060
	},
	{
	"epoch": 0.594059405940594,
	"grad_norm": 6.7161736488342285,
	"learning_rate": 7.373335774418158e-05,
	"loss": 0.7793,
	"step": 2070
	},
	{
	"epoch": 0.5969292581432056,
	"grad_norm": 4.633667945861816,
	"learning_rate": 7.28471037164103e-05,
	"loss": 0.793,
	"step": 2080
	},
	{
	"epoch": 0.5997991103458172,
	"grad_norm": 5.508072376251221,
	"learning_rate": 7.196314624506834e-05,
	"loss": 0.7589,
	"step": 2090
	},
	{
	"epoch": 0.6026689625484287,
	"grad_norm": 4.465757369995117,
	"learning_rate": 7.108156009412176e-05,
	"loss": 0.7569,
	"step": 2100
	},
	{
	"epoch": 0.6055388147510403,
	"grad_norm": 3.5824501514434814,
	"learning_rate": 7.02024198269733e-05,
	"loss": 0.7963,
	"step": 2110
	},
	{
	"epoch": 0.6084086669536519,
	"grad_norm": 8.07539176940918,
	"learning_rate": 6.932579980015618e-05,
	"loss": 0.8183,
	"step": 2120
	},
	{
	"epoch": 0.6112785191562634,
	"grad_norm": 5.9698615074157715,
	"learning_rate": 6.845177415704484e-05,
	"loss": 0.749,
	"step": 2130
	},
	{
	"epoch": 0.614148371358875,
	"grad_norm": 4.034762859344482,
	"learning_rate": 6.758041682158431e-05,
	"loss": 0.7853,
	"step": 2140
	},
	{
	"epoch": 0.6170182235614866,
	"grad_norm": 8.13531494140625,
	"learning_rate": 6.671180149203751e-05,
	"loss": 0.7871,
	"step": 2150
	},
	{
	"epoch": 0.6198880757640981,
	"grad_norm": 5.809640884399414,
	"learning_rate": 6.584600163475222e-05,
	"loss": 0.8037,
	"step": 2160
	},
	{
	"epoch": 0.6227579279667097,
	"grad_norm": 5.849427223205566,
	"learning_rate": 6.498309047794713e-05,
	"loss": 0.8076,
	"step": 2170
	},
	{
	"epoch": 0.6256277801693213,
	"grad_norm": 4.466967582702637,
	"learning_rate": 6.412314100551854e-05,
	"loss": 0.7863,
	"step": 2180
	},
	{
	"epoch": 0.6284976323719328,
	"grad_norm": 4.934723377227783,
	"learning_rate": 6.326622595086722e-05,
	"loss": 0.7747,
	"step": 2190
	},
	{
	"epoch": 0.6313674845745444,
	"grad_norm": 4.067635536193848,
	"learning_rate": 6.241241779074705e-05,
	"loss": 0.7804,
	"step": 2200
	},
	{
	"epoch": 0.634237336777156,
	"grad_norm": 4.629720687866211,
	"learning_rate": 6.156178873913468e-05,
	"loss": 0.7672,
	"step": 2210
	},
	{
	"epoch": 0.6371071889797676,
	"grad_norm": 3.9992971420288086,
	"learning_rate": 6.071441074112194e-05,
	"loss": 0.7856,
	"step": 2220
	},
	{
	"epoch": 0.6399770411823791,
	"grad_norm": 6.1507062911987305,
	"learning_rate": 5.9870355466830885e-05,
	"loss": 0.752,
	"step": 2230
	},
	{
	"epoch": 0.6428468933849907,
	"grad_norm": 4.305118083953857,
	"learning_rate": 5.902969430535186e-05,
	"loss": 0.7506,
	"step": 2240
	},
	{
	"epoch": 0.6457167455876023,
	"grad_norm": 3.7307469844818115,
	"learning_rate": 5.819249835870566e-05,
	"loss": 0.7744,
	"step": 2250
	},
	{
	"epoch": 0.6485865977902138,
	"grad_norm": 5.391602516174316,
	"learning_rate": 5.7358838435829664e-05,
	"loss": 0.8067,
	"step": 2260
	},
	{
	"epoch": 0.6514564499928254,
	"grad_norm": 4.221368789672852,
	"learning_rate": 5.6528785046589115e-05,
	"loss": 0.8257,
	"step": 2270
	},
	{
	"epoch": 0.654326302195437,
	"grad_norm": 5.274345397949219,
	"learning_rate": 5.570240839581323e-05,
	"loss": 0.7638,
	"step": 2280
	},
	{
	"epoch": 0.6571961543980485,
	"grad_norm": 4.528804779052734,
	"learning_rate": 5.487977837735756e-05,
	"loss": 0.7805,
	"step": 2290
	},
	{
	"epoch": 0.6600660066006601,
	"grad_norm": 4.387100696563721,
	"learning_rate": 5.406096456819234e-05,
	"loss": 0.7811,
	"step": 2300
	},
	{
	"epoch": 0.6629358588032717,
	"grad_norm": 5.64663028717041,
	"learning_rate": 5.324603622251797e-05,
	"loss": 0.771,
	"step": 2310
	},
	{
	"epoch": 0.6658057110058831,
	"grad_norm": 4.328652381896973,
	"learning_rate": 5.243506226590722e-05,
	"loss": 0.7711,
	"step": 2320
	},
	{
	"epoch": 0.6686755632084947,
	"grad_norm": 4.763848781585693,
	"learning_rate": 5.162811128947602e-05,
	"loss": 0.7849,
	"step": 2330
	},
	{
	"epoch": 0.6715454154111064,
	"grad_norm": 6.142160892486572,
	"learning_rate": 5.082525154408173e-05,
	"loss": 0.7587,
	"step": 2340
	},
	{
	"epoch": 0.6744152676137178,
	"grad_norm": 6.3459553718566895,
	"learning_rate": 5.002655093455086e-05,
	"loss": 0.7762,
	"step": 2350
	},
	{
	"epoch": 0.6772851198163294,
	"grad_norm": 5.520603656768799,
	"learning_rate": 4.9232077013935606e-05,
	"loss": 0.7854,
	"step": 2360
	},
	{
	"epoch": 0.680154972018941,
	"grad_norm": 3.9489786624908447,
	"learning_rate": 4.844189697780033e-05,
	"loss": 0.7599,
	"step": 2370
	},
	{
	"epoch": 0.6830248242215526,
	"grad_norm": 5.653624057769775,
	"learning_rate": 4.765607765853828e-05,
	"loss": 0.7875,
	"step": 2380
	},
	{
	"epoch": 0.6858946764241641,
	"grad_norm": 4.3883957862854,
	"learning_rate": 4.6874685519718945e-05,
	"loss": 0.7825,
	"step": 2390
	},
	{
	"epoch": 0.6887645286267757,
	"grad_norm": 3.743744134902954,
	"learning_rate": 4.60977866504668e-05,
	"loss": 0.7796,
	"step": 2400
	},
	{
	"epoch": 0.6916343808293873,
	"grad_norm": 5.168239593505859,
	"learning_rate": 4.5325446759871316e-05,
	"loss": 0.7764,
	"step": 2410
	},
	{
	"epoch": 0.6945042330319988,
	"grad_norm": 3.202075958251953,
	"learning_rate": 4.455773117142965e-05,
	"loss": 0.7483,
	"step": 2420
	},
	{
	"epoch": 0.6973740852346104,
	"grad_norm": 4.126010417938232,
	"learning_rate": 4.379470481752139e-05,
	"loss": 0.7702,
	"step": 2430
	},
	{
	"epoch": 0.700243937437222,
	"grad_norm": 5.2914509773254395,
	"learning_rate": 4.303643223391698e-05,
	"loss": 0.7663,
	"step": 2440
	},
	{
	"epoch": 0.7031137896398335,
	"grad_norm": 5.010975360870361,
	"learning_rate": 4.2282977554319034e-05,
	"loss": 0.7911,
	"step": 2450
	},
	{
	"epoch": 0.7059836418424451,
	"grad_norm": 3.504735231399536,
	"learning_rate": 4.153440450493823e-05,
	"loss": 0.7452,
	"step": 2460
	},
	{
	"epoch": 0.7088534940450567,
	"grad_norm": 5.5859880447387695,
	"learning_rate": 4.0790776399103294e-05,
	"loss": 0.758,
	"step": 2470
	},
	{
	"epoch": 0.7117233462476682,
	"grad_norm": 6.027501583099365,
	"learning_rate": 4.0052156131906214e-05,
	"loss": 0.7945,
	"step": 2480
	},
	{
	"epoch": 0.7145931984502798,
	"grad_norm": 5.546058654785156,
	"learning_rate": 3.93186061748824e-05,
	"loss": 0.7676,
	"step": 2490
	},
	{
	"epoch": 0.7174630506528914,
	"grad_norm": 4.879994869232178,
	"learning_rate": 3.859018857072719e-05,
	"loss": 0.7926,
	"step": 2500
	},
	{
	"epoch": 0.7203329028555029,
	"grad_norm": 4.717655181884766,
	"learning_rate": 3.786696492804812e-05,
	"loss": 0.7451,
	"step": 2510
	},
	{
	"epoch": 0.7232027550581145,
	"grad_norm": 6.432432174682617,
	"learning_rate": 3.714899641615438e-05,
	"loss": 0.7938,
	"step": 2520
	},
	{
	"epoch": 0.7260726072607261,
	"grad_norm": 5.008986473083496,
	"learning_rate": 3.6436343759882926e-05,
	"loss": 0.765,
	"step": 2530
	},
	{
	"epoch": 0.7289424594633377,
	"grad_norm": 7.00074577331543,
	"learning_rate": 3.5729067234462785e-05,
	"loss": 0.7794,
	"step": 2540
	},
	{
	"epoch": 0.7318123116659492,
	"grad_norm": 6.525863170623779,
	"learning_rate": 3.5027226660416736e-05,
	"loss": 0.7979,
	"step": 2550
	},
	{
	"epoch": 0.7346821638685608,
	"grad_norm": 5.4863786697387695,
	"learning_rate": 3.433088139850193e-05,
	"loss": 0.7625,
	"step": 2560
	},
	{
	"epoch": 0.7375520160711724,
	"grad_norm": 3.975086212158203,
	"learning_rate": 3.364009034468926e-05,
	"loss": 0.7471,
	"step": 2570
	},
	{
	"epoch": 0.7404218682737839,
	"grad_norm": 3.787874460220337,
	"learning_rate": 3.2954911925181876e-05,
	"loss": 0.7662,
	"step": 2580
	},
	{
	"epoch": 0.7432917204763955,
	"grad_norm": 4.633001804351807,
	"learning_rate": 3.2275404091473795e-05,
	"loss": 0.774,
	"step": 2590
	},
	{
	"epoch": 0.7461615726790071,
	"grad_norm": 4.832580089569092,
	"learning_rate": 3.1601624315448166e-05,
	"loss": 0.7749,
	"step": 2600
	},
	{
	"epoch": 0.7490314248816186,
	"grad_norm": 4.763906955718994,
	"learning_rate": 3.0933629584516665e-05,
	"loss": 0.7438,
	"step": 2610
	},
	{
	"epoch": 0.7519012770842302,
	"grad_norm": 4.065663814544678,
	"learning_rate": 3.027147639679928e-05,
	"loss": 0.7546,
	"step": 2620
	},
	{
	"epoch": 0.7547711292868418,
	"grad_norm": 4.496669769287109,
	"learning_rate": 2.961522075634604e-05,
	"loss": 0.7878,
	"step": 2630
	},
	{
	"epoch": 0.7576409814894532,
	"grad_norm": 3.8822827339172363,
	"learning_rate": 2.896491816840008e-05,
	"loss": 0.7884,
	"step": 2640
	},
	{
	"epoch": 0.7605108336920648,
	"grad_norm": 4.25615119934082,
	"learning_rate": 2.8320623634703147e-05,
	"loss": 0.7418,
	"step": 2650
	},
	{
	"epoch": 0.7633806858946764,
	"grad_norm": 4.472879886627197,
	"learning_rate": 2.76823916488436e-05,
	"loss": 0.7944,
	"step": 2660
	},
	{
	"epoch": 0.7662505380972879,
	"grad_norm": 6.644125938415527,
	"learning_rate": 2.705027619164754e-05,
	"loss": 0.7525,
	"step": 2670
	},
	{
	"epoch": 0.7691203902998995,
	"grad_norm": 3.8960325717926025,
	"learning_rate": 2.6424330726612946e-05,
	"loss": 0.748,
	"step": 2680
	},
	{
	"epoch": 0.7719902425025111,
	"grad_norm": 3.907740354537964,
	"learning_rate": 2.5804608195388057e-05,
	"loss": 0.7686,
	"step": 2690
	},
	{
	"epoch": 0.7748600947051227,
	"grad_norm": 4.432440757751465,
	"learning_rate": 2.5191161013293396e-05,
	"loss": 0.7671,
	"step": 2700
	},
	{
	"epoch": 0.7777299469077342,
	"grad_norm": 4.681542873382568,
	"learning_rate": 2.4584041064888798e-05,
	"loss": 0.765,
	"step": 2710
	},
	{
	"epoch": 0.7805997991103458,
	"grad_norm": 4.8185343742370605,
	"learning_rate": 2.398329969958486e-05,
	"loss": 0.772,
	"step": 2720
	},
	{
	"epoch": 0.7834696513129574,
	"grad_norm": 4.85504150390625,
	"learning_rate": 2.3388987727299982e-05,
	"loss": 0.7655,
	"step": 2730
	},
	{
	"epoch": 0.7863395035155689,
	"grad_norm": 4.443562030792236,
	"learning_rate": 2.2801155414162934e-05,
	"loss": 0.7885,
	"step": 2740
	},
	{
	"epoch": 0.7892093557181805,
	"grad_norm": 4.084039211273193,
	"learning_rate": 2.221985247826138e-05,
	"loss": 0.7679,
	"step": 2750
	},
	{
	"epoch": 0.7920792079207921,
	"grad_norm": 5.327516555786133,
	"learning_rate": 2.164512808543686e-05,
	"loss": 0.7704,
	"step": 2760
	},
	{
	"epoch": 0.7949490601234036,
	"grad_norm": 5.7689313888549805,
	"learning_rate": 2.1077030845126256e-05,
	"loss": 0.7572,
	"step": 2770
	},
	{
	"epoch": 0.7978189123260152,
	"grad_norm": 5.112376689910889,
	"learning_rate": 2.0515608806250665e-05,
	"loss": 0.7633,
	"step": 2780
	},
	{
	"epoch": 0.8006887645286268,
	"grad_norm": 4.748579502105713,
	"learning_rate": 1.996090945315128e-05,
	"loss": 0.7757,
	"step": 2790
	},
	{
	"epoch": 0.8035586167312383,
	"grad_norm": 4.38164758682251,
	"learning_rate": 1.941297970157344e-05,
	"loss": 0.7517,
	"step": 2800
	},
	{
	"epoch": 0.8064284689338499,
	"grad_norm": 4.2106523513793945,
	"learning_rate": 1.8871865894698336e-05,
	"loss": 0.7783,
	"step": 2810
	},
	{
	"epoch": 0.8092983211364615,
	"grad_norm": 6.83260440826416,
	"learning_rate": 1.8337613799223586e-05,
	"loss": 0.758,
	"step": 2820
	},
	{
	"epoch": 0.812168173339073,
	"grad_norm": 4.018373012542725,
	"learning_rate": 1.7810268601492164e-05,
	"loss": 0.7464,
	"step": 2830
	},
	{
	"epoch": 0.8150380255416846,
	"grad_norm": 5.183018207550049,
	"learning_rate": 1.7289874903670677e-05,
	"loss": 0.75,
	"step": 2840
	},
	{
	"epoch": 0.8179078777442962,
	"grad_norm": 3.9134421348571777,
	"learning_rate": 1.6776476719976974e-05,
	"loss": 0.7991,
	"step": 2850
	},
	{
	"epoch": 0.8207777299469078,
	"grad_norm": 5.056222915649414,
	"learning_rate": 1.6270117472957534e-05,
	"loss": 0.7419,
	"step": 2860
	},
	{
	"epoch": 0.8236475821495193,
	"grad_norm": 4.9499311447143555,
	"learning_rate": 1.5770839989814677e-05,
	"loss": 0.7927,
	"step": 2870
	},
	{
	"epoch": 0.8265174343521309,
	"grad_norm": 4.165496826171875,
	"learning_rate": 1.527868649878451e-05,
	"loss": 0.7502,
	"step": 2880
	},
	{
	"epoch": 0.8293872865547425,
	"grad_norm": 5.458337306976318,
	"learning_rate": 1.4793698625565122e-05,
	"loss": 0.7699,
	"step": 2890
	},
	{
	"epoch": 0.832257138757354,
	"grad_norm": 4.831928253173828,
	"learning_rate": 1.4315917389796119e-05,
	"loss": 0.7577,
	"step": 2900
	},
	{
	"epoch": 0.8351269909599656,
	"grad_norm": 5.4457221031188965,
	"learning_rate": 1.3845383201589057e-05,
	"loss": 0.76,
	"step": 2910
	},
	{
	"epoch": 0.8379968431625772,
	"grad_norm": 4.1194586753845215,
	"learning_rate": 1.3382135858109735e-05,
	"loss": 0.7865,
	"step": 2920
	},
	{
	"epoch": 0.8408666953651887,
	"grad_norm": 4.45517110824585,
	"learning_rate": 1.2926214540212155e-05,
	"loss": 0.7414,
	"step": 2930
	},
	{
	"epoch": 0.8437365475678003,
	"grad_norm": 4.03952169418335,
	"learning_rate": 1.2477657809124631e-05,
	"loss": 0.78,
	"step": 2940
	},
	{
	"epoch": 0.8466063997704119,
	"grad_norm": 4.787744998931885,
	"learning_rate": 1.2036503603188464e-05,
	"loss": 0.7862,
	"step": 2950
	},
	{
	"epoch": 0.8494762519730233,
	"grad_norm": 6.612007141113281,
	"learning_rate": 1.1602789234648948e-05,
	"loss": 0.7356,
	"step": 2960
	},
	{
	"epoch": 0.8523461041756349,
	"grad_norm": 4.051847457885742,
	"learning_rate": 1.1176551386499757e-05,
	"loss": 0.7261,
	"step": 2970
	},
	{
	"epoch": 0.8552159563782465,
	"grad_norm": 6.460504055023193,
	"learning_rate": 1.0757826109380165e-05,
	"loss": 0.7701,
	"step": 2980
	},
	{
	"epoch": 0.858085808580858,
	"grad_norm": 7.030419826507568,
	"learning_rate": 1.034664881852614e-05,
	"loss": 0.7938,
	"step": 2990
	},
	{
	"epoch": 0.8609556607834696,
	"grad_norm": 6.365281581878662,
	"learning_rate": 9.943054290774756e-06,
	"loss": 0.7574,
	"step": 3000
	},
	{
	"epoch": 0.8638255129860812,
	"grad_norm": 5.900289535522461,
	"learning_rate": 9.547076661622922e-06,
	"loss": 0.7758,
	"step": 3010
	},
	{
	"epoch": 0.8666953651886928,
	"grad_norm": 5.241759777069092,
	"learning_rate": 9.15874942234024e-06,
	"loss": 0.7805,
	"step": 3020
	},
	{
	"epoch": 0.8695652173913043,
	"grad_norm": 4.609664440155029,
	"learning_rate": 8.778105417136395e-06,
	"loss": 0.7642,
	"step": 3030
	},
	{
	"epoch": 0.8724350695939159,
	"grad_norm": 6.470444202423096,
	"learning_rate": 8.405176840383122e-06,
	"loss": 0.7928,
	"step": 3040
	},
	{
	"epoch": 0.8753049217965275,
	"grad_norm": 3.531794786453247,
	"learning_rate": 8.039995233891362e-06,
	"loss": 0.7503,
	"step": 3050
	},
	{
	"epoch": 0.878174773999139,
	"grad_norm": 5.537559986114502,
	"learning_rate": 7.682591484243417e-06,
	"loss": 0.7343,
	"step": 3060
	},
	{
	"epoch": 0.8810446262017506,
	"grad_norm": 3.7967238426208496,
	"learning_rate": 7.332995820180677e-06,
	"loss": 0.7345,
	"step": 3070
	},
	{
	"epoch": 0.8839144784043622,
	"grad_norm": 4.1268839836120605,
	"learning_rate": 6.991237810046847e-06,
	"loss": 0.7557,
	"step": 3080
	},
	{
	"epoch": 0.8867843306069737,
	"grad_norm": 7.182312965393066,
	"learning_rate": 6.6573463592871085e-06,
	"loss": 0.7635,
	"step": 3090
	},
	{
	"epoch": 0.8896541828095853,
	"grad_norm": 3.4768388271331787,
	"learning_rate": 6.331349708003365e-06,
	"loss": 0.7325,
	"step": 3100
	},
	{
	"epoch": 0.8925240350121969,
	"grad_norm": 5.252262115478516,
	"learning_rate": 6.013275428565712e-06,
	"loss": 0.7513,
	"step": 3110
	},
	{
	"epoch": 0.8953938872148084,
	"grad_norm": 4.213047027587891,
	"learning_rate": 5.703150423280401e-06,
	"loss": 0.7685,
	"step": 3120
	},
	{
	"epoch": 0.89826373941742,
	"grad_norm": 4.207084655761719,
	"learning_rate": 5.401000922114485e-06,
	"loss": 0.7313,
	"step": 3130
	},
	{
	"epoch": 0.9011335916200316,
	"grad_norm": 6.862100124359131,
	"learning_rate": 5.10685248047732e-06,
	"loss": 0.7626,
	"step": 3140
	},
	{
	"epoch": 0.9040034438226431,
	"grad_norm": 3.541048049926758,
	"learning_rate": 4.82072997705908e-06,
	"loss": 0.7748,
	"step": 3150
	},
	{
	"epoch": 0.9068732960252547,
	"grad_norm": 4.149963855743408,
	"learning_rate": 4.542657611726664e-06,
	"loss": 0.7651,
	"step": 3160
	},
	{
	"epoch": 0.9097431482278663,
	"grad_norm": 6.455443859100342,
	"learning_rate": 4.272658903476745e-06,
	"loss": 0.7769,
	"step": 3170
	},
	{
	"epoch": 0.9126130004304779,
	"grad_norm": 5.111416339874268,
	"learning_rate": 4.010756688446726e-06,
	"loss": 0.779,
	"step": 3180
	},
	{
	"epoch": 0.9154828526330894,
	"grad_norm": 5.0384440422058105,
	"learning_rate": 3.7569731179831537e-06,
	"loss": 0.7353,
	"step": 3190
	},
	{
	"epoch": 0.918352704835701,
	"grad_norm": 4.619420528411865,
	"learning_rate": 3.5113296567682476e-06,
	"loss": 0.7686,
	"step": 3200
	},
	{
	"epoch": 0.9212225570383126,
	"grad_norm": 5.13969612121582,
	"learning_rate": 3.2738470810044553e-06,
	"loss": 0.7475,
	"step": 3210
	},
	{
	"epoch": 0.9240924092409241,
	"grad_norm": 4.138948917388916,
	"learning_rate": 3.0445454766572235e-06,
	"loss": 0.743,
	"step": 3220
	},
	{
	"epoch": 0.9269622614435357,
	"grad_norm": 3.4994235038757324,
	"learning_rate": 2.8234442377561232e-06,
	"loss": 0.7491,
	"step": 3230
	},
	{
	"epoch": 0.9298321136461473,
	"grad_norm": 3.714160442352295,
	"learning_rate": 2.6105620647545734e-06,
	"loss": 0.7516,
	"step": 3240
	},
	{
	"epoch": 0.9327019658487588,
	"grad_norm": 3.1646008491516113,
	"learning_rate": 2.4059169629481403e-06,
	"loss": 0.751,
	"step": 3250
	},
	{
	"epoch": 0.9355718180513704,
	"grad_norm": 4.828333377838135,
	"learning_rate": 2.209526240951665e-06,
	"loss": 0.741,
	"step": 3260
	},
	{
	"epoch": 0.938441670253982,
	"grad_norm": 3.3315179347991943,
	"learning_rate": 2.021406509235402e-06,
	"loss": 0.7554,
	"step": 3270
	},
	{
	"epoch": 0.9413115224565934,
	"grad_norm": 6.141576766967773,
	"learning_rate": 1.8415736787200433e-06,
	"loss": 0.7465,
	"step": 3280
	},
	{
	"epoch": 0.944181374659205,
	"grad_norm": 4.839749336242676,
	"learning_rate": 1.6700429594310063e-06,
	"loss": 0.761,
	"step": 3290
	},
	{
	"epoch": 0.9470512268618166,
	"grad_norm": 4.683228969573975,
	"learning_rate": 1.5068288592120283e-06,
	"loss": 0.751,
	"step": 3300
	}
	],
	"logging_steps": 10,
	"max_steps": 3485,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 300,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 1.35032131289088e+20,
	"train_batch_size": 6,
	"trial_name": null,
	"trial_params": null
	}