effientReason-4b-sft-final / trainer_state.json

Upload folder using huggingface_hub

1f32bea verified 29 days ago

47 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 6.0,
	"eval_steps": 50,
	"global_step": 246,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.02476780185758514,
	"grad_norm": 0.5827791094779968,
	"learning_rate": 0.0,
	"loss": 0.5993257761001587,
	"step": 1
	},
	{
	"epoch": 0.04953560371517028,
	"grad_norm": 0.5781313180923462,
	"learning_rate": 2.5e-07,
	"loss": 0.5510573387145996,
	"step": 2
	},
	{
	"epoch": 0.07430340557275542,
	"grad_norm": 0.5830345153808594,
	"learning_rate": 5e-07,
	"loss": 0.500480055809021,
	"step": 3
	},
	{
	"epoch": 0.09907120743034056,
	"grad_norm": 0.5189770460128784,
	"learning_rate": 7.5e-07,
	"loss": 0.5299410820007324,
	"step": 4
	},
	{
	"epoch": 0.1238390092879257,
	"grad_norm": 0.520061194896698,
	"learning_rate": 1e-06,
	"loss": 0.5539457201957703,
	"step": 5
	},
	{
	"epoch": 0.14860681114551083,
	"grad_norm": 0.5419376492500305,
	"learning_rate": 1.2499999999999999e-06,
	"loss": 0.5408970713615417,
	"step": 6
	},
	{
	"epoch": 0.17337461300309598,
	"grad_norm": 0.5576385855674744,
	"learning_rate": 1.5e-06,
	"loss": 0.5969724655151367,
	"step": 7
	},
	{
	"epoch": 0.19814241486068113,
	"grad_norm": 0.5351932048797607,
	"learning_rate": 1.75e-06,
	"loss": 0.5394197106361389,
	"step": 8
	},
	{
	"epoch": 0.22291021671826625,
	"grad_norm": 0.4773852527141571,
	"learning_rate": 2e-06,
	"loss": 0.5735222101211548,
	"step": 9
	},
	{
	"epoch": 0.2476780185758514,
	"grad_norm": 0.5032294392585754,
	"learning_rate": 1.9999128816724105e-06,
	"loss": 0.5828520059585571,
	"step": 10
	},
	{
	"epoch": 0.2724458204334365,
	"grad_norm": 0.49014607071876526,
	"learning_rate": 1.9996515418688487e-06,
	"loss": 0.5568044781684875,
	"step": 11
	},
	{
	"epoch": 0.29721362229102166,
	"grad_norm": 0.5634818077087402,
	"learning_rate": 1.9992160261242874e-06,
	"loss": 0.5982780456542969,
	"step": 12
	},
	{
	"epoch": 0.3219814241486068,
	"grad_norm": 0.4928373396396637,
	"learning_rate": 1.9986064103215337e-06,
	"loss": 0.563035249710083,
	"step": 13
	},
	{
	"epoch": 0.34674922600619196,
	"grad_norm": 0.5265209674835205,
	"learning_rate": 1.9978228006780053e-06,
	"loss": 0.588450014591217,
	"step": 14
	},
	{
	"epoch": 0.3715170278637771,
	"grad_norm": 0.4966702461242676,
	"learning_rate": 1.996865333727226e-06,
	"loss": 0.5518300533294678,
	"step": 15
	},
	{
	"epoch": 0.39628482972136225,
	"grad_norm": 0.5559803247451782,
	"learning_rate": 1.9957341762950344e-06,
	"loss": 0.5778566002845764,
	"step": 16
	},
	{
	"epoch": 0.42105263157894735,
	"grad_norm": 0.5569736957550049,
	"learning_rate": 1.9944295254705185e-06,
	"loss": 0.556509256362915,
	"step": 17
	},
	{
	"epoch": 0.4458204334365325,
	"grad_norm": 0.5971181988716125,
	"learning_rate": 1.992951608571673e-06,
	"loss": 0.5314251780509949,
	"step": 18
	},
	{
	"epoch": 0.47058823529411764,
	"grad_norm": 0.529690146446228,
	"learning_rate": 1.9913006831057965e-06,
	"loss": 0.5227062702178955,
	"step": 19
	},
	{
	"epoch": 0.4953560371517028,
	"grad_norm": 0.6401184797286987,
	"learning_rate": 1.989477036724619e-06,
	"loss": 0.5782433152198792,
	"step": 20
	},
	{
	"epoch": 0.5201238390092879,
	"grad_norm": 0.539941132068634,
	"learning_rate": 1.9874809871741874e-06,
	"loss": 0.5736757516860962,
	"step": 21
	},
	{
	"epoch": 0.544891640866873,
	"grad_norm": 0.5726771950721741,
	"learning_rate": 1.9853128822394975e-06,
	"loss": 0.5858570337295532,
	"step": 22
	},
	{
	"epoch": 0.5696594427244582,
	"grad_norm": 0.55902498960495,
	"learning_rate": 1.982973099683902e-06,
	"loss": 0.5574871301651001,
	"step": 23
	},
	{
	"epoch": 0.5944272445820433,
	"grad_norm": 0.527619481086731,
	"learning_rate": 1.9804620471832865e-06,
	"loss": 0.5171317458152771,
	"step": 24
	},
	{
	"epoch": 0.6191950464396285,
	"grad_norm": 0.5026052594184875,
	"learning_rate": 1.9777801622550405e-06,
	"loss": 0.5416678190231323,
	"step": 25
	},
	{
	"epoch": 0.6439628482972136,
	"grad_norm": 0.47064998745918274,
	"learning_rate": 1.9749279121818236e-06,
	"loss": 0.5682564973831177,
	"step": 26
	},
	{
	"epoch": 0.6687306501547987,
	"grad_norm": 0.5842341184616089,
	"learning_rate": 1.9719057939301475e-06,
	"loss": 0.5644649267196655,
	"step": 27
	},
	{
	"epoch": 0.6934984520123839,
	"grad_norm": 0.49904075264930725,
	"learning_rate": 1.9687143340637884e-06,
	"loss": 0.5811545252799988,
	"step": 28
	},
	{
	"epoch": 0.718266253869969,
	"grad_norm": 1.2309396266937256,
	"learning_rate": 1.9653540886520385e-06,
	"loss": 0.605437695980072,
	"step": 29
	},
	{
	"epoch": 0.7430340557275542,
	"grad_norm": 0.5156847834587097,
	"learning_rate": 1.9618256431728192e-06,
	"loss": 0.5422309637069702,
	"step": 30
	},
	{
	"epoch": 0.7678018575851393,
	"grad_norm": 0.6013903617858887,
	"learning_rate": 1.958129612410668e-06,
	"loss": 0.54377281665802,
	"step": 31
	},
	{
	"epoch": 0.7925696594427245,
	"grad_norm": 0.5307015180587769,
	"learning_rate": 1.954266640349623e-06,
	"loss": 0.5074729919433594,
	"step": 32
	},
	{
	"epoch": 0.8173374613003096,
	"grad_norm": 0.5950272679328918,
	"learning_rate": 1.950237400061015e-06,
	"loss": 0.5290631055831909,
	"step": 33
	},
	{
	"epoch": 0.8421052631578947,
	"grad_norm": 0.5664405226707458,
	"learning_rate": 1.9460425935861946e-06,
	"loss": 0.600000262260437,
	"step": 34
	},
	{
	"epoch": 0.8668730650154799,
	"grad_norm": 0.5338588953018188,
	"learning_rate": 1.9416829518142113e-06,
	"loss": 0.5680241584777832,
	"step": 35
	},
	{
	"epoch": 0.891640866873065,
	"grad_norm": 0.5495931506156921,
	"learning_rate": 1.9371592343544655e-06,
	"loss": 0.5304821729660034,
	"step": 36
	},
	{
	"epoch": 0.9164086687306502,
	"grad_norm": 0.47950977087020874,
	"learning_rate": 1.932472229404356e-06,
	"loss": 0.5156245827674866,
	"step": 37
	},
	{
	"epoch": 0.9411764705882353,
	"grad_norm": 0.5299308896064758,
	"learning_rate": 1.9276227536119477e-06,
	"loss": 0.5732549428939819,
	"step": 38
	},
	{
	"epoch": 0.9659442724458205,
	"grad_norm": 0.5737171173095703,
	"learning_rate": 1.9226116519336828e-06,
	"loss": 0.5309604406356812,
	"step": 39
	},
	{
	"epoch": 0.9907120743034056,
	"grad_norm": 0.693321168422699,
	"learning_rate": 1.917439797487156e-06,
	"loss": 0.5797507762908936,
	"step": 40
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.9561907649040222,
	"learning_rate": 1.9121080913989878e-06,
	"loss": 0.5909802913665771,
	"step": 41
	},
	{
	"epoch": 1.0247678018575852,
	"grad_norm": 0.6066501140594482,
	"learning_rate": 1.9066174626478126e-06,
	"loss": 0.6078804135322571,
	"step": 42
	},
	{
	"epoch": 1.0495356037151702,
	"grad_norm": 0.5243707299232483,
	"learning_rate": 1.9009688679024189e-06,
	"loss": 0.5241413116455078,
	"step": 43
	},
	{
	"epoch": 1.0743034055727554,
	"grad_norm": 0.5240072011947632,
	"learning_rate": 1.8951632913550625e-06,
	"loss": 0.5645661950111389,
	"step": 44
	},
	{
	"epoch": 1.0990712074303406,
	"grad_norm": 0.6983147263526917,
	"learning_rate": 1.889201744549981e-06,
	"loss": 0.5029958486557007,
	"step": 45
	},
	{
	"epoch": 1.1238390092879258,
	"grad_norm": 0.6109921932220459,
	"learning_rate": 1.8830852662071505e-06,
	"loss": 0.5748687386512756,
	"step": 46
	},
	{
	"epoch": 1.1486068111455108,
	"grad_norm": 0.5242897868156433,
	"learning_rate": 1.8768149220412987e-06,
	"loss": 0.5576164722442627,
	"step": 47
	},
	{
	"epoch": 1.173374613003096,
	"grad_norm": 0.5376689434051514,
	"learning_rate": 1.8703918045762194e-06,
	"loss": 0.5489684343338013,
	"step": 48
	},
	{
	"epoch": 1.1981424148606812,
	"grad_norm": 0.5369903445243835,
	"learning_rate": 1.863817032954416e-06,
	"loss": 0.5305777192115784,
	"step": 49
	},
	{
	"epoch": 1.2229102167182662,
	"grad_norm": 0.482452392578125,
	"learning_rate": 1.8570917527421045e-06,
	"loss": 0.4907306134700775,
	"step": 50
	},
	{
	"epoch": 1.2229102167182662,
	"eval_accuracy": 0.8213776795920542,
	"eval_loss": 0.5645560622215271,
	"eval_runtime": 16.7311,
	"eval_samples_per_second": 4.064,
	"eval_steps_per_second": 2.032,
	"step": 50
	},
	{
	"epoch": 1.2476780185758514,
	"grad_norm": 0.5009844899177551,
	"learning_rate": 1.8502171357296142e-06,
	"loss": 0.5544570088386536,
	"step": 51
	},
	{
	"epoch": 1.2724458204334366,
	"grad_norm": 0.5807215571403503,
	"learning_rate": 1.8431943797272185e-06,
	"loss": 0.5804014205932617,
	"step": 52
	},
	{
	"epoch": 1.2972136222910216,
	"grad_norm": 0.5564484596252441,
	"learning_rate": 1.836024708356434e-06,
	"loss": 0.5661737322807312,
	"step": 53
	},
	{
	"epoch": 1.3219814241486068,
	"grad_norm": 0.5095818042755127,
	"learning_rate": 1.8287093708368186e-06,
	"loss": 0.5299423336982727,
	"step": 54
	},
	{
	"epoch": 1.346749226006192,
	"grad_norm": 0.5763193368911743,
	"learning_rate": 1.8212496417683135e-06,
	"loss": 0.5352605581283569,
	"step": 55
	},
	{
	"epoch": 1.3715170278637772,
	"grad_norm": 0.5195797681808472,
	"learning_rate": 1.81364682090916e-06,
	"loss": 0.530654788017273,
	"step": 56
	},
	{
	"epoch": 1.3962848297213624,
	"grad_norm": 0.5399932861328125,
	"learning_rate": 1.805902232949435e-06,
	"loss": 0.5673707723617554,
	"step": 57
	},
	{
	"epoch": 1.4210526315789473,
	"grad_norm": 0.5126509666442871,
	"learning_rate": 1.7980172272802397e-06,
	"loss": 0.5673764944076538,
	"step": 58
	},
	{
	"epoch": 1.4458204334365325,
	"grad_norm": 0.5293602347373962,
	"learning_rate": 1.789993177758588e-06,
	"loss": 0.5548557043075562,
	"step": 59
	},
	{
	"epoch": 1.4705882352941178,
	"grad_norm": 0.47508999705314636,
	"learning_rate": 1.7818314824680298e-06,
	"loss": 0.5592916011810303,
	"step": 60
	},
	{
	"epoch": 1.4953560371517027,
	"grad_norm": 0.506854236125946,
	"learning_rate": 1.773533563475053e-06,
	"loss": 0.5494035482406616,
	"step": 61
	},
	{
	"epoch": 1.520123839009288,
	"grad_norm": 0.6375800371170044,
	"learning_rate": 1.7651008665813081e-06,
	"loss": 0.5607191324234009,
	"step": 62
	},
	{
	"epoch": 1.5448916408668731,
	"grad_norm": 0.4859982132911682,
	"learning_rate": 1.7565348610716958e-06,
	"loss": 0.5413356423377991,
	"step": 63
	},
	{
	"epoch": 1.5696594427244581,
	"grad_norm": 0.5644744634628296,
	"learning_rate": 1.7478370394583643e-06,
	"loss": 0.5568721294403076,
	"step": 64
	},
	{
	"epoch": 1.5944272445820433,
	"grad_norm": 0.5623730421066284,
	"learning_rate": 1.739008917220659e-06,
	"loss": 0.5305633544921875,
	"step": 65
	},
	{
	"epoch": 1.6191950464396285,
	"grad_norm": 0.46600863337516785,
	"learning_rate": 1.7300520325410698e-06,
	"loss": 0.519407331943512,
	"step": 66
	},
	{
	"epoch": 1.6439628482972135,
	"grad_norm": 0.5476927161216736,
	"learning_rate": 1.7209679460372249e-06,
	"loss": 0.5438145399093628,
	"step": 67
	},
	{
	"epoch": 1.6687306501547987,
	"grad_norm": 0.5339446663856506,
	"learning_rate": 1.711758240489971e-06,
	"loss": 0.5288221836090088,
	"step": 68
	},
	{
	"epoch": 1.693498452012384,
	"grad_norm": 0.4474664628505707,
	"learning_rate": 1.7024245205675985e-06,
	"loss": 0.5665724277496338,
	"step": 69
	},
	{
	"epoch": 1.718266253869969,
	"grad_norm": 0.5247179865837097,
	"learning_rate": 1.6929684125462468e-06,
	"loss": 0.5420582294464111,
	"step": 70
	},
	{
	"epoch": 1.7430340557275543,
	"grad_norm": 0.6573188304901123,
	"learning_rate": 1.6833915640265483e-06,
	"loss": 0.538118839263916,
	"step": 71
	},
	{
	"epoch": 1.7678018575851393,
	"grad_norm": 0.5430057644844055,
	"learning_rate": 1.6736956436465573e-06,
	"loss": 0.5287379026412964,
	"step": 72
	},
	{
	"epoch": 1.7925696594427245,
	"grad_norm": 1.451054334640503,
	"learning_rate": 1.6638823407910082e-06,
	"loss": 0.5065432190895081,
	"step": 73
	},
	{
	"epoch": 1.8173374613003097,
	"grad_norm": 1.7800654172897339,
	"learning_rate": 1.6539533652969682e-06,
	"loss": 0.5422472357749939,
	"step": 74
	},
	{
	"epoch": 1.8421052631578947,
	"grad_norm": 0.5204485654830933,
	"learning_rate": 1.6439104471559156e-06,
	"loss": 0.4941398501396179,
	"step": 75
	},
	{
	"epoch": 1.86687306501548,
	"grad_norm": 0.4798074960708618,
	"learning_rate": 1.6337553362123161e-06,
	"loss": 0.5543307065963745,
	"step": 76
	},
	{
	"epoch": 1.891640866873065,
	"grad_norm": 0.4639158248901367,
	"learning_rate": 1.6234898018587336e-06,
	"loss": 0.5305337905883789,
	"step": 77
	},
	{
	"epoch": 1.91640866873065,
	"grad_norm": 0.4957791566848755,
	"learning_rate": 1.613115632727537e-06,
	"loss": 0.4810314178466797,
	"step": 78
	},
	{
	"epoch": 1.9411764705882353,
	"grad_norm": 0.542951762676239,
	"learning_rate": 1.6026346363792564e-06,
	"loss": 0.5742234587669373,
	"step": 79
	},
	{
	"epoch": 1.9659442724458205,
	"grad_norm": 0.518661618232727,
	"learning_rate": 1.592048638987638e-06,
	"loss": 0.5540245771408081,
	"step": 80
	},
	{
	"epoch": 1.9907120743034055,
	"grad_norm": 0.48943665623664856,
	"learning_rate": 1.5813594850214597e-06,
	"loss": 0.509993851184845,
	"step": 81
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.8778729438781738,
	"learning_rate": 1.570569036923155e-06,
	"loss": 0.539715051651001,
	"step": 82
	},
	{
	"epoch": 2.024767801857585,
	"grad_norm": 0.4994299113750458,
	"learning_rate": 1.5596791747843082e-06,
	"loss": 0.5089604258537292,
	"step": 83
	},
	{
	"epoch": 2.0495356037151704,
	"grad_norm": 0.5828955173492432,
	"learning_rate": 1.548691796018074e-06,
	"loss": 0.5253075361251831,
	"step": 84
	},
	{
	"epoch": 2.0743034055727554,
	"grad_norm": 0.5461580753326416,
	"learning_rate": 1.5376088150285774e-06,
	"loss": 0.5154924392700195,
	"step": 85
	},
	{
	"epoch": 2.0990712074303404,
	"grad_norm": 0.965928852558136,
	"learning_rate": 1.5264321628773558e-06,
	"loss": 0.5028945803642273,
	"step": 86
	},
	{
	"epoch": 2.123839009287926,
	"grad_norm": 0.45946890115737915,
	"learning_rate": 1.5151637869468958e-06,
	"loss": 0.5220765471458435,
	"step": 87
	},
	{
	"epoch": 2.1486068111455108,
	"grad_norm": 0.4885327219963074,
	"learning_rate": 1.5038056506013295e-06,
	"loss": 0.5020776391029358,
	"step": 88
	},
	{
	"epoch": 2.173374613003096,
	"grad_norm": 0.5246437191963196,
	"learning_rate": 1.492359732844342e-06,
	"loss": 0.46335524320602417,
	"step": 89
	},
	{
	"epoch": 2.198142414860681,
	"grad_norm": 0.5331137180328369,
	"learning_rate": 1.4808280279743591e-06,
	"loss": 0.5037820339202881,
	"step": 90
	},
	{
	"epoch": 2.222910216718266,
	"grad_norm": 0.5505975484848022,
	"learning_rate": 1.4692125452370662e-06,
	"loss": 0.5359715223312378,
	"step": 91
	},
	{
	"epoch": 2.2476780185758516,
	"grad_norm": 0.5390040278434753,
	"learning_rate": 1.4575153084753232e-06,
	"loss": 0.5337521433830261,
	"step": 92
	},
	{
	"epoch": 2.2724458204334366,
	"grad_norm": 0.44791266322135925,
	"learning_rate": 1.4457383557765383e-06,
	"loss": 0.5155265927314758,
	"step": 93
	},
	{
	"epoch": 2.2972136222910216,
	"grad_norm": 0.4978775382041931,
	"learning_rate": 1.433883739117558e-06,
	"loss": 0.4920554757118225,
	"step": 94
	},
	{
	"epoch": 2.321981424148607,
	"grad_norm": 0.5269660353660583,
	"learning_rate": 1.4219535240071376e-06,
	"loss": 0.5533995628356934,
	"step": 95
	},
	{
	"epoch": 2.346749226006192,
	"grad_norm": 0.4875043034553528,
	"learning_rate": 1.4099497891260537e-06,
	"loss": 0.523270845413208,
	"step": 96
	},
	{
	"epoch": 2.371517027863777,
	"grad_norm": 0.5254143476486206,
	"learning_rate": 1.3978746259649208e-06,
	"loss": 0.5255824327468872,
	"step": 97
	},
	{
	"epoch": 2.3962848297213624,
	"grad_norm": 0.5345160365104675,
	"learning_rate": 1.3857301384597794e-06,
	"loss": 0.5329371094703674,
	"step": 98
	},
	{
	"epoch": 2.4210526315789473,
	"grad_norm": 0.46321746706962585,
	"learning_rate": 1.3735184426255114e-06,
	"loss": 0.5548917055130005,
	"step": 99
	},
	{
	"epoch": 2.4458204334365323,
	"grad_norm": 0.5209585428237915,
	"learning_rate": 1.3612416661871531e-06,
	"loss": 0.5931960940361023,
	"step": 100
	},
	{
	"epoch": 2.4458204334365323,
	"eval_accuracy": 0.8215138901886158,
	"eval_loss": 0.562470018863678,
	"eval_runtime": 16.4711,
	"eval_samples_per_second": 4.128,
	"eval_steps_per_second": 2.064,
	"step": 100
	},
	{
	"epoch": 2.4705882352941178,
	"grad_norm": 0.483987033367157,
	"learning_rate": 1.3489019482091667e-06,
	"loss": 0.5425853133201599,
	"step": 101
	},
	{
	"epoch": 2.4953560371517027,
	"grad_norm": 0.44485101103782654,
	"learning_rate": 1.336501438722739e-06,
	"loss": 0.5403157472610474,
	"step": 102
	},
	{
	"epoch": 2.5201238390092877,
	"grad_norm": 0.5460787415504456,
	"learning_rate": 1.324042298351166e-06,
	"loss": 0.5747348666191101,
	"step": 103
	},
	{
	"epoch": 2.544891640866873,
	"grad_norm": 0.45323142409324646,
	"learning_rate": 1.3115266979333914e-06,
	"loss": 0.5297880172729492,
	"step": 104
	},
	{
	"epoch": 2.569659442724458,
	"grad_norm": 0.6902194619178772,
	"learning_rate": 1.2989568181457702e-06,
	"loss": 0.5073508024215698,
	"step": 105
	},
	{
	"epoch": 2.594427244582043,
	"grad_norm": 0.5212258100509644,
	"learning_rate": 1.2863348491221127e-06,
	"loss": 0.5311723351478577,
	"step": 106
	},
	{
	"epoch": 2.6191950464396285,
	"grad_norm": 0.5578774809837341,
	"learning_rate": 1.273662990072083e-06,
	"loss": 0.5304839015007019,
	"step": 107
	},
	{
	"epoch": 2.6439628482972135,
	"grad_norm": 0.504798173904419,
	"learning_rate": 1.2609434488980166e-06,
	"loss": 0.4865831136703491,
	"step": 108
	},
	{
	"epoch": 2.6687306501547985,
	"grad_norm": 0.4682161211967468,
	"learning_rate": 1.2481784418102239e-06,
	"loss": 0.5439316630363464,
	"step": 109
	},
	{
	"epoch": 2.693498452012384,
	"grad_norm": 0.5871185064315796,
	"learning_rate": 1.2353701929408424e-06,
	"loss": 0.477615088224411,
	"step": 110
	},
	{
	"epoch": 2.718266253869969,
	"grad_norm": 0.4735322594642639,
	"learning_rate": 1.2225209339563143e-06,
	"loss": 0.5605683326721191,
	"step": 111
	},
	{
	"epoch": 2.7430340557275543,
	"grad_norm": 0.5656632781028748,
	"learning_rate": 1.2096329036685466e-06,
	"loss": 0.5053581595420837,
	"step": 112
	},
	{
	"epoch": 2.7678018575851393,
	"grad_norm": 0.501797616481781,
	"learning_rate": 1.196708347644828e-06,
	"loss": 0.5080878734588623,
	"step": 113
	},
	{
	"epoch": 2.7925696594427247,
	"grad_norm": 1.2063102722167969,
	"learning_rate": 1.1837495178165704e-06,
	"loss": 0.552485466003418,
	"step": 114
	},
	{
	"epoch": 2.8173374613003097,
	"grad_norm": 0.5052933096885681,
	"learning_rate": 1.1707586720869374e-06,
	"loss": 0.5424617528915405,
	"step": 115
	},
	{
	"epoch": 2.8421052631578947,
	"grad_norm": 0.5184856057167053,
	"learning_rate": 1.1577380739374373e-06,
	"loss": 0.5432671904563904,
	"step": 116
	},
	{
	"epoch": 2.86687306501548,
	"grad_norm": 0.5071874260902405,
	"learning_rate": 1.1446899920335405e-06,
	"loss": 0.5507460832595825,
	"step": 117
	},
	{
	"epoch": 2.891640866873065,
	"grad_norm": 0.519482433795929,
	"learning_rate": 1.1316166998293935e-06,
	"loss": 0.5559477210044861,
	"step": 118
	},
	{
	"epoch": 2.91640866873065,
	"grad_norm": 0.5042552947998047,
	"learning_rate": 1.1185204751717027e-06,
	"loss": 0.5015457272529602,
	"step": 119
	},
	{
	"epoch": 2.9411764705882355,
	"grad_norm": 1.3727635145187378,
	"learning_rate": 1.1054035999028476e-06,
	"loss": 0.5176253318786621,
	"step": 120
	},
	{
	"epoch": 2.9659442724458205,
	"grad_norm": 0.5206997990608215,
	"learning_rate": 1.092268359463302e-06,
	"loss": 0.5474892258644104,
	"step": 121
	},
	{
	"epoch": 2.9907120743034055,
	"grad_norm": 0.472130686044693,
	"learning_rate": 1.0791170424934246e-06,
	"loss": 0.4985366463661194,
	"step": 122
	},
	{
	"epoch": 3.0,
	"grad_norm": 1.058793544769287,
	"learning_rate": 1.0659519404346952e-06,
	"loss": 0.48316121101379395,
	"step": 123
	},
	{
	"epoch": 3.024767801857585,
	"grad_norm": 0.5421841740608215,
	"learning_rate": 1.0527753471304623e-06,
	"loss": 0.5144573450088501,
	"step": 124
	},
	{
	"epoch": 3.0495356037151704,
	"grad_norm": 0.5197970271110535,
	"learning_rate": 1.0395895584262695e-06,
	"loss": 0.5817261934280396,
	"step": 125
	},
	{
	"epoch": 3.0743034055727554,
	"grad_norm": 0.49334728717803955,
	"learning_rate": 1.0263968717698363e-06,
	"loss": 0.5018012523651123,
	"step": 126
	},
	{
	"epoch": 3.0990712074303404,
	"grad_norm": 0.6232290267944336,
	"learning_rate": 1.013199585810759e-06,
	"loss": 0.5584498643875122,
	"step": 127
	},
	{
	"epoch": 3.123839009287926,
	"grad_norm": 0.455437034368515,
	"learning_rate": 1e-06,
	"loss": 0.5036893486976624,
	"step": 128
	},
	{
	"epoch": 3.1486068111455108,
	"grad_norm": 0.48946836590766907,
	"learning_rate": 9.868004141892412e-07,
	"loss": 0.5123312473297119,
	"step": 129
	},
	{
	"epoch": 3.173374613003096,
	"grad_norm": 0.5698655843734741,
	"learning_rate": 9.736031282301638e-07,
	"loss": 0.5401725172996521,
	"step": 130
	},
	{
	"epoch": 3.198142414860681,
	"grad_norm": 0.9283490180969238,
	"learning_rate": 9.604104415737308e-07,
	"loss": 0.48566514253616333,
	"step": 131
	},
	{
	"epoch": 3.222910216718266,
	"grad_norm": 2.0157785415649414,
	"learning_rate": 9.472246528695375e-07,
	"loss": 0.4537651538848877,
	"step": 132
	},
	{
	"epoch": 3.2476780185758516,
	"grad_norm": 0.5449803471565247,
	"learning_rate": 9.340480595653045e-07,
	"loss": 0.5530433654785156,
	"step": 133
	},
	{
	"epoch": 3.2724458204334366,
	"grad_norm": 0.4725954532623291,
	"learning_rate": 9.208829575065753e-07,
	"loss": 0.5256283283233643,
	"step": 134
	},
	{
	"epoch": 3.2972136222910216,
	"grad_norm": 0.4579267203807831,
	"learning_rate": 9.077316405366981e-07,
	"loss": 0.5190701484680176,
	"step": 135
	},
	{
	"epoch": 3.321981424148607,
	"grad_norm": 0.544757604598999,
	"learning_rate": 8.945964000971523e-07,
	"loss": 0.5290215015411377,
	"step": 136
	},
	{
	"epoch": 3.346749226006192,
	"grad_norm": 0.4990670084953308,
	"learning_rate": 8.814795248282973e-07,
	"loss": 0.5203908085823059,
	"step": 137
	},
	{
	"epoch": 3.371517027863777,
	"grad_norm": 0.5583924651145935,
	"learning_rate": 8.683833001706067e-07,
	"loss": 0.499897837638855,
	"step": 138
	},
	{
	"epoch": 3.3962848297213624,
	"grad_norm": 0.47875887155532837,
	"learning_rate": 8.553100079664598e-07,
	"loss": 0.4940932095050812,
	"step": 139
	},
	{
	"epoch": 3.4210526315789473,
	"grad_norm": 0.4689862132072449,
	"learning_rate": 8.422619260625624e-07,
	"loss": 0.488369345664978,
	"step": 140
	},
	{
	"epoch": 3.4458204334365323,
	"grad_norm": 0.5019742846488953,
	"learning_rate": 8.292413279130624e-07,
	"loss": 0.49827271699905396,
	"step": 141
	},
	{
	"epoch": 3.4705882352941178,
	"grad_norm": 0.47474774718284607,
	"learning_rate": 8.162504821834295e-07,
	"loss": 0.5006945133209229,
	"step": 142
	},
	{
	"epoch": 3.4953560371517027,
	"grad_norm": 0.5412342548370361,
	"learning_rate": 8.032916523551719e-07,
	"loss": 0.5021499395370483,
	"step": 143
	},
	{
	"epoch": 3.5201238390092877,
	"grad_norm": 0.46898508071899414,
	"learning_rate": 7.903670963314535e-07,
	"loss": 0.5173486471176147,
	"step": 144
	},
	{
	"epoch": 3.544891640866873,
	"grad_norm": 0.5036367177963257,
	"learning_rate": 7.774790660436857e-07,
	"loss": 0.5127341151237488,
	"step": 145
	},
	{
	"epoch": 3.569659442724458,
	"grad_norm": 0.4592057466506958,
	"learning_rate": 7.646298070591577e-07,
	"loss": 0.5291725397109985,
	"step": 146
	},
	{
	"epoch": 3.594427244582043,
	"grad_norm": 0.579252302646637,
	"learning_rate": 7.518215581897763e-07,
	"loss": 0.5540162324905396,
	"step": 147
	},
	{
	"epoch": 3.6191950464396285,
	"grad_norm": 0.5662134885787964,
	"learning_rate": 7.390565511019833e-07,
	"loss": 0.5307095646858215,
	"step": 148
	},
	{
	"epoch": 3.6439628482972135,
	"grad_norm": 0.5780702233314514,
	"learning_rate": 7.263370099279171e-07,
	"loss": 0.48574694991111755,
	"step": 149
	},
	{
	"epoch": 3.6687306501547985,
	"grad_norm": 0.5063837766647339,
	"learning_rate": 7.136651508778874e-07,
	"loss": 0.5621860027313232,
	"step": 150
	},
	{
	"epoch": 3.6687306501547985,
	"eval_accuracy": 0.8215492383391412,
	"eval_loss": 0.5617780685424805,
	"eval_runtime": 16.4087,
	"eval_samples_per_second": 4.144,
	"eval_steps_per_second": 2.072,
	"step": 150
	},
	{
	"epoch": 3.693498452012384,
	"grad_norm": 0.5430096387863159,
	"learning_rate": 7.010431818542297e-07,
	"loss": 0.4991950988769531,
	"step": 151
	},
	{
	"epoch": 3.718266253869969,
	"grad_norm": 0.4858173727989197,
	"learning_rate": 6.884733020666084e-07,
	"loss": 0.47163355350494385,
	"step": 152
	},
	{
	"epoch": 3.7430340557275543,
	"grad_norm": 0.4979320168495178,
	"learning_rate": 6.759577016488343e-07,
	"loss": 0.5382797718048096,
	"step": 153
	},
	{
	"epoch": 3.7678018575851393,
	"grad_norm": 0.47822287678718567,
	"learning_rate": 6.63498561277261e-07,
	"loss": 0.5248020887374878,
	"step": 154
	},
	{
	"epoch": 3.7925696594427247,
	"grad_norm": 0.5561540722846985,
	"learning_rate": 6.510980517908333e-07,
	"loss": 0.47944825887680054,
	"step": 155
	},
	{
	"epoch": 3.8173374613003097,
	"grad_norm": 0.510204553604126,
	"learning_rate": 6.387583338128471e-07,
	"loss": 0.5094054937362671,
	"step": 156
	},
	{
	"epoch": 3.8421052631578947,
	"grad_norm": 0.4817684590816498,
	"learning_rate": 6.264815573744884e-07,
	"loss": 0.4909018874168396,
	"step": 157
	},
	{
	"epoch": 3.86687306501548,
	"grad_norm": 0.4790090024471283,
	"learning_rate": 6.142698615402204e-07,
	"loss": 0.47690001130104065,
	"step": 158
	},
	{
	"epoch": 3.891640866873065,
	"grad_norm": 0.4971541464328766,
	"learning_rate": 6.021253740350792e-07,
	"loss": 0.5042445659637451,
	"step": 159
	},
	{
	"epoch": 3.91640866873065,
	"grad_norm": 0.5663966536521912,
	"learning_rate": 5.900502108739465e-07,
	"loss": 0.5802559852600098,
	"step": 160
	},
	{
	"epoch": 3.9411764705882355,
	"grad_norm": 0.6140542030334473,
	"learning_rate": 5.780464759928623e-07,
	"loss": 0.5226213932037354,
	"step": 161
	},
	{
	"epoch": 3.9659442724458205,
	"grad_norm": 0.510217010974884,
	"learning_rate": 5.661162608824419e-07,
	"loss": 0.487061470746994,
	"step": 162
	},
	{
	"epoch": 3.9907120743034055,
	"grad_norm": 0.47863468527793884,
	"learning_rate": 5.542616442234618e-07,
	"loss": 0.49519461393356323,
	"step": 163
	},
	{
	"epoch": 4.0,
	"grad_norm": 0.8134075999259949,
	"learning_rate": 5.424846915246769e-07,
	"loss": 0.5006481409072876,
	"step": 164
	},
	{
	"epoch": 4.024767801857585,
	"grad_norm": 0.5010446906089783,
	"learning_rate": 5.307874547629339e-07,
	"loss": 0.5043383240699768,
	"step": 165
	},
	{
	"epoch": 4.04953560371517,
	"grad_norm": 0.5629169344902039,
	"learning_rate": 5.191719720256407e-07,
	"loss": 0.5104990005493164,
	"step": 166
	},
	{
	"epoch": 4.074303405572755,
	"grad_norm": 0.5630432367324829,
	"learning_rate": 5.076402671556577e-07,
	"loss": 0.4841610789299011,
	"step": 167
	},
	{
	"epoch": 4.099071207430341,
	"grad_norm": 0.46193253993988037,
	"learning_rate": 4.961943493986708e-07,
	"loss": 0.5317561030387878,
	"step": 168
	},
	{
	"epoch": 4.123839009287925,
	"grad_norm": 0.5281070470809937,
	"learning_rate": 4.848362130531039e-07,
	"loss": 0.5141686201095581,
	"step": 169
	},
	{
	"epoch": 4.148606811145511,
	"grad_norm": 0.927697479724884,
	"learning_rate": 4.7356783712264403e-07,
	"loss": 0.46369314193725586,
	"step": 170
	},
	{
	"epoch": 4.173374613003096,
	"grad_norm": 0.5692654252052307,
	"learning_rate": 4.623911849714225e-07,
	"loss": 0.48228251934051514,
	"step": 171
	},
	{
	"epoch": 4.198142414860681,
	"grad_norm": 0.48862549662590027,
	"learning_rate": 4.5130820398192636e-07,
	"loss": 0.5285767316818237,
	"step": 172
	},
	{
	"epoch": 4.222910216718266,
	"grad_norm": 0.5772708058357239,
	"learning_rate": 4.40320825215692e-07,
	"loss": 0.5200311541557312,
	"step": 173
	},
	{
	"epoch": 4.247678018575852,
	"grad_norm": 0.5576812028884888,
	"learning_rate": 4.294309630768451e-07,
	"loss": 0.5052947402000427,
	"step": 174
	},
	{
	"epoch": 4.272445820433436,
	"grad_norm": 0.48456260561943054,
	"learning_rate": 4.1864051497854027e-07,
	"loss": 0.5091853141784668,
	"step": 175
	},
	{
	"epoch": 4.2972136222910216,
	"grad_norm": 0.4992901086807251,
	"learning_rate": 4.079513610123618e-07,
	"loss": 0.5285595655441284,
	"step": 176
	},
	{
	"epoch": 4.321981424148607,
	"grad_norm": 0.560563862323761,
	"learning_rate": 3.973653636207437e-07,
	"loss": 0.5327163338661194,
	"step": 177
	},
	{
	"epoch": 4.346749226006192,
	"grad_norm": 0.48380428552627563,
	"learning_rate": 3.8688436727246296e-07,
	"loss": 0.4750836491584778,
	"step": 178
	},
	{
	"epoch": 4.371517027863777,
	"grad_norm": 0.4964829385280609,
	"learning_rate": 3.765101981412665e-07,
	"loss": 0.46454548835754395,
	"step": 179
	},
	{
	"epoch": 4.396284829721362,
	"grad_norm": 0.4538560211658478,
	"learning_rate": 3.6624466378768384e-07,
	"loss": 0.51465904712677,
	"step": 180
	},
	{
	"epoch": 4.421052631578947,
	"grad_norm": 0.6692084074020386,
	"learning_rate": 3.560895528440844e-07,
	"loss": 0.4617176055908203,
	"step": 181
	},
	{
	"epoch": 4.445820433436532,
	"grad_norm": 0.47236230969429016,
	"learning_rate": 3.4604663470303186e-07,
	"loss": 0.5083804130554199,
	"step": 182
	},
	{
	"epoch": 4.470588235294118,
	"grad_norm": 0.4774688184261322,
	"learning_rate": 3.3611765920899183e-07,
	"loss": 0.5058382749557495,
	"step": 183
	},
	{
	"epoch": 4.495356037151703,
	"grad_norm": 0.47210627794265747,
	"learning_rate": 3.263043563534428e-07,
	"loss": 0.5376588106155396,
	"step": 184
	},
	{
	"epoch": 4.520123839009288,
	"grad_norm": 0.4772137403488159,
	"learning_rate": 3.166084359734513e-07,
	"loss": 0.5304179191589355,
	"step": 185
	},
	{
	"epoch": 4.544891640866873,
	"grad_norm": 0.4682233929634094,
	"learning_rate": 3.070315874537531e-07,
	"loss": 0.4820975661277771,
	"step": 186
	},
	{
	"epoch": 4.569659442724459,
	"grad_norm": 0.48219650983810425,
	"learning_rate": 2.975754794324015e-07,
	"loss": 0.5084782838821411,
	"step": 187
	},
	{
	"epoch": 4.594427244582043,
	"grad_norm": 0.43362459540367126,
	"learning_rate": 2.8824175951002916e-07,
	"loss": 0.47581952810287476,
	"step": 188
	},
	{
	"epoch": 4.6191950464396285,
	"grad_norm": 0.567948579788208,
	"learning_rate": 2.790320539627754e-07,
	"loss": 0.5314459800720215,
	"step": 189
	},
	{
	"epoch": 4.643962848297214,
	"grad_norm": 0.5087016224861145,
	"learning_rate": 2.6994796745893e-07,
	"loss": 0.4740360379219055,
	"step": 190
	},
	{
	"epoch": 4.6687306501547985,
	"grad_norm": 0.5123845338821411,
	"learning_rate": 2.60991082779341e-07,
	"loss": 0.5245854258537292,
	"step": 191
	},
	{
	"epoch": 4.693498452012384,
	"grad_norm": 0.4884699285030365,
	"learning_rate": 2.521629605416354e-07,
	"loss": 0.5254173278808594,
	"step": 192
	},
	{
	"epoch": 4.718266253869969,
	"grad_norm": 0.5492839217185974,
	"learning_rate": 2.434651389283042e-07,
	"loss": 0.5060293674468994,
	"step": 193
	},
	{
	"epoch": 4.743034055727554,
	"grad_norm": 0.4537581503391266,
	"learning_rate": 2.3489913341869193e-07,
	"loss": 0.5028636455535889,
	"step": 194
	},
	{
	"epoch": 4.767801857585139,
	"grad_norm": 0.5206896662712097,
	"learning_rate": 2.264664365249469e-07,
	"loss": 0.509818971157074,
	"step": 195
	},
	{
	"epoch": 4.792569659442725,
	"grad_norm": 0.5348969101905823,
	"learning_rate": 2.181685175319702e-07,
	"loss": 0.4900963306427002,
	"step": 196
	},
	{
	"epoch": 4.817337461300309,
	"grad_norm": 0.478466659784317,
	"learning_rate": 2.100068222414121e-07,
	"loss": 0.5366532802581787,
	"step": 197
	},
	{
	"epoch": 4.842105263157895,
	"grad_norm": 0.4873082637786865,
	"learning_rate": 2.0198277271976049e-07,
	"loss": 0.5138839483261108,
	"step": 198
	},
	{
	"epoch": 4.86687306501548,
	"grad_norm": 0.5307355523109436,
	"learning_rate": 1.9409776705056514e-07,
	"loss": 0.48487958312034607,
	"step": 199
	},
	{
	"epoch": 4.891640866873065,
	"grad_norm": 0.6182578206062317,
	"learning_rate": 1.863531790908398e-07,
	"loss": 0.49715912342071533,
	"step": 200
	},
	{
	"epoch": 4.891640866873065,
	"eval_accuracy": 0.8215848485329422,
	"eval_loss": 0.5621271133422852,
	"eval_runtime": 16.3624,
	"eval_samples_per_second": 4.156,
	"eval_steps_per_second": 2.078,
	"step": 200
	},
	{
	"epoch": 4.91640866873065,
	"grad_norm": 0.5110271573066711,
	"learning_rate": 1.787503582316864e-07,
	"loss": 0.5255718231201172,
	"step": 201
	},
	{
	"epoch": 4.9411764705882355,
	"grad_norm": 0.4957195222377777,
	"learning_rate": 1.7129062916318137e-07,
	"loss": 0.5106043219566345,
	"step": 202
	},
	{
	"epoch": 4.965944272445821,
	"grad_norm": 1.4632741212844849,
	"learning_rate": 1.6397529164356606e-07,
	"loss": 0.5344016551971436,
	"step": 203
	},
	{
	"epoch": 4.9907120743034055,
	"grad_norm": 0.533440113067627,
	"learning_rate": 1.5680562027278154e-07,
	"loss": 0.5215489268302917,
	"step": 204
	},
	{
	"epoch": 5.0,
	"grad_norm": 0.8572560548782349,
	"learning_rate": 1.49782864270386e-07,
	"loss": 0.5227999687194824,
	"step": 205
	},
	{
	"epoch": 5.024767801857585,
	"grad_norm": 0.43222400546073914,
	"learning_rate": 1.429082472578954e-07,
	"loss": 0.5099145174026489,
	"step": 206
	},
	{
	"epoch": 5.04953560371517,
	"grad_norm": 0.47421810030937195,
	"learning_rate": 1.3618296704558364e-07,
	"loss": 0.5271211862564087,
	"step": 207
	},
	{
	"epoch": 5.074303405572755,
	"grad_norm": 0.5383461117744446,
	"learning_rate": 1.2960819542378053e-07,
	"loss": 0.548247218132019,
	"step": 208
	},
	{
	"epoch": 5.099071207430341,
	"grad_norm": 0.513953685760498,
	"learning_rate": 1.2318507795870137e-07,
	"loss": 0.47977253794670105,
	"step": 209
	},
	{
	"epoch": 5.123839009287925,
	"grad_norm": 0.5112437605857849,
	"learning_rate": 1.1691473379284944e-07,
	"loss": 0.4924686551094055,
	"step": 210
	},
	{
	"epoch": 5.148606811145511,
	"grad_norm": 0.5439184308052063,
	"learning_rate": 1.1079825545001886e-07,
	"loss": 0.4926351308822632,
	"step": 211
	},
	{
	"epoch": 5.173374613003096,
	"grad_norm": 0.47784221172332764,
	"learning_rate": 1.0483670864493777e-07,
	"loss": 0.5255255699157715,
	"step": 212
	},
	{
	"epoch": 5.198142414860681,
	"grad_norm": 0.48372480273246765,
	"learning_rate": 9.903113209758096e-08,
	"loss": 0.5388856530189514,
	"step": 213
	},
	{
	"epoch": 5.222910216718266,
	"grad_norm": 0.4922617971897125,
	"learning_rate": 9.338253735218748e-08,
	"loss": 0.4714866280555725,
	"step": 214
	},
	{
	"epoch": 5.247678018575852,
	"grad_norm": 0.5694555044174194,
	"learning_rate": 8.789190860101226e-08,
	"loss": 0.49757862091064453,
	"step": 215
	},
	{
	"epoch": 5.272445820433436,
	"grad_norm": 0.5285799503326416,
	"learning_rate": 8.256020251284379e-08,
	"loss": 0.5523006916046143,
	"step": 216
	},
	{
	"epoch": 5.2972136222910216,
	"grad_norm": 0.542019784450531,
	"learning_rate": 7.73883480663171e-08,
	"loss": 0.4939878582954407,
	"step": 217
	},
	{
	"epoch": 5.321981424148607,
	"grad_norm": 0.4783063232898712,
	"learning_rate": 7.23772463880522e-08,
	"loss": 0.5162045359611511,
	"step": 218
	},
	{
	"epoch": 5.346749226006192,
	"grad_norm": 0.4960096776485443,
	"learning_rate": 6.75277705956443e-08,
	"loss": 0.5186662673950195,
	"step": 219
	},
	{
	"epoch": 5.371517027863777,
	"grad_norm": 0.4951794147491455,
	"learning_rate": 6.284076564553464e-08,
	"loss": 0.48755860328674316,
	"step": 220
	},
	{
	"epoch": 5.396284829721362,
	"grad_norm": 0.4898841381072998,
	"learning_rate": 5.831704818578842e-08,
	"loss": 0.5034775733947754,
	"step": 221
	},
	{
	"epoch": 5.421052631578947,
	"grad_norm": 0.540875256061554,
	"learning_rate": 5.395740641380531e-08,
	"loss": 0.4632171094417572,
	"step": 222
	},
	{
	"epoch": 5.445820433436532,
	"grad_norm": 0.45750898122787476,
	"learning_rate": 4.976259993898502e-08,
	"loss": 0.49796921014785767,
	"step": 223
	},
	{
	"epoch": 5.470588235294118,
	"grad_norm": 0.5052651166915894,
	"learning_rate": 4.573335965037706e-08,
	"loss": 0.47650158405303955,
	"step": 224
	},
	{
	"epoch": 5.495356037151703,
	"grad_norm": 0.4999431371688843,
	"learning_rate": 4.187038758933203e-08,
	"loss": 0.49834519624710083,
	"step": 225
	},
	{
	"epoch": 5.520123839009288,
	"grad_norm": 0.5175738334655762,
	"learning_rate": 3.817435682718095e-08,
	"loss": 0.46955606341362,
	"step": 226
	},
	{
	"epoch": 5.544891640866873,
	"grad_norm": 0.4690812826156616,
	"learning_rate": 3.464591134796135e-08,
	"loss": 0.5154824256896973,
	"step": 227
	},
	{
	"epoch": 5.569659442724459,
	"grad_norm": 0.4758513867855072,
	"learning_rate": 3.1285665936211516e-08,
	"loss": 0.5336707830429077,
	"step": 228
	},
	{
	"epoch": 5.594427244582043,
	"grad_norm": 0.442473441362381,
	"learning_rate": 2.8094206069852355e-08,
	"loss": 0.4967498779296875,
	"step": 229
	},
	{
	"epoch": 5.6191950464396285,
	"grad_norm": 0.4868296682834625,
	"learning_rate": 2.507208781817638e-08,
	"loss": 0.5311983823776245,
	"step": 230
	},
	{
	"epoch": 5.643962848297214,
	"grad_norm": 0.5476986169815063,
	"learning_rate": 2.221983774495928e-08,
	"loss": 0.5054424405097961,
	"step": 231
	},
	{
	"epoch": 5.6687306501547985,
	"grad_norm": 0.4974565804004669,
	"learning_rate": 1.953795281671333e-08,
	"loss": 0.5006812214851379,
	"step": 232
	},
	{
	"epoch": 5.693498452012384,
	"grad_norm": 0.5025091767311096,
	"learning_rate": 1.7026900316098212e-08,
	"loss": 0.527012825012207,
	"step": 233
	},
	{
	"epoch": 5.718266253869969,
	"grad_norm": 0.46924424171447754,
	"learning_rate": 1.4687117760502576e-08,
	"loss": 0.4735889434814453,
	"step": 234
	},
	{
	"epoch": 5.743034055727554,
	"grad_norm": 0.454560786485672,
	"learning_rate": 1.2519012825812803e-08,
	"loss": 0.49276185035705566,
	"step": 235
	},
	{
	"epoch": 5.767801857585139,
	"grad_norm": 0.4710627496242523,
	"learning_rate": 1.0522963275380492e-08,
	"loss": 0.5048189759254456,
	"step": 236
	},
	{
	"epoch": 5.792569659442725,
	"grad_norm": 0.4550038278102875,
	"learning_rate": 8.699316894203223e-09,
	"loss": 0.513171911239624,
	"step": 237
	},
	{
	"epoch": 5.817337461300309,
	"grad_norm": 0.5602344870567322,
	"learning_rate": 7.048391428326584e-09,
	"loss": 0.5195218324661255,
	"step": 238
	},
	{
	"epoch": 5.842105263157895,
	"grad_norm": 0.4764668643474579,
	"learning_rate": 5.570474529481561e-09,
	"loss": 0.49439120292663574,
	"step": 239
	},
	{
	"epoch": 5.86687306501548,
	"grad_norm": 0.7008131146430969,
	"learning_rate": 4.265823704965532e-09,
	"loss": 0.5026534795761108,
	"step": 240
	},
	{
	"epoch": 5.891640866873065,
	"grad_norm": 0.5155523419380188,
	"learning_rate": 3.1346662727740338e-09,
	"loss": 0.505569338798523,
	"step": 241
	},
	{
	"epoch": 5.91640866873065,
	"grad_norm": 0.48813626170158386,
	"learning_rate": 2.1771993219946718e-09,
	"loss": 0.4332225024700165,
	"step": 242
	},
	{
	"epoch": 5.9411764705882355,
	"grad_norm": 0.5733649134635925,
	"learning_rate": 1.393589678466367e-09,
	"loss": 0.5184577703475952,
	"step": 243
	},
	{
	"epoch": 5.965944272445821,
	"grad_norm": 0.47005656361579895,
	"learning_rate": 7.839738757123848e-10,
	"loss": 0.48927992582321167,
	"step": 244
	},
	{
	"epoch": 5.9907120743034055,
	"grad_norm": 0.519534170627594,
	"learning_rate": 3.484581311511414e-10,
	"loss": 0.5252695679664612,
	"step": 245
	},
	{
	"epoch": 6.0,
	"grad_norm": 0.8245697617530823,
	"learning_rate": 8.711832758934168e-11,
	"loss": 0.485756516456604,
	"step": 246
	}
	],
	"logging_steps": 1,
	"max_steps": 246,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 6,
	"save_steps": 50,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 63272699183104.0,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}