Raiff1982

Upload folder using huggingface_hub

9b66615 verified 11 days ago

27.4 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 939,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"entropy": 2.771598082780838,
	"epoch": 0.032,
	"grad_norm": 0.2451171875,
	"learning_rate": 6.206896551724138e-05,
	"loss": 2.916146087646484,
	"mean_token_accuracy": 0.45416649207472803,
	"num_tokens": 55650.0,
	"step": 10
	},
	{
	"entropy": 2.3006236433982847,
	"epoch": 0.064,
	"grad_norm": 0.23828125,
	"learning_rate": 0.00013103448275862068,
	"loss": 2.4864336013793946,
	"mean_token_accuracy": 0.5021730229258538,
	"num_tokens": 110943.0,
	"step": 20
	},
	{
	"entropy": 1.8387477725744248,
	"epoch": 0.096,
	"grad_norm": 0.287109375,
	"learning_rate": 0.0002,
	"loss": 1.766120147705078,
	"mean_token_accuracy": 0.6066308304667473,
	"num_tokens": 166476.0,
	"step": 30
	},
	{
	"entropy": 1.2004003927111626,
	"epoch": 0.128,
	"grad_norm": 0.3203125,
	"learning_rate": 0.0001978021978021978,
	"loss": 1.1438531875610352,
	"mean_token_accuracy": 0.7330661401152611,
	"num_tokens": 221809.0,
	"step": 40
	},
	{
	"entropy": 0.8197565108537674,
	"epoch": 0.16,
	"grad_norm": 0.34765625,
	"learning_rate": 0.00019560439560439562,
	"loss": 0.7494671821594239,
	"mean_token_accuracy": 0.8239153817296028,
	"num_tokens": 277841.0,
	"step": 50
	},
	{
	"entropy": 0.5685673624277114,
	"epoch": 0.192,
	"grad_norm": 0.369140625,
	"learning_rate": 0.00019340659340659342,
	"loss": 0.49509191513061523,
	"mean_token_accuracy": 0.8886354997754097,
	"num_tokens": 333258.0,
	"step": 60
	},
	{
	"entropy": 0.36241610124707224,
	"epoch": 0.224,
	"grad_norm": 0.306640625,
	"learning_rate": 0.00019120879120879122,
	"loss": 0.29932661056518556,
	"mean_token_accuracy": 0.9331418961286545,
	"num_tokens": 388437.0,
	"step": 70
	},
	{
	"entropy": 0.2608797810971737,
	"epoch": 0.256,
	"grad_norm": 0.322265625,
	"learning_rate": 0.00018901098901098903,
	"loss": 0.20479197502136232,
	"mean_token_accuracy": 0.9527293920516968,
	"num_tokens": 444483.0,
	"step": 80
	},
	{
	"entropy": 0.20162589177489282,
	"epoch": 0.288,
	"grad_norm": 0.1904296875,
	"learning_rate": 0.00018681318681318683,
	"loss": 0.16634706258773804,
	"mean_token_accuracy": 0.9603863671422005,
	"num_tokens": 500408.0,
	"step": 90
	},
	{
	"entropy": 0.1615206029266119,
	"epoch": 0.32,
	"grad_norm": 0.1904296875,
	"learning_rate": 0.00018461538461538463,
	"loss": 0.14311870336532592,
	"mean_token_accuracy": 0.9628557220101357,
	"num_tokens": 556058.0,
	"step": 100
	},
	{
	"entropy": 0.1455086786299944,
	"epoch": 0.352,
	"grad_norm": 0.1796875,
	"learning_rate": 0.0001824175824175824,
	"loss": 0.1271807074546814,
	"mean_token_accuracy": 0.9651171401143074,
	"num_tokens": 611407.0,
	"step": 110
	},
	{
	"entropy": 0.13460372295230627,
	"epoch": 0.384,
	"grad_norm": 0.1572265625,
	"learning_rate": 0.00018021978021978024,
	"loss": 0.11452269554138184,
	"mean_token_accuracy": 0.9668730065226555,
	"num_tokens": 667323.0,
	"step": 120
	},
	{
	"entropy": 0.126934945769608,
	"epoch": 0.416,
	"grad_norm": 0.10986328125,
	"learning_rate": 0.00017802197802197802,
	"loss": 0.10631006956100464,
	"mean_token_accuracy": 0.9682586997747421,
	"num_tokens": 723233.0,
	"step": 130
	},
	{
	"entropy": 0.12308279145509005,
	"epoch": 0.448,
	"grad_norm": 0.1806640625,
	"learning_rate": 0.00017582417582417582,
	"loss": 0.09787563681602478,
	"mean_token_accuracy": 0.9693531423807145,
	"num_tokens": 779623.0,
	"step": 140
	},
	{
	"entropy": 0.11310338769108057,
	"epoch": 0.48,
	"grad_norm": 0.1552734375,
	"learning_rate": 0.00017362637362637365,
	"loss": 0.09501280188560486,
	"mean_token_accuracy": 0.9697160139679909,
	"num_tokens": 835343.0,
	"step": 150
	},
	{
	"entropy": 0.10735327322036028,
	"epoch": 0.512,
	"grad_norm": 0.12109375,
	"learning_rate": 0.00017142857142857143,
	"loss": 0.0945986807346344,
	"mean_token_accuracy": 0.9699150815606117,
	"num_tokens": 890526.0,
	"step": 160
	},
	{
	"entropy": 0.10488443765789271,
	"epoch": 0.544,
	"grad_norm": 0.08935546875,
	"learning_rate": 0.00016923076923076923,
	"loss": 0.09071503281593322,
	"mean_token_accuracy": 0.9702877476811409,
	"num_tokens": 946551.0,
	"step": 170
	},
	{
	"entropy": 0.09990130253136158,
	"epoch": 0.576,
	"grad_norm": 0.10986328125,
	"learning_rate": 0.00016703296703296706,
	"loss": 0.08788512349128723,
	"mean_token_accuracy": 0.9700309321284294,
	"num_tokens": 1002250.0,
	"step": 180
	},
	{
	"entropy": 0.1006152719259262,
	"epoch": 0.608,
	"grad_norm": 0.138671875,
	"learning_rate": 0.00016483516483516484,
	"loss": 0.08786565065383911,
	"mean_token_accuracy": 0.9703836083412171,
	"num_tokens": 1057942.0,
	"step": 190
	},
	{
	"entropy": 0.09826808385550975,
	"epoch": 0.64,
	"grad_norm": 0.10693359375,
	"learning_rate": 0.00016263736263736264,
	"loss": 0.08827171325683594,
	"mean_token_accuracy": 0.9702799677848816,
	"num_tokens": 1113313.0,
	"step": 200
	},
	{
	"entropy": 0.09519640635699034,
	"epoch": 0.672,
	"grad_norm": 0.109375,
	"learning_rate": 0.00016043956043956044,
	"loss": 0.08511611819267273,
	"mean_token_accuracy": 0.9707273244857788,
	"num_tokens": 1168866.0,
	"step": 210
	},
	{
	"entropy": 0.09626698959618807,
	"epoch": 0.704,
	"grad_norm": 0.07958984375,
	"learning_rate": 0.00015824175824175824,
	"loss": 0.08481809496879578,
	"mean_token_accuracy": 0.971166367828846,
	"num_tokens": 1224112.0,
	"step": 220
	},
	{
	"entropy": 0.08999720010906458,
	"epoch": 0.736,
	"grad_norm": 0.11962890625,
	"learning_rate": 0.00015604395604395605,
	"loss": 0.08373072743415833,
	"mean_token_accuracy": 0.9710352584719658,
	"num_tokens": 1279497.0,
	"step": 230
	},
	{
	"entropy": 0.0909602127969265,
	"epoch": 0.768,
	"grad_norm": 0.08251953125,
	"learning_rate": 0.00015384615384615385,
	"loss": 0.0811634123325348,
	"mean_token_accuracy": 0.9713989913463592,
	"num_tokens": 1335147.0,
	"step": 240
	},
	{
	"entropy": 0.08677519466727972,
	"epoch": 0.8,
	"grad_norm": 0.0791015625,
	"learning_rate": 0.00015164835164835165,
	"loss": 0.08006779551506042,
	"mean_token_accuracy": 0.9713309288024903,
	"num_tokens": 1390441.0,
	"step": 250
	},
	{
	"entropy": 0.08524699918925763,
	"epoch": 0.832,
	"grad_norm": 0.1142578125,
	"learning_rate": 0.00014945054945054946,
	"loss": 0.07839072942733764,
	"mean_token_accuracy": 0.9715656459331512,
	"num_tokens": 1446334.0,
	"step": 260
	},
	{
	"entropy": 0.08736930266022683,
	"epoch": 0.864,
	"grad_norm": 0.10791015625,
	"learning_rate": 0.00014725274725274726,
	"loss": 0.07965806126594543,
	"mean_token_accuracy": 0.971031291782856,
	"num_tokens": 1502214.0,
	"step": 270
	},
	{
	"entropy": 0.08625259138643741,
	"epoch": 0.896,
	"grad_norm": 0.08447265625,
	"learning_rate": 0.00014505494505494506,
	"loss": 0.0801069438457489,
	"mean_token_accuracy": 0.9713141709566117,
	"num_tokens": 1557731.0,
	"step": 280
	},
	{
	"entropy": 0.08634743597358466,
	"epoch": 0.928,
	"grad_norm": 0.06298828125,
	"learning_rate": 0.00014285714285714287,
	"loss": 0.07907066345214844,
	"mean_token_accuracy": 0.9716951295733451,
	"num_tokens": 1613126.0,
	"step": 290
	},
	{
	"entropy": 0.08533936887979507,
	"epoch": 0.96,
	"grad_norm": 0.06103515625,
	"learning_rate": 0.00014065934065934067,
	"loss": 0.07907315492630004,
	"mean_token_accuracy": 0.9721988439559937,
	"num_tokens": 1668452.0,
	"step": 300
	},
	{
	"entropy": 0.08410668671131134,
	"epoch": 0.992,
	"grad_norm": 0.0791015625,
	"learning_rate": 0.00013846153846153847,
	"loss": 0.07861064672470093,
	"mean_token_accuracy": 0.971791522204876,
	"num_tokens": 1724177.0,
	"step": 310
	},
	{
	"entropy": 0.08109197275418985,
	"epoch": 1.0224,
	"grad_norm": 0.07177734375,
	"learning_rate": 0.00013626373626373628,
	"loss": 0.07589302062988282,
	"mean_token_accuracy": 0.9723429350476516,
	"num_tokens": 1777420.0,
	"step": 320
	},
	{
	"entropy": 0.0814886923879385,
	"epoch": 1.0544,
	"grad_norm": 0.10693359375,
	"learning_rate": 0.00013406593406593405,
	"loss": 0.07642998099327088,
	"mean_token_accuracy": 0.97195183634758,
	"num_tokens": 1833060.0,
	"step": 330
	},
	{
	"entropy": 0.08034903313964606,
	"epoch": 1.0864,
	"grad_norm": 0.07373046875,
	"learning_rate": 0.00013186813186813188,
	"loss": 0.07447389960289001,
	"mean_token_accuracy": 0.9732914686203002,
	"num_tokens": 1889075.0,
	"step": 340
	},
	{
	"entropy": 0.07864065244793891,
	"epoch": 1.1184,
	"grad_norm": 0.08056640625,
	"learning_rate": 0.0001296703296703297,
	"loss": 0.07513262033462524,
	"mean_token_accuracy": 0.972836098074913,
	"num_tokens": 1944905.0,
	"step": 350
	},
	{
	"entropy": 0.08301715180277824,
	"epoch": 1.1504,
	"grad_norm": 0.09716796875,
	"learning_rate": 0.00012747252747252746,
	"loss": 0.07624064683914185,
	"mean_token_accuracy": 0.9722976922988892,
	"num_tokens": 2000057.0,
	"step": 360
	},
	{
	"entropy": 0.08098908923566342,
	"epoch": 1.1824,
	"grad_norm": 0.059814453125,
	"learning_rate": 0.00012527472527472527,
	"loss": 0.07458102107048034,
	"mean_token_accuracy": 0.9721322387456894,
	"num_tokens": 2055866.0,
	"step": 370
	},
	{
	"entropy": 0.07686591371893883,
	"epoch": 1.2144,
	"grad_norm": 0.06396484375,
	"learning_rate": 0.0001230769230769231,
	"loss": 0.07280548810958862,
	"mean_token_accuracy": 0.972561864554882,
	"num_tokens": 2111077.0,
	"step": 380
	},
	{
	"entropy": 0.07761757280677557,
	"epoch": 1.2464,
	"grad_norm": 0.07470703125,
	"learning_rate": 0.00012087912087912087,
	"loss": 0.07433983087539672,
	"mean_token_accuracy": 0.9725529655814171,
	"num_tokens": 2166081.0,
	"step": 390
	},
	{
	"entropy": 0.08011266030371189,
	"epoch": 1.2784,
	"grad_norm": 0.052001953125,
	"learning_rate": 0.00011868131868131869,
	"loss": 0.0738287627696991,
	"mean_token_accuracy": 0.9728635787963867,
	"num_tokens": 2221310.0,
	"step": 400
	},
	{
	"entropy": 0.0769817665219307,
	"epoch": 1.3104,
	"grad_norm": 0.054931640625,
	"learning_rate": 0.0001164835164835165,
	"loss": 0.07387230396270753,
	"mean_token_accuracy": 0.9729015439748764,
	"num_tokens": 2277107.0,
	"step": 410
	},
	{
	"entropy": 0.07817615140229464,
	"epoch": 1.3424,
	"grad_norm": 0.06787109375,
	"learning_rate": 0.00011428571428571428,
	"loss": 0.07262731790542602,
	"mean_token_accuracy": 0.9729507148265839,
	"num_tokens": 2332758.0,
	"step": 420
	},
	{
	"entropy": 0.07688614577054978,
	"epoch": 1.3744,
	"grad_norm": 0.051025390625,
	"learning_rate": 0.0001120879120879121,
	"loss": 0.07327454686164855,
	"mean_token_accuracy": 0.9719040498137475,
	"num_tokens": 2388461.0,
	"step": 430
	},
	{
	"entropy": 0.07903551124036312,
	"epoch": 1.4064,
	"grad_norm": 0.05126953125,
	"learning_rate": 0.0001098901098901099,
	"loss": 0.07202324867248536,
	"mean_token_accuracy": 0.9729711979627609,
	"num_tokens": 2443802.0,
	"step": 440
	},
	{
	"entropy": 0.07504601553082466,
	"epoch": 1.4384000000000001,
	"grad_norm": 0.0966796875,
	"learning_rate": 0.0001076923076923077,
	"loss": 0.07251456379890442,
	"mean_token_accuracy": 0.9728567853569985,
	"num_tokens": 2498886.0,
	"step": 450
	},
	{
	"entropy": 0.07635734435170889,
	"epoch": 1.4704,
	"grad_norm": 0.07861328125,
	"learning_rate": 0.0001054945054945055,
	"loss": 0.07308706045150756,
	"mean_token_accuracy": 0.9728769212961197,
	"num_tokens": 2554546.0,
	"step": 460
	},
	{
	"entropy": 0.07706241644918918,
	"epoch": 1.5024,
	"grad_norm": 0.052734375,
	"learning_rate": 0.00010329670329670331,
	"loss": 0.0728609800338745,
	"mean_token_accuracy": 0.9726115748286247,
	"num_tokens": 2609939.0,
	"step": 470
	},
	{
	"entropy": 0.07556705921888351,
	"epoch": 1.5344,
	"grad_norm": 0.087890625,
	"learning_rate": 0.0001010989010989011,
	"loss": 0.07160326838493347,
	"mean_token_accuracy": 0.973236757516861,
	"num_tokens": 2665583.0,
	"step": 480
	},
	{
	"entropy": 0.07504178639501333,
	"epoch": 1.5664,
	"grad_norm": 0.08349609375,
	"learning_rate": 9.89010989010989e-05,
	"loss": 0.0718912661075592,
	"mean_token_accuracy": 0.9726392358541489,
	"num_tokens": 2721224.0,
	"step": 490
	},
	{
	"entropy": 0.07667357344180345,
	"epoch": 1.5984,
	"grad_norm": 0.044921875,
	"learning_rate": 9.670329670329671e-05,
	"loss": 0.07309556603431702,
	"mean_token_accuracy": 0.9725197270512581,
	"num_tokens": 2776793.0,
	"step": 500
	},
	{
	"entropy": 0.07603078782558441,
	"epoch": 1.6303999999999998,
	"grad_norm": 0.0673828125,
	"learning_rate": 9.450549450549451e-05,
	"loss": 0.07351203560829163,
	"mean_token_accuracy": 0.9724631071090698,
	"num_tokens": 2832471.0,
	"step": 510
	},
	{
	"entropy": 0.07741717118769884,
	"epoch": 1.6623999999999999,
	"grad_norm": 0.052001953125,
	"learning_rate": 9.230769230769232e-05,
	"loss": 0.07223351001739502,
	"mean_token_accuracy": 0.9723551839590072,
	"num_tokens": 2888234.0,
	"step": 520
	},
	{
	"entropy": 0.07598806507885456,
	"epoch": 1.6944,
	"grad_norm": 0.06689453125,
	"learning_rate": 9.010989010989012e-05,
	"loss": 0.07230474948883056,
	"mean_token_accuracy": 0.9722696229815483,
	"num_tokens": 2943732.0,
	"step": 530
	},
	{
	"entropy": 0.0750182744115591,
	"epoch": 1.7264,
	"grad_norm": 0.04931640625,
	"learning_rate": 8.791208791208791e-05,
	"loss": 0.07132035493850708,
	"mean_token_accuracy": 0.9732247874140739,
	"num_tokens": 2999654.0,
	"step": 540
	},
	{
	"entropy": 0.07485976945608855,
	"epoch": 1.7584,
	"grad_norm": 0.0478515625,
	"learning_rate": 8.571428571428571e-05,
	"loss": 0.07085888981819152,
	"mean_token_accuracy": 0.9734048008918762,
	"num_tokens": 3055591.0,
	"step": 550
	},
	{
	"entropy": 0.07469552531838416,
	"epoch": 1.7904,
	"grad_norm": 0.04638671875,
	"learning_rate": 8.351648351648353e-05,
	"loss": 0.07132892608642578,
	"mean_token_accuracy": 0.9727317884564399,
	"num_tokens": 3111372.0,
	"step": 560
	},
	{
	"entropy": 0.0737810717895627,
	"epoch": 1.8224,
	"grad_norm": 0.052001953125,
	"learning_rate": 8.131868131868132e-05,
	"loss": 0.07149158120155334,
	"mean_token_accuracy": 0.9739102691411972,
	"num_tokens": 3167376.0,
	"step": 570
	},
	{
	"entropy": 0.0747382478788495,
	"epoch": 1.8544,
	"grad_norm": 0.055908203125,
	"learning_rate": 7.912087912087912e-05,
	"loss": 0.07183558940887451,
	"mean_token_accuracy": 0.972593954205513,
	"num_tokens": 3222797.0,
	"step": 580
	},
	{
	"entropy": 0.07589616179466248,
	"epoch": 1.8864,
	"grad_norm": 0.04833984375,
	"learning_rate": 7.692307692307693e-05,
	"loss": 0.07035009264945984,
	"mean_token_accuracy": 0.9727584093809127,
	"num_tokens": 3278083.0,
	"step": 590
	},
	{
	"entropy": 0.07409894913434982,
	"epoch": 1.9184,
	"grad_norm": 0.041015625,
	"learning_rate": 7.472527472527473e-05,
	"loss": 0.06983839273452759,
	"mean_token_accuracy": 0.9737206190824509,
	"num_tokens": 3334115.0,
	"step": 600
	},
	{
	"entropy": 0.07298169508576394,
	"epoch": 1.9504000000000001,
	"grad_norm": 0.055419921875,
	"learning_rate": 7.252747252747253e-05,
	"loss": 0.07096859216690063,
	"mean_token_accuracy": 0.9732470810413361,
	"num_tokens": 3389990.0,
	"step": 610
	},
	{
	"entropy": 0.07362735010683537,
	"epoch": 1.9824000000000002,
	"grad_norm": 0.05078125,
	"learning_rate": 7.032967032967034e-05,
	"loss": 0.0709508240222931,
	"mean_token_accuracy": 0.9730613023042679,
	"num_tokens": 3445703.0,
	"step": 620
	},
	{
	"entropy": 0.07376520100392793,
	"epoch": 2.0128,
	"grad_norm": 0.050048828125,
	"learning_rate": 6.813186813186814e-05,
	"loss": 0.06944339275360108,
	"mean_token_accuracy": 0.973434633330295,
	"num_tokens": 3498933.0,
	"step": 630
	},
	{
	"entropy": 0.07382834255695343,
	"epoch": 2.0448,
	"grad_norm": 0.048583984375,
	"learning_rate": 6.593406593406594e-05,
	"loss": 0.07052375078201294,
	"mean_token_accuracy": 0.9732005745172501,
	"num_tokens": 3553934.0,
	"step": 640
	},
	{
	"entropy": 0.0728354575112462,
	"epoch": 2.0768,
	"grad_norm": 0.09619140625,
	"learning_rate": 6.373626373626373e-05,
	"loss": 0.07018245458602905,
	"mean_token_accuracy": 0.9729705214500427,
	"num_tokens": 3609458.0,
	"step": 650
	},
	{
	"entropy": 0.07463801130652428,
	"epoch": 2.1088,
	"grad_norm": 0.04736328125,
	"learning_rate": 6.153846153846155e-05,
	"loss": 0.07015591859817505,
	"mean_token_accuracy": 0.9737546548247338,
	"num_tokens": 3664572.0,
	"step": 660
	},
	{
	"entropy": 0.07311667818576098,
	"epoch": 2.1408,
	"grad_norm": 0.051513671875,
	"learning_rate": 5.9340659340659345e-05,
	"loss": 0.06875128149986268,
	"mean_token_accuracy": 0.9733711332082748,
	"num_tokens": 3720225.0,
	"step": 670
	},
	{
	"entropy": 0.0712715208530426,
	"epoch": 2.1728,
	"grad_norm": 0.0537109375,
	"learning_rate": 5.714285714285714e-05,
	"loss": 0.06806424856185914,
	"mean_token_accuracy": 0.9737527936697006,
	"num_tokens": 3776424.0,
	"step": 680
	},
	{
	"entropy": 0.07198722306638956,
	"epoch": 2.2048,
	"grad_norm": 0.046630859375,
	"learning_rate": 5.494505494505495e-05,
	"loss": 0.06764371991157532,
	"mean_token_accuracy": 0.9738867044448852,
	"num_tokens": 3832496.0,
	"step": 690
	},
	{
	"entropy": 0.07190853431820869,
	"epoch": 2.2368,
	"grad_norm": 0.0498046875,
	"learning_rate": 5.274725274725275e-05,
	"loss": 0.06873984336853027,
	"mean_token_accuracy": 0.9736966788768768,
	"num_tokens": 3888101.0,
	"step": 700
	},
	{
	"entropy": 0.07232791539281606,
	"epoch": 2.2688,
	"grad_norm": 0.048828125,
	"learning_rate": 5.054945054945055e-05,
	"loss": 0.0678622543811798,
	"mean_token_accuracy": 0.9740407422184945,
	"num_tokens": 3944308.0,
	"step": 710
	},
	{
	"entropy": 0.07142861131578684,
	"epoch": 2.3008,
	"grad_norm": 0.04931640625,
	"learning_rate": 4.8351648351648355e-05,
	"loss": 0.06784402132034302,
	"mean_token_accuracy": 0.9742121011018753,
	"num_tokens": 4000402.0,
	"step": 720
	},
	{
	"entropy": 0.07213470414280891,
	"epoch": 2.3327999999999998,
	"grad_norm": 0.053466796875,
	"learning_rate": 4.615384615384616e-05,
	"loss": 0.0697720229625702,
	"mean_token_accuracy": 0.9730553776025772,
	"num_tokens": 4055460.0,
	"step": 730
	},
	{
	"entropy": 0.07274228539317847,
	"epoch": 2.3648,
	"grad_norm": 0.05126953125,
	"learning_rate": 4.3956043956043955e-05,
	"loss": 0.06925151348114014,
	"mean_token_accuracy": 0.9731604158878326,
	"num_tokens": 4110709.0,
	"step": 740
	},
	{
	"entropy": 0.0725497305393219,
	"epoch": 2.3968,
	"grad_norm": 0.05029296875,
	"learning_rate": 4.1758241758241765e-05,
	"loss": 0.0686568260192871,
	"mean_token_accuracy": 0.9741124615073204,
	"num_tokens": 4166373.0,
	"step": 750
	},
	{
	"entropy": 0.07181228250265122,
	"epoch": 2.4288,
	"grad_norm": 0.05029296875,
	"learning_rate": 3.956043956043956e-05,
	"loss": 0.06826226711273194,
	"mean_token_accuracy": 0.9736026957631111,
	"num_tokens": 4222123.0,
	"step": 760
	},
	{
	"entropy": 0.0726727832108736,
	"epoch": 2.4608,
	"grad_norm": 0.046142578125,
	"learning_rate": 3.7362637362637365e-05,
	"loss": 0.06845790147781372,
	"mean_token_accuracy": 0.9734082207083702,
	"num_tokens": 4277783.0,
	"step": 770
	},
	{
	"entropy": 0.0728993572294712,
	"epoch": 2.4928,
	"grad_norm": 0.050537109375,
	"learning_rate": 3.516483516483517e-05,
	"loss": 0.06819941997528076,
	"mean_token_accuracy": 0.9740725710988045,
	"num_tokens": 4333255.0,
	"step": 780
	},
	{
	"entropy": 0.07271347604691983,
	"epoch": 2.5248,
	"grad_norm": 0.0546875,
	"learning_rate": 3.296703296703297e-05,
	"loss": 0.06898128986358643,
	"mean_token_accuracy": 0.9741450414061547,
	"num_tokens": 4388480.0,
	"step": 790
	},
	{
	"entropy": 0.07090196693316102,
	"epoch": 2.5568,
	"grad_norm": 0.04638671875,
	"learning_rate": 3.0769230769230774e-05,
	"loss": 0.06766563653945923,
	"mean_token_accuracy": 0.9739843040704728,
	"num_tokens": 4444676.0,
	"step": 800
	},
	{
	"entropy": 0.0716133133508265,
	"epoch": 2.5888,
	"grad_norm": 0.050537109375,
	"learning_rate": 2.857142857142857e-05,
	"loss": 0.06745712161064148,
	"mean_token_accuracy": 0.9742712348699569,
	"num_tokens": 4500509.0,
	"step": 810
	},
	{
	"entropy": 0.07198168560862542,
	"epoch": 2.6208,
	"grad_norm": 0.052734375,
	"learning_rate": 2.6373626373626374e-05,
	"loss": 0.06861351728439331,
	"mean_token_accuracy": 0.9730511695146561,
	"num_tokens": 4555738.0,
	"step": 820
	},
	{
	"entropy": 0.07194693582132458,
	"epoch": 2.6528,
	"grad_norm": 0.055419921875,
	"learning_rate": 2.4175824175824177e-05,
	"loss": 0.06737480759620666,
	"mean_token_accuracy": 0.9742139622569084,
	"num_tokens": 4611454.0,
	"step": 830
	},
	{
	"entropy": 0.07176698800176382,
	"epoch": 2.6848,
	"grad_norm": 0.0537109375,
	"learning_rate": 2.1978021978021977e-05,
	"loss": 0.06750304102897645,
	"mean_token_accuracy": 0.9739004611968994,
	"num_tokens": 4667407.0,
	"step": 840
	},
	{
	"entropy": 0.07237117197364569,
	"epoch": 2.7168,
	"grad_norm": 0.04931640625,
	"learning_rate": 1.978021978021978e-05,
	"loss": 0.06796355247497558,
	"mean_token_accuracy": 0.9741956070065498,
	"num_tokens": 4723097.0,
	"step": 850
	},
	{
	"entropy": 0.07233156580477954,
	"epoch": 2.7488,
	"grad_norm": 0.07666015625,
	"learning_rate": 1.7582417582417584e-05,
	"loss": 0.06823940873146057,
	"mean_token_accuracy": 0.9739502936601638,
	"num_tokens": 4778509.0,
	"step": 860
	},
	{
	"entropy": 0.07178980130702257,
	"epoch": 2.7808,
	"grad_norm": 0.056396484375,
	"learning_rate": 1.5384615384615387e-05,
	"loss": 0.06750970482826232,
	"mean_token_accuracy": 0.9740586042404175,
	"num_tokens": 4834011.0,
	"step": 870
	},
	{
	"entropy": 0.07171082906425,
	"epoch": 2.8128,
	"grad_norm": 0.053955078125,
	"learning_rate": 1.3186813186813187e-05,
	"loss": 0.06713088154792786,
	"mean_token_accuracy": 0.9745032519102097,
	"num_tokens": 4889429.0,
	"step": 880
	},
	{
	"entropy": 0.07134337816387415,
	"epoch": 2.8448,
	"grad_norm": 0.056884765625,
	"learning_rate": 1.0989010989010989e-05,
	"loss": 0.06686720848083497,
	"mean_token_accuracy": 0.9745988816022872,
	"num_tokens": 4944966.0,
	"step": 890
	},
	{
	"entropy": 0.07198897190392017,
	"epoch": 2.8768000000000002,
	"grad_norm": 0.051513671875,
	"learning_rate": 8.791208791208792e-06,
	"loss": 0.06727443933486939,
	"mean_token_accuracy": 0.9737225085496902,
	"num_tokens": 5000546.0,
	"step": 900
	},
	{
	"entropy": 0.07114618215709925,
	"epoch": 2.9088000000000003,
	"grad_norm": 0.04833984375,
	"learning_rate": 6.5934065934065935e-06,
	"loss": 0.0675000011920929,
	"mean_token_accuracy": 0.9743592411279678,
	"num_tokens": 5056400.0,
	"step": 910
	},
	{
	"entropy": 0.07034891471266747,
	"epoch": 2.9408,
	"grad_norm": 0.05224609375,
	"learning_rate": 4.395604395604396e-06,
	"loss": 0.06710875034332275,
	"mean_token_accuracy": 0.9740387976169587,
	"num_tokens": 5111854.0,
	"step": 920
	},
	{
	"entropy": 0.07230036649852992,
	"epoch": 2.9728,
	"grad_norm": 0.05419921875,
	"learning_rate": 2.197802197802198e-06,
	"loss": 0.06789053678512573,
	"mean_token_accuracy": 0.9737495318055153,
	"num_tokens": 5167285.0,
	"step": 930
	}
	],
	"logging_steps": 10,
	"max_steps": 939,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.4252630664691712e+17,
	"train_batch_size": 2,
	"trial_name": null,
	"trial_params": null
	}