Upload folder using huggingface_hub

a341351 verified 3 months ago

35 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 1.0,
	"eval_steps": 1024,
	"global_step": 21651,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.011823934229365849,
	"grad_norm": 0.2415127456188202,
	"learning_rate": 0.000498046875,
	"loss": 1.734155297279358,
	"step": 256
	},
	{
	"epoch": 0.023647868458731697,
	"grad_norm": 0.200724259018898,
	"learning_rate": 0.000998046875,
	"loss": 1.1768943071365356,
	"step": 512
	},
	{
	"epoch": 0.03547180268809755,
	"grad_norm": 0.10385265946388245,
	"learning_rate": 0.000999640996023194,
	"loss": 1.0633362531661987,
	"step": 768
	},
	{
	"epoch": 0.047295736917463395,
	"grad_norm": 0.24572038650512695,
	"learning_rate": 0.0009985588674043958,
	"loss": 1.0212352275848389,
	"step": 1024
	},
	{
	"epoch": 0.047295736917463395,
	"eval_cos_loss": 0.2939360714666375,
	"eval_loss": 0.9792764313416938,
	"eval_mse_loss": 0.9792764313416938,
	"flow/cos_sim": 0.706063949762414,
	"flow/improvement_ratio": 0.47937897269584273,
	"flow/mag_ratio_mean": 0.7043995116943638,
	"flow/mag_ratio_std": 0.14764773857579927,
	"step": 1024
	},
	{
	"epoch": 0.047295736917463395,
	"eval_cos_loss": 0.2939360714666375,
	"eval_loss": 0.9792764313416938,
	"eval_mse_loss": 0.9792764313416938,
	"eval_runtime": 37.309,
	"eval_samples_per_second": 750.302,
	"eval_steps_per_second": 11.74,
	"flow/cos_sim": 0.706063949762414,
	"flow/improvement_ratio": 0.47937897269584273,
	"flow/mag_ratio_mean": 0.7043995116943638,
	"flow/mag_ratio_std": 0.14764773857579927,
	"step": 1024
	},
	{
	"epoch": 0.05911967114682925,
	"grad_norm": 0.14034895598888397,
	"learning_rate": 0.0009967551747861387,
	"loss": 0.9987254738807678,
	"step": 1280
	},
	{
	"epoch": 0.0709436053761951,
	"grad_norm": 0.32785671949386597,
	"learning_rate": 0.000994232528651847,
	"loss": 0.9810371398925781,
	"step": 1536
	},
	{
	"epoch": 0.08276753960556095,
	"grad_norm": 0.4202195107936859,
	"learning_rate": 0.0009909945800260092,
	"loss": 0.9669110774993896,
	"step": 1792
	},
	{
	"epoch": 0.09459147383492679,
	"grad_norm": 0.11297852545976639,
	"learning_rate": 0.0009870460151900522,
	"loss": 0.9570462107658386,
	"step": 2048
	},
	{
	"epoch": 0.09459147383492679,
	"eval_cos_loss": 0.27135700569169163,
	"eval_loss": 0.9140212976769225,
	"eval_mse_loss": 0.9140212976769225,
	"flow/cos_sim": 0.7286430077465702,
	"flow/improvement_ratio": 0.4797877063081689,
	"flow/mag_ratio_mean": 0.7240678813631676,
	"flow/mag_ratio_std": 0.15831342356526143,
	"step": 2048
	},
	{
	"epoch": 0.09459147383492679,
	"eval_cos_loss": 0.27135700569169163,
	"eval_loss": 0.9140212976769225,
	"eval_mse_loss": 0.9140212976769225,
	"eval_runtime": 37.3614,
	"eval_samples_per_second": 749.249,
	"eval_steps_per_second": 11.723,
	"flow/cos_sim": 0.7286430077465702,
	"flow/improvement_ratio": 0.4797877063081689,
	"flow/mag_ratio_mean": 0.7240678813631676,
	"flow/mag_ratio_std": 0.15831342356526143,
	"step": 2048
	},
	{
	"epoch": 0.10641540806429264,
	"grad_norm": 0.10684677958488464,
	"learning_rate": 0.0009823925488998885,
	"loss": 0.9458644986152649,
	"step": 2304
	},
	{
	"epoch": 0.1182393422936585,
	"grad_norm": 0.35598301887512207,
	"learning_rate": 0.0009770409161149525,
	"loss": 0.9369097948074341,
	"step": 2560
	},
	{
	"epoch": 0.13006327652302435,
	"grad_norm": 0.24151749908924103,
	"learning_rate": 0.0009709988622506973,
	"loss": 0.925268292427063,
	"step": 2816
	},
	{
	"epoch": 0.1418872107523902,
	"grad_norm": 0.17448143661022186,
	"learning_rate": 0.000964275131968659,
	"loss": 0.9168843030929565,
	"step": 3072
	},
	{
	"epoch": 0.1418872107523902,
	"eval_cos_loss": 0.258329911795381,
	"eval_loss": 0.872469331303688,
	"eval_mse_loss": 0.872469331303688,
	"flow/cos_sim": 0.7416701187554016,
	"flow/improvement_ratio": 0.4866235294978913,
	"flow/mag_ratio_mean": 0.7309322730046973,
	"flow/mag_ratio_std": 0.16244563712104815,
	"step": 3072
	},
	{
	"epoch": 0.1418872107523902,
	"eval_cos_loss": 0.258329911795381,
	"eval_loss": 0.872469331303688,
	"eval_mse_loss": 0.872469331303688,
	"eval_runtime": 37.367,
	"eval_samples_per_second": 749.136,
	"eval_steps_per_second": 11.722,
	"flow/cos_sim": 0.7416701187554016,
	"flow/improvement_ratio": 0.4866235294978913,
	"flow/mag_ratio_mean": 0.7309322730046973,
	"flow/mag_ratio_std": 0.16244563712104815,
	"step": 3072
	},
	{
	"epoch": 0.15371114498175603,
	"grad_norm": 0.16108064353466034,
	"learning_rate": 0.0009568794565203123,
	"loss": 0.91062992811203,
	"step": 3328
	},
	{
	"epoch": 0.1655350792111219,
	"grad_norm": 0.21124346554279327,
	"learning_rate": 0.0009488225396630347,
	"loss": 0.9045400023460388,
	"step": 3584
	},
	{
	"epoch": 0.17735901344048774,
	"grad_norm": 0.49332571029663086,
	"learning_rate": 0.0009401160421685646,
	"loss": 0.8949952721595764,
	"step": 3840
	},
	{
	"epoch": 0.18918294766985358,
	"grad_norm": 0.25588458776474,
	"learning_rate": 0.0009307725649463714,
	"loss": 0.8952076435089111,
	"step": 4096
	},
	{
	"epoch": 0.18918294766985358,
	"eval_cos_loss": 0.24964532671181577,
	"eval_loss": 0.8440415833366516,
	"eval_mse_loss": 0.8440415833366516,
	"flow/cos_sim": 0.7503547062884727,
	"flow/improvement_ratio": 0.4770904905311593,
	"flow/mag_ratio_mean": 0.7401841025646418,
	"flow/mag_ratio_std": 0.1675400482533185,
	"step": 4096
	},
	{
	"epoch": 0.18918294766985358,
	"eval_cos_loss": 0.24964532671181577,
	"eval_loss": 0.8440415833366516,
	"eval_mse_loss": 0.8440415833366516,
	"eval_runtime": 37.4493,
	"eval_samples_per_second": 747.491,
	"eval_steps_per_second": 11.696,
	"flow/cos_sim": 0.7503547062884727,
	"flow/improvement_ratio": 0.4770904905311593,
	"flow/mag_ratio_mean": 0.7401841025646418,
	"flow/mag_ratio_std": 0.1675400482533185,
	"step": 4096
	},
	{
	"epoch": 0.20100688189921945,
	"grad_norm": 0.37869253754615784,
	"learning_rate": 0.0009208056308063659,
	"loss": 0.8890768885612488,
	"step": 4352
	},
	{
	"epoch": 0.2128308161285853,
	"grad_norm": 0.9834415316581726,
	"learning_rate": 0.0009102296648873445,
	"loss": 0.8840116262435913,
	"step": 4608
	},
	{
	"epoch": 0.22465475035795113,
	"grad_norm": 1.289456844329834,
	"learning_rate": 0.0008990599737794927,
	"loss": 0.8811625838279724,
	"step": 4864
	},
	{
	"epoch": 0.236478684587317,
	"grad_norm": 0.24145644903182983,
	"learning_rate": 0.0008873127233711644,
	"loss": 0.8737959861755371,
	"step": 5120
	},
	{
	"epoch": 0.236478684587317,
	"eval_cos_loss": 0.24506433716375534,
	"eval_loss": 0.8307346953376787,
	"eval_mse_loss": 0.8307346953376787,
	"flow/cos_sim": 0.7549356581413582,
	"flow/improvement_ratio": 0.47620510081994477,
	"flow/mag_ratio_mean": 0.7473646888177689,
	"flow/mag_ratio_std": 0.16763514821251776,
	"step": 5120
	},
	{
	"epoch": 0.236478684587317,
	"eval_cos_loss": 0.24506433716375534,
	"eval_loss": 0.8307346953376787,
	"eval_mse_loss": 0.8307346953376787,
	"eval_runtime": 37.5063,
	"eval_samples_per_second": 746.354,
	"eval_steps_per_second": 11.678,
	"flow/cos_sim": 0.7549356581413582,
	"flow/improvement_ratio": 0.47620510081994477,
	"flow/mag_ratio_mean": 0.7473646888177689,
	"flow/mag_ratio_std": 0.16763514821251776,
	"step": 5120
	},
	{
	"epoch": 0.24830261881668284,
	"grad_norm": 1.039290428161621,
	"learning_rate": 0.0008750049154520011,
	"loss": 0.8717202544212341,
	"step": 5376
	},
	{
	"epoch": 0.2601265530460487,
	"grad_norm": 0.22408978641033173,
	"learning_rate": 0.0008621543631062487,
	"loss": 0.8717328906059265,
	"step": 5632
	},
	{
	"epoch": 0.27195048727541454,
	"grad_norm": 0.7838807106018066,
	"learning_rate": 0.0008487796649318904,
	"loss": 0.8674213886260986,
	"step": 5888
	},
	{
	"epoch": 0.2837744215047804,
	"grad_norm": 0.15397988259792328,
	"learning_rate": 0.0008349553511611836,
	"loss": 0.8678247332572937,
	"step": 6144
	},
	{
	"epoch": 0.2837744215047804,
	"eval_cos_loss": 0.2434517246879399,
	"eval_loss": 0.8235682821981439,
	"eval_mse_loss": 0.8235682821981439,
	"flow/cos_sim": 0.7565482973235927,
	"flow/improvement_ratio": 0.48134120863322255,
	"flow/mag_ratio_mean": 0.752200963970733,
	"flow/mag_ratio_std": 0.17564187855481012,
	"step": 6144
	},
	{
	"epoch": 0.2837744215047804,
	"eval_cos_loss": 0.2434517246879399,
	"eval_loss": 0.8235682821981439,
	"eval_mse_loss": 0.8235682821981439,
	"eval_runtime": 37.4608,
	"eval_samples_per_second": 747.262,
	"eval_steps_per_second": 11.692,
	"flow/cos_sim": 0.7565482973235927,
	"flow/improvement_ratio": 0.48134120863322255,
	"flow/mag_ratio_mean": 0.752200963970733,
	"flow/mag_ratio_std": 0.17564187855481012,
	"step": 6144
	},
	{
	"epoch": 0.2955983557341462,
	"grad_norm": 0.15729770064353943,
	"learning_rate": 0.0008205930168562264,
	"loss": 0.8611059188842773,
	"step": 6400
	},
	{
	"epoch": 0.30742228996351206,
	"grad_norm": 0.5960604548454285,
	"learning_rate": 0.0008057666884383055,
	"loss": 0.8611810803413391,
	"step": 6656
	},
	{
	"epoch": 0.3192462241928779,
	"grad_norm": 0.12568458914756775,
	"learning_rate": 0.0007905583005945037,
	"loss": 0.8600746393203735,
	"step": 6912
	},
	{
	"epoch": 0.3310701584222438,
	"grad_norm": 0.15424804389476776,
	"learning_rate": 0.000774870597388272,
	"loss": 0.8601675629615784,
	"step": 7168
	},
	{
	"epoch": 0.3310701584222438,
	"eval_cos_loss": 0.24115517810327278,
	"eval_loss": 0.8168311545021458,
	"eval_mse_loss": 0.8168311545021458,
	"flow/cos_sim": 0.758844825230777,
	"flow/improvement_ratio": 0.48181676517610683,
	"flow/mag_ratio_mean": 0.7439628689800768,
	"flow/mag_ratio_std": 0.17355786634770703,
	"step": 7168
	},
	{
	"epoch": 0.3310701584222438,
	"eval_cos_loss": 0.24115517810327278,
	"eval_loss": 0.8168311545021458,
	"eval_mse_loss": 0.8168311545021458,
	"eval_runtime": 37.4871,
	"eval_samples_per_second": 746.736,
	"eval_steps_per_second": 11.684,
	"flow/cos_sim": 0.758844825230777,
	"flow/improvement_ratio": 0.48181676517610683,
	"flow/mag_ratio_mean": 0.7439628689800768,
	"flow/mag_ratio_std": 0.17355786634770703,
	"step": 7168
	},
	{
	"epoch": 0.34289409265160964,
	"grad_norm": 0.1787535548210144,
	"learning_rate": 0.0007587850741039065,
	"loss": 0.8584595322608948,
	"step": 7424
	},
	{
	"epoch": 0.3547180268809755,
	"grad_norm": 0.8946473002433777,
	"learning_rate": 0.000742325011311212,
	"loss": 0.8562237620353699,
	"step": 7680
	},
	{
	"epoch": 0.3665419611103413,
	"grad_norm": 0.1438024491071701,
	"learning_rate": 0.0007255142316508366,
	"loss": 0.8549248576164246,
	"step": 7936
	},
	{
	"epoch": 0.37836589533970716,
	"grad_norm": 0.15269657969474792,
	"learning_rate": 0.0007083770653557752,
	"loss": 0.8540560603141785,
	"step": 8192
	},
	{
	"epoch": 0.37836589533970716,
	"eval_cos_loss": 0.238492783584279,
	"eval_loss": 0.8075671801556191,
	"eval_mse_loss": 0.8075671801556191,
	"flow/cos_sim": 0.7615072517634527,
	"flow/improvement_ratio": 0.48001350197073533,
	"flow/mag_ratio_mean": 0.7569256454842276,
	"flow/mag_ratio_std": 0.17385539324044091,
	"step": 8192
	},
	{
	"epoch": 0.37836589533970716,
	"eval_cos_loss": 0.238492783584279,
	"eval_loss": 0.8075671801556191,
	"eval_mse_loss": 0.8075671801556191,
	"eval_runtime": 37.4059,
	"eval_samples_per_second": 748.358,
	"eval_steps_per_second": 11.709,
	"flow/cos_sim": 0.7615072517634527,
	"flow/improvement_ratio": 0.48001350197073533,
	"flow/mag_ratio_mean": 0.7569256454842276,
	"flow/mag_ratio_std": 0.17385539324044091,
	"step": 8192
	},
	{
	"epoch": 0.390189829569073,
	"grad_norm": 0.2120441496372223,
	"learning_rate": 0.0006909383150382365,
	"loss": 0.850504994392395,
	"step": 8448
	},
	{
	"epoch": 0.4020137637984389,
	"grad_norm": 1.0651849508285522,
	"learning_rate": 0.0006732232197928334,
	"loss": 0.8530774116516113,
	"step": 8704
	},
	{
	"epoch": 0.41383769802780473,
	"grad_norm": 0.18748371303081512,
	"learning_rate": 0.0006552574186680553,
	"loss": 0.849456250667572,
	"step": 8960
	},
	{
	"epoch": 0.4256616322571706,
	"grad_norm": 1.3815633058547974,
	"learning_rate": 0.0006370669135588852,
	"loss": 0.8472809791564941,
	"step": 9216
	},
	{
	"epoch": 0.4256616322571706,
	"eval_cos_loss": 0.23755816625405665,
	"eval_loss": 0.8048887692357851,
	"eval_mse_loss": 0.8048887692357851,
	"flow/cos_sim": 0.7624418421150887,
	"flow/improvement_ratio": 0.47895704168979436,
	"flow/mag_ratio_mean": 0.7494950834746774,
	"flow/mag_ratio_std": 0.1740222738621986,
	"step": 9216
	},
	{
	"epoch": 0.4256616322571706,
	"eval_cos_loss": 0.23755816625405665,
	"eval_loss": 0.8048887692357851,
	"eval_mse_loss": 0.8048887692357851,
	"eval_runtime": 37.4388,
	"eval_samples_per_second": 747.7,
	"eval_steps_per_second": 11.699,
	"flow/cos_sim": 0.7624418421150887,
	"flow/improvement_ratio": 0.47895704168979436,
	"flow/mag_ratio_mean": 0.7494950834746774,
	"flow/mag_ratio_std": 0.1740222738621986,
	"step": 9216
	},
	{
	"epoch": 0.4374855664865364,
	"grad_norm": 0.30135899782180786,
	"learning_rate": 0.0006187502147205189,
	"loss": 0.8494647741317749,
	"step": 9472
	},
	{
	"epoch": 0.44930950071590225,
	"grad_norm": 0.1467859447002411,
	"learning_rate": 0.000600190188915804,
	"loss": 0.8477605581283569,
	"step": 9728
	},
	{
	"epoch": 0.4611334349452681,
	"grad_norm": 0.5628754496574402,
	"learning_rate": 0.0005814851579007778,
	"loss": 0.845370352268219,
	"step": 9984
	},
	{
	"epoch": 0.472957369174634,
	"grad_norm": 0.8975974321365356,
	"learning_rate": 0.0005626621934574736,
	"loss": 0.8435695171356201,
	"step": 10240
	},
	{
	"epoch": 0.472957369174634,
	"eval_cos_loss": 0.23847832721254053,
	"eval_loss": 0.8075589748550224,
	"eval_mse_loss": 0.8075589748550224,
	"flow/cos_sim": 0.76152167540707,
	"flow/improvement_ratio": 0.48205344698744823,
	"flow/mag_ratio_mean": 0.7498847978300156,
	"flow/mag_ratio_std": 0.17484679011857673,
	"step": 10240
	},
	{
	"epoch": 0.472957369174634,
	"eval_cos_loss": 0.23847832721254053,
	"eval_loss": 0.8075589748550224,
	"eval_mse_loss": 0.8075589748550224,
	"eval_runtime": 37.5927,
	"eval_samples_per_second": 744.639,
	"eval_steps_per_second": 11.651,
	"flow/cos_sim": 0.76152167540707,
	"flow/improvement_ratio": 0.48205344698744823,
	"flow/mag_ratio_mean": 0.7498847978300156,
	"flow/mag_ratio_std": 0.17484679011857673,
	"step": 10240
	},
	{
	"epoch": 0.48478130340399983,
	"grad_norm": 0.7524752020835876,
	"learning_rate": 0.0005437485380529165,
	"loss": 0.8425331115722656,
	"step": 10496
	},
	{
	"epoch": 0.49660523763336567,
	"grad_norm": 0.6698228120803833,
	"learning_rate": 0.0005247715654111146,
	"loss": 0.8414271473884583,
	"step": 10752
	},
	{
	"epoch": 0.5084291718627315,
	"grad_norm": 0.5097092390060425,
	"learning_rate": 0.0005057587408950816,
	"loss": 0.8411047458648682,
	"step": 11008
	},
	{
	"epoch": 0.5202531060920974,
	"grad_norm": 0.7546167373657227,
	"learning_rate": 0.00048673758175623157,
	"loss": 0.841041088104248,
	"step": 11264
	},
	{
	"epoch": 0.5202531060920974,
	"eval_cos_loss": 0.23565144779067063,
	"eval_loss": 0.7988868664660954,
	"eval_mse_loss": 0.7988868664660954,
	"flow/cos_sim": 0.7643485723837325,
	"flow/improvement_ratio": 0.48455546578588005,
	"flow/mag_ratio_mean": 0.7568667526930979,
	"flow/mag_ratio_std": 0.17350949476298677,
	"step": 11264
	},
	{
	"epoch": 0.5202531060920974,
	"eval_cos_loss": 0.23565144779067063,
	"eval_loss": 0.7988868664660954,
	"eval_mse_loss": 0.7988868664660954,
	"eval_runtime": 37.5643,
	"eval_samples_per_second": 745.203,
	"eval_steps_per_second": 11.66,
	"flow/cos_sim": 0.7643485723837325,
	"flow/improvement_ratio": 0.48455546578588005,
	"flow/mag_ratio_mean": 0.7568667526930979,
	"flow/mag_ratio_std": 0.17350949476298677,
	"step": 11264
	},
	{
	"epoch": 0.5320770403214632,
	"grad_norm": 0.24848276376724243,
	"learning_rate": 0.00046773561730867265,
	"loss": 0.8385207056999207,
	"step": 11520
	},
	{
	"epoch": 0.5439009745508291,
	"grad_norm": 0.2328663319349289,
	"learning_rate": 0.0004487803490860472,
	"loss": 0.8425102829933167,
	"step": 11776
	},
	{
	"epoch": 0.5557249087801949,
	"grad_norm": 1.160973072052002,
	"learning_rate": 0.00042989921103857385,
	"loss": 0.8413041830062866,
	"step": 12032
	},
	{
	"epoch": 0.5675488430095608,
	"grad_norm": 0.48494067788124084,
	"learning_rate": 0.00041119265533512737,
	"loss": 0.8376575708389282,
	"step": 12288
	},
	{
	"epoch": 0.5675488430095608,
	"eval_cos_loss": 0.23514270255146505,
	"eval_loss": 0.7956640910884561,
	"eval_mse_loss": 0.7956640910884561,
	"flow/cos_sim": 0.7648573198002767,
	"flow/improvement_ratio": 0.4841282178550006,
	"flow/mag_ratio_mean": 0.754011933798115,
	"flow/mag_ratio_std": 0.17356456295676428,
	"step": 12288
	},
	{
	"epoch": 0.5675488430095608,
	"eval_cos_loss": 0.23514270255146505,
	"eval_loss": 0.7956640910884561,
	"eval_mse_loss": 0.7956640910884561,
	"eval_runtime": 37.4222,
	"eval_samples_per_second": 748.032,
	"eval_steps_per_second": 11.704,
	"flow/cos_sim": 0.7648573198002767,
	"flow/improvement_ratio": 0.4841282178550006,
	"flow/mag_ratio_mean": 0.754011933798115,
	"flow/mag_ratio_std": 0.17356456295676428,
	"step": 12288
	},
	{
	"epoch": 0.5793727772389267,
	"grad_norm": 0.2547326982021332,
	"learning_rate": 0.0003925410556475763,
	"loss": 0.8384107947349548,
	"step": 12544
	},
	{
	"epoch": 0.5911967114682924,
	"grad_norm": 0.2702837586402893,
	"learning_rate": 0.00037404498123644504,
	"loss": 0.8394683003425598,
	"step": 12800
	},
	{
	"epoch": 0.6030206456976583,
	"grad_norm": 0.4496554732322693,
	"learning_rate": 0.0003557312014609784,
	"loss": 0.8402306437492371,
	"step": 13056
	},
	{
	"epoch": 0.6148445799270241,
	"grad_norm": 0.40902939438819885,
	"learning_rate": 0.00033762622184548686,
	"loss": 0.8355939388275146,
	"step": 13312
	},
	{
	"epoch": 0.6148445799270241,
	"eval_cos_loss": 0.23389767066120556,
	"eval_loss": 0.7927584718895829,
	"eval_mse_loss": 0.7927584718895829,
	"flow/cos_sim": 0.7661023556369625,
	"flow/improvement_ratio": 0.4783722004389654,
	"flow/mag_ratio_mean": 0.7541745113183375,
	"flow/mag_ratio_std": 0.17828954082645782,
	"step": 13312
	},
	{
	"epoch": 0.6148445799270241,
	"eval_cos_loss": 0.23389767066120556,
	"eval_loss": 0.7927584718895829,
	"eval_mse_loss": 0.7927584718895829,
	"eval_runtime": 37.4329,
	"eval_samples_per_second": 747.818,
	"eval_steps_per_second": 11.701,
	"flow/cos_sim": 0.7661023556369625,
	"flow/improvement_ratio": 0.4783722004389654,
	"flow/mag_ratio_mean": 0.7541745113183375,
	"flow/mag_ratio_std": 0.17828954082645782,
	"step": 13312
	},
	{
	"epoch": 0.62666851415639,
	"grad_norm": 1.1801968812942505,
	"learning_rate": 0.00031975624571791317,
	"loss": 0.8333742022514343,
	"step": 13568
	},
	{
	"epoch": 0.6384924483857558,
	"grad_norm": 0.1962728500366211,
	"learning_rate": 0.00030214713628576984,
	"loss": 0.8351457715034485,
	"step": 13824
	},
	{
	"epoch": 0.6503163826151217,
	"grad_norm": 0.5504610538482666,
	"learning_rate": 0.00028482437920433144,
	"loss": 0.8345349431037903,
	"step": 14080
	},
	{
	"epoch": 0.6621403168444876,
	"grad_norm": 0.2537405788898468,
	"learning_rate": 0.00026781304569125866,
	"loss": 0.8331661820411682,
	"step": 14336
	},
	{
	"epoch": 0.6621403168444876,
	"eval_cos_loss": 0.23358930164276193,
	"eval_loss": 0.790659844331001,
	"eval_mse_loss": 0.790659844331001,
	"flow/cos_sim": 0.7664107191780386,
	"flow/improvement_ratio": 0.48042010873147883,
	"flow/mag_ratio_mean": 0.7608423984214051,
	"flow/mag_ratio_std": 0.17466495716816757,
	"step": 14336
	},
	{
	"epoch": 0.6621403168444876,
	"eval_cos_loss": 0.23358930164276193,
	"eval_loss": 0.790659844331001,
	"eval_mse_loss": 0.790659844331001,
	"eval_runtime": 37.4882,
	"eval_samples_per_second": 746.715,
	"eval_steps_per_second": 11.684,
	"flow/cos_sim": 0.7664107191780386,
	"flow/improvement_ratio": 0.48042010873147883,
	"flow/mag_ratio_mean": 0.7608423984214051,
	"flow/mag_ratio_std": 0.17466495716816757,
	"step": 14336
	},
	{
	"epoch": 0.6739642510738534,
	"grad_norm": 0.44085371494293213,
	"learning_rate": 0.0002512022089125798,
	"loss": 0.8341683149337769,
	"step": 14592
	},
	{
	"epoch": 0.6857881853032193,
	"grad_norm": 1.0609331130981445,
	"learning_rate": 0.00023488564442791606,
	"loss": 0.835027813911438,
	"step": 14848
	},
	{
	"epoch": 0.6976121195325851,
	"grad_norm": 0.22936664521694183,
	"learning_rate": 0.0002189527798174848,
	"loss": 0.8334974050521851,
	"step": 15104
	},
	{
	"epoch": 0.709436053761951,
	"grad_norm": 0.28989291191101074,
	"learning_rate": 0.00020342667470826854,
	"loss": 0.8318911790847778,
	"step": 15360
	},
	{
	"epoch": 0.709436053761951,
	"eval_cos_loss": 0.2342552522614122,
	"eval_loss": 0.7931138123279293,
	"eval_mse_loss": 0.7931138123279293,
	"flow/cos_sim": 0.7657447608366404,
	"flow/improvement_ratio": 0.4886273239573387,
	"flow/mag_ratio_mean": 0.7547847685748583,
	"flow/mag_ratio_std": 0.1757596176985192,
	"step": 15360
	},
	{
	"epoch": 0.709436053761951,
	"eval_cos_loss": 0.2342552522614122,
	"eval_loss": 0.7931138123279293,
	"eval_mse_loss": 0.7931138123279293,
	"eval_runtime": 37.5138,
	"eval_samples_per_second": 746.206,
	"eval_steps_per_second": 11.676,
	"flow/cos_sim": 0.7657447608366404,
	"flow/improvement_ratio": 0.4886273239573387,
	"flow/mag_ratio_mean": 0.7547847685748583,
	"flow/mag_ratio_std": 0.1757596176985192,
	"step": 15360
	},
	{
	"epoch": 0.7212599879913169,
	"grad_norm": 0.16880613565444946,
	"learning_rate": 0.00018832980002442701,
	"loss": 0.8349105715751648,
	"step": 15616
	},
	{
	"epoch": 0.7330839222206826,
	"grad_norm": 0.21710531413555145,
	"learning_rate": 0.00017368400546514002,
	"loss": 0.8341897130012512,
	"step": 15872
	},
	{
	"epoch": 0.7449078564500485,
	"grad_norm": 0.4028049111366272,
	"learning_rate": 0.00015951048788154866,
	"loss": 0.8300965428352356,
	"step": 16128
	},
	{
	"epoch": 0.7567317906794143,
	"grad_norm": 0.4703959822654724,
	"learning_rate": 0.0001458297605985633,
	"loss": 0.830625057220459,
	"step": 16384
	},
	{
	"epoch": 0.7567317906794143,
	"eval_cos_loss": 0.23394639184485833,
	"eval_loss": 0.7917164079674847,
	"eval_mse_loss": 0.7917164079674847,
	"flow/cos_sim": 0.7660536425843086,
	"flow/improvement_ratio": 0.4823139966486796,
	"flow/mag_ratio_mean": 0.7634640123746167,
	"flow/mag_ratio_std": 0.17673859605778297,
	"step": 16384
	},
	{
	"epoch": 0.7567317906794143,
	"eval_cos_loss": 0.23394639184485833,
	"eval_loss": 0.7917164079674847,
	"eval_mse_loss": 0.7917164079674847,
	"eval_runtime": 37.6008,
	"eval_samples_per_second": 744.478,
	"eval_steps_per_second": 11.649,
	"flow/cos_sim": 0.7660536425843086,
	"flow/improvement_ratio": 0.4823139966486796,
	"flow/mag_ratio_mean": 0.7634640123746167,
	"flow/mag_ratio_std": 0.17673859605778297,
	"step": 16384
	},
	{
	"epoch": 0.7685557249087802,
	"grad_norm": 0.2865261733531952,
	"learning_rate": 0.00013266162372593872,
	"loss": 0.8289151787757874,
	"step": 16640
	},
	{
	"epoch": 0.780379659138146,
	"grad_norm": 0.32574427127838135,
	"learning_rate": 0.00012002513550158511,
	"loss": 0.8299338817596436,
	"step": 16896
	},
	{
	"epoch": 0.7922035933675119,
	"grad_norm": 0.19136400520801544,
	"learning_rate": 0.00010793858470858986,
	"loss": 0.831389307975769,
	"step": 17152
	},
	{
	"epoch": 0.8040275275968778,
	"grad_norm": 0.4910804331302643,
	"learning_rate": 9.641946420587128e-05,
	"loss": 0.8310226798057556,
	"step": 17408
	},
	{
	"epoch": 0.8040275275968778,
	"eval_cos_loss": 0.23344004797200635,
	"eval_loss": 0.7905207032754541,
	"eval_mse_loss": 0.7905207032754541,
	"flow/cos_sim": 0.7665599775096598,
	"flow/improvement_ratio": 0.48091149343747525,
	"flow/mag_ratio_mean": 0.7604631242686755,
	"flow/mag_ratio_std": 0.1777392937440306,
	"step": 17408
	},
	{
	"epoch": 0.8040275275968778,
	"eval_cos_loss": 0.23344004797200635,
	"eval_loss": 0.7905207032754541,
	"eval_mse_loss": 0.7905207032754541,
	"eval_runtime": 37.5059,
	"eval_samples_per_second": 746.363,
	"eval_steps_per_second": 11.678,
	"flow/cos_sim": 0.7665599775096598,
	"flow/improvement_ratio": 0.48091149343747525,
	"flow/mag_ratio_mean": 0.7604631242686755,
	"flow/mag_ratio_std": 0.1777392937440306,
	"step": 17408
	},
	{
	"epoch": 0.8158514618262436,
	"grad_norm": 0.41079503297805786,
	"learning_rate": 8.548444561077174e-05,
	"loss": 0.831270694732666,
	"step": 17664
	},
	{
	"epoch": 0.8276753960556095,
	"grad_norm": 0.20108859241008759,
	"learning_rate": 7.514935517023558e-05,
	"loss": 0.8281430006027222,
	"step": 17920
	},
	{
	"epoch": 0.8394993302849753,
	"grad_norm": 0.22395165264606476,
	"learning_rate": 6.542915085548828e-05,
	"loss": 0.8286972045898438,
	"step": 18176
	},
	{
	"epoch": 0.8513232645143411,
	"grad_norm": 0.12410369515419006,
	"learning_rate": 5.6337900713373745e-05,
	"loss": 0.828626275062561,
	"step": 18432
	},
	{
	"epoch": 0.8513232645143411,
	"eval_cos_loss": 0.23364517943227672,
	"eval_loss": 0.7902474757198874,
	"eval_mse_loss": 0.7902474757198874,
	"flow/cos_sim": 0.7663548270316973,
	"flow/improvement_ratio": 0.4790440064655047,
	"flow/mag_ratio_mean": 0.7584420379982691,
	"flow/mag_ratio_std": 0.17626052373620474,
	"step": 18432
	},
	{
	"epoch": 0.8513232645143411,
	"eval_cos_loss": 0.23364517943227672,
	"eval_loss": 0.7902474757198874,
	"eval_mse_loss": 0.7902474757198874,
	"eval_runtime": 37.4969,
	"eval_samples_per_second": 746.541,
	"eval_steps_per_second": 11.681,
	"flow/cos_sim": 0.7663548270316973,
	"flow/improvement_ratio": 0.4790440064655047,
	"flow/mag_ratio_mean": 0.7584420379982691,
	"flow/mag_ratio_std": 0.17626052373620474,
	"step": 18432
	},
	{
	"epoch": 0.8631471987437069,
	"grad_norm": 0.15060371160507202,
	"learning_rate": 4.78887625056757e-05,
	"loss": 0.8286436796188354,
	"step": 18688
	},
	{
	"epoch": 0.8749711329730728,
	"grad_norm": 0.1537846028804779,
	"learning_rate": 4.012312516433581e-05,
	"loss": 0.8254930377006531,
	"step": 18944
	},
	{
	"epoch": 0.8867950672024387,
	"grad_norm": 0.4253118336200714,
	"learning_rate": 3.2991328308497545e-05,
	"loss": 0.8294442296028137,
	"step": 19200
	},
	{
	"epoch": 0.8986190014318045,
	"grad_norm": 0.17603912949562073,
	"learning_rate": 2.653543286964183e-05,
	"loss": 0.8307968378067017,
	"step": 19456
	},
	{
	"epoch": 0.8986190014318045,
	"eval_cos_loss": 0.2343874951679957,
	"eval_loss": 0.7920145923144197,
	"eval_mse_loss": 0.7920145923144197,
	"flow/cos_sim": 0.7656125166372622,
	"flow/improvement_ratio": 0.4853253698648383,
	"flow/mag_ratio_mean": 0.7600582418920787,
	"flow/mag_ratio_std": 0.17680819529920952,
	"step": 19456
	},
	{
	"epoch": 0.8986190014318045,
	"eval_cos_loss": 0.2343874951679957,
	"eval_loss": 0.7920145923144197,
	"eval_mse_loss": 0.7920145923144197,
	"eval_runtime": 37.6789,
	"eval_samples_per_second": 742.935,
	"eval_steps_per_second": 11.625,
	"flow/cos_sim": 0.7656125166372622,
	"flow/improvement_ratio": 0.4853253698648383,
	"flow/mag_ratio_mean": 0.7600582418920787,
	"flow/mag_ratio_std": 0.17680819529920952,
	"step": 19456
	},
	{
	"epoch": 0.9104429356611704,
	"grad_norm": 0.13290032744407654,
	"learning_rate": 2.076478246200819e-05,
	"loss": 0.8278121948242188,
	"step": 19712
	},
	{
	"epoch": 0.9222668698905362,
	"grad_norm": 0.20168907940387726,
	"learning_rate": 1.5687728945045944e-05,
	"loss": 0.8273869156837463,
	"step": 19968
	},
	{
	"epoch": 0.9340908041199021,
	"grad_norm": 0.20389237999916077,
	"learning_rate": 1.1311620335770879e-05,
	"loss": 0.831144392490387,
	"step": 20224
	},
	{
	"epoch": 0.945914738349268,
	"grad_norm": 0.26355621218681335,
	"learning_rate": 7.642790173984836e-06,
	"loss": 0.8322795629501343,
	"step": 20480
	},
	{
	"epoch": 0.945914738349268,
	"eval_cos_loss": 0.23226006676072944,
	"eval_loss": 0.7871269678960652,
	"eval_mse_loss": 0.7871269678960652,
	"flow/cos_sim": 0.7677399510662305,
	"flow/improvement_ratio": 0.4782098607249456,
	"flow/mag_ratio_mean": 0.76152302032192,
	"flow/mag_ratio_std": 0.1765111445632155,
	"step": 20480
	},
	{
	"epoch": 0.945914738349268,
	"eval_cos_loss": 0.23226006676072944,
	"eval_loss": 0.7871269678960652,
	"eval_mse_loss": 0.7871269678960652,
	"eval_runtime": 37.4829,
	"eval_samples_per_second": 746.822,
	"eval_steps_per_second": 11.685,
	"flow/cos_sim": 0.7677399510662305,
	"flow/improvement_ratio": 0.4782098607249456,
	"flow/mag_ratio_mean": 0.76152302032192,
	"flow/mag_ratio_std": 0.1765111445632155,
	"step": 20480
	},
	{
	"epoch": 0.9577386725786338,
	"grad_norm": 0.35688987374305725,
	"learning_rate": 4.686548355746001e-06,
	"loss": 0.8279744386672974,
	"step": 20736
	},
	{
	"epoch": 0.9695626068079997,
	"grad_norm": 0.15006007254123688,
	"learning_rate": 2.447173448359541e-06,
	"loss": 0.8288099765777588,
	"step": 20992
	},
	{
	"epoch": 0.9813865410373654,
	"grad_norm": 0.13515928387641907,
	"learning_rate": 9.324369820445933e-07,
	"loss": 0.8292235136032104,
	"step": 21248
	},
	{
	"epoch": 0.9932104752667313,
	"grad_norm": 0.19579511880874634,
	"learning_rate": 1.3265238678672464e-07,
	"loss": 0.8291770219802856,
	"step": 21504
	},
	{
	"epoch": 0.9932104752667313,
	"eval_cos_loss": 0.23236965187336212,
	"eval_loss": 0.7870777566411179,
	"eval_mse_loss": 0.7870777566411179,
	"flow/cos_sim": 0.7676303687433129,
	"flow/improvement_ratio": 0.48667068133071134,
	"flow/mag_ratio_mean": 0.7602007927959913,
	"flow/mag_ratio_std": 0.17566703702216824,
	"step": 21504
	},
	{
	"epoch": 0.9932104752667313,
	"eval_cos_loss": 0.23236965187336212,
	"eval_loss": 0.7870777566411179,
	"eval_mse_loss": 0.7870777566411179,
	"eval_runtime": 37.3306,
	"eval_samples_per_second": 749.867,
	"eval_steps_per_second": 11.733,
	"flow/cos_sim": 0.7676303687433129,
	"flow/improvement_ratio": 0.48667068133071134,
	"flow/mag_ratio_mean": 0.7602007927959913,
	"flow/mag_ratio_std": 0.17566703702216824,
	"step": 21504
	}
	],
	"logging_steps": 256,
	"max_steps": 21651,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 1024,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 0.0,
	"train_batch_size": 64,
	"trial_name": null,
	"trial_params": null
	}