ModernMolBERT-small / trainer_state.json

Upload trained ModernMolBERT checkpoint

d734b00 verified 30 days ago

57.8 kB

	{
	"best_global_step": 30000,
	"best_metric": 0.37694016098976135,
	"best_model_checkpoint": "runs/chembl36_small_mask_mlm_lr_sweep/mask_standard__mlm_0p15__lr_4e-4/checkpoint-30000",
	"epoch": 3.066,
	"eval_steps": 5000,
	"global_step": 30000,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0033333333333333335,
	"grad_norm": 2.7403433322906494,
	"learning_rate": 2.64e-05,
	"loss": 5.425458984375,
	"step": 100
	},
	{
	"epoch": 0.006666666666666667,
	"grad_norm": 4.65195894241333,
	"learning_rate": 5.3066666666666665e-05,
	"loss": 3.9814361572265624,
	"step": 200
	},
	{
	"epoch": 0.01,
	"grad_norm": 2.9648351669311523,
	"learning_rate": 7.973333333333334e-05,
	"loss": 2.9717633056640627,
	"step": 300
	},
	{
	"epoch": 0.013333333333333334,
	"grad_norm": 2.79247784614563,
	"learning_rate": 0.00010640000000000001,
	"loss": 2.318418426513672,
	"step": 400
	},
	{
	"epoch": 0.016666666666666666,
	"grad_norm": 2.95702862739563,
	"learning_rate": 0.00013306666666666668,
	"loss": 2.012203826904297,
	"step": 500
	},
	{
	"epoch": 0.02,
	"grad_norm": 2.464130401611328,
	"learning_rate": 0.00015973333333333333,
	"loss": 1.8253421020507812,
	"step": 600
	},
	{
	"epoch": 0.023333333333333334,
	"grad_norm": 2.5683345794677734,
	"learning_rate": 0.00018640000000000003,
	"loss": 1.7040005493164063,
	"step": 700
	},
	{
	"epoch": 0.02666666666666667,
	"grad_norm": 2.7064743041992188,
	"learning_rate": 0.00021306666666666665,
	"loss": 1.5912832641601562,
	"step": 800
	},
	{
	"epoch": 0.03,
	"grad_norm": 1.7914412021636963,
	"learning_rate": 0.00023973333333333338,
	"loss": 1.532608184814453,
	"step": 900
	},
	{
	"epoch": 0.03333333333333333,
	"grad_norm": 2.02378511428833,
	"learning_rate": 0.0002664,
	"loss": 1.4479930114746093,
	"step": 1000
	},
	{
	"epoch": 0.03666666666666667,
	"grad_norm": 1.8761825561523438,
	"learning_rate": 0.00029306666666666667,
	"loss": 1.4139170837402344,
	"step": 1100
	},
	{
	"epoch": 0.04,
	"grad_norm": 1.751976490020752,
	"learning_rate": 0.00031973333333333337,
	"loss": 1.3751948547363282,
	"step": 1200
	},
	{
	"epoch": 0.043333333333333335,
	"grad_norm": 1.8251773118972778,
	"learning_rate": 0.0003464,
	"loss": 1.3400251770019531,
	"step": 1300
	},
	{
	"epoch": 0.04666666666666667,
	"grad_norm": 1.5843342542648315,
	"learning_rate": 0.00037306666666666666,
	"loss": 1.327974853515625,
	"step": 1400
	},
	{
	"epoch": 0.05,
	"grad_norm": 1.5720994472503662,
	"learning_rate": 0.00039973333333333336,
	"loss": 1.2728753662109376,
	"step": 1500
	},
	{
	"epoch": 0.05333333333333334,
	"grad_norm": 1.2932488918304443,
	"learning_rate": 0.0003999880909778094,
	"loss": 1.259843521118164,
	"step": 1600
	},
	{
	"epoch": 0.056666666666666664,
	"grad_norm": 1.4394837617874146,
	"learning_rate": 0.00039995188297549443,
	"loss": 1.2250770568847655,
	"step": 1700
	},
	{
	"epoch": 0.06,
	"grad_norm": 1.3632104396820068,
	"learning_rate": 0.0003998913791775301,
	"loss": 1.1869202423095704,
	"step": 1800
	},
	{
	"epoch": 0.06333333333333334,
	"grad_norm": 1.4223003387451172,
	"learning_rate": 0.000399806586935625,
	"loss": 1.1602543640136718,
	"step": 1900
	},
	{
	"epoch": 0.06666666666666667,
	"grad_norm": 1.3835265636444092,
	"learning_rate": 0.00039969751655273246,
	"loss": 1.1331352233886718,
	"step": 2000
	},
	{
	"epoch": 0.07,
	"grad_norm": 1.4172451496124268,
	"learning_rate": 0.0003995641812817998,
	"loss": 1.1115520477294922,
	"step": 2100
	},
	{
	"epoch": 0.07333333333333333,
	"grad_norm": 1.2611116170883179,
	"learning_rate": 0.00039940659732415714,
	"loss": 1.0953889465332032,
	"step": 2200
	},
	{
	"epoch": 0.07666666666666666,
	"grad_norm": 1.4010944366455078,
	"learning_rate": 0.00039922478382754947,
	"loss": 1.0633756256103515,
	"step": 2300
	},
	{
	"epoch": 0.08,
	"grad_norm": 1.277366280555725,
	"learning_rate": 0.00039901876288380946,
	"loss": 1.0482559967041016,
	"step": 2400
	},
	{
	"epoch": 0.08333333333333333,
	"grad_norm": 1.1845537424087524,
	"learning_rate": 0.00039878855952617357,
	"loss": 1.0299220275878906,
	"step": 2500
	},
	{
	"epoch": 0.08666666666666667,
	"grad_norm": 1.1772642135620117,
	"learning_rate": 0.00039853420172623985,
	"loss": 1.0119639587402345,
	"step": 2600
	},
	{
	"epoch": 0.09,
	"grad_norm": 1.241080641746521,
	"learning_rate": 0.00039825572039056976,
	"loss": 0.9945954895019531,
	"step": 2700
	},
	{
	"epoch": 0.09333333333333334,
	"grad_norm": 1.1556016206741333,
	"learning_rate": 0.0003979531493569322,
	"loss": 0.9795339965820312,
	"step": 2800
	},
	{
	"epoch": 0.09666666666666666,
	"grad_norm": 1.1028602123260498,
	"learning_rate": 0.0003976265253901924,
	"loss": 0.9684971618652344,
	"step": 2900
	},
	{
	"epoch": 0.1,
	"grad_norm": 1.3073146343231201,
	"learning_rate": 0.00039727588817784414,
	"loss": 0.9519919586181641,
	"step": 3000
	},
	{
	"epoch": 0.10333333333333333,
	"grad_norm": 1.224905252456665,
	"learning_rate": 0.000396901280325188,
	"loss": 0.9399765777587891,
	"step": 3100
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 1.0792871713638306,
	"learning_rate": 0.0003965027473501541,
	"loss": 0.9271878814697265,
	"step": 3200
	},
	{
	"epoch": 0.11,
	"grad_norm": 1.077876329421997,
	"learning_rate": 0.0003960803376777714,
	"loss": 0.9128645324707031,
	"step": 3300
	},
	{
	"epoch": 0.11333333333333333,
	"grad_norm": 1.1184345483779907,
	"learning_rate": 0.0003956341026342837,
	"loss": 0.9120386505126953,
	"step": 3400
	},
	{
	"epoch": 0.11666666666666667,
	"grad_norm": 1.1383893489837646,
	"learning_rate": 0.0003951640964409127,
	"loss": 0.9151699829101563,
	"step": 3500
	},
	{
	"epoch": 0.12,
	"grad_norm": 1.12523353099823,
	"learning_rate": 0.0003946703762072706,
	"loss": 0.8922748565673828,
	"step": 3600
	},
	{
	"epoch": 0.12333333333333334,
	"grad_norm": 1.0355699062347412,
	"learning_rate": 0.0003941530019244196,
	"loss": 0.8890122222900391,
	"step": 3700
	},
	{
	"epoch": 0.12666666666666668,
	"grad_norm": 1.0852240324020386,
	"learning_rate": 0.00039361203645758364,
	"loss": 0.8781277465820313,
	"step": 3800
	},
	{
	"epoch": 0.13,
	"grad_norm": 1.0739648342132568,
	"learning_rate": 0.00039304754553850873,
	"loss": 0.8778704833984375,
	"step": 3900
	},
	{
	"epoch": 0.13333333333333333,
	"grad_norm": 1.0522024631500244,
	"learning_rate": 0.0003924595977574769,
	"loss": 0.8774790954589844,
	"step": 4000
	},
	{
	"epoch": 0.13666666666666666,
	"grad_norm": 1.0717562437057495,
	"learning_rate": 0.00039184826455497133,
	"loss": 0.8516897583007812,
	"step": 4100
	},
	{
	"epoch": 0.14,
	"grad_norm": 1.0378234386444092,
	"learning_rate": 0.00039121362021299604,
	"loss": 0.8448622894287109,
	"step": 4200
	},
	{
	"epoch": 0.14333333333333334,
	"grad_norm": 1.0532786846160889,
	"learning_rate": 0.00039055574184604976,
	"loss": 0.8344584655761719,
	"step": 4300
	},
	{
	"epoch": 0.14666666666666667,
	"grad_norm": 1.021437644958496,
	"learning_rate": 0.0003898747093917561,
	"loss": 0.8287362670898437,
	"step": 4400
	},
	{
	"epoch": 0.15,
	"grad_norm": 0.9874396920204163,
	"learning_rate": 0.0003891706056011505,
	"loss": 0.8258264923095703,
	"step": 4500
	},
	{
	"epoch": 0.15333333333333332,
	"grad_norm": 0.9322711825370789,
	"learning_rate": 0.0003884435160286251,
	"loss": 0.816080322265625,
	"step": 4600
	},
	{
	"epoch": 0.15666666666666668,
	"grad_norm": 0.9402130842208862,
	"learning_rate": 0.00038769352902153333,
	"loss": 0.8135909271240235,
	"step": 4700
	},
	{
	"epoch": 0.16,
	"grad_norm": 1.0193718671798706,
	"learning_rate": 0.00038692073570945496,
	"loss": 0.817694091796875,
	"step": 4800
	},
	{
	"epoch": 0.16333333333333333,
	"grad_norm": 0.9926565289497375,
	"learning_rate": 0.000386125229993123,
	"loss": 0.7987307739257813,
	"step": 4900
	},
	{
	"epoch": 0.16666666666666666,
	"grad_norm": 0.9364326596260071,
	"learning_rate": 0.0003853071085330141,
	"loss": 0.8007232666015625,
	"step": 5000
	},
	{
	"epoch": 0.16666666666666666,
	"eval_loss": 0.7967580556869507,
	"eval_masked_accuracy": 0.7653559496273451,
	"eval_runtime": 2.5634,
	"eval_samples_per_second": 1597.853,
	"eval_steps_per_second": 6.242,
	"step": 5000
	},
	{
	"epoch": 0.17,
	"grad_norm": 0.9981640577316284,
	"learning_rate": 0.0003844664707376037,
	"loss": 0.7831909942626953,
	"step": 5100
	},
	{
	"epoch": 0.17333333333333334,
	"grad_norm": 0.935793936252594,
	"learning_rate": 0.00038360341875128646,
	"loss": 0.7719477081298828,
	"step": 5200
	},
	{
	"epoch": 0.17666666666666667,
	"grad_norm": 0.9942166805267334,
	"learning_rate": 0.0003827180574419656,
	"loss": 0.7788728332519531,
	"step": 5300
	},
	{
	"epoch": 0.18,
	"grad_norm": 0.921302318572998,
	"learning_rate": 0.00038181049438831024,
	"loss": 0.7685958099365234,
	"step": 5400
	},
	{
	"epoch": 0.18333333333333332,
	"grad_norm": 0.8787013292312622,
	"learning_rate": 0.0003808808398666837,
	"loss": 0.7563288116455078,
	"step": 5500
	},
	{
	"epoch": 0.18666666666666668,
	"grad_norm": 0.8968636989593506,
	"learning_rate": 0.00037992920683774386,
	"loss": 0.7474672698974609,
	"step": 5600
	},
	{
	"epoch": 0.19,
	"grad_norm": 0.9104163646697998,
	"learning_rate": 0.00037895571093271807,
	"loss": 0.7457213592529297,
	"step": 5700
	},
	{
	"epoch": 0.19333333333333333,
	"grad_norm": 0.8929153680801392,
	"learning_rate": 0.00037796047043935234,
	"loss": 0.7423068237304687,
	"step": 5800
	},
	{
	"epoch": 0.19666666666666666,
	"grad_norm": 0.9810736775398254,
	"learning_rate": 0.00037694360628753897,
	"loss": 0.7346783447265625,
	"step": 5900
	},
	{
	"epoch": 0.2,
	"grad_norm": 0.931078314781189,
	"learning_rate": 0.00037590524203462216,
	"loss": 0.7334535217285156,
	"step": 6000
	},
	{
	"epoch": 0.20333333333333334,
	"grad_norm": 1.019803524017334,
	"learning_rate": 0.0003748455038503849,
	"loss": 0.7276763916015625,
	"step": 6100
	},
	{
	"epoch": 0.20666666666666667,
	"grad_norm": 0.9782306551933289,
	"learning_rate": 0.0003737645205017185,
	"loss": 0.7344593048095703,
	"step": 6200
	},
	{
	"epoch": 0.21,
	"grad_norm": 0.9293437004089355,
	"learning_rate": 0.0003726624233369761,
	"loss": 0.7246415710449219,
	"step": 6300
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 0.8795522451400757,
	"learning_rate": 0.0003715393462700129,
	"loss": 0.7216864776611328,
	"step": 6400
	},
	{
	"epoch": 0.21666666666666667,
	"grad_norm": 0.9632502198219299,
	"learning_rate": 0.00037039542576391445,
	"loss": 0.7085445404052735,
	"step": 6500
	},
	{
	"epoch": 0.22,
	"grad_norm": 0.8495221138000488,
	"learning_rate": 0.0003692308008144153,
	"loss": 0.7115458679199219,
	"step": 6600
	},
	{
	"epoch": 0.22333333333333333,
	"grad_norm": 0.8541926741600037,
	"learning_rate": 0.0003680456129330099,
	"loss": 0.6990865325927734,
	"step": 6700
	},
	{
	"epoch": 0.22666666666666666,
	"grad_norm": 0.8344811201095581,
	"learning_rate": 0.0003668400061297579,
	"loss": 0.6993592071533203,
	"step": 6800
	},
	{
	"epoch": 0.23,
	"grad_norm": 0.8975337147712708,
	"learning_rate": 0.00036561412689578544,
	"loss": 0.6972901153564454,
	"step": 6900
	},
	{
	"epoch": 0.23333333333333334,
	"grad_norm": 0.8364660143852234,
	"learning_rate": 0.00036436812418548547,
	"loss": 0.6967823791503907,
	"step": 7000
	},
	{
	"epoch": 0.23666666666666666,
	"grad_norm": 0.8676795363426208,
	"learning_rate": 0.00036310214939841873,
	"loss": 0.6893701934814453,
	"step": 7100
	},
	{
	"epoch": 0.24,
	"grad_norm": 0.8879637718200684,
	"learning_rate": 0.0003618163563609171,
	"loss": 0.6855775451660157,
	"step": 7200
	},
	{
	"epoch": 0.24333333333333335,
	"grad_norm": 0.9070082306861877,
	"learning_rate": 0.00036051090130739274,
	"loss": 0.6840663146972656,
	"step": 7300
	},
	{
	"epoch": 0.24666666666666667,
	"grad_norm": 0.8394324779510498,
	"learning_rate": 0.0003591859428613541,
	"loss": 0.6798997497558594,
	"step": 7400
	},
	{
	"epoch": 0.25,
	"grad_norm": 0.8838658332824707,
	"learning_rate": 0.000357841642016132,
	"loss": 0.6784028625488281,
	"step": 7500
	},
	{
	"epoch": 0.25333333333333335,
	"grad_norm": 0.8179841041564941,
	"learning_rate": 0.0003564781621153176,
	"loss": 0.6701314544677734,
	"step": 7600
	},
	{
	"epoch": 0.25666666666666665,
	"grad_norm": 0.8342909812927246,
	"learning_rate": 0.000355095668832915,
	"loss": 0.6615406799316407,
	"step": 7700
	},
	{
	"epoch": 0.26,
	"grad_norm": 0.8877819180488586,
	"learning_rate": 0.00035369433015320983,
	"loss": 0.6670161437988281,
	"step": 7800
	},
	{
	"epoch": 0.2633333333333333,
	"grad_norm": 0.9063718914985657,
	"learning_rate": 0.0003522743163503587,
	"loss": 0.6525628662109375,
	"step": 7900
	},
	{
	"epoch": 0.26666666666666666,
	"grad_norm": 0.8738296627998352,
	"learning_rate": 0.00035083579996769866,
	"loss": 0.6613227081298828,
	"step": 8000
	},
	{
	"epoch": 0.27,
	"grad_norm": 0.9108850359916687,
	"learning_rate": 0.00034937895579678256,
	"loss": 0.6542455291748047,
	"step": 8100
	},
	{
	"epoch": 0.2733333333333333,
	"grad_norm": 0.7989206314086914,
	"learning_rate": 0.00034790396085613955,
	"loss": 0.6540352630615235,
	"step": 8200
	},
	{
	"epoch": 0.27666666666666667,
	"grad_norm": 0.8691635727882385,
	"learning_rate": 0.0003464109943697667,
	"loss": 0.6410691070556641,
	"step": 8300
	},
	{
	"epoch": 0.28,
	"grad_norm": 0.8667342066764832,
	"learning_rate": 0.0003449002377453512,
	"loss": 0.6395606994628906,
	"step": 8400
	},
	{
	"epoch": 0.2833333333333333,
	"grad_norm": 0.7986162900924683,
	"learning_rate": 0.00034337187455222835,
	"loss": 0.6376551055908203,
	"step": 8500
	},
	{
	"epoch": 0.2866666666666667,
	"grad_norm": 0.9031108617782593,
	"learning_rate": 0.0003418260904990759,
	"loss": 0.6303312683105469,
	"step": 8600
	},
	{
	"epoch": 0.29,
	"grad_norm": 0.8435996174812317,
	"learning_rate": 0.0003402630734113492,
	"loss": 0.6225329971313477,
	"step": 8700
	},
	{
	"epoch": 0.29333333333333333,
	"grad_norm": 0.9413688778877258,
	"learning_rate": 0.00033868301320845895,
	"loss": 0.6248882293701172,
	"step": 8800
	},
	{
	"epoch": 0.2966666666666667,
	"grad_norm": 0.7998372316360474,
	"learning_rate": 0.000337086101880694,
	"loss": 0.6171749496459961,
	"step": 8900
	},
	{
	"epoch": 0.3,
	"grad_norm": 0.8585835099220276,
	"learning_rate": 0.00033547253346589355,
	"loss": 0.6206340789794922,
	"step": 9000
	},
	{
	"epoch": 0.30333333333333334,
	"grad_norm": 0.8483954071998596,
	"learning_rate": 0.00033384250402586954,
	"loss": 0.6195469665527343,
	"step": 9100
	},
	{
	"epoch": 0.30666666666666664,
	"grad_norm": 0.9016720056533813,
	"learning_rate": 0.00033219621162258343,
	"loss": 0.6200881958007812,
	"step": 9200
	},
	{
	"epoch": 0.31,
	"grad_norm": 0.829871416091919,
	"learning_rate": 0.0003305338562940807,
	"loss": 0.6127318954467773,
	"step": 9300
	},
	{
	"epoch": 1.002,
	"grad_norm": 0.9081104397773743,
	"learning_rate": 0.0003288556400301836,
	"loss": 0.603317756652832,
	"step": 9400
	},
	{
	"epoch": 1.0053333333333334,
	"grad_norm": 0.8421012759208679,
	"learning_rate": 0.00032716176674794884,
	"loss": 0.5797752380371094,
	"step": 9500
	},
	{
	"epoch": 1.0086666666666666,
	"grad_norm": 0.8119559288024902,
	"learning_rate": 0.0003254524422668889,
	"loss": 0.5843183898925781,
	"step": 9600
	},
	{
	"epoch": 1.012,
	"grad_norm": 0.8360543847084045,
	"learning_rate": 0.00032372787428396423,
	"loss": 0.5793385696411133,
	"step": 9700
	},
	{
	"epoch": 1.0153333333333334,
	"grad_norm": 0.780649721622467,
	"learning_rate": 0.0003219882723483456,
	"loss": 0.5682408142089844,
	"step": 9800
	},
	{
	"epoch": 1.0186666666666666,
	"grad_norm": 0.7468474507331848,
	"learning_rate": 0.00032023384783595255,
	"loss": 0.5659066772460938,
	"step": 9900
	},
	{
	"epoch": 1.022,
	"grad_norm": 0.8460882902145386,
	"learning_rate": 0.00031846481392376966,
	"loss": 0.5553397369384766,
	"step": 10000
	},
	{
	"epoch": 1.022,
	"eval_loss": 0.5976771116256714,
	"eval_masked_accuracy": 0.8167562724014337,
	"eval_runtime": 2.8203,
	"eval_samples_per_second": 1452.351,
	"eval_steps_per_second": 5.673,
	"step": 10000
	},
	{
	"epoch": 1.0253333333333334,
	"grad_norm": 0.7821327447891235,
	"learning_rate": 0.00031668138556394316,
	"loss": 0.5550868606567383,
	"step": 10100
	},
	{
	"epoch": 1.0286666666666666,
	"grad_norm": 1.0433557033538818,
	"learning_rate": 0.00031488377945766314,
	"loss": 0.5548404312133789,
	"step": 10200
	},
	{
	"epoch": 1.032,
	"grad_norm": 0.8580315113067627,
	"learning_rate": 0.00031307221402883227,
	"loss": 0.5406364440917969,
	"step": 10300
	},
	{
	"epoch": 1.0353333333333334,
	"grad_norm": 0.8950467705726624,
	"learning_rate": 0.00031124690939752543,
	"loss": 0.533514404296875,
	"step": 10400
	},
	{
	"epoch": 1.0386666666666666,
	"grad_norm": 0.7847508192062378,
	"learning_rate": 0.0003094080873532434,
	"loss": 0.538754539489746,
	"step": 10500
	},
	{
	"epoch": 1.042,
	"grad_norm": 0.868969738483429,
	"learning_rate": 0.00030755597132796385,
	"loss": 0.5428607177734375,
	"step": 10600
	},
	{
	"epoch": 1.0453333333333332,
	"grad_norm": 0.7972626090049744,
	"learning_rate": 0.0003056907863689921,
	"loss": 0.5347858810424805,
	"step": 10700
	},
	{
	"epoch": 1.0486666666666666,
	"grad_norm": 0.763969361782074,
	"learning_rate": 0.0003038127591116163,
	"loss": 0.532847785949707,
	"step": 10800
	},
	{
	"epoch": 1.052,
	"grad_norm": 0.7701809406280518,
	"learning_rate": 0.0003019221177515692,
	"loss": 0.5308395767211914,
	"step": 10900
	},
	{
	"epoch": 1.0553333333333332,
	"grad_norm": 0.8959071636199951,
	"learning_rate": 0.0003000190920173008,
	"loss": 0.5308527374267578,
	"step": 11000
	},
	{
	"epoch": 1.0586666666666666,
	"grad_norm": 1.0272624492645264,
	"learning_rate": 0.00029810391314206416,
	"loss": 0.5359263992309571,
	"step": 11100
	},
	{
	"epoch": 1.062,
	"grad_norm": 0.8793138861656189,
	"learning_rate": 0.00029617681383581866,
	"loss": 0.5368635559082031,
	"step": 11200
	},
	{
	"epoch": 1.0653333333333332,
	"grad_norm": 0.9605848789215088,
	"learning_rate": 0.0002942380282569541,
	"loss": 0.5313293838500976,
	"step": 11300
	},
	{
	"epoch": 1.0686666666666667,
	"grad_norm": 0.8334460258483887,
	"learning_rate": 0.00029228779198383834,
	"loss": 0.5360410690307618,
	"step": 11400
	},
	{
	"epoch": 1.072,
	"grad_norm": 0.8171955347061157,
	"learning_rate": 0.0002903263419861924,
	"loss": 0.5353861999511719,
	"step": 11500
	},
	{
	"epoch": 1.0753333333333333,
	"grad_norm": 0.8680943250656128,
	"learning_rate": 0.0002883539165962972,
	"loss": 0.5278213119506836,
	"step": 11600
	},
	{
	"epoch": 1.0786666666666667,
	"grad_norm": 0.9106718897819519,
	"learning_rate": 0.0002863707554800338,
	"loss": 0.5310506439208984,
	"step": 11700
	},
	{
	"epoch": 1.082,
	"grad_norm": 0.9140894412994385,
	"learning_rate": 0.00028437709960776224,
	"loss": 0.5164321899414063,
	"step": 11800
	},
	{
	"epoch": 1.0853333333333333,
	"grad_norm": 0.790691077709198,
	"learning_rate": 0.0002823731912250414,
	"loss": 0.5228651428222656,
	"step": 11900
	},
	{
	"epoch": 1.0886666666666667,
	"grad_norm": 0.757777988910675,
	"learning_rate": 0.0002803592738231946,
	"loss": 0.5215324401855469,
	"step": 12000
	},
	{
	"epoch": 1.092,
	"grad_norm": 0.8369808793067932,
	"learning_rate": 0.00027833559210972307,
	"loss": 0.5239771270751953,
	"step": 12100
	},
	{
	"epoch": 1.0953333333333333,
	"grad_norm": 0.8947746157646179,
	"learning_rate": 0.000276302391978572,
	"loss": 0.5179909896850586,
	"step": 12200
	},
	{
	"epoch": 1.0986666666666667,
	"grad_norm": 0.9140170812606812,
	"learning_rate": 0.00027425992048025273,
	"loss": 0.5237076568603516,
	"step": 12300
	},
	{
	"epoch": 1.102,
	"grad_norm": 0.8575257062911987,
	"learning_rate": 0.00027220842579182353,
	"loss": 0.5152669525146485,
	"step": 12400
	},
	{
	"epoch": 1.1053333333333333,
	"grad_norm": 0.7598596215248108,
	"learning_rate": 0.0002701481571867345,
	"loss": 0.5134631729125977,
	"step": 12500
	},
	{
	"epoch": 1.1086666666666667,
	"grad_norm": 0.8437865972518921,
	"learning_rate": 0.0002680793650045388,
	"loss": 0.5225432586669921,
	"step": 12600
	},
	{
	"epoch": 1.112,
	"grad_norm": 0.7969825863838196,
	"learning_rate": 0.00026600230062047393,
	"loss": 0.5257926177978516,
	"step": 12700
	},
	{
	"epoch": 1.1153333333333333,
	"grad_norm": 0.8563022613525391,
	"learning_rate": 0.00026391721641491817,
	"loss": 0.5251951217651367,
	"step": 12800
	},
	{
	"epoch": 1.1186666666666667,
	"grad_norm": 0.708271861076355,
	"learning_rate": 0.0002618243657427236,
	"loss": 0.5297073745727539,
	"step": 12900
	},
	{
	"epoch": 1.1219999999999999,
	"grad_norm": 0.7699816823005676,
	"learning_rate": 0.00025972400290243195,
	"loss": 0.5333083724975586,
	"step": 13000
	},
	{
	"epoch": 1.1253333333333333,
	"grad_norm": 0.8275418877601624,
	"learning_rate": 0.0002576163831053752,
	"loss": 0.5334249114990235,
	"step": 13100
	},
	{
	"epoch": 1.1286666666666667,
	"grad_norm": 0.83842533826828,
	"learning_rate": 0.00025550176244466485,
	"loss": 0.5315378189086915,
	"step": 13200
	},
	{
	"epoch": 1.1320000000000001,
	"grad_norm": 0.8859015703201294,
	"learning_rate": 0.00025338039786407517,
	"loss": 0.5462711715698242,
	"step": 13300
	},
	{
	"epoch": 1.1353333333333333,
	"grad_norm": 0.7318875193595886,
	"learning_rate": 0.0002512525471268217,
	"loss": 0.5278379440307617,
	"step": 13400
	},
	{
	"epoch": 1.1386666666666667,
	"grad_norm": 0.7980539798736572,
	"learning_rate": 0.00024911846878424156,
	"loss": 0.5409846115112305,
	"step": 13500
	},
	{
	"epoch": 1.142,
	"grad_norm": 0.8805834650993347,
	"learning_rate": 0.00024697842214437704,
	"loss": 0.538138427734375,
	"step": 13600
	},
	{
	"epoch": 1.1453333333333333,
	"grad_norm": 0.8037357330322266,
	"learning_rate": 0.00024483266724046736,
	"loss": 0.528113784790039,
	"step": 13700
	},
	{
	"epoch": 1.1486666666666667,
	"grad_norm": 0.8429805636405945,
	"learning_rate": 0.00024268146479935286,
	"loss": 0.5357782363891601,
	"step": 13800
	},
	{
	"epoch": 1.152,
	"grad_norm": 0.876872181892395,
	"learning_rate": 0.0002405250762097943,
	"loss": 0.5338603591918946,
	"step": 13900
	},
	{
	"epoch": 1.1553333333333333,
	"grad_norm": 0.798278272151947,
	"learning_rate": 0.00023836376349071215,
	"loss": 0.5351076889038086,
	"step": 14000
	},
	{
	"epoch": 1.1586666666666667,
	"grad_norm": 0.8131340742111206,
	"learning_rate": 0.00023619778925934893,
	"loss": 0.5315785598754883,
	"step": 14100
	},
	{
	"epoch": 1.162,
	"grad_norm": 0.8453519940376282,
	"learning_rate": 0.00023402741669935933,
	"loss": 0.5312258911132812,
	"step": 14200
	},
	{
	"epoch": 1.1653333333333333,
	"grad_norm": 0.7479920387268066,
	"learning_rate": 0.00023185290952883097,
	"loss": 0.5305691909790039,
	"step": 14300
	},
	{
	"epoch": 1.1686666666666667,
	"grad_norm": 0.7968600392341614,
	"learning_rate": 0.00022967453196824056,
	"loss": 0.5351016998291016,
	"step": 14400
	},
	{
	"epoch": 1.172,
	"grad_norm": 0.7319141030311584,
	"learning_rate": 0.0002274925487083491,
	"loss": 0.523140754699707,
	"step": 14500
	},
	{
	"epoch": 1.1753333333333333,
	"grad_norm": 0.7255148887634277,
	"learning_rate": 0.00022530722487803967,
	"loss": 0.5274886322021485,
	"step": 14600
	},
	{
	"epoch": 1.1786666666666668,
	"grad_norm": 0.8094624876976013,
	"learning_rate": 0.000223118826012102,
	"loss": 0.5305857467651367,
	"step": 14700
	},
	{
	"epoch": 1.182,
	"grad_norm": 0.7611061930656433,
	"learning_rate": 0.0002209276180189679,
	"loss": 0.5199204635620117,
	"step": 14800
	},
	{
	"epoch": 1.1853333333333333,
	"grad_norm": 0.7731903195381165,
	"learning_rate": 0.00021873386714840122,
	"loss": 0.5233501434326172,
	"step": 14900
	},
	{
	"epoch": 1.1886666666666668,
	"grad_norm": 0.802269697189331,
	"learning_rate": 0.0002165378399591463,
	"loss": 0.5173654556274414,
	"step": 15000
	},
	{
	"epoch": 1.1886666666666668,
	"eval_loss": 0.4867754876613617,
	"eval_masked_accuracy": 0.8465927303032246,
	"eval_runtime": 2.9083,
	"eval_samples_per_second": 1408.378,
	"eval_steps_per_second": 5.501,
	"step": 15000
	},
	{
	"epoch": 1.192,
	"grad_norm": 0.8154687285423279,
	"learning_rate": 0.00021433980328653903,
	"loss": 0.5211496353149414,
	"step": 15100
	},
	{
	"epoch": 1.1953333333333334,
	"grad_norm": 0.870178759098053,
	"learning_rate": 0.00021214002421008382,
	"loss": 0.5156788253784179,
	"step": 15200
	},
	{
	"epoch": 1.1986666666666665,
	"grad_norm": 0.7339473962783813,
	"learning_rate": 0.0002099387700210015,
	"loss": 0.5113505935668945,
	"step": 15300
	},
	{
	"epoch": 1.202,
	"grad_norm": 0.8333882689476013,
	"learning_rate": 0.00020773630818975128,
	"loss": 0.5066380310058594,
	"step": 15400
	},
	{
	"epoch": 1.2053333333333334,
	"grad_norm": 0.7248000502586365,
	"learning_rate": 0.00020553290633353074,
	"loss": 0.5148737716674805,
	"step": 15500
	},
	{
	"epoch": 1.2086666666666668,
	"grad_norm": 0.8077163696289062,
	"learning_rate": 0.00020332883218375823,
	"loss": 0.5026751327514648,
	"step": 15600
	},
	{
	"epoch": 1.212,
	"grad_norm": 0.7529610991477966,
	"learning_rate": 0.00020112435355354132,
	"loss": 0.5074459457397461,
	"step": 15700
	},
	{
	"epoch": 1.2153333333333334,
	"grad_norm": 0.8418951630592346,
	"learning_rate": 0.00019891973830513525,
	"loss": 0.4947340393066406,
	"step": 15800
	},
	{
	"epoch": 1.2186666666666666,
	"grad_norm": 0.7463741302490234,
	"learning_rate": 0.00019671525431739546,
	"loss": 0.49930683135986326,
	"step": 15900
	},
	{
	"epoch": 1.222,
	"grad_norm": 0.7505474090576172,
	"learning_rate": 0.0001945111694532282,
	"loss": 0.49693927764892576,
	"step": 16000
	},
	{
	"epoch": 1.2253333333333334,
	"grad_norm": 0.7937129735946655,
	"learning_rate": 0.00019230775152704284,
	"loss": 0.5052358627319335,
	"step": 16100
	},
	{
	"epoch": 1.2286666666666666,
	"grad_norm": 0.6797370910644531,
	"learning_rate": 0.00019010526827221045,
	"loss": 0.4982032775878906,
	"step": 16200
	},
	{
	"epoch": 1.232,
	"grad_norm": 0.755185604095459,
	"learning_rate": 0.0001879039873085317,
	"loss": 0.4924372482299805,
	"step": 16300
	},
	{
	"epoch": 1.2353333333333334,
	"grad_norm": 0.6874153017997742,
	"learning_rate": 0.00018570417610971914,
	"loss": 0.49145896911621095,
	"step": 16400
	},
	{
	"epoch": 1.2386666666666666,
	"grad_norm": 0.785365879535675,
	"learning_rate": 0.0001835061019708968,
	"loss": 0.4896976470947266,
	"step": 16500
	},
	{
	"epoch": 1.242,
	"grad_norm": 0.7931706309318542,
	"learning_rate": 0.00018131003197612158,
	"loss": 0.48486351013183593,
	"step": 16600
	},
	{
	"epoch": 1.2453333333333334,
	"grad_norm": 0.711540162563324,
	"learning_rate": 0.0001791162329659304,
	"loss": 0.4865373992919922,
	"step": 16700
	},
	{
	"epoch": 1.2486666666666666,
	"grad_norm": 0.8093428611755371,
	"learning_rate": 0.00017692497150491703,
	"loss": 0.4822272491455078,
	"step": 16800
	},
	{
	"epoch": 1.252,
	"grad_norm": 0.8606541156768799,
	"learning_rate": 0.00017473651384934213,
	"loss": 0.47816139221191406,
	"step": 16900
	},
	{
	"epoch": 1.2553333333333334,
	"grad_norm": 0.6578624248504639,
	"learning_rate": 0.00017255112591478094,
	"loss": 0.4819015121459961,
	"step": 17000
	},
	{
	"epoch": 1.2586666666666666,
	"grad_norm": 0.8381503224372864,
	"learning_rate": 0.0001703690732438124,
	"loss": 0.4800693893432617,
	"step": 17100
	},
	{
	"epoch": 1.262,
	"grad_norm": 0.9081389904022217,
	"learning_rate": 0.00016819062097375365,
	"loss": 0.4796139907836914,
	"step": 17200
	},
	{
	"epoch": 1.2653333333333334,
	"grad_norm": 0.8076674938201904,
	"learning_rate": 0.00016601603380444338,
	"loss": 0.47347488403320315,
	"step": 17300
	},
	{
	"epoch": 1.2686666666666666,
	"grad_norm": 0.7531787157058716,
	"learning_rate": 0.00016384557596607884,
	"loss": 0.4700050354003906,
	"step": 17400
	},
	{
	"epoch": 1.272,
	"grad_norm": 0.843329131603241,
	"learning_rate": 0.0001616795111871098,
	"loss": 0.47036163330078123,
	"step": 17500
	},
	{
	"epoch": 1.2753333333333332,
	"grad_norm": 0.7025447487831116,
	"learning_rate": 0.0001595181026621931,
	"loss": 0.46735321044921874,
	"step": 17600
	},
	{
	"epoch": 1.2786666666666666,
	"grad_norm": 0.7623017430305481,
	"learning_rate": 0.00015736161302021254,
	"loss": 0.46535400390625,
	"step": 17700
	},
	{
	"epoch": 1.282,
	"grad_norm": 0.7620524764060974,
	"learning_rate": 0.00015521030429236713,
	"loss": 0.4652018356323242,
	"step": 17800
	},
	{
	"epoch": 1.2853333333333334,
	"grad_norm": 0.7925307154655457,
	"learning_rate": 0.00015306443788033248,
	"loss": 0.46518348693847655,
	"step": 17900
	},
	{
	"epoch": 1.2886666666666666,
	"grad_norm": 0.7878969311714172,
	"learning_rate": 0.00015092427452449803,
	"loss": 0.4622929382324219,
	"step": 18000
	},
	{
	"epoch": 1.292,
	"grad_norm": 0.7757784724235535,
	"learning_rate": 0.000148790074272285,
	"loss": 0.4650875091552734,
	"step": 18100
	},
	{
	"epoch": 1.2953333333333332,
	"grad_norm": 0.735175371170044,
	"learning_rate": 0.00014666209644654873,
	"loss": 0.4549406433105469,
	"step": 18200
	},
	{
	"epoch": 1.2986666666666666,
	"grad_norm": 0.6873441934585571,
	"learning_rate": 0.00014454059961406846,
	"loss": 0.4520915985107422,
	"step": 18300
	},
	{
	"epoch": 1.302,
	"grad_norm": 0.7766420841217041,
	"learning_rate": 0.0001424258415541296,
	"loss": 0.447607536315918,
	"step": 18400
	},
	{
	"epoch": 1.3053333333333335,
	"grad_norm": 0.6834190487861633,
	"learning_rate": 0.0001403180792272015,
	"loss": 0.4524835205078125,
	"step": 18500
	},
	{
	"epoch": 1.3086666666666666,
	"grad_norm": 0.7714037299156189,
	"learning_rate": 0.00013821756874371426,
	"loss": 0.43865036010742187,
	"step": 18600
	},
	{
	"epoch": 2.0006666666666666,
	"grad_norm": 0.6421045064926147,
	"learning_rate": 0.0001361245653329396,
	"loss": 0.45037097930908204,
	"step": 18700
	},
	{
	"epoch": 2.004,
	"grad_norm": 0.8619283437728882,
	"learning_rate": 0.00013403932331197823,
	"loss": 0.4485680389404297,
	"step": 18800
	},
	{
	"epoch": 2.0073333333333334,
	"grad_norm": 0.7336652278900146,
	"learning_rate": 0.00013196209605485825,
	"loss": 0.4345798110961914,
	"step": 18900
	},
	{
	"epoch": 2.010666666666667,
	"grad_norm": 0.7360154986381531,
	"learning_rate": 0.00012989313596174825,
	"loss": 0.4353963470458984,
	"step": 19000
	},
	{
	"epoch": 2.014,
	"grad_norm": 0.7875688076019287,
	"learning_rate": 0.0001278326944282883,
	"loss": 0.4323548126220703,
	"step": 19100
	},
	{
	"epoch": 2.017333333333333,
	"grad_norm": 0.8237797617912292,
	"learning_rate": 0.0001257810218150438,
	"loss": 0.43446548461914064,
	"step": 19200
	},
	{
	"epoch": 2.0206666666666666,
	"grad_norm": 0.775242030620575,
	"learning_rate": 0.0001237383674170841,
	"loss": 0.4317903900146484,
	"step": 19300
	},
	{
	"epoch": 2.024,
	"grad_norm": 0.7316193580627441,
	"learning_rate": 0.00012170497943369139,
	"loss": 0.4266176223754883,
	"step": 19400
	},
	{
	"epoch": 2.0273333333333334,
	"grad_norm": 0.8828946352005005,
	"learning_rate": 0.00011968110493820255,
	"loss": 0.42110267639160154,
	"step": 19500
	},
	{
	"epoch": 2.030666666666667,
	"grad_norm": 0.7441554665565491,
	"learning_rate": 0.00011766698984798741,
	"loss": 0.42277420043945313,
	"step": 19600
	},
	{
	"epoch": 2.034,
	"grad_norm": 0.7916893362998962,
	"learning_rate": 0.0001156628788945679,
	"loss": 0.42497276306152343,
	"step": 19700
	},
	{
	"epoch": 2.037333333333333,
	"grad_norm": 0.7108286023139954,
	"learning_rate": 0.00011366901559388127,
	"loss": 0.42226448059082033,
	"step": 19800
	},
	{
	"epoch": 2.0406666666666666,
	"grad_norm": 0.7501102089881897,
	"learning_rate": 0.00011168564221669089,
	"loss": 0.4148076629638672,
	"step": 19900
	},
	{
	"epoch": 2.044,
	"grad_norm": 0.7276322841644287,
	"learning_rate": 0.000109712999759148,
	"loss": 0.41933116912841795,
	"step": 20000
	},
	{
	"epoch": 2.044,
	"eval_loss": 0.4309006333351135,
	"eval_masked_accuracy": 0.862885533617241,
	"eval_runtime": 2.9684,
	"eval_samples_per_second": 1379.874,
	"eval_steps_per_second": 5.39,
	"step": 20000
	},
	{
	"epoch": 2.0473333333333334,
	"grad_norm": 0.8200253844261169,
	"learning_rate": 0.0001077513279135093,
	"loss": 0.4121805572509766,
	"step": 20100
	},
	{
	"epoch": 2.050666666666667,
	"grad_norm": 0.7574154734611511,
	"learning_rate": 0.000105800865039012,
	"loss": 0.4140956115722656,
	"step": 20200
	},
	{
	"epoch": 2.054,
	"grad_norm": 0.7535119652748108,
	"learning_rate": 0.00010386184813291108,
	"loss": 0.4128216552734375,
	"step": 20300
	},
	{
	"epoch": 2.0573333333333332,
	"grad_norm": 0.7665644884109497,
	"learning_rate": 0.00010193451280168258,
	"loss": 0.4141941833496094,
	"step": 20400
	},
	{
	"epoch": 2.0606666666666666,
	"grad_norm": 0.6833004951477051,
	"learning_rate": 0.00010001909323239524,
	"loss": 0.41669425964355467,
	"step": 20500
	},
	{
	"epoch": 2.064,
	"grad_norm": 0.6854680180549622,
	"learning_rate": 9.811582216425472e-05,
	"loss": 0.40588130950927737,
	"step": 20600
	},
	{
	"epoch": 2.0673333333333335,
	"grad_norm": 0.7551723122596741,
	"learning_rate": 9.622493086032432e-05,
	"loss": 0.40616172790527344,
	"step": 20700
	},
	{
	"epoch": 2.070666666666667,
	"grad_norm": 0.7875136733055115,
	"learning_rate": 9.434664907942397e-05,
	"loss": 0.40618175506591797,
	"step": 20800
	},
	{
	"epoch": 2.074,
	"grad_norm": 0.7156426906585693,
	"learning_rate": 9.24812050482134e-05,
	"loss": 0.40087387084960935,
	"step": 20900
	},
	{
	"epoch": 2.0773333333333333,
	"grad_norm": 0.7035794258117676,
	"learning_rate": 9.062882543345999e-05,
	"loss": 0.3979297637939453,
	"step": 21000
	},
	{
	"epoch": 2.0806666666666667,
	"grad_norm": 0.7434916496276855,
	"learning_rate": 8.878973531449748e-05,
	"loss": 0.3994139099121094,
	"step": 21100
	},
	{
	"epoch": 2.084,
	"grad_norm": 0.6868703961372375,
	"learning_rate": 8.696415815587673e-05,
	"loss": 0.39528240203857423,
	"step": 21200
	},
	{
	"epoch": 2.0873333333333335,
	"grad_norm": 0.7844119071960449,
	"learning_rate": 8.515231578021277e-05,
	"loss": 0.3911682891845703,
	"step": 21300
	},
	{
	"epoch": 2.0906666666666665,
	"grad_norm": 0.7842739820480347,
	"learning_rate": 8.335442834123192e-05,
	"loss": 0.3987908935546875,
	"step": 21400
	},
	{
	"epoch": 2.094,
	"grad_norm": 0.7348713874816895,
	"learning_rate": 8.157071429702113e-05,
	"loss": 0.38934185028076174,
	"step": 21500
	},
	{
	"epoch": 2.0973333333333333,
	"grad_norm": 0.7054168581962585,
	"learning_rate": 7.98013903834832e-05,
	"loss": 0.39156261444091794,
	"step": 21600
	},
	{
	"epoch": 2.1006666666666667,
	"grad_norm": 0.7588643431663513,
	"learning_rate": 7.80466715880023e-05,
	"loss": 0.38873050689697264,
	"step": 21700
	},
	{
	"epoch": 2.104,
	"grad_norm": 0.7288216948509216,
	"learning_rate": 7.630677112332046e-05,
	"loss": 0.3866202926635742,
	"step": 21800
	},
	{
	"epoch": 2.1073333333333335,
	"grad_norm": 0.7503123879432678,
	"learning_rate": 7.458190040163115e-05,
	"loss": 0.39182708740234373,
	"step": 21900
	},
	{
	"epoch": 2.1106666666666665,
	"grad_norm": 0.7055880427360535,
	"learning_rate": 7.287226900889039e-05,
	"loss": 0.401009635925293,
	"step": 22000
	},
	{
	"epoch": 2.114,
	"grad_norm": 0.8966184258460999,
	"learning_rate": 7.117808467935076e-05,
	"loss": 0.39603382110595703,
	"step": 22100
	},
	{
	"epoch": 2.1173333333333333,
	"grad_norm": 0.6970842480659485,
	"learning_rate": 6.949955327031988e-05,
	"loss": 0.398880729675293,
	"step": 22200
	},
	{
	"epoch": 2.1206666666666667,
	"grad_norm": 0.7583353519439697,
	"learning_rate": 6.783687873714672e-05,
	"loss": 0.3997147369384766,
	"step": 22300
	},
	{
	"epoch": 2.124,
	"grad_norm": 0.7861075401306152,
	"learning_rate": 6.61902631084399e-05,
	"loss": 0.4028291702270508,
	"step": 22400
	},
	{
	"epoch": 2.1273333333333335,
	"grad_norm": 0.6678594946861267,
	"learning_rate": 6.455990646151924e-05,
	"loss": 0.3987395095825195,
	"step": 22500
	},
	{
	"epoch": 2.1306666666666665,
	"grad_norm": 0.7038342952728271,
	"learning_rate": 6.29460068981046e-05,
	"loss": 0.39326480865478514,
	"step": 22600
	},
	{
	"epoch": 2.134,
	"grad_norm": 0.7392048239707947,
	"learning_rate": 6.134876052024527e-05,
	"loss": 0.40042667388916015,
	"step": 22700
	},
	{
	"epoch": 2.1373333333333333,
	"grad_norm": 0.8075382113456726,
	"learning_rate": 5.9768361406491533e-05,
	"loss": 0.3967801284790039,
	"step": 22800
	},
	{
	"epoch": 2.1406666666666667,
	"grad_norm": 0.7892723679542542,
	"learning_rate": 5.8205001588313014e-05,
	"loss": 0.39166572570800784,
	"step": 22900
	},
	{
	"epoch": 2.144,
	"grad_norm": 0.7251806855201721,
	"learning_rate": 5.6658871026764704e-05,
	"loss": 0.3836771011352539,
	"step": 23000
	},
	{
	"epoch": 2.1473333333333335,
	"grad_norm": 0.782537579536438,
	"learning_rate": 5.513015758940567e-05,
	"loss": 0.39198822021484375,
	"step": 23100
	},
	{
	"epoch": 2.1506666666666665,
	"grad_norm": 0.8268524408340454,
	"learning_rate": 5.361904702747136e-05,
	"loss": 0.38895458221435547,
	"step": 23200
	},
	{
	"epoch": 2.154,
	"grad_norm": 0.7508871555328369,
	"learning_rate": 5.212572295330311e-05,
	"loss": 0.40076961517333987,
	"step": 23300
	},
	{
	"epoch": 2.1573333333333333,
	"grad_norm": 0.6501144170761108,
	"learning_rate": 5.065036681803819e-05,
	"loss": 0.4024519348144531,
	"step": 23400
	},
	{
	"epoch": 2.1606666666666667,
	"grad_norm": 0.6458573937416077,
	"learning_rate": 4.919315788956167e-05,
	"loss": 0.4000421142578125,
	"step": 23500
	},
	{
	"epoch": 2.164,
	"grad_norm": 0.732280433177948,
	"learning_rate": 4.775427323072386e-05,
	"loss": 0.39758953094482424,
	"step": 23600
	},
	{
	"epoch": 2.1673333333333336,
	"grad_norm": 0.6772671937942505,
	"learning_rate": 4.6333887677826025e-05,
	"loss": 0.39006378173828127,
	"step": 23700
	},
	{
	"epoch": 2.1706666666666665,
	"grad_norm": 0.7737159729003906,
	"learning_rate": 4.4932173819376064e-05,
	"loss": 0.3929125213623047,
	"step": 23800
	},
	{
	"epoch": 2.174,
	"grad_norm": 0.8250499963760376,
	"learning_rate": 4.354930197511762e-05,
	"loss": 0.396903076171875,
	"step": 23900
	},
	{
	"epoch": 2.1773333333333333,
	"grad_norm": 0.7866168022155762,
	"learning_rate": 4.218544017533499e-05,
	"loss": 0.387851676940918,
	"step": 24000
	},
	{
	"epoch": 2.1806666666666668,
	"grad_norm": 0.7040881514549255,
	"learning_rate": 4.084075414043598e-05,
	"loss": 0.3934907913208008,
	"step": 24100
	},
	{
	"epoch": 2.184,
	"grad_norm": 0.7672249674797058,
	"learning_rate": 3.951540726081553e-05,
	"loss": 0.3852077484130859,
	"step": 24200
	},
	{
	"epoch": 2.187333333333333,
	"grad_norm": 0.7783628702163696,
	"learning_rate": 3.82095605770022e-05,
	"loss": 0.3871307373046875,
	"step": 24300
	},
	{
	"epoch": 2.1906666666666665,
	"grad_norm": 0.8870095610618591,
	"learning_rate": 3.69233727600909e-05,
	"loss": 0.3772114181518555,
	"step": 24400
	},
	{
	"epoch": 2.194,
	"grad_norm": 0.738532304763794,
	"learning_rate": 3.565700009246269e-05,
	"loss": 0.3705712890625,
	"step": 24500
	},
	{
	"epoch": 2.1973333333333334,
	"grad_norm": 0.6864748001098633,
	"learning_rate": 3.4410596448795184e-05,
	"loss": 0.383516845703125,
	"step": 24600
	},
	{
	"epoch": 2.2006666666666668,
	"grad_norm": 0.6553505063056946,
	"learning_rate": 3.318431327736577e-05,
	"loss": 0.38183685302734377,
	"step": 24700
	},
	{
	"epoch": 2.204,
	"grad_norm": 0.6033626794815063,
	"learning_rate": 3.197829958164917e-05,
	"loss": 0.3845671081542969,
	"step": 24800
	},
	{
	"epoch": 2.207333333333333,
	"grad_norm": 0.7695163488388062,
	"learning_rate": 3.079270190221231e-05,
	"loss": 0.3796828079223633,
	"step": 24900
	},
	{
	"epoch": 2.2106666666666666,
	"grad_norm": 0.7200196385383606,
	"learning_rate": 2.96276642989086e-05,
	"loss": 0.38924953460693357,
	"step": 25000
	},
	{
	"epoch": 2.2106666666666666,
	"eval_loss": 0.3823796212673187,
	"eval_masked_accuracy": 0.878150720164609,
	"eval_runtime": 3.0159,
	"eval_samples_per_second": 1358.12,
	"eval_steps_per_second": 5.305,
	"step": 25000
	},
	{
	"epoch": 2.214,
	"grad_norm": 0.7287200689315796,
	"learning_rate": 2.848332833337335e-05,
	"loss": 0.3876392364501953,
	"step": 25100
	},
	{
	"epoch": 2.2173333333333334,
	"grad_norm": 0.7604002952575684,
	"learning_rate": 2.7359833051822837e-05,
	"loss": 0.3845469284057617,
	"step": 25200
	},
	{
	"epoch": 2.220666666666667,
	"grad_norm": 0.6634399890899658,
	"learning_rate": 2.625731496815913e-05,
	"loss": 0.3846179962158203,
	"step": 25300
	},
	{
	"epoch": 2.224,
	"grad_norm": 0.7272804975509644,
	"learning_rate": 2.5175908047382592e-05,
	"loss": 0.39008934020996094,
	"step": 25400
	},
	{
	"epoch": 2.227333333333333,
	"grad_norm": 0.714460015296936,
	"learning_rate": 2.4115743689313774e-05,
	"loss": 0.3927734756469727,
	"step": 25500
	},
	{
	"epoch": 2.2306666666666666,
	"grad_norm": 0.8357155919075012,
	"learning_rate": 2.3076950712627588e-05,
	"loss": 0.38554725646972654,
	"step": 25600
	},
	{
	"epoch": 2.234,
	"grad_norm": 0.7323917150497437,
	"learning_rate": 2.2059655339200536e-05,
	"loss": 0.3921313095092773,
	"step": 25700
	},
	{
	"epoch": 2.2373333333333334,
	"grad_norm": 0.7257605791091919,
	"learning_rate": 2.1063981178773884e-05,
	"loss": 0.38508140563964843,
	"step": 25800
	},
	{
	"epoch": 2.240666666666667,
	"grad_norm": 0.7842901945114136,
	"learning_rate": 2.0090049213933803e-05,
	"loss": 0.39042671203613283,
	"step": 25900
	},
	{
	"epoch": 2.2439999999999998,
	"grad_norm": 0.6478227376937866,
	"learning_rate": 1.9137977785411333e-05,
	"loss": 0.3918688201904297,
	"step": 26000
	},
	{
	"epoch": 2.247333333333333,
	"grad_norm": 0.7710049748420715,
	"learning_rate": 1.820788257770283e-05,
	"loss": 0.3908076858520508,
	"step": 26100
	},
	{
	"epoch": 2.2506666666666666,
	"grad_norm": 0.7351255416870117,
	"learning_rate": 1.7299876605013267e-05,
	"loss": 0.37932159423828127,
	"step": 26200
	},
	{
	"epoch": 2.254,
	"grad_norm": 0.6514462232589722,
	"learning_rate": 1.641407019752428e-05,
	"loss": 0.38645931243896486,
	"step": 26300
	},
	{
	"epoch": 2.2573333333333334,
	"grad_norm": 0.7680016160011292,
	"learning_rate": 1.5550570987988067e-05,
	"loss": 0.381392707824707,
	"step": 26400
	},
	{
	"epoch": 2.260666666666667,
	"grad_norm": 0.7839369177818298,
	"learning_rate": 1.4709483898648945e-05,
	"loss": 0.37340118408203127,
	"step": 26500
	},
	{
	"epoch": 2.2640000000000002,
	"grad_norm": 0.6791050434112549,
	"learning_rate": 1.3890911128494788e-05,
	"loss": 0.38508747100830076,
	"step": 26600
	},
	{
	"epoch": 2.267333333333333,
	"grad_norm": 0.6227408051490784,
	"learning_rate": 1.3094952140838712e-05,
	"loss": 0.3770198059082031,
	"step": 26700
	},
	{
	"epoch": 2.2706666666666666,
	"grad_norm": 0.6502448916435242,
	"learning_rate": 1.2321703651233574e-05,
	"loss": 0.37348697662353514,
	"step": 26800
	},
	{
	"epoch": 2.274,
	"grad_norm": 0.6978487968444824,
	"learning_rate": 1.157125961572021e-05,
	"loss": 0.3783902359008789,
	"step": 26900
	},
	{
	"epoch": 2.2773333333333334,
	"grad_norm": 0.7682250738143921,
	"learning_rate": 1.0843711219411101e-05,
	"loss": 0.3767197799682617,
	"step": 27000
	},
	{
	"epoch": 2.280666666666667,
	"grad_norm": 0.6915271878242493,
	"learning_rate": 1.0139146865410554e-05,
	"loss": 0.3798466110229492,
	"step": 27100
	},
	{
	"epoch": 2.284,
	"grad_norm": 0.819548487663269,
	"learning_rate": 9.457652164072928e-06,
	"loss": 0.3809815979003906,
	"step": 27200
	},
	{
	"epoch": 2.287333333333333,
	"grad_norm": 0.7806178331375122,
	"learning_rate": 8.79930992260043e-06,
	"loss": 0.3813274383544922,
	"step": 27300
	},
	{
	"epoch": 2.2906666666666666,
	"grad_norm": 0.9139585494995117,
	"learning_rate": 8.16420013498127e-06,
	"loss": 0.38432167053222654,
	"step": 27400
	},
	{
	"epoch": 2.294,
	"grad_norm": 0.719249963760376,
	"learning_rate": 7.552399972269686e-06,
	"loss": 0.3763787078857422,
	"step": 27500
	},
	{
	"epoch": 2.2973333333333334,
	"grad_norm": 0.7366885542869568,
	"learning_rate": 6.963983773209149e-06,
	"loss": 0.3752469253540039,
	"step": 27600
	},
	{
	"epoch": 2.300666666666667,
	"grad_norm": 0.7235630750656128,
	"learning_rate": 6.399023035199547e-06,
	"loss": 0.37348270416259766,
	"step": 27700
	},
	{
	"epoch": 2.304,
	"grad_norm": 0.6602711081504822,
	"learning_rate": 5.857586405609583e-06,
	"loss": 0.38024497985839845,
	"step": 27800
	},
	{
	"epoch": 2.3073333333333332,
	"grad_norm": 0.6910043954849243,
	"learning_rate": 5.339739673435662e-06,
	"loss": 0.3761766815185547,
	"step": 27900
	},
	{
	"epoch": 2.3106666666666666,
	"grad_norm": 0.7024565935134888,
	"learning_rate": 4.8455457613079345e-06,
	"loss": 0.37851264953613284,
	"step": 28000
	},
	{
	"epoch": 3.002666666666667,
	"grad_norm": 0.9012552499771118,
	"learning_rate": 4.375064717844746e-06,
	"loss": 0.3574191665649414,
	"step": 28100
	},
	{
	"epoch": 3.006,
	"grad_norm": 0.680111825466156,
	"learning_rate": 3.928353710356114e-06,
	"loss": 0.3549924087524414,
	"step": 28200
	},
	{
	"epoch": 3.009333333333333,
	"grad_norm": 0.79486083984375,
	"learning_rate": 3.5054670178975346e-06,
	"loss": 0.35243122100830077,
	"step": 28300
	},
	{
	"epoch": 3.0126666666666666,
	"grad_norm": 0.6971395015716553,
	"learning_rate": 3.1064560246746088e-06,
	"loss": 0.34856960296630857,
	"step": 28400
	},
	{
	"epoch": 3.016,
	"grad_norm": 0.7989268898963928,
	"learning_rate": 2.7313692137993952e-06,
	"loss": 0.35404052734375,
	"step": 28500
	},
	{
	"epoch": 3.0193333333333334,
	"grad_norm": 0.681338369846344,
	"learning_rate": 2.3802521613993878e-06,
	"loss": 0.3551434326171875,
	"step": 28600
	},
	{
	"epoch": 3.022666666666667,
	"grad_norm": 0.6259098052978516,
	"learning_rate": 2.053147531079591e-06,
	"loss": 0.3543955230712891,
	"step": 28700
	},
	{
	"epoch": 3.026,
	"grad_norm": 0.6789717078208923,
	"learning_rate": 1.7500950687385332e-06,
	"loss": 0.3479387664794922,
	"step": 28800
	},
	{
	"epoch": 3.029333333333333,
	"grad_norm": 0.6986877918243408,
	"learning_rate": 1.4711315977388617e-06,
	"loss": 0.35285072326660155,
	"step": 28900
	},
	{
	"epoch": 3.0326666666666666,
	"grad_norm": 0.8804546594619751,
	"learning_rate": 1.2162910144329464e-06,
	"loss": 0.3571059799194336,
	"step": 29000
	},
	{
	"epoch": 3.036,
	"grad_norm": 0.7633663415908813,
	"learning_rate": 9.856042840442393e-07,
	"loss": 0.3522502517700195,
	"step": 29100
	},
	{
	"epoch": 3.0393333333333334,
	"grad_norm": 0.8087472319602966,
	"learning_rate": 7.790994369047289e-07,
	"loss": 0.3503116607666016,
	"step": 29200
	},
	{
	"epoch": 3.042666666666667,
	"grad_norm": 0.6872431039810181,
	"learning_rate": 5.968015650490211e-07,
	"loss": 0.34913509368896484,
	"step": 29300
	},
	{
	"epoch": 3.046,
	"grad_norm": 0.7077915668487549,
	"learning_rate": 4.387328191654438e-07,
	"loss": 0.34669517517089843,
	"step": 29400
	},
	{
	"epoch": 3.0493333333333332,
	"grad_norm": 0.721786379814148,
	"learning_rate": 3.0491240590457823e-07,
	"loss": 0.3519774627685547,
	"step": 29500
	},
	{
	"epoch": 3.0526666666666666,
	"grad_norm": 0.7876111268997192,
	"learning_rate": 1.9535658554545867e-07,
	"loss": 0.34955368041992185,
	"step": 29600
	},
	{
	"epoch": 3.056,
	"grad_norm": 0.5993502140045166,
	"learning_rate": 1.1007867001988637e-07,
	"loss": 0.3491347885131836,
	"step": 29700
	},
	{
	"epoch": 3.0593333333333335,
	"grad_norm": 0.7406614422798157,
	"learning_rate": 4.9089021294834726e-08,
	"loss": 0.35303794860839843,
	"step": 29800
	},
	{
	"epoch": 3.062666666666667,
	"grad_norm": 0.7397328615188599,
	"learning_rate": 1.2395050113389595e-08,
	"loss": 0.34634124755859375,
	"step": 29900
	},
	{
	"epoch": 3.066,
	"grad_norm": 0.7702119946479797,
	"learning_rate": 1.215094425077723e-12,
	"loss": 0.34748374938964843,
	"step": 30000
	},
	{
	"epoch": 3.066,
	"eval_loss": 0.37694016098976135,
	"eval_masked_accuracy": 0.8775784753363228,
	"eval_runtime": 2.9576,
	"eval_samples_per_second": 1384.896,
	"eval_steps_per_second": 5.41,
	"step": 30000
	},
	{
	"epoch": 3.066,
	"step": 30000,
	"total_flos": 9.74439612930639e+16,
	"train_loss": 0.6228721523284912,
	"train_runtime": 2832.8619,
	"train_samples_per_second": 2711.039,
	"train_steps_per_second": 10.59
	},
	{
	"epoch": 3.066,
	"eval_loss": 0.3744058609008789,
	"eval_masked_accuracy": 0.8805643239064613,
	"eval_runtime": 2.8656,
	"eval_samples_per_second": 1429.379,
	"eval_steps_per_second": 5.584,
	"step": 30000
	}
	],
	"logging_steps": 100,
	"max_steps": 30000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 9223372036854775807,
	"save_steps": 5000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.74439612930639e+16,
	"train_batch_size": 256,
	"trial_name": null,
	"trial_params": null
	}