{
  "best_global_step": 30000,
  "best_metric": 0.37694016098976135,
  "best_model_checkpoint": "runs/chembl36_small_mask_mlm_lr_sweep/mask_standard__mlm_0p15__lr_4e-4/checkpoint-30000",
  "epoch": 3.066,
  "eval_steps": 5000,
  "global_step": 30000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 2.7403433322906494,
      "learning_rate": 2.64e-05,
      "loss": 5.425458984375,
      "step": 100
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 4.65195894241333,
      "learning_rate": 5.3066666666666665e-05,
      "loss": 3.9814361572265624,
      "step": 200
    },
    {
      "epoch": 0.01,
      "grad_norm": 2.9648351669311523,
      "learning_rate": 7.973333333333334e-05,
      "loss": 2.9717633056640627,
      "step": 300
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 2.79247784614563,
      "learning_rate": 0.00010640000000000001,
      "loss": 2.318418426513672,
      "step": 400
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 2.95702862739563,
      "learning_rate": 0.00013306666666666668,
      "loss": 2.012203826904297,
      "step": 500
    },
    {
      "epoch": 0.02,
      "grad_norm": 2.464130401611328,
      "learning_rate": 0.00015973333333333333,
      "loss": 1.8253421020507812,
      "step": 600
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 2.5683345794677734,
      "learning_rate": 0.00018640000000000003,
      "loss": 1.7040005493164063,
      "step": 700
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 2.7064743041992188,
      "learning_rate": 0.00021306666666666665,
      "loss": 1.5912832641601562,
      "step": 800
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.7914412021636963,
      "learning_rate": 0.00023973333333333338,
      "loss": 1.532608184814453,
      "step": 900
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 2.02378511428833,
      "learning_rate": 0.0002664,
      "loss": 1.4479930114746093,
      "step": 1000
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 1.8761825561523438,
      "learning_rate": 0.00029306666666666667,
      "loss": 1.4139170837402344,
      "step": 1100
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.751976490020752,
      "learning_rate": 0.00031973333333333337,
      "loss": 1.3751948547363282,
      "step": 1200
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 1.8251773118972778,
      "learning_rate": 0.0003464,
      "loss": 1.3400251770019531,
      "step": 1300
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 1.5843342542648315,
      "learning_rate": 0.00037306666666666666,
      "loss": 1.327974853515625,
      "step": 1400
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.5720994472503662,
      "learning_rate": 0.00039973333333333336,
      "loss": 1.2728753662109376,
      "step": 1500
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 1.2932488918304443,
      "learning_rate": 0.0003999880909778094,
      "loss": 1.259843521118164,
      "step": 1600
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 1.4394837617874146,
      "learning_rate": 0.00039995188297549443,
      "loss": 1.2250770568847655,
      "step": 1700
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.3632104396820068,
      "learning_rate": 0.0003998913791775301,
      "loss": 1.1869202423095704,
      "step": 1800
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 1.4223003387451172,
      "learning_rate": 0.000399806586935625,
      "loss": 1.1602543640136718,
      "step": 1900
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 1.3835265636444092,
      "learning_rate": 0.00039969751655273246,
      "loss": 1.1331352233886718,
      "step": 2000
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4172451496124268,
      "learning_rate": 0.0003995641812817998,
      "loss": 1.1115520477294922,
      "step": 2100
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 1.2611116170883179,
      "learning_rate": 0.00039940659732415714,
      "loss": 1.0953889465332032,
      "step": 2200
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 1.4010944366455078,
      "learning_rate": 0.00039922478382754947,
      "loss": 1.0633756256103515,
      "step": 2300
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.277366280555725,
      "learning_rate": 0.00039901876288380946,
      "loss": 1.0482559967041016,
      "step": 2400
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 1.1845537424087524,
      "learning_rate": 0.00039878855952617357,
      "loss": 1.0299220275878906,
      "step": 2500
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 1.1772642135620117,
      "learning_rate": 0.00039853420172623985,
      "loss": 1.0119639587402345,
      "step": 2600
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.241080641746521,
      "learning_rate": 0.00039825572039056976,
      "loss": 0.9945954895019531,
      "step": 2700
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 1.1556016206741333,
      "learning_rate": 0.0003979531493569322,
      "loss": 0.9795339965820312,
      "step": 2800
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 1.1028602123260498,
      "learning_rate": 0.0003976265253901924,
      "loss": 0.9684971618652344,
      "step": 2900
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3073146343231201,
      "learning_rate": 0.00039727588817784414,
      "loss": 0.9519919586181641,
      "step": 3000
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 1.224905252456665,
      "learning_rate": 0.000396901280325188,
      "loss": 0.9399765777587891,
      "step": 3100
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 1.0792871713638306,
      "learning_rate": 0.0003965027473501541,
      "loss": 0.9271878814697265,
      "step": 3200
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.077876329421997,
      "learning_rate": 0.0003960803376777714,
      "loss": 0.9128645324707031,
      "step": 3300
    },
    {
      "epoch": 0.11333333333333333,
      "grad_norm": 1.1184345483779907,
      "learning_rate": 0.0003956341026342837,
      "loss": 0.9120386505126953,
      "step": 3400
    },
    {
      "epoch": 0.11666666666666667,
      "grad_norm": 1.1383893489837646,
      "learning_rate": 0.0003951640964409127,
      "loss": 0.9151699829101563,
      "step": 3500
    },
    {
      "epoch": 0.12,
      "grad_norm": 1.12523353099823,
      "learning_rate": 0.0003946703762072706,
      "loss": 0.8922748565673828,
      "step": 3600
    },
    {
      "epoch": 0.12333333333333334,
      "grad_norm": 1.0355699062347412,
      "learning_rate": 0.0003941530019244196,
      "loss": 0.8890122222900391,
      "step": 3700
    },
    {
      "epoch": 0.12666666666666668,
      "grad_norm": 1.0852240324020386,
      "learning_rate": 0.00039361203645758364,
      "loss": 0.8781277465820313,
      "step": 3800
    },
    {
      "epoch": 0.13,
      "grad_norm": 1.0739648342132568,
      "learning_rate": 0.00039304754553850873,
      "loss": 0.8778704833984375,
      "step": 3900
    },
    {
      "epoch": 0.13333333333333333,
      "grad_norm": 1.0522024631500244,
      "learning_rate": 0.0003924595977574769,
      "loss": 0.8774790954589844,
      "step": 4000
    },
    {
      "epoch": 0.13666666666666666,
      "grad_norm": 1.0717562437057495,
      "learning_rate": 0.00039184826455497133,
      "loss": 0.8516897583007812,
      "step": 4100
    },
    {
      "epoch": 0.14,
      "grad_norm": 1.0378234386444092,
      "learning_rate": 0.00039121362021299604,
      "loss": 0.8448622894287109,
      "step": 4200
    },
    {
      "epoch": 0.14333333333333334,
      "grad_norm": 1.0532786846160889,
      "learning_rate": 0.00039055574184604976,
      "loss": 0.8344584655761719,
      "step": 4300
    },
    {
      "epoch": 0.14666666666666667,
      "grad_norm": 1.021437644958496,
      "learning_rate": 0.0003898747093917561,
      "loss": 0.8287362670898437,
      "step": 4400
    },
    {
      "epoch": 0.15,
      "grad_norm": 0.9874396920204163,
      "learning_rate": 0.0003891706056011505,
      "loss": 0.8258264923095703,
      "step": 4500
    },
    {
      "epoch": 0.15333333333333332,
      "grad_norm": 0.9322711825370789,
      "learning_rate": 0.0003884435160286251,
      "loss": 0.816080322265625,
      "step": 4600
    },
    {
      "epoch": 0.15666666666666668,
      "grad_norm": 0.9402130842208862,
      "learning_rate": 0.00038769352902153333,
      "loss": 0.8135909271240235,
      "step": 4700
    },
    {
      "epoch": 0.16,
      "grad_norm": 1.0193718671798706,
      "learning_rate": 0.00038692073570945496,
      "loss": 0.817694091796875,
      "step": 4800
    },
    {
      "epoch": 0.16333333333333333,
      "grad_norm": 0.9926565289497375,
      "learning_rate": 0.000386125229993123,
      "loss": 0.7987307739257813,
      "step": 4900
    },
    {
      "epoch": 0.16666666666666666,
      "grad_norm": 0.9364326596260071,
      "learning_rate": 0.0003853071085330141,
      "loss": 0.8007232666015625,
      "step": 5000
    },
    {
      "epoch": 0.16666666666666666,
      "eval_loss": 0.7967580556869507,
      "eval_masked_accuracy": 0.7653559496273451,
      "eval_runtime": 2.5634,
      "eval_samples_per_second": 1597.853,
      "eval_steps_per_second": 6.242,
      "step": 5000
    },
    {
      "epoch": 0.17,
      "grad_norm": 0.9981640577316284,
      "learning_rate": 0.0003844664707376037,
      "loss": 0.7831909942626953,
      "step": 5100
    },
    {
      "epoch": 0.17333333333333334,
      "grad_norm": 0.935793936252594,
      "learning_rate": 0.00038360341875128646,
      "loss": 0.7719477081298828,
      "step": 5200
    },
    {
      "epoch": 0.17666666666666667,
      "grad_norm": 0.9942166805267334,
      "learning_rate": 0.0003827180574419656,
      "loss": 0.7788728332519531,
      "step": 5300
    },
    {
      "epoch": 0.18,
      "grad_norm": 0.921302318572998,
      "learning_rate": 0.00038181049438831024,
      "loss": 0.7685958099365234,
      "step": 5400
    },
    {
      "epoch": 0.18333333333333332,
      "grad_norm": 0.8787013292312622,
      "learning_rate": 0.0003808808398666837,
      "loss": 0.7563288116455078,
      "step": 5500
    },
    {
      "epoch": 0.18666666666666668,
      "grad_norm": 0.8968636989593506,
      "learning_rate": 0.00037992920683774386,
      "loss": 0.7474672698974609,
      "step": 5600
    },
    {
      "epoch": 0.19,
      "grad_norm": 0.9104163646697998,
      "learning_rate": 0.00037895571093271807,
      "loss": 0.7457213592529297,
      "step": 5700
    },
    {
      "epoch": 0.19333333333333333,
      "grad_norm": 0.8929153680801392,
      "learning_rate": 0.00037796047043935234,
      "loss": 0.7423068237304687,
      "step": 5800
    },
    {
      "epoch": 0.19666666666666666,
      "grad_norm": 0.9810736775398254,
      "learning_rate": 0.00037694360628753897,
      "loss": 0.7346783447265625,
      "step": 5900
    },
    {
      "epoch": 0.2,
      "grad_norm": 0.931078314781189,
      "learning_rate": 0.00037590524203462216,
      "loss": 0.7334535217285156,
      "step": 6000
    },
    {
      "epoch": 0.20333333333333334,
      "grad_norm": 1.019803524017334,
      "learning_rate": 0.0003748455038503849,
      "loss": 0.7276763916015625,
      "step": 6100
    },
    {
      "epoch": 0.20666666666666667,
      "grad_norm": 0.9782306551933289,
      "learning_rate": 0.0003737645205017185,
      "loss": 0.7344593048095703,
      "step": 6200
    },
    {
      "epoch": 0.21,
      "grad_norm": 0.9293437004089355,
      "learning_rate": 0.0003726624233369761,
      "loss": 0.7246415710449219,
      "step": 6300
    },
    {
      "epoch": 0.21333333333333335,
      "grad_norm": 0.8795522451400757,
      "learning_rate": 0.0003715393462700129,
      "loss": 0.7216864776611328,
      "step": 6400
    },
    {
      "epoch": 0.21666666666666667,
      "grad_norm": 0.9632502198219299,
      "learning_rate": 0.00037039542576391445,
      "loss": 0.7085445404052735,
      "step": 6500
    },
    {
      "epoch": 0.22,
      "grad_norm": 0.8495221138000488,
      "learning_rate": 0.0003692308008144153,
      "loss": 0.7115458679199219,
      "step": 6600
    },
    {
      "epoch": 0.22333333333333333,
      "grad_norm": 0.8541926741600037,
      "learning_rate": 0.0003680456129330099,
      "loss": 0.6990865325927734,
      "step": 6700
    },
    {
      "epoch": 0.22666666666666666,
      "grad_norm": 0.8344811201095581,
      "learning_rate": 0.0003668400061297579,
      "loss": 0.6993592071533203,
      "step": 6800
    },
    {
      "epoch": 0.23,
      "grad_norm": 0.8975337147712708,
      "learning_rate": 0.00036561412689578544,
      "loss": 0.6972901153564454,
      "step": 6900
    },
    {
      "epoch": 0.23333333333333334,
      "grad_norm": 0.8364660143852234,
      "learning_rate": 0.00036436812418548547,
      "loss": 0.6967823791503907,
      "step": 7000
    },
    {
      "epoch": 0.23666666666666666,
      "grad_norm": 0.8676795363426208,
      "learning_rate": 0.00036310214939841873,
      "loss": 0.6893701934814453,
      "step": 7100
    },
    {
      "epoch": 0.24,
      "grad_norm": 0.8879637718200684,
      "learning_rate": 0.0003618163563609171,
      "loss": 0.6855775451660157,
      "step": 7200
    },
    {
      "epoch": 0.24333333333333335,
      "grad_norm": 0.9070082306861877,
      "learning_rate": 0.00036051090130739274,
      "loss": 0.6840663146972656,
      "step": 7300
    },
    {
      "epoch": 0.24666666666666667,
      "grad_norm": 0.8394324779510498,
      "learning_rate": 0.0003591859428613541,
      "loss": 0.6798997497558594,
      "step": 7400
    },
    {
      "epoch": 0.25,
      "grad_norm": 0.8838658332824707,
      "learning_rate": 0.000357841642016132,
      "loss": 0.6784028625488281,
      "step": 7500
    },
    {
      "epoch": 0.25333333333333335,
      "grad_norm": 0.8179841041564941,
      "learning_rate": 0.0003564781621153176,
      "loss": 0.6701314544677734,
      "step": 7600
    },
    {
      "epoch": 0.25666666666666665,
      "grad_norm": 0.8342909812927246,
      "learning_rate": 0.000355095668832915,
      "loss": 0.6615406799316407,
      "step": 7700
    },
    {
      "epoch": 0.26,
      "grad_norm": 0.8877819180488586,
      "learning_rate": 0.00035369433015320983,
      "loss": 0.6670161437988281,
      "step": 7800
    },
    {
      "epoch": 0.2633333333333333,
      "grad_norm": 0.9063718914985657,
      "learning_rate": 0.0003522743163503587,
      "loss": 0.6525628662109375,
      "step": 7900
    },
    {
      "epoch": 0.26666666666666666,
      "grad_norm": 0.8738296627998352,
      "learning_rate": 0.00035083579996769866,
      "loss": 0.6613227081298828,
      "step": 8000
    },
    {
      "epoch": 0.27,
      "grad_norm": 0.9108850359916687,
      "learning_rate": 0.00034937895579678256,
      "loss": 0.6542455291748047,
      "step": 8100
    },
    {
      "epoch": 0.2733333333333333,
      "grad_norm": 0.7989206314086914,
      "learning_rate": 0.00034790396085613955,
      "loss": 0.6540352630615235,
      "step": 8200
    },
    {
      "epoch": 0.27666666666666667,
      "grad_norm": 0.8691635727882385,
      "learning_rate": 0.0003464109943697667,
      "loss": 0.6410691070556641,
      "step": 8300
    },
    {
      "epoch": 0.28,
      "grad_norm": 0.8667342066764832,
      "learning_rate": 0.0003449002377453512,
      "loss": 0.6395606994628906,
      "step": 8400
    },
    {
      "epoch": 0.2833333333333333,
      "grad_norm": 0.7986162900924683,
      "learning_rate": 0.00034337187455222835,
      "loss": 0.6376551055908203,
      "step": 8500
    },
    {
      "epoch": 0.2866666666666667,
      "grad_norm": 0.9031108617782593,
      "learning_rate": 0.0003418260904990759,
      "loss": 0.6303312683105469,
      "step": 8600
    },
    {
      "epoch": 0.29,
      "grad_norm": 0.8435996174812317,
      "learning_rate": 0.0003402630734113492,
      "loss": 0.6225329971313477,
      "step": 8700
    },
    {
      "epoch": 0.29333333333333333,
      "grad_norm": 0.9413688778877258,
      "learning_rate": 0.00033868301320845895,
      "loss": 0.6248882293701172,
      "step": 8800
    },
    {
      "epoch": 0.2966666666666667,
      "grad_norm": 0.7998372316360474,
      "learning_rate": 0.000337086101880694,
      "loss": 0.6171749496459961,
      "step": 8900
    },
    {
      "epoch": 0.3,
      "grad_norm": 0.8585835099220276,
      "learning_rate": 0.00033547253346589355,
      "loss": 0.6206340789794922,
      "step": 9000
    },
    {
      "epoch": 0.30333333333333334,
      "grad_norm": 0.8483954071998596,
      "learning_rate": 0.00033384250402586954,
      "loss": 0.6195469665527343,
      "step": 9100
    },
    {
      "epoch": 0.30666666666666664,
      "grad_norm": 0.9016720056533813,
      "learning_rate": 0.00033219621162258343,
      "loss": 0.6200881958007812,
      "step": 9200
    },
    {
      "epoch": 0.31,
      "grad_norm": 0.829871416091919,
      "learning_rate": 0.0003305338562940807,
      "loss": 0.6127318954467773,
      "step": 9300
    },
    {
      "epoch": 1.002,
      "grad_norm": 0.9081104397773743,
      "learning_rate": 0.0003288556400301836,
      "loss": 0.603317756652832,
      "step": 9400
    },
    {
      "epoch": 1.0053333333333334,
      "grad_norm": 0.8421012759208679,
      "learning_rate": 0.00032716176674794884,
      "loss": 0.5797752380371094,
      "step": 9500
    },
    {
      "epoch": 1.0086666666666666,
      "grad_norm": 0.8119559288024902,
      "learning_rate": 0.0003254524422668889,
      "loss": 0.5843183898925781,
      "step": 9600
    },
    {
      "epoch": 1.012,
      "grad_norm": 0.8360543847084045,
      "learning_rate": 0.00032372787428396423,
      "loss": 0.5793385696411133,
      "step": 9700
    },
    {
      "epoch": 1.0153333333333334,
      "grad_norm": 0.780649721622467,
      "learning_rate": 0.0003219882723483456,
      "loss": 0.5682408142089844,
      "step": 9800
    },
    {
      "epoch": 1.0186666666666666,
      "grad_norm": 0.7468474507331848,
      "learning_rate": 0.00032023384783595255,
      "loss": 0.5659066772460938,
      "step": 9900
    },
    {
      "epoch": 1.022,
      "grad_norm": 0.8460882902145386,
      "learning_rate": 0.00031846481392376966,
      "loss": 0.5553397369384766,
      "step": 10000
    },
    {
      "epoch": 1.022,
      "eval_loss": 0.5976771116256714,
      "eval_masked_accuracy": 0.8167562724014337,
      "eval_runtime": 2.8203,
      "eval_samples_per_second": 1452.351,
      "eval_steps_per_second": 5.673,
      "step": 10000
    },
    {
      "epoch": 1.0253333333333334,
      "grad_norm": 0.7821327447891235,
      "learning_rate": 0.00031668138556394316,
      "loss": 0.5550868606567383,
      "step": 10100
    },
    {
      "epoch": 1.0286666666666666,
      "grad_norm": 1.0433557033538818,
      "learning_rate": 0.00031488377945766314,
      "loss": 0.5548404312133789,
      "step": 10200
    },
    {
      "epoch": 1.032,
      "grad_norm": 0.8580315113067627,
      "learning_rate": 0.00031307221402883227,
      "loss": 0.5406364440917969,
      "step": 10300
    },
    {
      "epoch": 1.0353333333333334,
      "grad_norm": 0.8950467705726624,
      "learning_rate": 0.00031124690939752543,
      "loss": 0.533514404296875,
      "step": 10400
    },
    {
      "epoch": 1.0386666666666666,
      "grad_norm": 0.7847508192062378,
      "learning_rate": 0.0003094080873532434,
      "loss": 0.538754539489746,
      "step": 10500
    },
    {
      "epoch": 1.042,
      "grad_norm": 0.868969738483429,
      "learning_rate": 0.00030755597132796385,
      "loss": 0.5428607177734375,
      "step": 10600
    },
    {
      "epoch": 1.0453333333333332,
      "grad_norm": 0.7972626090049744,
      "learning_rate": 0.0003056907863689921,
      "loss": 0.5347858810424805,
      "step": 10700
    },
    {
      "epoch": 1.0486666666666666,
      "grad_norm": 0.763969361782074,
      "learning_rate": 0.0003038127591116163,
      "loss": 0.532847785949707,
      "step": 10800
    },
    {
      "epoch": 1.052,
      "grad_norm": 0.7701809406280518,
      "learning_rate": 0.0003019221177515692,
      "loss": 0.5308395767211914,
      "step": 10900
    },
    {
      "epoch": 1.0553333333333332,
      "grad_norm": 0.8959071636199951,
      "learning_rate": 0.0003000190920173008,
      "loss": 0.5308527374267578,
      "step": 11000
    },
    {
      "epoch": 1.0586666666666666,
      "grad_norm": 1.0272624492645264,
      "learning_rate": 0.00029810391314206416,
      "loss": 0.5359263992309571,
      "step": 11100
    },
    {
      "epoch": 1.062,
      "grad_norm": 0.8793138861656189,
      "learning_rate": 0.00029617681383581866,
      "loss": 0.5368635559082031,
      "step": 11200
    },
    {
      "epoch": 1.0653333333333332,
      "grad_norm": 0.9605848789215088,
      "learning_rate": 0.0002942380282569541,
      "loss": 0.5313293838500976,
      "step": 11300
    },
    {
      "epoch": 1.0686666666666667,
      "grad_norm": 0.8334460258483887,
      "learning_rate": 0.00029228779198383834,
      "loss": 0.5360410690307618,
      "step": 11400
    },
    {
      "epoch": 1.072,
      "grad_norm": 0.8171955347061157,
      "learning_rate": 0.0002903263419861924,
      "loss": 0.5353861999511719,
      "step": 11500
    },
    {
      "epoch": 1.0753333333333333,
      "grad_norm": 0.8680943250656128,
      "learning_rate": 0.0002883539165962972,
      "loss": 0.5278213119506836,
      "step": 11600
    },
    {
      "epoch": 1.0786666666666667,
      "grad_norm": 0.9106718897819519,
      "learning_rate": 0.0002863707554800338,
      "loss": 0.5310506439208984,
      "step": 11700
    },
    {
      "epoch": 1.082,
      "grad_norm": 0.9140894412994385,
      "learning_rate": 0.00028437709960776224,
      "loss": 0.5164321899414063,
      "step": 11800
    },
    {
      "epoch": 1.0853333333333333,
      "grad_norm": 0.790691077709198,
      "learning_rate": 0.0002823731912250414,
      "loss": 0.5228651428222656,
      "step": 11900
    },
    {
      "epoch": 1.0886666666666667,
      "grad_norm": 0.757777988910675,
      "learning_rate": 0.0002803592738231946,
      "loss": 0.5215324401855469,
      "step": 12000
    },
    {
      "epoch": 1.092,
      "grad_norm": 0.8369808793067932,
      "learning_rate": 0.00027833559210972307,
      "loss": 0.5239771270751953,
      "step": 12100
    },
    {
      "epoch": 1.0953333333333333,
      "grad_norm": 0.8947746157646179,
      "learning_rate": 0.000276302391978572,
      "loss": 0.5179909896850586,
      "step": 12200
    },
    {
      "epoch": 1.0986666666666667,
      "grad_norm": 0.9140170812606812,
      "learning_rate": 0.00027425992048025273,
      "loss": 0.5237076568603516,
      "step": 12300
    },
    {
      "epoch": 1.102,
      "grad_norm": 0.8575257062911987,
      "learning_rate": 0.00027220842579182353,
      "loss": 0.5152669525146485,
      "step": 12400
    },
    {
      "epoch": 1.1053333333333333,
      "grad_norm": 0.7598596215248108,
      "learning_rate": 0.0002701481571867345,
      "loss": 0.5134631729125977,
      "step": 12500
    },
    {
      "epoch": 1.1086666666666667,
      "grad_norm": 0.8437865972518921,
      "learning_rate": 0.0002680793650045388,
      "loss": 0.5225432586669921,
      "step": 12600
    },
    {
      "epoch": 1.112,
      "grad_norm": 0.7969825863838196,
      "learning_rate": 0.00026600230062047393,
      "loss": 0.5257926177978516,
      "step": 12700
    },
    {
      "epoch": 1.1153333333333333,
      "grad_norm": 0.8563022613525391,
      "learning_rate": 0.00026391721641491817,
      "loss": 0.5251951217651367,
      "step": 12800
    },
    {
      "epoch": 1.1186666666666667,
      "grad_norm": 0.708271861076355,
      "learning_rate": 0.0002618243657427236,
      "loss": 0.5297073745727539,
      "step": 12900
    },
    {
      "epoch": 1.1219999999999999,
      "grad_norm": 0.7699816823005676,
      "learning_rate": 0.00025972400290243195,
      "loss": 0.5333083724975586,
      "step": 13000
    },
    {
      "epoch": 1.1253333333333333,
      "grad_norm": 0.8275418877601624,
      "learning_rate": 0.0002576163831053752,
      "loss": 0.5334249114990235,
      "step": 13100
    },
    {
      "epoch": 1.1286666666666667,
      "grad_norm": 0.83842533826828,
      "learning_rate": 0.00025550176244466485,
      "loss": 0.5315378189086915,
      "step": 13200
    },
    {
      "epoch": 1.1320000000000001,
      "grad_norm": 0.8859015703201294,
      "learning_rate": 0.00025338039786407517,
      "loss": 0.5462711715698242,
      "step": 13300
    },
    {
      "epoch": 1.1353333333333333,
      "grad_norm": 0.7318875193595886,
      "learning_rate": 0.0002512525471268217,
      "loss": 0.5278379440307617,
      "step": 13400
    },
    {
      "epoch": 1.1386666666666667,
      "grad_norm": 0.7980539798736572,
      "learning_rate": 0.00024911846878424156,
      "loss": 0.5409846115112305,
      "step": 13500
    },
    {
      "epoch": 1.142,
      "grad_norm": 0.8805834650993347,
      "learning_rate": 0.00024697842214437704,
      "loss": 0.538138427734375,
      "step": 13600
    },
    {
      "epoch": 1.1453333333333333,
      "grad_norm": 0.8037357330322266,
      "learning_rate": 0.00024483266724046736,
      "loss": 0.528113784790039,
      "step": 13700
    },
    {
      "epoch": 1.1486666666666667,
      "grad_norm": 0.8429805636405945,
      "learning_rate": 0.00024268146479935286,
      "loss": 0.5357782363891601,
      "step": 13800
    },
    {
      "epoch": 1.152,
      "grad_norm": 0.876872181892395,
      "learning_rate": 0.0002405250762097943,
      "loss": 0.5338603591918946,
      "step": 13900
    },
    {
      "epoch": 1.1553333333333333,
      "grad_norm": 0.798278272151947,
      "learning_rate": 0.00023836376349071215,
      "loss": 0.5351076889038086,
      "step": 14000
    },
    {
      "epoch": 1.1586666666666667,
      "grad_norm": 0.8131340742111206,
      "learning_rate": 0.00023619778925934893,
      "loss": 0.5315785598754883,
      "step": 14100
    },
    {
      "epoch": 1.162,
      "grad_norm": 0.8453519940376282,
      "learning_rate": 0.00023402741669935933,
      "loss": 0.5312258911132812,
      "step": 14200
    },
    {
      "epoch": 1.1653333333333333,
      "grad_norm": 0.7479920387268066,
      "learning_rate": 0.00023185290952883097,
      "loss": 0.5305691909790039,
      "step": 14300
    },
    {
      "epoch": 1.1686666666666667,
      "grad_norm": 0.7968600392341614,
      "learning_rate": 0.00022967453196824056,
      "loss": 0.5351016998291016,
      "step": 14400
    },
    {
      "epoch": 1.172,
      "grad_norm": 0.7319141030311584,
      "learning_rate": 0.0002274925487083491,
      "loss": 0.523140754699707,
      "step": 14500
    },
    {
      "epoch": 1.1753333333333333,
      "grad_norm": 0.7255148887634277,
      "learning_rate": 0.00022530722487803967,
      "loss": 0.5274886322021485,
      "step": 14600
    },
    {
      "epoch": 1.1786666666666668,
      "grad_norm": 0.8094624876976013,
      "learning_rate": 0.000223118826012102,
      "loss": 0.5305857467651367,
      "step": 14700
    },
    {
      "epoch": 1.182,
      "grad_norm": 0.7611061930656433,
      "learning_rate": 0.0002209276180189679,
      "loss": 0.5199204635620117,
      "step": 14800
    },
    {
      "epoch": 1.1853333333333333,
      "grad_norm": 0.7731903195381165,
      "learning_rate": 0.00021873386714840122,
      "loss": 0.5233501434326172,
      "step": 14900
    },
    {
      "epoch": 1.1886666666666668,
      "grad_norm": 0.802269697189331,
      "learning_rate": 0.0002165378399591463,
      "loss": 0.5173654556274414,
      "step": 15000
    },
    {
      "epoch": 1.1886666666666668,
      "eval_loss": 0.4867754876613617,
      "eval_masked_accuracy": 0.8465927303032246,
      "eval_runtime": 2.9083,
      "eval_samples_per_second": 1408.378,
      "eval_steps_per_second": 5.501,
      "step": 15000
    },
    {
      "epoch": 1.192,
      "grad_norm": 0.8154687285423279,
      "learning_rate": 0.00021433980328653903,
      "loss": 0.5211496353149414,
      "step": 15100
    },
    {
      "epoch": 1.1953333333333334,
      "grad_norm": 0.870178759098053,
      "learning_rate": 0.00021214002421008382,
      "loss": 0.5156788253784179,
      "step": 15200
    },
    {
      "epoch": 1.1986666666666665,
      "grad_norm": 0.7339473962783813,
      "learning_rate": 0.0002099387700210015,
      "loss": 0.5113505935668945,
      "step": 15300
    },
    {
      "epoch": 1.202,
      "grad_norm": 0.8333882689476013,
      "learning_rate": 0.00020773630818975128,
      "loss": 0.5066380310058594,
      "step": 15400
    },
    {
      "epoch": 1.2053333333333334,
      "grad_norm": 0.7248000502586365,
      "learning_rate": 0.00020553290633353074,
      "loss": 0.5148737716674805,
      "step": 15500
    },
    {
      "epoch": 1.2086666666666668,
      "grad_norm": 0.8077163696289062,
      "learning_rate": 0.00020332883218375823,
      "loss": 0.5026751327514648,
      "step": 15600
    },
    {
      "epoch": 1.212,
      "grad_norm": 0.7529610991477966,
      "learning_rate": 0.00020112435355354132,
      "loss": 0.5074459457397461,
      "step": 15700
    },
    {
      "epoch": 1.2153333333333334,
      "grad_norm": 0.8418951630592346,
      "learning_rate": 0.00019891973830513525,
      "loss": 0.4947340393066406,
      "step": 15800
    },
    {
      "epoch": 1.2186666666666666,
      "grad_norm": 0.7463741302490234,
      "learning_rate": 0.00019671525431739546,
      "loss": 0.49930683135986326,
      "step": 15900
    },
    {
      "epoch": 1.222,
      "grad_norm": 0.7505474090576172,
      "learning_rate": 0.0001945111694532282,
      "loss": 0.49693927764892576,
      "step": 16000
    },
    {
      "epoch": 1.2253333333333334,
      "grad_norm": 0.7937129735946655,
      "learning_rate": 0.00019230775152704284,
      "loss": 0.5052358627319335,
      "step": 16100
    },
    {
      "epoch": 1.2286666666666666,
      "grad_norm": 0.6797370910644531,
      "learning_rate": 0.00019010526827221045,
      "loss": 0.4982032775878906,
      "step": 16200
    },
    {
      "epoch": 1.232,
      "grad_norm": 0.755185604095459,
      "learning_rate": 0.0001879039873085317,
      "loss": 0.4924372482299805,
      "step": 16300
    },
    {
      "epoch": 1.2353333333333334,
      "grad_norm": 0.6874153017997742,
      "learning_rate": 0.00018570417610971914,
      "loss": 0.49145896911621095,
      "step": 16400
    },
    {
      "epoch": 1.2386666666666666,
      "grad_norm": 0.785365879535675,
      "learning_rate": 0.0001835061019708968,
      "loss": 0.4896976470947266,
      "step": 16500
    },
    {
      "epoch": 1.242,
      "grad_norm": 0.7931706309318542,
      "learning_rate": 0.00018131003197612158,
      "loss": 0.48486351013183593,
      "step": 16600
    },
    {
      "epoch": 1.2453333333333334,
      "grad_norm": 0.711540162563324,
      "learning_rate": 0.0001791162329659304,
      "loss": 0.4865373992919922,
      "step": 16700
    },
    {
      "epoch": 1.2486666666666666,
      "grad_norm": 0.8093428611755371,
      "learning_rate": 0.00017692497150491703,
      "loss": 0.4822272491455078,
      "step": 16800
    },
    {
      "epoch": 1.252,
      "grad_norm": 0.8606541156768799,
      "learning_rate": 0.00017473651384934213,
      "loss": 0.47816139221191406,
      "step": 16900
    },
    {
      "epoch": 1.2553333333333334,
      "grad_norm": 0.6578624248504639,
      "learning_rate": 0.00017255112591478094,
      "loss": 0.4819015121459961,
      "step": 17000
    },
    {
      "epoch": 1.2586666666666666,
      "grad_norm": 0.8381503224372864,
      "learning_rate": 0.0001703690732438124,
      "loss": 0.4800693893432617,
      "step": 17100
    },
    {
      "epoch": 1.262,
      "grad_norm": 0.9081389904022217,
      "learning_rate": 0.00016819062097375365,
      "loss": 0.4796139907836914,
      "step": 17200
    },
    {
      "epoch": 1.2653333333333334,
      "grad_norm": 0.8076674938201904,
      "learning_rate": 0.00016601603380444338,
      "loss": 0.47347488403320315,
      "step": 17300
    },
    {
      "epoch": 1.2686666666666666,
      "grad_norm": 0.7531787157058716,
      "learning_rate": 0.00016384557596607884,
      "loss": 0.4700050354003906,
      "step": 17400
    },
    {
      "epoch": 1.272,
      "grad_norm": 0.843329131603241,
      "learning_rate": 0.0001616795111871098,
      "loss": 0.47036163330078123,
      "step": 17500
    },
    {
      "epoch": 1.2753333333333332,
      "grad_norm": 0.7025447487831116,
      "learning_rate": 0.0001595181026621931,
      "loss": 0.46735321044921874,
      "step": 17600
    },
    {
      "epoch": 1.2786666666666666,
      "grad_norm": 0.7623017430305481,
      "learning_rate": 0.00015736161302021254,
      "loss": 0.46535400390625,
      "step": 17700
    },
    {
      "epoch": 1.282,
      "grad_norm": 0.7620524764060974,
      "learning_rate": 0.00015521030429236713,
      "loss": 0.4652018356323242,
      "step": 17800
    },
    {
      "epoch": 1.2853333333333334,
      "grad_norm": 0.7925307154655457,
      "learning_rate": 0.00015306443788033248,
      "loss": 0.46518348693847655,
      "step": 17900
    },
    {
      "epoch": 1.2886666666666666,
      "grad_norm": 0.7878969311714172,
      "learning_rate": 0.00015092427452449803,
      "loss": 0.4622929382324219,
      "step": 18000
    },
    {
      "epoch": 1.292,
      "grad_norm": 0.7757784724235535,
      "learning_rate": 0.000148790074272285,
      "loss": 0.4650875091552734,
      "step": 18100
    },
    {
      "epoch": 1.2953333333333332,
      "grad_norm": 0.735175371170044,
      "learning_rate": 0.00014666209644654873,
      "loss": 0.4549406433105469,
      "step": 18200
    },
    {
      "epoch": 1.2986666666666666,
      "grad_norm": 0.6873441934585571,
      "learning_rate": 0.00014454059961406846,
      "loss": 0.4520915985107422,
      "step": 18300
    },
    {
      "epoch": 1.302,
      "grad_norm": 0.7766420841217041,
      "learning_rate": 0.0001424258415541296,
      "loss": 0.447607536315918,
      "step": 18400
    },
    {
      "epoch": 1.3053333333333335,
      "grad_norm": 0.6834190487861633,
      "learning_rate": 0.0001403180792272015,
      "loss": 0.4524835205078125,
      "step": 18500
    },
    {
      "epoch": 1.3086666666666666,
      "grad_norm": 0.7714037299156189,
      "learning_rate": 0.00013821756874371426,
      "loss": 0.43865036010742187,
      "step": 18600
    },
    {
      "epoch": 2.0006666666666666,
      "grad_norm": 0.6421045064926147,
      "learning_rate": 0.0001361245653329396,
      "loss": 0.45037097930908204,
      "step": 18700
    },
    {
      "epoch": 2.004,
      "grad_norm": 0.8619283437728882,
      "learning_rate": 0.00013403932331197823,
      "loss": 0.4485680389404297,
      "step": 18800
    },
    {
      "epoch": 2.0073333333333334,
      "grad_norm": 0.7336652278900146,
      "learning_rate": 0.00013196209605485825,
      "loss": 0.4345798110961914,
      "step": 18900
    },
    {
      "epoch": 2.010666666666667,
      "grad_norm": 0.7360154986381531,
      "learning_rate": 0.00012989313596174825,
      "loss": 0.4353963470458984,
      "step": 19000
    },
    {
      "epoch": 2.014,
      "grad_norm": 0.7875688076019287,
      "learning_rate": 0.0001278326944282883,
      "loss": 0.4323548126220703,
      "step": 19100
    },
    {
      "epoch": 2.017333333333333,
      "grad_norm": 0.8237797617912292,
      "learning_rate": 0.0001257810218150438,
      "loss": 0.43446548461914064,
      "step": 19200
    },
    {
      "epoch": 2.0206666666666666,
      "grad_norm": 0.775242030620575,
      "learning_rate": 0.0001237383674170841,
      "loss": 0.4317903900146484,
      "step": 19300
    },
    {
      "epoch": 2.024,
      "grad_norm": 0.7316193580627441,
      "learning_rate": 0.00012170497943369139,
      "loss": 0.4266176223754883,
      "step": 19400
    },
    {
      "epoch": 2.0273333333333334,
      "grad_norm": 0.8828946352005005,
      "learning_rate": 0.00011968110493820255,
      "loss": 0.42110267639160154,
      "step": 19500
    },
    {
      "epoch": 2.030666666666667,
      "grad_norm": 0.7441554665565491,
      "learning_rate": 0.00011766698984798741,
      "loss": 0.42277420043945313,
      "step": 19600
    },
    {
      "epoch": 2.034,
      "grad_norm": 0.7916893362998962,
      "learning_rate": 0.0001156628788945679,
      "loss": 0.42497276306152343,
      "step": 19700
    },
    {
      "epoch": 2.037333333333333,
      "grad_norm": 0.7108286023139954,
      "learning_rate": 0.00011366901559388127,
      "loss": 0.42226448059082033,
      "step": 19800
    },
    {
      "epoch": 2.0406666666666666,
      "grad_norm": 0.7501102089881897,
      "learning_rate": 0.00011168564221669089,
      "loss": 0.4148076629638672,
      "step": 19900
    },
    {
      "epoch": 2.044,
      "grad_norm": 0.7276322841644287,
      "learning_rate": 0.000109712999759148,
      "loss": 0.41933116912841795,
      "step": 20000
    },
    {
      "epoch": 2.044,
      "eval_loss": 0.4309006333351135,
      "eval_masked_accuracy": 0.862885533617241,
      "eval_runtime": 2.9684,
      "eval_samples_per_second": 1379.874,
      "eval_steps_per_second": 5.39,
      "step": 20000
    },
    {
      "epoch": 2.0473333333333334,
      "grad_norm": 0.8200253844261169,
      "learning_rate": 0.0001077513279135093,
      "loss": 0.4121805572509766,
      "step": 20100
    },
    {
      "epoch": 2.050666666666667,
      "grad_norm": 0.7574154734611511,
      "learning_rate": 0.000105800865039012,
      "loss": 0.4140956115722656,
      "step": 20200
    },
    {
      "epoch": 2.054,
      "grad_norm": 0.7535119652748108,
      "learning_rate": 0.00010386184813291108,
      "loss": 0.4128216552734375,
      "step": 20300
    },
    {
      "epoch": 2.0573333333333332,
      "grad_norm": 0.7665644884109497,
      "learning_rate": 0.00010193451280168258,
      "loss": 0.4141941833496094,
      "step": 20400
    },
    {
      "epoch": 2.0606666666666666,
      "grad_norm": 0.6833004951477051,
      "learning_rate": 0.00010001909323239524,
      "loss": 0.41669425964355467,
      "step": 20500
    },
    {
      "epoch": 2.064,
      "grad_norm": 0.6854680180549622,
      "learning_rate": 9.811582216425472e-05,
      "loss": 0.40588130950927737,
      "step": 20600
    },
    {
      "epoch": 2.0673333333333335,
      "grad_norm": 0.7551723122596741,
      "learning_rate": 9.622493086032432e-05,
      "loss": 0.40616172790527344,
      "step": 20700
    },
    {
      "epoch": 2.070666666666667,
      "grad_norm": 0.7875136733055115,
      "learning_rate": 9.434664907942397e-05,
      "loss": 0.40618175506591797,
      "step": 20800
    },
    {
      "epoch": 2.074,
      "grad_norm": 0.7156426906585693,
      "learning_rate": 9.24812050482134e-05,
      "loss": 0.40087387084960935,
      "step": 20900
    },
    {
      "epoch": 2.0773333333333333,
      "grad_norm": 0.7035794258117676,
      "learning_rate": 9.062882543345999e-05,
      "loss": 0.3979297637939453,
      "step": 21000
    },
    {
      "epoch": 2.0806666666666667,
      "grad_norm": 0.7434916496276855,
      "learning_rate": 8.878973531449748e-05,
      "loss": 0.3994139099121094,
      "step": 21100
    },
    {
      "epoch": 2.084,
      "grad_norm": 0.6868703961372375,
      "learning_rate": 8.696415815587673e-05,
      "loss": 0.39528240203857423,
      "step": 21200
    },
    {
      "epoch": 2.0873333333333335,
      "grad_norm": 0.7844119071960449,
      "learning_rate": 8.515231578021277e-05,
      "loss": 0.3911682891845703,
      "step": 21300
    },
    {
      "epoch": 2.0906666666666665,
      "grad_norm": 0.7842739820480347,
      "learning_rate": 8.335442834123192e-05,
      "loss": 0.3987908935546875,
      "step": 21400
    },
    {
      "epoch": 2.094,
      "grad_norm": 0.7348713874816895,
      "learning_rate": 8.157071429702113e-05,
      "loss": 0.38934185028076174,
      "step": 21500
    },
    {
      "epoch": 2.0973333333333333,
      "grad_norm": 0.7054168581962585,
      "learning_rate": 7.98013903834832e-05,
      "loss": 0.39156261444091794,
      "step": 21600
    },
    {
      "epoch": 2.1006666666666667,
      "grad_norm": 0.7588643431663513,
      "learning_rate": 7.80466715880023e-05,
      "loss": 0.38873050689697264,
      "step": 21700
    },
    {
      "epoch": 2.104,
      "grad_norm": 0.7288216948509216,
      "learning_rate": 7.630677112332046e-05,
      "loss": 0.3866202926635742,
      "step": 21800
    },
    {
      "epoch": 2.1073333333333335,
      "grad_norm": 0.7503123879432678,
      "learning_rate": 7.458190040163115e-05,
      "loss": 0.39182708740234373,
      "step": 21900
    },
    {
      "epoch": 2.1106666666666665,
      "grad_norm": 0.7055880427360535,
      "learning_rate": 7.287226900889039e-05,
      "loss": 0.401009635925293,
      "step": 22000
    },
    {
      "epoch": 2.114,
      "grad_norm": 0.8966184258460999,
      "learning_rate": 7.117808467935076e-05,
      "loss": 0.39603382110595703,
      "step": 22100
    },
    {
      "epoch": 2.1173333333333333,
      "grad_norm": 0.6970842480659485,
      "learning_rate": 6.949955327031988e-05,
      "loss": 0.398880729675293,
      "step": 22200
    },
    {
      "epoch": 2.1206666666666667,
      "grad_norm": 0.7583353519439697,
      "learning_rate": 6.783687873714672e-05,
      "loss": 0.3997147369384766,
      "step": 22300
    },
    {
      "epoch": 2.124,
      "grad_norm": 0.7861075401306152,
      "learning_rate": 6.61902631084399e-05,
      "loss": 0.4028291702270508,
      "step": 22400
    },
    {
      "epoch": 2.1273333333333335,
      "grad_norm": 0.6678594946861267,
      "learning_rate": 6.455990646151924e-05,
      "loss": 0.3987395095825195,
      "step": 22500
    },
    {
      "epoch": 2.1306666666666665,
      "grad_norm": 0.7038342952728271,
      "learning_rate": 6.29460068981046e-05,
      "loss": 0.39326480865478514,
      "step": 22600
    },
    {
      "epoch": 2.134,
      "grad_norm": 0.7392048239707947,
      "learning_rate": 6.134876052024527e-05,
      "loss": 0.40042667388916015,
      "step": 22700
    },
    {
      "epoch": 2.1373333333333333,
      "grad_norm": 0.8075382113456726,
      "learning_rate": 5.9768361406491533e-05,
      "loss": 0.3967801284790039,
      "step": 22800
    },
    {
      "epoch": 2.1406666666666667,
      "grad_norm": 0.7892723679542542,
      "learning_rate": 5.8205001588313014e-05,
      "loss": 0.39166572570800784,
      "step": 22900
    },
    {
      "epoch": 2.144,
      "grad_norm": 0.7251806855201721,
      "learning_rate": 5.6658871026764704e-05,
      "loss": 0.3836771011352539,
      "step": 23000
    },
    {
      "epoch": 2.1473333333333335,
      "grad_norm": 0.782537579536438,
      "learning_rate": 5.513015758940567e-05,
      "loss": 0.39198822021484375,
      "step": 23100
    },
    {
      "epoch": 2.1506666666666665,
      "grad_norm": 0.8268524408340454,
      "learning_rate": 5.361904702747136e-05,
      "loss": 0.38895458221435547,
      "step": 23200
    },
    {
      "epoch": 2.154,
      "grad_norm": 0.7508871555328369,
      "learning_rate": 5.212572295330311e-05,
      "loss": 0.40076961517333987,
      "step": 23300
    },
    {
      "epoch": 2.1573333333333333,
      "grad_norm": 0.6501144170761108,
      "learning_rate": 5.065036681803819e-05,
      "loss": 0.4024519348144531,
      "step": 23400
    },
    {
      "epoch": 2.1606666666666667,
      "grad_norm": 0.6458573937416077,
      "learning_rate": 4.919315788956167e-05,
      "loss": 0.4000421142578125,
      "step": 23500
    },
    {
      "epoch": 2.164,
      "grad_norm": 0.732280433177948,
      "learning_rate": 4.775427323072386e-05,
      "loss": 0.39758953094482424,
      "step": 23600
    },
    {
      "epoch": 2.1673333333333336,
      "grad_norm": 0.6772671937942505,
      "learning_rate": 4.6333887677826025e-05,
      "loss": 0.39006378173828127,
      "step": 23700
    },
    {
      "epoch": 2.1706666666666665,
      "grad_norm": 0.7737159729003906,
      "learning_rate": 4.4932173819376064e-05,
      "loss": 0.3929125213623047,
      "step": 23800
    },
    {
      "epoch": 2.174,
      "grad_norm": 0.8250499963760376,
      "learning_rate": 4.354930197511762e-05,
      "loss": 0.396903076171875,
      "step": 23900
    },
    {
      "epoch": 2.1773333333333333,
      "grad_norm": 0.7866168022155762,
      "learning_rate": 4.218544017533499e-05,
      "loss": 0.387851676940918,
      "step": 24000
    },
    {
      "epoch": 2.1806666666666668,
      "grad_norm": 0.7040881514549255,
      "learning_rate": 4.084075414043598e-05,
      "loss": 0.3934907913208008,
      "step": 24100
    },
    {
      "epoch": 2.184,
      "grad_norm": 0.7672249674797058,
      "learning_rate": 3.951540726081553e-05,
      "loss": 0.3852077484130859,
      "step": 24200
    },
    {
      "epoch": 2.187333333333333,
      "grad_norm": 0.7783628702163696,
      "learning_rate": 3.82095605770022e-05,
      "loss": 0.3871307373046875,
      "step": 24300
    },
    {
      "epoch": 2.1906666666666665,
      "grad_norm": 0.8870095610618591,
      "learning_rate": 3.69233727600909e-05,
      "loss": 0.3772114181518555,
      "step": 24400
    },
    {
      "epoch": 2.194,
      "grad_norm": 0.738532304763794,
      "learning_rate": 3.565700009246269e-05,
      "loss": 0.3705712890625,
      "step": 24500
    },
    {
      "epoch": 2.1973333333333334,
      "grad_norm": 0.6864748001098633,
      "learning_rate": 3.4410596448795184e-05,
      "loss": 0.383516845703125,
      "step": 24600
    },
    {
      "epoch": 2.2006666666666668,
      "grad_norm": 0.6553505063056946,
      "learning_rate": 3.318431327736577e-05,
      "loss": 0.38183685302734377,
      "step": 24700
    },
    {
      "epoch": 2.204,
      "grad_norm": 0.6033626794815063,
      "learning_rate": 3.197829958164917e-05,
      "loss": 0.3845671081542969,
      "step": 24800
    },
    {
      "epoch": 2.207333333333333,
      "grad_norm": 0.7695163488388062,
      "learning_rate": 3.079270190221231e-05,
      "loss": 0.3796828079223633,
      "step": 24900
    },
    {
      "epoch": 2.2106666666666666,
      "grad_norm": 0.7200196385383606,
      "learning_rate": 2.96276642989086e-05,
      "loss": 0.38924953460693357,
      "step": 25000
    },
    {
      "epoch": 2.2106666666666666,
      "eval_loss": 0.3823796212673187,
      "eval_masked_accuracy": 0.878150720164609,
      "eval_runtime": 3.0159,
      "eval_samples_per_second": 1358.12,
      "eval_steps_per_second": 5.305,
      "step": 25000
    },
    {
      "epoch": 2.214,
      "grad_norm": 0.7287200689315796,
      "learning_rate": 2.848332833337335e-05,
      "loss": 0.3876392364501953,
      "step": 25100
    },
    {
      "epoch": 2.2173333333333334,
      "grad_norm": 0.7604002952575684,
      "learning_rate": 2.7359833051822837e-05,
      "loss": 0.3845469284057617,
      "step": 25200
    },
    {
      "epoch": 2.220666666666667,
      "grad_norm": 0.6634399890899658,
      "learning_rate": 2.625731496815913e-05,
      "loss": 0.3846179962158203,
      "step": 25300
    },
    {
      "epoch": 2.224,
      "grad_norm": 0.7272804975509644,
      "learning_rate": 2.5175908047382592e-05,
      "loss": 0.39008934020996094,
      "step": 25400
    },
    {
      "epoch": 2.227333333333333,
      "grad_norm": 0.714460015296936,
      "learning_rate": 2.4115743689313774e-05,
      "loss": 0.3927734756469727,
      "step": 25500
    },
    {
      "epoch": 2.2306666666666666,
      "grad_norm": 0.8357155919075012,
      "learning_rate": 2.3076950712627588e-05,
      "loss": 0.38554725646972654,
      "step": 25600
    },
    {
      "epoch": 2.234,
      "grad_norm": 0.7323917150497437,
      "learning_rate": 2.2059655339200536e-05,
      "loss": 0.3921313095092773,
      "step": 25700
    },
    {
      "epoch": 2.2373333333333334,
      "grad_norm": 0.7257605791091919,
      "learning_rate": 2.1063981178773884e-05,
      "loss": 0.38508140563964843,
      "step": 25800
    },
    {
      "epoch": 2.240666666666667,
      "grad_norm": 0.7842901945114136,
      "learning_rate": 2.0090049213933803e-05,
      "loss": 0.39042671203613283,
      "step": 25900
    },
    {
      "epoch": 2.2439999999999998,
      "grad_norm": 0.6478227376937866,
      "learning_rate": 1.9137977785411333e-05,
      "loss": 0.3918688201904297,
      "step": 26000
    },
    {
      "epoch": 2.247333333333333,
      "grad_norm": 0.7710049748420715,
      "learning_rate": 1.820788257770283e-05,
      "loss": 0.3908076858520508,
      "step": 26100
    },
    {
      "epoch": 2.2506666666666666,
      "grad_norm": 0.7351255416870117,
      "learning_rate": 1.7299876605013267e-05,
      "loss": 0.37932159423828127,
      "step": 26200
    },
    {
      "epoch": 2.254,
      "grad_norm": 0.6514462232589722,
      "learning_rate": 1.641407019752428e-05,
      "loss": 0.38645931243896486,
      "step": 26300
    },
    {
      "epoch": 2.2573333333333334,
      "grad_norm": 0.7680016160011292,
      "learning_rate": 1.5550570987988067e-05,
      "loss": 0.381392707824707,
      "step": 26400
    },
    {
      "epoch": 2.260666666666667,
      "grad_norm": 0.7839369177818298,
      "learning_rate": 1.4709483898648945e-05,
      "loss": 0.37340118408203127,
      "step": 26500
    },
    {
      "epoch": 2.2640000000000002,
      "grad_norm": 0.6791050434112549,
      "learning_rate": 1.3890911128494788e-05,
      "loss": 0.38508747100830076,
      "step": 26600
    },
    {
      "epoch": 2.267333333333333,
      "grad_norm": 0.6227408051490784,
      "learning_rate": 1.3094952140838712e-05,
      "loss": 0.3770198059082031,
      "step": 26700
    },
    {
      "epoch": 2.2706666666666666,
      "grad_norm": 0.6502448916435242,
      "learning_rate": 1.2321703651233574e-05,
      "loss": 0.37348697662353514,
      "step": 26800
    },
    {
      "epoch": 2.274,
      "grad_norm": 0.6978487968444824,
      "learning_rate": 1.157125961572021e-05,
      "loss": 0.3783902359008789,
      "step": 26900
    },
    {
      "epoch": 2.2773333333333334,
      "grad_norm": 0.7682250738143921,
      "learning_rate": 1.0843711219411101e-05,
      "loss": 0.3767197799682617,
      "step": 27000
    },
    {
      "epoch": 2.280666666666667,
      "grad_norm": 0.6915271878242493,
      "learning_rate": 1.0139146865410554e-05,
      "loss": 0.3798466110229492,
      "step": 27100
    },
    {
      "epoch": 2.284,
      "grad_norm": 0.819548487663269,
      "learning_rate": 9.457652164072928e-06,
      "loss": 0.3809815979003906,
      "step": 27200
    },
    {
      "epoch": 2.287333333333333,
      "grad_norm": 0.7806178331375122,
      "learning_rate": 8.79930992260043e-06,
      "loss": 0.3813274383544922,
      "step": 27300
    },
    {
      "epoch": 2.2906666666666666,
      "grad_norm": 0.9139585494995117,
      "learning_rate": 8.16420013498127e-06,
      "loss": 0.38432167053222654,
      "step": 27400
    },
    {
      "epoch": 2.294,
      "grad_norm": 0.719249963760376,
      "learning_rate": 7.552399972269686e-06,
      "loss": 0.3763787078857422,
      "step": 27500
    },
    {
      "epoch": 2.2973333333333334,
      "grad_norm": 0.7366885542869568,
      "learning_rate": 6.963983773209149e-06,
      "loss": 0.3752469253540039,
      "step": 27600
    },
    {
      "epoch": 2.300666666666667,
      "grad_norm": 0.7235630750656128,
      "learning_rate": 6.399023035199547e-06,
      "loss": 0.37348270416259766,
      "step": 27700
    },
    {
      "epoch": 2.304,
      "grad_norm": 0.6602711081504822,
      "learning_rate": 5.857586405609583e-06,
      "loss": 0.38024497985839845,
      "step": 27800
    },
    {
      "epoch": 2.3073333333333332,
      "grad_norm": 0.6910043954849243,
      "learning_rate": 5.339739673435662e-06,
      "loss": 0.3761766815185547,
      "step": 27900
    },
    {
      "epoch": 2.3106666666666666,
      "grad_norm": 0.7024565935134888,
      "learning_rate": 4.8455457613079345e-06,
      "loss": 0.37851264953613284,
      "step": 28000
    },
    {
      "epoch": 3.002666666666667,
      "grad_norm": 0.9012552499771118,
      "learning_rate": 4.375064717844746e-06,
      "loss": 0.3574191665649414,
      "step": 28100
    },
    {
      "epoch": 3.006,
      "grad_norm": 0.680111825466156,
      "learning_rate": 3.928353710356114e-06,
      "loss": 0.3549924087524414,
      "step": 28200
    },
    {
      "epoch": 3.009333333333333,
      "grad_norm": 0.79486083984375,
      "learning_rate": 3.5054670178975346e-06,
      "loss": 0.35243122100830077,
      "step": 28300
    },
    {
      "epoch": 3.0126666666666666,
      "grad_norm": 0.6971395015716553,
      "learning_rate": 3.1064560246746088e-06,
      "loss": 0.34856960296630857,
      "step": 28400
    },
    {
      "epoch": 3.016,
      "grad_norm": 0.7989268898963928,
      "learning_rate": 2.7313692137993952e-06,
      "loss": 0.35404052734375,
      "step": 28500
    },
    {
      "epoch": 3.0193333333333334,
      "grad_norm": 0.681338369846344,
      "learning_rate": 2.3802521613993878e-06,
      "loss": 0.3551434326171875,
      "step": 28600
    },
    {
      "epoch": 3.022666666666667,
      "grad_norm": 0.6259098052978516,
      "learning_rate": 2.053147531079591e-06,
      "loss": 0.3543955230712891,
      "step": 28700
    },
    {
      "epoch": 3.026,
      "grad_norm": 0.6789717078208923,
      "learning_rate": 1.7500950687385332e-06,
      "loss": 0.3479387664794922,
      "step": 28800
    },
    {
      "epoch": 3.029333333333333,
      "grad_norm": 0.6986877918243408,
      "learning_rate": 1.4711315977388617e-06,
      "loss": 0.35285072326660155,
      "step": 28900
    },
    {
      "epoch": 3.0326666666666666,
      "grad_norm": 0.8804546594619751,
      "learning_rate": 1.2162910144329464e-06,
      "loss": 0.3571059799194336,
      "step": 29000
    },
    {
      "epoch": 3.036,
      "grad_norm": 0.7633663415908813,
      "learning_rate": 9.856042840442393e-07,
      "loss": 0.3522502517700195,
      "step": 29100
    },
    {
      "epoch": 3.0393333333333334,
      "grad_norm": 0.8087472319602966,
      "learning_rate": 7.790994369047289e-07,
      "loss": 0.3503116607666016,
      "step": 29200
    },
    {
      "epoch": 3.042666666666667,
      "grad_norm": 0.6872431039810181,
      "learning_rate": 5.968015650490211e-07,
      "loss": 0.34913509368896484,
      "step": 29300
    },
    {
      "epoch": 3.046,
      "grad_norm": 0.7077915668487549,
      "learning_rate": 4.387328191654438e-07,
      "loss": 0.34669517517089843,
      "step": 29400
    },
    {
      "epoch": 3.0493333333333332,
      "grad_norm": 0.721786379814148,
      "learning_rate": 3.0491240590457823e-07,
      "loss": 0.3519774627685547,
      "step": 29500
    },
    {
      "epoch": 3.0526666666666666,
      "grad_norm": 0.7876111268997192,
      "learning_rate": 1.9535658554545867e-07,
      "loss": 0.34955368041992185,
      "step": 29600
    },
    {
      "epoch": 3.056,
      "grad_norm": 0.5993502140045166,
      "learning_rate": 1.1007867001988637e-07,
      "loss": 0.3491347885131836,
      "step": 29700
    },
    {
      "epoch": 3.0593333333333335,
      "grad_norm": 0.7406614422798157,
      "learning_rate": 4.9089021294834726e-08,
      "loss": 0.35303794860839843,
      "step": 29800
    },
    {
      "epoch": 3.062666666666667,
      "grad_norm": 0.7397328615188599,
      "learning_rate": 1.2395050113389595e-08,
      "loss": 0.34634124755859375,
      "step": 29900
    },
    {
      "epoch": 3.066,
      "grad_norm": 0.7702119946479797,
      "learning_rate": 1.215094425077723e-12,
      "loss": 0.34748374938964843,
      "step": 30000
    },
    {
      "epoch": 3.066,
      "eval_loss": 0.37694016098976135,
      "eval_masked_accuracy": 0.8775784753363228,
      "eval_runtime": 2.9576,
      "eval_samples_per_second": 1384.896,
      "eval_steps_per_second": 5.41,
      "step": 30000
    },
    {
      "epoch": 3.066,
      "step": 30000,
      "total_flos": 9.74439612930639e+16,
      "train_loss": 0.6228721523284912,
      "train_runtime": 2832.8619,
      "train_samples_per_second": 2711.039,
      "train_steps_per_second": 10.59
    },
    {
      "epoch": 3.066,
      "eval_loss": 0.3744058609008789,
      "eval_masked_accuracy": 0.8805643239064613,
      "eval_runtime": 2.8656,
      "eval_samples_per_second": 1429.379,
      "eval_steps_per_second": 5.584,
      "step": 30000
    }
  ],
  "logging_steps": 100,
  "max_steps": 30000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 9223372036854775807,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": true
      },
      "attributes": {}
    }
  },
  "total_flos": 9.74439612930639e+16,
  "train_batch_size": 256,
  "trial_name": null,
  "trial_params": null
}