ModernMolBERT-small / trainer_state.json
jsture's picture
Upload trained ModernMolBERT checkpoint
d734b00 verified
Raw
History Blame Contribute Delete
57.8 kB
{
"best_global_step": 30000,
"best_metric": 0.37694016098976135,
"best_model_checkpoint": "runs/chembl36_small_mask_mlm_lr_sweep/mask_standard__mlm_0p15__lr_4e-4/checkpoint-30000",
"epoch": 3.066,
"eval_steps": 5000,
"global_step": 30000,
"is_hyper_param_search": false,
"is_local_process_zero": true,
"is_world_process_zero": true,
"log_history": [
{
"epoch": 0.0033333333333333335,
"grad_norm": 2.7403433322906494,
"learning_rate": 2.64e-05,
"loss": 5.425458984375,
"step": 100
},
{
"epoch": 0.006666666666666667,
"grad_norm": 4.65195894241333,
"learning_rate": 5.3066666666666665e-05,
"loss": 3.9814361572265624,
"step": 200
},
{
"epoch": 0.01,
"grad_norm": 2.9648351669311523,
"learning_rate": 7.973333333333334e-05,
"loss": 2.9717633056640627,
"step": 300
},
{
"epoch": 0.013333333333333334,
"grad_norm": 2.79247784614563,
"learning_rate": 0.00010640000000000001,
"loss": 2.318418426513672,
"step": 400
},
{
"epoch": 0.016666666666666666,
"grad_norm": 2.95702862739563,
"learning_rate": 0.00013306666666666668,
"loss": 2.012203826904297,
"step": 500
},
{
"epoch": 0.02,
"grad_norm": 2.464130401611328,
"learning_rate": 0.00015973333333333333,
"loss": 1.8253421020507812,
"step": 600
},
{
"epoch": 0.023333333333333334,
"grad_norm": 2.5683345794677734,
"learning_rate": 0.00018640000000000003,
"loss": 1.7040005493164063,
"step": 700
},
{
"epoch": 0.02666666666666667,
"grad_norm": 2.7064743041992188,
"learning_rate": 0.00021306666666666665,
"loss": 1.5912832641601562,
"step": 800
},
{
"epoch": 0.03,
"grad_norm": 1.7914412021636963,
"learning_rate": 0.00023973333333333338,
"loss": 1.532608184814453,
"step": 900
},
{
"epoch": 0.03333333333333333,
"grad_norm": 2.02378511428833,
"learning_rate": 0.0002664,
"loss": 1.4479930114746093,
"step": 1000
},
{
"epoch": 0.03666666666666667,
"grad_norm": 1.8761825561523438,
"learning_rate": 0.00029306666666666667,
"loss": 1.4139170837402344,
"step": 1100
},
{
"epoch": 0.04,
"grad_norm": 1.751976490020752,
"learning_rate": 0.00031973333333333337,
"loss": 1.3751948547363282,
"step": 1200
},
{
"epoch": 0.043333333333333335,
"grad_norm": 1.8251773118972778,
"learning_rate": 0.0003464,
"loss": 1.3400251770019531,
"step": 1300
},
{
"epoch": 0.04666666666666667,
"grad_norm": 1.5843342542648315,
"learning_rate": 0.00037306666666666666,
"loss": 1.327974853515625,
"step": 1400
},
{
"epoch": 0.05,
"grad_norm": 1.5720994472503662,
"learning_rate": 0.00039973333333333336,
"loss": 1.2728753662109376,
"step": 1500
},
{
"epoch": 0.05333333333333334,
"grad_norm": 1.2932488918304443,
"learning_rate": 0.0003999880909778094,
"loss": 1.259843521118164,
"step": 1600
},
{
"epoch": 0.056666666666666664,
"grad_norm": 1.4394837617874146,
"learning_rate": 0.00039995188297549443,
"loss": 1.2250770568847655,
"step": 1700
},
{
"epoch": 0.06,
"grad_norm": 1.3632104396820068,
"learning_rate": 0.0003998913791775301,
"loss": 1.1869202423095704,
"step": 1800
},
{
"epoch": 0.06333333333333334,
"grad_norm": 1.4223003387451172,
"learning_rate": 0.000399806586935625,
"loss": 1.1602543640136718,
"step": 1900
},
{
"epoch": 0.06666666666666667,
"grad_norm": 1.3835265636444092,
"learning_rate": 0.00039969751655273246,
"loss": 1.1331352233886718,
"step": 2000
},
{
"epoch": 0.07,
"grad_norm": 1.4172451496124268,
"learning_rate": 0.0003995641812817998,
"loss": 1.1115520477294922,
"step": 2100
},
{
"epoch": 0.07333333333333333,
"grad_norm": 1.2611116170883179,
"learning_rate": 0.00039940659732415714,
"loss": 1.0953889465332032,
"step": 2200
},
{
"epoch": 0.07666666666666666,
"grad_norm": 1.4010944366455078,
"learning_rate": 0.00039922478382754947,
"loss": 1.0633756256103515,
"step": 2300
},
{
"epoch": 0.08,
"grad_norm": 1.277366280555725,
"learning_rate": 0.00039901876288380946,
"loss": 1.0482559967041016,
"step": 2400
},
{
"epoch": 0.08333333333333333,
"grad_norm": 1.1845537424087524,
"learning_rate": 0.00039878855952617357,
"loss": 1.0299220275878906,
"step": 2500
},
{
"epoch": 0.08666666666666667,
"grad_norm": 1.1772642135620117,
"learning_rate": 0.00039853420172623985,
"loss": 1.0119639587402345,
"step": 2600
},
{
"epoch": 0.09,
"grad_norm": 1.241080641746521,
"learning_rate": 0.00039825572039056976,
"loss": 0.9945954895019531,
"step": 2700
},
{
"epoch": 0.09333333333333334,
"grad_norm": 1.1556016206741333,
"learning_rate": 0.0003979531493569322,
"loss": 0.9795339965820312,
"step": 2800
},
{
"epoch": 0.09666666666666666,
"grad_norm": 1.1028602123260498,
"learning_rate": 0.0003976265253901924,
"loss": 0.9684971618652344,
"step": 2900
},
{
"epoch": 0.1,
"grad_norm": 1.3073146343231201,
"learning_rate": 0.00039727588817784414,
"loss": 0.9519919586181641,
"step": 3000
},
{
"epoch": 0.10333333333333333,
"grad_norm": 1.224905252456665,
"learning_rate": 0.000396901280325188,
"loss": 0.9399765777587891,
"step": 3100
},
{
"epoch": 0.10666666666666667,
"grad_norm": 1.0792871713638306,
"learning_rate": 0.0003965027473501541,
"loss": 0.9271878814697265,
"step": 3200
},
{
"epoch": 0.11,
"grad_norm": 1.077876329421997,
"learning_rate": 0.0003960803376777714,
"loss": 0.9128645324707031,
"step": 3300
},
{
"epoch": 0.11333333333333333,
"grad_norm": 1.1184345483779907,
"learning_rate": 0.0003956341026342837,
"loss": 0.9120386505126953,
"step": 3400
},
{
"epoch": 0.11666666666666667,
"grad_norm": 1.1383893489837646,
"learning_rate": 0.0003951640964409127,
"loss": 0.9151699829101563,
"step": 3500
},
{
"epoch": 0.12,
"grad_norm": 1.12523353099823,
"learning_rate": 0.0003946703762072706,
"loss": 0.8922748565673828,
"step": 3600
},
{
"epoch": 0.12333333333333334,
"grad_norm": 1.0355699062347412,
"learning_rate": 0.0003941530019244196,
"loss": 0.8890122222900391,
"step": 3700
},
{
"epoch": 0.12666666666666668,
"grad_norm": 1.0852240324020386,
"learning_rate": 0.00039361203645758364,
"loss": 0.8781277465820313,
"step": 3800
},
{
"epoch": 0.13,
"grad_norm": 1.0739648342132568,
"learning_rate": 0.00039304754553850873,
"loss": 0.8778704833984375,
"step": 3900
},
{
"epoch": 0.13333333333333333,
"grad_norm": 1.0522024631500244,
"learning_rate": 0.0003924595977574769,
"loss": 0.8774790954589844,
"step": 4000
},
{
"epoch": 0.13666666666666666,
"grad_norm": 1.0717562437057495,
"learning_rate": 0.00039184826455497133,
"loss": 0.8516897583007812,
"step": 4100
},
{
"epoch": 0.14,
"grad_norm": 1.0378234386444092,
"learning_rate": 0.00039121362021299604,
"loss": 0.8448622894287109,
"step": 4200
},
{
"epoch": 0.14333333333333334,
"grad_norm": 1.0532786846160889,
"learning_rate": 0.00039055574184604976,
"loss": 0.8344584655761719,
"step": 4300
},
{
"epoch": 0.14666666666666667,
"grad_norm": 1.021437644958496,
"learning_rate": 0.0003898747093917561,
"loss": 0.8287362670898437,
"step": 4400
},
{
"epoch": 0.15,
"grad_norm": 0.9874396920204163,
"learning_rate": 0.0003891706056011505,
"loss": 0.8258264923095703,
"step": 4500
},
{
"epoch": 0.15333333333333332,
"grad_norm": 0.9322711825370789,
"learning_rate": 0.0003884435160286251,
"loss": 0.816080322265625,
"step": 4600
},
{
"epoch": 0.15666666666666668,
"grad_norm": 0.9402130842208862,
"learning_rate": 0.00038769352902153333,
"loss": 0.8135909271240235,
"step": 4700
},
{
"epoch": 0.16,
"grad_norm": 1.0193718671798706,
"learning_rate": 0.00038692073570945496,
"loss": 0.817694091796875,
"step": 4800
},
{
"epoch": 0.16333333333333333,
"grad_norm": 0.9926565289497375,
"learning_rate": 0.000386125229993123,
"loss": 0.7987307739257813,
"step": 4900
},
{
"epoch": 0.16666666666666666,
"grad_norm": 0.9364326596260071,
"learning_rate": 0.0003853071085330141,
"loss": 0.8007232666015625,
"step": 5000
},
{
"epoch": 0.16666666666666666,
"eval_loss": 0.7967580556869507,
"eval_masked_accuracy": 0.7653559496273451,
"eval_runtime": 2.5634,
"eval_samples_per_second": 1597.853,
"eval_steps_per_second": 6.242,
"step": 5000
},
{
"epoch": 0.17,
"grad_norm": 0.9981640577316284,
"learning_rate": 0.0003844664707376037,
"loss": 0.7831909942626953,
"step": 5100
},
{
"epoch": 0.17333333333333334,
"grad_norm": 0.935793936252594,
"learning_rate": 0.00038360341875128646,
"loss": 0.7719477081298828,
"step": 5200
},
{
"epoch": 0.17666666666666667,
"grad_norm": 0.9942166805267334,
"learning_rate": 0.0003827180574419656,
"loss": 0.7788728332519531,
"step": 5300
},
{
"epoch": 0.18,
"grad_norm": 0.921302318572998,
"learning_rate": 0.00038181049438831024,
"loss": 0.7685958099365234,
"step": 5400
},
{
"epoch": 0.18333333333333332,
"grad_norm": 0.8787013292312622,
"learning_rate": 0.0003808808398666837,
"loss": 0.7563288116455078,
"step": 5500
},
{
"epoch": 0.18666666666666668,
"grad_norm": 0.8968636989593506,
"learning_rate": 0.00037992920683774386,
"loss": 0.7474672698974609,
"step": 5600
},
{
"epoch": 0.19,
"grad_norm": 0.9104163646697998,
"learning_rate": 0.00037895571093271807,
"loss": 0.7457213592529297,
"step": 5700
},
{
"epoch": 0.19333333333333333,
"grad_norm": 0.8929153680801392,
"learning_rate": 0.00037796047043935234,
"loss": 0.7423068237304687,
"step": 5800
},
{
"epoch": 0.19666666666666666,
"grad_norm": 0.9810736775398254,
"learning_rate": 0.00037694360628753897,
"loss": 0.7346783447265625,
"step": 5900
},
{
"epoch": 0.2,
"grad_norm": 0.931078314781189,
"learning_rate": 0.00037590524203462216,
"loss": 0.7334535217285156,
"step": 6000
},
{
"epoch": 0.20333333333333334,
"grad_norm": 1.019803524017334,
"learning_rate": 0.0003748455038503849,
"loss": 0.7276763916015625,
"step": 6100
},
{
"epoch": 0.20666666666666667,
"grad_norm": 0.9782306551933289,
"learning_rate": 0.0003737645205017185,
"loss": 0.7344593048095703,
"step": 6200
},
{
"epoch": 0.21,
"grad_norm": 0.9293437004089355,
"learning_rate": 0.0003726624233369761,
"loss": 0.7246415710449219,
"step": 6300
},
{
"epoch": 0.21333333333333335,
"grad_norm": 0.8795522451400757,
"learning_rate": 0.0003715393462700129,
"loss": 0.7216864776611328,
"step": 6400
},
{
"epoch": 0.21666666666666667,
"grad_norm": 0.9632502198219299,
"learning_rate": 0.00037039542576391445,
"loss": 0.7085445404052735,
"step": 6500
},
{
"epoch": 0.22,
"grad_norm": 0.8495221138000488,
"learning_rate": 0.0003692308008144153,
"loss": 0.7115458679199219,
"step": 6600
},
{
"epoch": 0.22333333333333333,
"grad_norm": 0.8541926741600037,
"learning_rate": 0.0003680456129330099,
"loss": 0.6990865325927734,
"step": 6700
},
{
"epoch": 0.22666666666666666,
"grad_norm": 0.8344811201095581,
"learning_rate": 0.0003668400061297579,
"loss": 0.6993592071533203,
"step": 6800
},
{
"epoch": 0.23,
"grad_norm": 0.8975337147712708,
"learning_rate": 0.00036561412689578544,
"loss": 0.6972901153564454,
"step": 6900
},
{
"epoch": 0.23333333333333334,
"grad_norm": 0.8364660143852234,
"learning_rate": 0.00036436812418548547,
"loss": 0.6967823791503907,
"step": 7000
},
{
"epoch": 0.23666666666666666,
"grad_norm": 0.8676795363426208,
"learning_rate": 0.00036310214939841873,
"loss": 0.6893701934814453,
"step": 7100
},
{
"epoch": 0.24,
"grad_norm": 0.8879637718200684,
"learning_rate": 0.0003618163563609171,
"loss": 0.6855775451660157,
"step": 7200
},
{
"epoch": 0.24333333333333335,
"grad_norm": 0.9070082306861877,
"learning_rate": 0.00036051090130739274,
"loss": 0.6840663146972656,
"step": 7300
},
{
"epoch": 0.24666666666666667,
"grad_norm": 0.8394324779510498,
"learning_rate": 0.0003591859428613541,
"loss": 0.6798997497558594,
"step": 7400
},
{
"epoch": 0.25,
"grad_norm": 0.8838658332824707,
"learning_rate": 0.000357841642016132,
"loss": 0.6784028625488281,
"step": 7500
},
{
"epoch": 0.25333333333333335,
"grad_norm": 0.8179841041564941,
"learning_rate": 0.0003564781621153176,
"loss": 0.6701314544677734,
"step": 7600
},
{
"epoch": 0.25666666666666665,
"grad_norm": 0.8342909812927246,
"learning_rate": 0.000355095668832915,
"loss": 0.6615406799316407,
"step": 7700
},
{
"epoch": 0.26,
"grad_norm": 0.8877819180488586,
"learning_rate": 0.00035369433015320983,
"loss": 0.6670161437988281,
"step": 7800
},
{
"epoch": 0.2633333333333333,
"grad_norm": 0.9063718914985657,
"learning_rate": 0.0003522743163503587,
"loss": 0.6525628662109375,
"step": 7900
},
{
"epoch": 0.26666666666666666,
"grad_norm": 0.8738296627998352,
"learning_rate": 0.00035083579996769866,
"loss": 0.6613227081298828,
"step": 8000
},
{
"epoch": 0.27,
"grad_norm": 0.9108850359916687,
"learning_rate": 0.00034937895579678256,
"loss": 0.6542455291748047,
"step": 8100
},
{
"epoch": 0.2733333333333333,
"grad_norm": 0.7989206314086914,
"learning_rate": 0.00034790396085613955,
"loss": 0.6540352630615235,
"step": 8200
},
{
"epoch": 0.27666666666666667,
"grad_norm": 0.8691635727882385,
"learning_rate": 0.0003464109943697667,
"loss": 0.6410691070556641,
"step": 8300
},
{
"epoch": 0.28,
"grad_norm": 0.8667342066764832,
"learning_rate": 0.0003449002377453512,
"loss": 0.6395606994628906,
"step": 8400
},
{
"epoch": 0.2833333333333333,
"grad_norm": 0.7986162900924683,
"learning_rate": 0.00034337187455222835,
"loss": 0.6376551055908203,
"step": 8500
},
{
"epoch": 0.2866666666666667,
"grad_norm": 0.9031108617782593,
"learning_rate": 0.0003418260904990759,
"loss": 0.6303312683105469,
"step": 8600
},
{
"epoch": 0.29,
"grad_norm": 0.8435996174812317,
"learning_rate": 0.0003402630734113492,
"loss": 0.6225329971313477,
"step": 8700
},
{
"epoch": 0.29333333333333333,
"grad_norm": 0.9413688778877258,
"learning_rate": 0.00033868301320845895,
"loss": 0.6248882293701172,
"step": 8800
},
{
"epoch": 0.2966666666666667,
"grad_norm": 0.7998372316360474,
"learning_rate": 0.000337086101880694,
"loss": 0.6171749496459961,
"step": 8900
},
{
"epoch": 0.3,
"grad_norm": 0.8585835099220276,
"learning_rate": 0.00033547253346589355,
"loss": 0.6206340789794922,
"step": 9000
},
{
"epoch": 0.30333333333333334,
"grad_norm": 0.8483954071998596,
"learning_rate": 0.00033384250402586954,
"loss": 0.6195469665527343,
"step": 9100
},
{
"epoch": 0.30666666666666664,
"grad_norm": 0.9016720056533813,
"learning_rate": 0.00033219621162258343,
"loss": 0.6200881958007812,
"step": 9200
},
{
"epoch": 0.31,
"grad_norm": 0.829871416091919,
"learning_rate": 0.0003305338562940807,
"loss": 0.6127318954467773,
"step": 9300
},
{
"epoch": 1.002,
"grad_norm": 0.9081104397773743,
"learning_rate": 0.0003288556400301836,
"loss": 0.603317756652832,
"step": 9400
},
{
"epoch": 1.0053333333333334,
"grad_norm": 0.8421012759208679,
"learning_rate": 0.00032716176674794884,
"loss": 0.5797752380371094,
"step": 9500
},
{
"epoch": 1.0086666666666666,
"grad_norm": 0.8119559288024902,
"learning_rate": 0.0003254524422668889,
"loss": 0.5843183898925781,
"step": 9600
},
{
"epoch": 1.012,
"grad_norm": 0.8360543847084045,
"learning_rate": 0.00032372787428396423,
"loss": 0.5793385696411133,
"step": 9700
},
{
"epoch": 1.0153333333333334,
"grad_norm": 0.780649721622467,
"learning_rate": 0.0003219882723483456,
"loss": 0.5682408142089844,
"step": 9800
},
{
"epoch": 1.0186666666666666,
"grad_norm": 0.7468474507331848,
"learning_rate": 0.00032023384783595255,
"loss": 0.5659066772460938,
"step": 9900
},
{
"epoch": 1.022,
"grad_norm": 0.8460882902145386,
"learning_rate": 0.00031846481392376966,
"loss": 0.5553397369384766,
"step": 10000
},
{
"epoch": 1.022,
"eval_loss": 0.5976771116256714,
"eval_masked_accuracy": 0.8167562724014337,
"eval_runtime": 2.8203,
"eval_samples_per_second": 1452.351,
"eval_steps_per_second": 5.673,
"step": 10000
},
{
"epoch": 1.0253333333333334,
"grad_norm": 0.7821327447891235,
"learning_rate": 0.00031668138556394316,
"loss": 0.5550868606567383,
"step": 10100
},
{
"epoch": 1.0286666666666666,
"grad_norm": 1.0433557033538818,
"learning_rate": 0.00031488377945766314,
"loss": 0.5548404312133789,
"step": 10200
},
{
"epoch": 1.032,
"grad_norm": 0.8580315113067627,
"learning_rate": 0.00031307221402883227,
"loss": 0.5406364440917969,
"step": 10300
},
{
"epoch": 1.0353333333333334,
"grad_norm": 0.8950467705726624,
"learning_rate": 0.00031124690939752543,
"loss": 0.533514404296875,
"step": 10400
},
{
"epoch": 1.0386666666666666,
"grad_norm": 0.7847508192062378,
"learning_rate": 0.0003094080873532434,
"loss": 0.538754539489746,
"step": 10500
},
{
"epoch": 1.042,
"grad_norm": 0.868969738483429,
"learning_rate": 0.00030755597132796385,
"loss": 0.5428607177734375,
"step": 10600
},
{
"epoch": 1.0453333333333332,
"grad_norm": 0.7972626090049744,
"learning_rate": 0.0003056907863689921,
"loss": 0.5347858810424805,
"step": 10700
},
{
"epoch": 1.0486666666666666,
"grad_norm": 0.763969361782074,
"learning_rate": 0.0003038127591116163,
"loss": 0.532847785949707,
"step": 10800
},
{
"epoch": 1.052,
"grad_norm": 0.7701809406280518,
"learning_rate": 0.0003019221177515692,
"loss": 0.5308395767211914,
"step": 10900
},
{
"epoch": 1.0553333333333332,
"grad_norm": 0.8959071636199951,
"learning_rate": 0.0003000190920173008,
"loss": 0.5308527374267578,
"step": 11000
},
{
"epoch": 1.0586666666666666,
"grad_norm": 1.0272624492645264,
"learning_rate": 0.00029810391314206416,
"loss": 0.5359263992309571,
"step": 11100
},
{
"epoch": 1.062,
"grad_norm": 0.8793138861656189,
"learning_rate": 0.00029617681383581866,
"loss": 0.5368635559082031,
"step": 11200
},
{
"epoch": 1.0653333333333332,
"grad_norm": 0.9605848789215088,
"learning_rate": 0.0002942380282569541,
"loss": 0.5313293838500976,
"step": 11300
},
{
"epoch": 1.0686666666666667,
"grad_norm": 0.8334460258483887,
"learning_rate": 0.00029228779198383834,
"loss": 0.5360410690307618,
"step": 11400
},
{
"epoch": 1.072,
"grad_norm": 0.8171955347061157,
"learning_rate": 0.0002903263419861924,
"loss": 0.5353861999511719,
"step": 11500
},
{
"epoch": 1.0753333333333333,
"grad_norm": 0.8680943250656128,
"learning_rate": 0.0002883539165962972,
"loss": 0.5278213119506836,
"step": 11600
},
{
"epoch": 1.0786666666666667,
"grad_norm": 0.9106718897819519,
"learning_rate": 0.0002863707554800338,
"loss": 0.5310506439208984,
"step": 11700
},
{
"epoch": 1.082,
"grad_norm": 0.9140894412994385,
"learning_rate": 0.00028437709960776224,
"loss": 0.5164321899414063,
"step": 11800
},
{
"epoch": 1.0853333333333333,
"grad_norm": 0.790691077709198,
"learning_rate": 0.0002823731912250414,
"loss": 0.5228651428222656,
"step": 11900
},
{
"epoch": 1.0886666666666667,
"grad_norm": 0.757777988910675,
"learning_rate": 0.0002803592738231946,
"loss": 0.5215324401855469,
"step": 12000
},
{
"epoch": 1.092,
"grad_norm": 0.8369808793067932,
"learning_rate": 0.00027833559210972307,
"loss": 0.5239771270751953,
"step": 12100
},
{
"epoch": 1.0953333333333333,
"grad_norm": 0.8947746157646179,
"learning_rate": 0.000276302391978572,
"loss": 0.5179909896850586,
"step": 12200
},
{
"epoch": 1.0986666666666667,
"grad_norm": 0.9140170812606812,
"learning_rate": 0.00027425992048025273,
"loss": 0.5237076568603516,
"step": 12300
},
{
"epoch": 1.102,
"grad_norm": 0.8575257062911987,
"learning_rate": 0.00027220842579182353,
"loss": 0.5152669525146485,
"step": 12400
},
{
"epoch": 1.1053333333333333,
"grad_norm": 0.7598596215248108,
"learning_rate": 0.0002701481571867345,
"loss": 0.5134631729125977,
"step": 12500
},
{
"epoch": 1.1086666666666667,
"grad_norm": 0.8437865972518921,
"learning_rate": 0.0002680793650045388,
"loss": 0.5225432586669921,
"step": 12600
},
{
"epoch": 1.112,
"grad_norm": 0.7969825863838196,
"learning_rate": 0.00026600230062047393,
"loss": 0.5257926177978516,
"step": 12700
},
{
"epoch": 1.1153333333333333,
"grad_norm": 0.8563022613525391,
"learning_rate": 0.00026391721641491817,
"loss": 0.5251951217651367,
"step": 12800
},
{
"epoch": 1.1186666666666667,
"grad_norm": 0.708271861076355,
"learning_rate": 0.0002618243657427236,
"loss": 0.5297073745727539,
"step": 12900
},
{
"epoch": 1.1219999999999999,
"grad_norm": 0.7699816823005676,
"learning_rate": 0.00025972400290243195,
"loss": 0.5333083724975586,
"step": 13000
},
{
"epoch": 1.1253333333333333,
"grad_norm": 0.8275418877601624,
"learning_rate": 0.0002576163831053752,
"loss": 0.5334249114990235,
"step": 13100
},
{
"epoch": 1.1286666666666667,
"grad_norm": 0.83842533826828,
"learning_rate": 0.00025550176244466485,
"loss": 0.5315378189086915,
"step": 13200
},
{
"epoch": 1.1320000000000001,
"grad_norm": 0.8859015703201294,
"learning_rate": 0.00025338039786407517,
"loss": 0.5462711715698242,
"step": 13300
},
{
"epoch": 1.1353333333333333,
"grad_norm": 0.7318875193595886,
"learning_rate": 0.0002512525471268217,
"loss": 0.5278379440307617,
"step": 13400
},
{
"epoch": 1.1386666666666667,
"grad_norm": 0.7980539798736572,
"learning_rate": 0.00024911846878424156,
"loss": 0.5409846115112305,
"step": 13500
},
{
"epoch": 1.142,
"grad_norm": 0.8805834650993347,
"learning_rate": 0.00024697842214437704,
"loss": 0.538138427734375,
"step": 13600
},
{
"epoch": 1.1453333333333333,
"grad_norm": 0.8037357330322266,
"learning_rate": 0.00024483266724046736,
"loss": 0.528113784790039,
"step": 13700
},
{
"epoch": 1.1486666666666667,
"grad_norm": 0.8429805636405945,
"learning_rate": 0.00024268146479935286,
"loss": 0.5357782363891601,
"step": 13800
},
{
"epoch": 1.152,
"grad_norm": 0.876872181892395,
"learning_rate": 0.0002405250762097943,
"loss": 0.5338603591918946,
"step": 13900
},
{
"epoch": 1.1553333333333333,
"grad_norm": 0.798278272151947,
"learning_rate": 0.00023836376349071215,
"loss": 0.5351076889038086,
"step": 14000
},
{
"epoch": 1.1586666666666667,
"grad_norm": 0.8131340742111206,
"learning_rate": 0.00023619778925934893,
"loss": 0.5315785598754883,
"step": 14100
},
{
"epoch": 1.162,
"grad_norm": 0.8453519940376282,
"learning_rate": 0.00023402741669935933,
"loss": 0.5312258911132812,
"step": 14200
},
{
"epoch": 1.1653333333333333,
"grad_norm": 0.7479920387268066,
"learning_rate": 0.00023185290952883097,
"loss": 0.5305691909790039,
"step": 14300
},
{
"epoch": 1.1686666666666667,
"grad_norm": 0.7968600392341614,
"learning_rate": 0.00022967453196824056,
"loss": 0.5351016998291016,
"step": 14400
},
{
"epoch": 1.172,
"grad_norm": 0.7319141030311584,
"learning_rate": 0.0002274925487083491,
"loss": 0.523140754699707,
"step": 14500
},
{
"epoch": 1.1753333333333333,
"grad_norm": 0.7255148887634277,
"learning_rate": 0.00022530722487803967,
"loss": 0.5274886322021485,
"step": 14600
},
{
"epoch": 1.1786666666666668,
"grad_norm": 0.8094624876976013,
"learning_rate": 0.000223118826012102,
"loss": 0.5305857467651367,
"step": 14700
},
{
"epoch": 1.182,
"grad_norm": 0.7611061930656433,
"learning_rate": 0.0002209276180189679,
"loss": 0.5199204635620117,
"step": 14800
},
{
"epoch": 1.1853333333333333,
"grad_norm": 0.7731903195381165,
"learning_rate": 0.00021873386714840122,
"loss": 0.5233501434326172,
"step": 14900
},
{
"epoch": 1.1886666666666668,
"grad_norm": 0.802269697189331,
"learning_rate": 0.0002165378399591463,
"loss": 0.5173654556274414,
"step": 15000
},
{
"epoch": 1.1886666666666668,
"eval_loss": 0.4867754876613617,
"eval_masked_accuracy": 0.8465927303032246,
"eval_runtime": 2.9083,
"eval_samples_per_second": 1408.378,
"eval_steps_per_second": 5.501,
"step": 15000
},
{
"epoch": 1.192,
"grad_norm": 0.8154687285423279,
"learning_rate": 0.00021433980328653903,
"loss": 0.5211496353149414,
"step": 15100
},
{
"epoch": 1.1953333333333334,
"grad_norm": 0.870178759098053,
"learning_rate": 0.00021214002421008382,
"loss": 0.5156788253784179,
"step": 15200
},
{
"epoch": 1.1986666666666665,
"grad_norm": 0.7339473962783813,
"learning_rate": 0.0002099387700210015,
"loss": 0.5113505935668945,
"step": 15300
},
{
"epoch": 1.202,
"grad_norm": 0.8333882689476013,
"learning_rate": 0.00020773630818975128,
"loss": 0.5066380310058594,
"step": 15400
},
{
"epoch": 1.2053333333333334,
"grad_norm": 0.7248000502586365,
"learning_rate": 0.00020553290633353074,
"loss": 0.5148737716674805,
"step": 15500
},
{
"epoch": 1.2086666666666668,
"grad_norm": 0.8077163696289062,
"learning_rate": 0.00020332883218375823,
"loss": 0.5026751327514648,
"step": 15600
},
{
"epoch": 1.212,
"grad_norm": 0.7529610991477966,
"learning_rate": 0.00020112435355354132,
"loss": 0.5074459457397461,
"step": 15700
},
{
"epoch": 1.2153333333333334,
"grad_norm": 0.8418951630592346,
"learning_rate": 0.00019891973830513525,
"loss": 0.4947340393066406,
"step": 15800
},
{
"epoch": 1.2186666666666666,
"grad_norm": 0.7463741302490234,
"learning_rate": 0.00019671525431739546,
"loss": 0.49930683135986326,
"step": 15900
},
{
"epoch": 1.222,
"grad_norm": 0.7505474090576172,
"learning_rate": 0.0001945111694532282,
"loss": 0.49693927764892576,
"step": 16000
},
{
"epoch": 1.2253333333333334,
"grad_norm": 0.7937129735946655,
"learning_rate": 0.00019230775152704284,
"loss": 0.5052358627319335,
"step": 16100
},
{
"epoch": 1.2286666666666666,
"grad_norm": 0.6797370910644531,
"learning_rate": 0.00019010526827221045,
"loss": 0.4982032775878906,
"step": 16200
},
{
"epoch": 1.232,
"grad_norm": 0.755185604095459,
"learning_rate": 0.0001879039873085317,
"loss": 0.4924372482299805,
"step": 16300
},
{
"epoch": 1.2353333333333334,
"grad_norm": 0.6874153017997742,
"learning_rate": 0.00018570417610971914,
"loss": 0.49145896911621095,
"step": 16400
},
{
"epoch": 1.2386666666666666,
"grad_norm": 0.785365879535675,
"learning_rate": 0.0001835061019708968,
"loss": 0.4896976470947266,
"step": 16500
},
{
"epoch": 1.242,
"grad_norm": 0.7931706309318542,
"learning_rate": 0.00018131003197612158,
"loss": 0.48486351013183593,
"step": 16600
},
{
"epoch": 1.2453333333333334,
"grad_norm": 0.711540162563324,
"learning_rate": 0.0001791162329659304,
"loss": 0.4865373992919922,
"step": 16700
},
{
"epoch": 1.2486666666666666,
"grad_norm": 0.8093428611755371,
"learning_rate": 0.00017692497150491703,
"loss": 0.4822272491455078,
"step": 16800
},
{
"epoch": 1.252,
"grad_norm": 0.8606541156768799,
"learning_rate": 0.00017473651384934213,
"loss": 0.47816139221191406,
"step": 16900
},
{
"epoch": 1.2553333333333334,
"grad_norm": 0.6578624248504639,
"learning_rate": 0.00017255112591478094,
"loss": 0.4819015121459961,
"step": 17000
},
{
"epoch": 1.2586666666666666,
"grad_norm": 0.8381503224372864,
"learning_rate": 0.0001703690732438124,
"loss": 0.4800693893432617,
"step": 17100
},
{
"epoch": 1.262,
"grad_norm": 0.9081389904022217,
"learning_rate": 0.00016819062097375365,
"loss": 0.4796139907836914,
"step": 17200
},
{
"epoch": 1.2653333333333334,
"grad_norm": 0.8076674938201904,
"learning_rate": 0.00016601603380444338,
"loss": 0.47347488403320315,
"step": 17300
},
{
"epoch": 1.2686666666666666,
"grad_norm": 0.7531787157058716,
"learning_rate": 0.00016384557596607884,
"loss": 0.4700050354003906,
"step": 17400
},
{
"epoch": 1.272,
"grad_norm": 0.843329131603241,
"learning_rate": 0.0001616795111871098,
"loss": 0.47036163330078123,
"step": 17500
},
{
"epoch": 1.2753333333333332,
"grad_norm": 0.7025447487831116,
"learning_rate": 0.0001595181026621931,
"loss": 0.46735321044921874,
"step": 17600
},
{
"epoch": 1.2786666666666666,
"grad_norm": 0.7623017430305481,
"learning_rate": 0.00015736161302021254,
"loss": 0.46535400390625,
"step": 17700
},
{
"epoch": 1.282,
"grad_norm": 0.7620524764060974,
"learning_rate": 0.00015521030429236713,
"loss": 0.4652018356323242,
"step": 17800
},
{
"epoch": 1.2853333333333334,
"grad_norm": 0.7925307154655457,
"learning_rate": 0.00015306443788033248,
"loss": 0.46518348693847655,
"step": 17900
},
{
"epoch": 1.2886666666666666,
"grad_norm": 0.7878969311714172,
"learning_rate": 0.00015092427452449803,
"loss": 0.4622929382324219,
"step": 18000
},
{
"epoch": 1.292,
"grad_norm": 0.7757784724235535,
"learning_rate": 0.000148790074272285,
"loss": 0.4650875091552734,
"step": 18100
},
{
"epoch": 1.2953333333333332,
"grad_norm": 0.735175371170044,
"learning_rate": 0.00014666209644654873,
"loss": 0.4549406433105469,
"step": 18200
},
{
"epoch": 1.2986666666666666,
"grad_norm": 0.6873441934585571,
"learning_rate": 0.00014454059961406846,
"loss": 0.4520915985107422,
"step": 18300
},
{
"epoch": 1.302,
"grad_norm": 0.7766420841217041,
"learning_rate": 0.0001424258415541296,
"loss": 0.447607536315918,
"step": 18400
},
{
"epoch": 1.3053333333333335,
"grad_norm": 0.6834190487861633,
"learning_rate": 0.0001403180792272015,
"loss": 0.4524835205078125,
"step": 18500
},
{
"epoch": 1.3086666666666666,
"grad_norm": 0.7714037299156189,
"learning_rate": 0.00013821756874371426,
"loss": 0.43865036010742187,
"step": 18600
},
{
"epoch": 2.0006666666666666,
"grad_norm": 0.6421045064926147,
"learning_rate": 0.0001361245653329396,
"loss": 0.45037097930908204,
"step": 18700
},
{
"epoch": 2.004,
"grad_norm": 0.8619283437728882,
"learning_rate": 0.00013403932331197823,
"loss": 0.4485680389404297,
"step": 18800
},
{
"epoch": 2.0073333333333334,
"grad_norm": 0.7336652278900146,
"learning_rate": 0.00013196209605485825,
"loss": 0.4345798110961914,
"step": 18900
},
{
"epoch": 2.010666666666667,
"grad_norm": 0.7360154986381531,
"learning_rate": 0.00012989313596174825,
"loss": 0.4353963470458984,
"step": 19000
},
{
"epoch": 2.014,
"grad_norm": 0.7875688076019287,
"learning_rate": 0.0001278326944282883,
"loss": 0.4323548126220703,
"step": 19100
},
{
"epoch": 2.017333333333333,
"grad_norm": 0.8237797617912292,
"learning_rate": 0.0001257810218150438,
"loss": 0.43446548461914064,
"step": 19200
},
{
"epoch": 2.0206666666666666,
"grad_norm": 0.775242030620575,
"learning_rate": 0.0001237383674170841,
"loss": 0.4317903900146484,
"step": 19300
},
{
"epoch": 2.024,
"grad_norm": 0.7316193580627441,
"learning_rate": 0.00012170497943369139,
"loss": 0.4266176223754883,
"step": 19400
},
{
"epoch": 2.0273333333333334,
"grad_norm": 0.8828946352005005,
"learning_rate": 0.00011968110493820255,
"loss": 0.42110267639160154,
"step": 19500
},
{
"epoch": 2.030666666666667,
"grad_norm": 0.7441554665565491,
"learning_rate": 0.00011766698984798741,
"loss": 0.42277420043945313,
"step": 19600
},
{
"epoch": 2.034,
"grad_norm": 0.7916893362998962,
"learning_rate": 0.0001156628788945679,
"loss": 0.42497276306152343,
"step": 19700
},
{
"epoch": 2.037333333333333,
"grad_norm": 0.7108286023139954,
"learning_rate": 0.00011366901559388127,
"loss": 0.42226448059082033,
"step": 19800
},
{
"epoch": 2.0406666666666666,
"grad_norm": 0.7501102089881897,
"learning_rate": 0.00011168564221669089,
"loss": 0.4148076629638672,
"step": 19900
},
{
"epoch": 2.044,
"grad_norm": 0.7276322841644287,
"learning_rate": 0.000109712999759148,
"loss": 0.41933116912841795,
"step": 20000
},
{
"epoch": 2.044,
"eval_loss": 0.4309006333351135,
"eval_masked_accuracy": 0.862885533617241,
"eval_runtime": 2.9684,
"eval_samples_per_second": 1379.874,
"eval_steps_per_second": 5.39,
"step": 20000
},
{
"epoch": 2.0473333333333334,
"grad_norm": 0.8200253844261169,
"learning_rate": 0.0001077513279135093,
"loss": 0.4121805572509766,
"step": 20100
},
{
"epoch": 2.050666666666667,
"grad_norm": 0.7574154734611511,
"learning_rate": 0.000105800865039012,
"loss": 0.4140956115722656,
"step": 20200
},
{
"epoch": 2.054,
"grad_norm": 0.7535119652748108,
"learning_rate": 0.00010386184813291108,
"loss": 0.4128216552734375,
"step": 20300
},
{
"epoch": 2.0573333333333332,
"grad_norm": 0.7665644884109497,
"learning_rate": 0.00010193451280168258,
"loss": 0.4141941833496094,
"step": 20400
},
{
"epoch": 2.0606666666666666,
"grad_norm": 0.6833004951477051,
"learning_rate": 0.00010001909323239524,
"loss": 0.41669425964355467,
"step": 20500
},
{
"epoch": 2.064,
"grad_norm": 0.6854680180549622,
"learning_rate": 9.811582216425472e-05,
"loss": 0.40588130950927737,
"step": 20600
},
{
"epoch": 2.0673333333333335,
"grad_norm": 0.7551723122596741,
"learning_rate": 9.622493086032432e-05,
"loss": 0.40616172790527344,
"step": 20700
},
{
"epoch": 2.070666666666667,
"grad_norm": 0.7875136733055115,
"learning_rate": 9.434664907942397e-05,
"loss": 0.40618175506591797,
"step": 20800
},
{
"epoch": 2.074,
"grad_norm": 0.7156426906585693,
"learning_rate": 9.24812050482134e-05,
"loss": 0.40087387084960935,
"step": 20900
},
{
"epoch": 2.0773333333333333,
"grad_norm": 0.7035794258117676,
"learning_rate": 9.062882543345999e-05,
"loss": 0.3979297637939453,
"step": 21000
},
{
"epoch": 2.0806666666666667,
"grad_norm": 0.7434916496276855,
"learning_rate": 8.878973531449748e-05,
"loss": 0.3994139099121094,
"step": 21100
},
{
"epoch": 2.084,
"grad_norm": 0.6868703961372375,
"learning_rate": 8.696415815587673e-05,
"loss": 0.39528240203857423,
"step": 21200
},
{
"epoch": 2.0873333333333335,
"grad_norm": 0.7844119071960449,
"learning_rate": 8.515231578021277e-05,
"loss": 0.3911682891845703,
"step": 21300
},
{
"epoch": 2.0906666666666665,
"grad_norm": 0.7842739820480347,
"learning_rate": 8.335442834123192e-05,
"loss": 0.3987908935546875,
"step": 21400
},
{
"epoch": 2.094,
"grad_norm": 0.7348713874816895,
"learning_rate": 8.157071429702113e-05,
"loss": 0.38934185028076174,
"step": 21500
},
{
"epoch": 2.0973333333333333,
"grad_norm": 0.7054168581962585,
"learning_rate": 7.98013903834832e-05,
"loss": 0.39156261444091794,
"step": 21600
},
{
"epoch": 2.1006666666666667,
"grad_norm": 0.7588643431663513,
"learning_rate": 7.80466715880023e-05,
"loss": 0.38873050689697264,
"step": 21700
},
{
"epoch": 2.104,
"grad_norm": 0.7288216948509216,
"learning_rate": 7.630677112332046e-05,
"loss": 0.3866202926635742,
"step": 21800
},
{
"epoch": 2.1073333333333335,
"grad_norm": 0.7503123879432678,
"learning_rate": 7.458190040163115e-05,
"loss": 0.39182708740234373,
"step": 21900
},
{
"epoch": 2.1106666666666665,
"grad_norm": 0.7055880427360535,
"learning_rate": 7.287226900889039e-05,
"loss": 0.401009635925293,
"step": 22000
},
{
"epoch": 2.114,
"grad_norm": 0.8966184258460999,
"learning_rate": 7.117808467935076e-05,
"loss": 0.39603382110595703,
"step": 22100
},
{
"epoch": 2.1173333333333333,
"grad_norm": 0.6970842480659485,
"learning_rate": 6.949955327031988e-05,
"loss": 0.398880729675293,
"step": 22200
},
{
"epoch": 2.1206666666666667,
"grad_norm": 0.7583353519439697,
"learning_rate": 6.783687873714672e-05,
"loss": 0.3997147369384766,
"step": 22300
},
{
"epoch": 2.124,
"grad_norm": 0.7861075401306152,
"learning_rate": 6.61902631084399e-05,
"loss": 0.4028291702270508,
"step": 22400
},
{
"epoch": 2.1273333333333335,
"grad_norm": 0.6678594946861267,
"learning_rate": 6.455990646151924e-05,
"loss": 0.3987395095825195,
"step": 22500
},
{
"epoch": 2.1306666666666665,
"grad_norm": 0.7038342952728271,
"learning_rate": 6.29460068981046e-05,
"loss": 0.39326480865478514,
"step": 22600
},
{
"epoch": 2.134,
"grad_norm": 0.7392048239707947,
"learning_rate": 6.134876052024527e-05,
"loss": 0.40042667388916015,
"step": 22700
},
{
"epoch": 2.1373333333333333,
"grad_norm": 0.8075382113456726,
"learning_rate": 5.9768361406491533e-05,
"loss": 0.3967801284790039,
"step": 22800
},
{
"epoch": 2.1406666666666667,
"grad_norm": 0.7892723679542542,
"learning_rate": 5.8205001588313014e-05,
"loss": 0.39166572570800784,
"step": 22900
},
{
"epoch": 2.144,
"grad_norm": 0.7251806855201721,
"learning_rate": 5.6658871026764704e-05,
"loss": 0.3836771011352539,
"step": 23000
},
{
"epoch": 2.1473333333333335,
"grad_norm": 0.782537579536438,
"learning_rate": 5.513015758940567e-05,
"loss": 0.39198822021484375,
"step": 23100
},
{
"epoch": 2.1506666666666665,
"grad_norm": 0.8268524408340454,
"learning_rate": 5.361904702747136e-05,
"loss": 0.38895458221435547,
"step": 23200
},
{
"epoch": 2.154,
"grad_norm": 0.7508871555328369,
"learning_rate": 5.212572295330311e-05,
"loss": 0.40076961517333987,
"step": 23300
},
{
"epoch": 2.1573333333333333,
"grad_norm": 0.6501144170761108,
"learning_rate": 5.065036681803819e-05,
"loss": 0.4024519348144531,
"step": 23400
},
{
"epoch": 2.1606666666666667,
"grad_norm": 0.6458573937416077,
"learning_rate": 4.919315788956167e-05,
"loss": 0.4000421142578125,
"step": 23500
},
{
"epoch": 2.164,
"grad_norm": 0.732280433177948,
"learning_rate": 4.775427323072386e-05,
"loss": 0.39758953094482424,
"step": 23600
},
{
"epoch": 2.1673333333333336,
"grad_norm": 0.6772671937942505,
"learning_rate": 4.6333887677826025e-05,
"loss": 0.39006378173828127,
"step": 23700
},
{
"epoch": 2.1706666666666665,
"grad_norm": 0.7737159729003906,
"learning_rate": 4.4932173819376064e-05,
"loss": 0.3929125213623047,
"step": 23800
},
{
"epoch": 2.174,
"grad_norm": 0.8250499963760376,
"learning_rate": 4.354930197511762e-05,
"loss": 0.396903076171875,
"step": 23900
},
{
"epoch": 2.1773333333333333,
"grad_norm": 0.7866168022155762,
"learning_rate": 4.218544017533499e-05,
"loss": 0.387851676940918,
"step": 24000
},
{
"epoch": 2.1806666666666668,
"grad_norm": 0.7040881514549255,
"learning_rate": 4.084075414043598e-05,
"loss": 0.3934907913208008,
"step": 24100
},
{
"epoch": 2.184,
"grad_norm": 0.7672249674797058,
"learning_rate": 3.951540726081553e-05,
"loss": 0.3852077484130859,
"step": 24200
},
{
"epoch": 2.187333333333333,
"grad_norm": 0.7783628702163696,
"learning_rate": 3.82095605770022e-05,
"loss": 0.3871307373046875,
"step": 24300
},
{
"epoch": 2.1906666666666665,
"grad_norm": 0.8870095610618591,
"learning_rate": 3.69233727600909e-05,
"loss": 0.3772114181518555,
"step": 24400
},
{
"epoch": 2.194,
"grad_norm": 0.738532304763794,
"learning_rate": 3.565700009246269e-05,
"loss": 0.3705712890625,
"step": 24500
},
{
"epoch": 2.1973333333333334,
"grad_norm": 0.6864748001098633,
"learning_rate": 3.4410596448795184e-05,
"loss": 0.383516845703125,
"step": 24600
},
{
"epoch": 2.2006666666666668,
"grad_norm": 0.6553505063056946,
"learning_rate": 3.318431327736577e-05,
"loss": 0.38183685302734377,
"step": 24700
},
{
"epoch": 2.204,
"grad_norm": 0.6033626794815063,
"learning_rate": 3.197829958164917e-05,
"loss": 0.3845671081542969,
"step": 24800
},
{
"epoch": 2.207333333333333,
"grad_norm": 0.7695163488388062,
"learning_rate": 3.079270190221231e-05,
"loss": 0.3796828079223633,
"step": 24900
},
{
"epoch": 2.2106666666666666,
"grad_norm": 0.7200196385383606,
"learning_rate": 2.96276642989086e-05,
"loss": 0.38924953460693357,
"step": 25000
},
{
"epoch": 2.2106666666666666,
"eval_loss": 0.3823796212673187,
"eval_masked_accuracy": 0.878150720164609,
"eval_runtime": 3.0159,
"eval_samples_per_second": 1358.12,
"eval_steps_per_second": 5.305,
"step": 25000
},
{
"epoch": 2.214,
"grad_norm": 0.7287200689315796,
"learning_rate": 2.848332833337335e-05,
"loss": 0.3876392364501953,
"step": 25100
},
{
"epoch": 2.2173333333333334,
"grad_norm": 0.7604002952575684,
"learning_rate": 2.7359833051822837e-05,
"loss": 0.3845469284057617,
"step": 25200
},
{
"epoch": 2.220666666666667,
"grad_norm": 0.6634399890899658,
"learning_rate": 2.625731496815913e-05,
"loss": 0.3846179962158203,
"step": 25300
},
{
"epoch": 2.224,
"grad_norm": 0.7272804975509644,
"learning_rate": 2.5175908047382592e-05,
"loss": 0.39008934020996094,
"step": 25400
},
{
"epoch": 2.227333333333333,
"grad_norm": 0.714460015296936,
"learning_rate": 2.4115743689313774e-05,
"loss": 0.3927734756469727,
"step": 25500
},
{
"epoch": 2.2306666666666666,
"grad_norm": 0.8357155919075012,
"learning_rate": 2.3076950712627588e-05,
"loss": 0.38554725646972654,
"step": 25600
},
{
"epoch": 2.234,
"grad_norm": 0.7323917150497437,
"learning_rate": 2.2059655339200536e-05,
"loss": 0.3921313095092773,
"step": 25700
},
{
"epoch": 2.2373333333333334,
"grad_norm": 0.7257605791091919,
"learning_rate": 2.1063981178773884e-05,
"loss": 0.38508140563964843,
"step": 25800
},
{
"epoch": 2.240666666666667,
"grad_norm": 0.7842901945114136,
"learning_rate": 2.0090049213933803e-05,
"loss": 0.39042671203613283,
"step": 25900
},
{
"epoch": 2.2439999999999998,
"grad_norm": 0.6478227376937866,
"learning_rate": 1.9137977785411333e-05,
"loss": 0.3918688201904297,
"step": 26000
},
{
"epoch": 2.247333333333333,
"grad_norm": 0.7710049748420715,
"learning_rate": 1.820788257770283e-05,
"loss": 0.3908076858520508,
"step": 26100
},
{
"epoch": 2.2506666666666666,
"grad_norm": 0.7351255416870117,
"learning_rate": 1.7299876605013267e-05,
"loss": 0.37932159423828127,
"step": 26200
},
{
"epoch": 2.254,
"grad_norm": 0.6514462232589722,
"learning_rate": 1.641407019752428e-05,
"loss": 0.38645931243896486,
"step": 26300
},
{
"epoch": 2.2573333333333334,
"grad_norm": 0.7680016160011292,
"learning_rate": 1.5550570987988067e-05,
"loss": 0.381392707824707,
"step": 26400
},
{
"epoch": 2.260666666666667,
"grad_norm": 0.7839369177818298,
"learning_rate": 1.4709483898648945e-05,
"loss": 0.37340118408203127,
"step": 26500
},
{
"epoch": 2.2640000000000002,
"grad_norm": 0.6791050434112549,
"learning_rate": 1.3890911128494788e-05,
"loss": 0.38508747100830076,
"step": 26600
},
{
"epoch": 2.267333333333333,
"grad_norm": 0.6227408051490784,
"learning_rate": 1.3094952140838712e-05,
"loss": 0.3770198059082031,
"step": 26700
},
{
"epoch": 2.2706666666666666,
"grad_norm": 0.6502448916435242,
"learning_rate": 1.2321703651233574e-05,
"loss": 0.37348697662353514,
"step": 26800
},
{
"epoch": 2.274,
"grad_norm": 0.6978487968444824,
"learning_rate": 1.157125961572021e-05,
"loss": 0.3783902359008789,
"step": 26900
},
{
"epoch": 2.2773333333333334,
"grad_norm": 0.7682250738143921,
"learning_rate": 1.0843711219411101e-05,
"loss": 0.3767197799682617,
"step": 27000
},
{
"epoch": 2.280666666666667,
"grad_norm": 0.6915271878242493,
"learning_rate": 1.0139146865410554e-05,
"loss": 0.3798466110229492,
"step": 27100
},
{
"epoch": 2.284,
"grad_norm": 0.819548487663269,
"learning_rate": 9.457652164072928e-06,
"loss": 0.3809815979003906,
"step": 27200
},
{
"epoch": 2.287333333333333,
"grad_norm": 0.7806178331375122,
"learning_rate": 8.79930992260043e-06,
"loss": 0.3813274383544922,
"step": 27300
},
{
"epoch": 2.2906666666666666,
"grad_norm": 0.9139585494995117,
"learning_rate": 8.16420013498127e-06,
"loss": 0.38432167053222654,
"step": 27400
},
{
"epoch": 2.294,
"grad_norm": 0.719249963760376,
"learning_rate": 7.552399972269686e-06,
"loss": 0.3763787078857422,
"step": 27500
},
{
"epoch": 2.2973333333333334,
"grad_norm": 0.7366885542869568,
"learning_rate": 6.963983773209149e-06,
"loss": 0.3752469253540039,
"step": 27600
},
{
"epoch": 2.300666666666667,
"grad_norm": 0.7235630750656128,
"learning_rate": 6.399023035199547e-06,
"loss": 0.37348270416259766,
"step": 27700
},
{
"epoch": 2.304,
"grad_norm": 0.6602711081504822,
"learning_rate": 5.857586405609583e-06,
"loss": 0.38024497985839845,
"step": 27800
},
{
"epoch": 2.3073333333333332,
"grad_norm": 0.6910043954849243,
"learning_rate": 5.339739673435662e-06,
"loss": 0.3761766815185547,
"step": 27900
},
{
"epoch": 2.3106666666666666,
"grad_norm": 0.7024565935134888,
"learning_rate": 4.8455457613079345e-06,
"loss": 0.37851264953613284,
"step": 28000
},
{
"epoch": 3.002666666666667,
"grad_norm": 0.9012552499771118,
"learning_rate": 4.375064717844746e-06,
"loss": 0.3574191665649414,
"step": 28100
},
{
"epoch": 3.006,
"grad_norm": 0.680111825466156,
"learning_rate": 3.928353710356114e-06,
"loss": 0.3549924087524414,
"step": 28200
},
{
"epoch": 3.009333333333333,
"grad_norm": 0.79486083984375,
"learning_rate": 3.5054670178975346e-06,
"loss": 0.35243122100830077,
"step": 28300
},
{
"epoch": 3.0126666666666666,
"grad_norm": 0.6971395015716553,
"learning_rate": 3.1064560246746088e-06,
"loss": 0.34856960296630857,
"step": 28400
},
{
"epoch": 3.016,
"grad_norm": 0.7989268898963928,
"learning_rate": 2.7313692137993952e-06,
"loss": 0.35404052734375,
"step": 28500
},
{
"epoch": 3.0193333333333334,
"grad_norm": 0.681338369846344,
"learning_rate": 2.3802521613993878e-06,
"loss": 0.3551434326171875,
"step": 28600
},
{
"epoch": 3.022666666666667,
"grad_norm": 0.6259098052978516,
"learning_rate": 2.053147531079591e-06,
"loss": 0.3543955230712891,
"step": 28700
},
{
"epoch": 3.026,
"grad_norm": 0.6789717078208923,
"learning_rate": 1.7500950687385332e-06,
"loss": 0.3479387664794922,
"step": 28800
},
{
"epoch": 3.029333333333333,
"grad_norm": 0.6986877918243408,
"learning_rate": 1.4711315977388617e-06,
"loss": 0.35285072326660155,
"step": 28900
},
{
"epoch": 3.0326666666666666,
"grad_norm": 0.8804546594619751,
"learning_rate": 1.2162910144329464e-06,
"loss": 0.3571059799194336,
"step": 29000
},
{
"epoch": 3.036,
"grad_norm": 0.7633663415908813,
"learning_rate": 9.856042840442393e-07,
"loss": 0.3522502517700195,
"step": 29100
},
{
"epoch": 3.0393333333333334,
"grad_norm": 0.8087472319602966,
"learning_rate": 7.790994369047289e-07,
"loss": 0.3503116607666016,
"step": 29200
},
{
"epoch": 3.042666666666667,
"grad_norm": 0.6872431039810181,
"learning_rate": 5.968015650490211e-07,
"loss": 0.34913509368896484,
"step": 29300
},
{
"epoch": 3.046,
"grad_norm": 0.7077915668487549,
"learning_rate": 4.387328191654438e-07,
"loss": 0.34669517517089843,
"step": 29400
},
{
"epoch": 3.0493333333333332,
"grad_norm": 0.721786379814148,
"learning_rate": 3.0491240590457823e-07,
"loss": 0.3519774627685547,
"step": 29500
},
{
"epoch": 3.0526666666666666,
"grad_norm": 0.7876111268997192,
"learning_rate": 1.9535658554545867e-07,
"loss": 0.34955368041992185,
"step": 29600
},
{
"epoch": 3.056,
"grad_norm": 0.5993502140045166,
"learning_rate": 1.1007867001988637e-07,
"loss": 0.3491347885131836,
"step": 29700
},
{
"epoch": 3.0593333333333335,
"grad_norm": 0.7406614422798157,
"learning_rate": 4.9089021294834726e-08,
"loss": 0.35303794860839843,
"step": 29800
},
{
"epoch": 3.062666666666667,
"grad_norm": 0.7397328615188599,
"learning_rate": 1.2395050113389595e-08,
"loss": 0.34634124755859375,
"step": 29900
},
{
"epoch": 3.066,
"grad_norm": 0.7702119946479797,
"learning_rate": 1.215094425077723e-12,
"loss": 0.34748374938964843,
"step": 30000
},
{
"epoch": 3.066,
"eval_loss": 0.37694016098976135,
"eval_masked_accuracy": 0.8775784753363228,
"eval_runtime": 2.9576,
"eval_samples_per_second": 1384.896,
"eval_steps_per_second": 5.41,
"step": 30000
},
{
"epoch": 3.066,
"step": 30000,
"total_flos": 9.74439612930639e+16,
"train_loss": 0.6228721523284912,
"train_runtime": 2832.8619,
"train_samples_per_second": 2711.039,
"train_steps_per_second": 10.59
},
{
"epoch": 3.066,
"eval_loss": 0.3744058609008789,
"eval_masked_accuracy": 0.8805643239064613,
"eval_runtime": 2.8656,
"eval_samples_per_second": 1429.379,
"eval_steps_per_second": 5.584,
"step": 30000
}
],
"logging_steps": 100,
"max_steps": 30000,
"num_input_tokens_seen": 0,
"num_train_epochs": 9223372036854775807,
"save_steps": 5000,
"stateful_callbacks": {
"TrainerControl": {
"args": {
"should_epoch_stop": false,
"should_evaluate": false,
"should_log": false,
"should_save": true,
"should_training_stop": true
},
"attributes": {}
}
},
"total_flos": 9.74439612930639e+16,
"train_batch_size": 256,
"trial_name": null,
"trial_params": null
}