{ "best_global_step": 30000, "best_metric": 0.37694016098976135, "best_model_checkpoint": "runs/chembl36_small_mask_mlm_lr_sweep/mask_standard__mlm_0p15__lr_4e-4/checkpoint-30000", "epoch": 3.066, "eval_steps": 5000, "global_step": 30000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 0.0033333333333333335, "grad_norm": 2.7403433322906494, "learning_rate": 2.64e-05, "loss": 5.425458984375, "step": 100 }, { "epoch": 0.006666666666666667, "grad_norm": 4.65195894241333, "learning_rate": 5.3066666666666665e-05, "loss": 3.9814361572265624, "step": 200 }, { "epoch": 0.01, "grad_norm": 2.9648351669311523, "learning_rate": 7.973333333333334e-05, "loss": 2.9717633056640627, "step": 300 }, { "epoch": 0.013333333333333334, "grad_norm": 2.79247784614563, "learning_rate": 0.00010640000000000001, "loss": 2.318418426513672, "step": 400 }, { "epoch": 0.016666666666666666, "grad_norm": 2.95702862739563, "learning_rate": 0.00013306666666666668, "loss": 2.012203826904297, "step": 500 }, { "epoch": 0.02, "grad_norm": 2.464130401611328, "learning_rate": 0.00015973333333333333, "loss": 1.8253421020507812, "step": 600 }, { "epoch": 0.023333333333333334, "grad_norm": 2.5683345794677734, "learning_rate": 0.00018640000000000003, "loss": 1.7040005493164063, "step": 700 }, { "epoch": 0.02666666666666667, "grad_norm": 2.7064743041992188, "learning_rate": 0.00021306666666666665, "loss": 1.5912832641601562, "step": 800 }, { "epoch": 0.03, "grad_norm": 1.7914412021636963, "learning_rate": 0.00023973333333333338, "loss": 1.532608184814453, "step": 900 }, { "epoch": 0.03333333333333333, "grad_norm": 2.02378511428833, "learning_rate": 0.0002664, "loss": 1.4479930114746093, "step": 1000 }, { "epoch": 0.03666666666666667, "grad_norm": 1.8761825561523438, "learning_rate": 0.00029306666666666667, "loss": 1.4139170837402344, "step": 1100 }, { "epoch": 0.04, "grad_norm": 1.751976490020752, "learning_rate": 0.00031973333333333337, "loss": 1.3751948547363282, "step": 1200 }, { "epoch": 0.043333333333333335, "grad_norm": 1.8251773118972778, "learning_rate": 0.0003464, "loss": 1.3400251770019531, "step": 1300 }, { "epoch": 0.04666666666666667, "grad_norm": 1.5843342542648315, "learning_rate": 0.00037306666666666666, "loss": 1.327974853515625, "step": 1400 }, { "epoch": 0.05, "grad_norm": 1.5720994472503662, "learning_rate": 0.00039973333333333336, "loss": 1.2728753662109376, "step": 1500 }, { "epoch": 0.05333333333333334, "grad_norm": 1.2932488918304443, "learning_rate": 0.0003999880909778094, "loss": 1.259843521118164, "step": 1600 }, { "epoch": 0.056666666666666664, "grad_norm": 1.4394837617874146, "learning_rate": 0.00039995188297549443, "loss": 1.2250770568847655, "step": 1700 }, { "epoch": 0.06, "grad_norm": 1.3632104396820068, "learning_rate": 0.0003998913791775301, "loss": 1.1869202423095704, "step": 1800 }, { "epoch": 0.06333333333333334, "grad_norm": 1.4223003387451172, "learning_rate": 0.000399806586935625, "loss": 1.1602543640136718, "step": 1900 }, { "epoch": 0.06666666666666667, "grad_norm": 1.3835265636444092, "learning_rate": 0.00039969751655273246, "loss": 1.1331352233886718, "step": 2000 }, { "epoch": 0.07, "grad_norm": 1.4172451496124268, "learning_rate": 0.0003995641812817998, "loss": 1.1115520477294922, "step": 2100 }, { "epoch": 0.07333333333333333, "grad_norm": 1.2611116170883179, "learning_rate": 0.00039940659732415714, "loss": 1.0953889465332032, "step": 2200 }, { "epoch": 0.07666666666666666, "grad_norm": 1.4010944366455078, "learning_rate": 0.00039922478382754947, "loss": 1.0633756256103515, "step": 2300 }, { "epoch": 0.08, "grad_norm": 1.277366280555725, "learning_rate": 0.00039901876288380946, "loss": 1.0482559967041016, "step": 2400 }, { "epoch": 0.08333333333333333, "grad_norm": 1.1845537424087524, "learning_rate": 0.00039878855952617357, "loss": 1.0299220275878906, "step": 2500 }, { "epoch": 0.08666666666666667, "grad_norm": 1.1772642135620117, "learning_rate": 0.00039853420172623985, "loss": 1.0119639587402345, "step": 2600 }, { "epoch": 0.09, "grad_norm": 1.241080641746521, "learning_rate": 0.00039825572039056976, "loss": 0.9945954895019531, "step": 2700 }, { "epoch": 0.09333333333333334, "grad_norm": 1.1556016206741333, "learning_rate": 0.0003979531493569322, "loss": 0.9795339965820312, "step": 2800 }, { "epoch": 0.09666666666666666, "grad_norm": 1.1028602123260498, "learning_rate": 0.0003976265253901924, "loss": 0.9684971618652344, "step": 2900 }, { "epoch": 0.1, "grad_norm": 1.3073146343231201, "learning_rate": 0.00039727588817784414, "loss": 0.9519919586181641, "step": 3000 }, { "epoch": 0.10333333333333333, "grad_norm": 1.224905252456665, "learning_rate": 0.000396901280325188, "loss": 0.9399765777587891, "step": 3100 }, { "epoch": 0.10666666666666667, "grad_norm": 1.0792871713638306, "learning_rate": 0.0003965027473501541, "loss": 0.9271878814697265, "step": 3200 }, { "epoch": 0.11, "grad_norm": 1.077876329421997, "learning_rate": 0.0003960803376777714, "loss": 0.9128645324707031, "step": 3300 }, { "epoch": 0.11333333333333333, "grad_norm": 1.1184345483779907, "learning_rate": 0.0003956341026342837, "loss": 0.9120386505126953, "step": 3400 }, { "epoch": 0.11666666666666667, "grad_norm": 1.1383893489837646, "learning_rate": 0.0003951640964409127, "loss": 0.9151699829101563, "step": 3500 }, { "epoch": 0.12, "grad_norm": 1.12523353099823, "learning_rate": 0.0003946703762072706, "loss": 0.8922748565673828, "step": 3600 }, { "epoch": 0.12333333333333334, "grad_norm": 1.0355699062347412, "learning_rate": 0.0003941530019244196, "loss": 0.8890122222900391, "step": 3700 }, { "epoch": 0.12666666666666668, "grad_norm": 1.0852240324020386, "learning_rate": 0.00039361203645758364, "loss": 0.8781277465820313, "step": 3800 }, { "epoch": 0.13, "grad_norm": 1.0739648342132568, "learning_rate": 0.00039304754553850873, "loss": 0.8778704833984375, "step": 3900 }, { "epoch": 0.13333333333333333, "grad_norm": 1.0522024631500244, "learning_rate": 0.0003924595977574769, "loss": 0.8774790954589844, "step": 4000 }, { "epoch": 0.13666666666666666, "grad_norm": 1.0717562437057495, "learning_rate": 0.00039184826455497133, "loss": 0.8516897583007812, "step": 4100 }, { "epoch": 0.14, "grad_norm": 1.0378234386444092, "learning_rate": 0.00039121362021299604, "loss": 0.8448622894287109, "step": 4200 }, { "epoch": 0.14333333333333334, "grad_norm": 1.0532786846160889, "learning_rate": 0.00039055574184604976, "loss": 0.8344584655761719, "step": 4300 }, { "epoch": 0.14666666666666667, "grad_norm": 1.021437644958496, "learning_rate": 0.0003898747093917561, "loss": 0.8287362670898437, "step": 4400 }, { "epoch": 0.15, "grad_norm": 0.9874396920204163, "learning_rate": 0.0003891706056011505, "loss": 0.8258264923095703, "step": 4500 }, { "epoch": 0.15333333333333332, "grad_norm": 0.9322711825370789, "learning_rate": 0.0003884435160286251, "loss": 0.816080322265625, "step": 4600 }, { "epoch": 0.15666666666666668, "grad_norm": 0.9402130842208862, "learning_rate": 0.00038769352902153333, "loss": 0.8135909271240235, "step": 4700 }, { "epoch": 0.16, "grad_norm": 1.0193718671798706, "learning_rate": 0.00038692073570945496, "loss": 0.817694091796875, "step": 4800 }, { "epoch": 0.16333333333333333, "grad_norm": 0.9926565289497375, "learning_rate": 0.000386125229993123, "loss": 0.7987307739257813, "step": 4900 }, { "epoch": 0.16666666666666666, "grad_norm": 0.9364326596260071, "learning_rate": 0.0003853071085330141, "loss": 0.8007232666015625, "step": 5000 }, { "epoch": 0.16666666666666666, "eval_loss": 0.7967580556869507, "eval_masked_accuracy": 0.7653559496273451, "eval_runtime": 2.5634, "eval_samples_per_second": 1597.853, "eval_steps_per_second": 6.242, "step": 5000 }, { "epoch": 0.17, "grad_norm": 0.9981640577316284, "learning_rate": 0.0003844664707376037, "loss": 0.7831909942626953, "step": 5100 }, { "epoch": 0.17333333333333334, "grad_norm": 0.935793936252594, "learning_rate": 0.00038360341875128646, "loss": 0.7719477081298828, "step": 5200 }, { "epoch": 0.17666666666666667, "grad_norm": 0.9942166805267334, "learning_rate": 0.0003827180574419656, "loss": 0.7788728332519531, "step": 5300 }, { "epoch": 0.18, "grad_norm": 0.921302318572998, "learning_rate": 0.00038181049438831024, "loss": 0.7685958099365234, "step": 5400 }, { "epoch": 0.18333333333333332, "grad_norm": 0.8787013292312622, "learning_rate": 0.0003808808398666837, "loss": 0.7563288116455078, "step": 5500 }, { "epoch": 0.18666666666666668, "grad_norm": 0.8968636989593506, "learning_rate": 0.00037992920683774386, "loss": 0.7474672698974609, "step": 5600 }, { "epoch": 0.19, "grad_norm": 0.9104163646697998, "learning_rate": 0.00037895571093271807, "loss": 0.7457213592529297, "step": 5700 }, { "epoch": 0.19333333333333333, "grad_norm": 0.8929153680801392, "learning_rate": 0.00037796047043935234, "loss": 0.7423068237304687, "step": 5800 }, { "epoch": 0.19666666666666666, "grad_norm": 0.9810736775398254, "learning_rate": 0.00037694360628753897, "loss": 0.7346783447265625, "step": 5900 }, { "epoch": 0.2, "grad_norm": 0.931078314781189, "learning_rate": 0.00037590524203462216, "loss": 0.7334535217285156, "step": 6000 }, { "epoch": 0.20333333333333334, "grad_norm": 1.019803524017334, "learning_rate": 0.0003748455038503849, "loss": 0.7276763916015625, "step": 6100 }, { "epoch": 0.20666666666666667, "grad_norm": 0.9782306551933289, "learning_rate": 0.0003737645205017185, "loss": 0.7344593048095703, "step": 6200 }, { "epoch": 0.21, "grad_norm": 0.9293437004089355, "learning_rate": 0.0003726624233369761, "loss": 0.7246415710449219, "step": 6300 }, { "epoch": 0.21333333333333335, "grad_norm": 0.8795522451400757, "learning_rate": 0.0003715393462700129, "loss": 0.7216864776611328, "step": 6400 }, { "epoch": 0.21666666666666667, "grad_norm": 0.9632502198219299, "learning_rate": 0.00037039542576391445, "loss": 0.7085445404052735, "step": 6500 }, { "epoch": 0.22, "grad_norm": 0.8495221138000488, "learning_rate": 0.0003692308008144153, "loss": 0.7115458679199219, "step": 6600 }, { "epoch": 0.22333333333333333, "grad_norm": 0.8541926741600037, "learning_rate": 0.0003680456129330099, "loss": 0.6990865325927734, "step": 6700 }, { "epoch": 0.22666666666666666, "grad_norm": 0.8344811201095581, "learning_rate": 0.0003668400061297579, "loss": 0.6993592071533203, "step": 6800 }, { "epoch": 0.23, "grad_norm": 0.8975337147712708, "learning_rate": 0.00036561412689578544, "loss": 0.6972901153564454, "step": 6900 }, { "epoch": 0.23333333333333334, "grad_norm": 0.8364660143852234, "learning_rate": 0.00036436812418548547, "loss": 0.6967823791503907, "step": 7000 }, { "epoch": 0.23666666666666666, "grad_norm": 0.8676795363426208, "learning_rate": 0.00036310214939841873, "loss": 0.6893701934814453, "step": 7100 }, { "epoch": 0.24, "grad_norm": 0.8879637718200684, "learning_rate": 0.0003618163563609171, "loss": 0.6855775451660157, "step": 7200 }, { "epoch": 0.24333333333333335, "grad_norm": 0.9070082306861877, "learning_rate": 0.00036051090130739274, "loss": 0.6840663146972656, "step": 7300 }, { "epoch": 0.24666666666666667, "grad_norm": 0.8394324779510498, "learning_rate": 0.0003591859428613541, "loss": 0.6798997497558594, "step": 7400 }, { "epoch": 0.25, "grad_norm": 0.8838658332824707, "learning_rate": 0.000357841642016132, "loss": 0.6784028625488281, "step": 7500 }, { "epoch": 0.25333333333333335, "grad_norm": 0.8179841041564941, "learning_rate": 0.0003564781621153176, "loss": 0.6701314544677734, "step": 7600 }, { "epoch": 0.25666666666666665, "grad_norm": 0.8342909812927246, "learning_rate": 0.000355095668832915, "loss": 0.6615406799316407, "step": 7700 }, { "epoch": 0.26, "grad_norm": 0.8877819180488586, "learning_rate": 0.00035369433015320983, "loss": 0.6670161437988281, "step": 7800 }, { "epoch": 0.2633333333333333, "grad_norm": 0.9063718914985657, "learning_rate": 0.0003522743163503587, "loss": 0.6525628662109375, "step": 7900 }, { "epoch": 0.26666666666666666, "grad_norm": 0.8738296627998352, "learning_rate": 0.00035083579996769866, "loss": 0.6613227081298828, "step": 8000 }, { "epoch": 0.27, "grad_norm": 0.9108850359916687, "learning_rate": 0.00034937895579678256, "loss": 0.6542455291748047, "step": 8100 }, { "epoch": 0.2733333333333333, "grad_norm": 0.7989206314086914, "learning_rate": 0.00034790396085613955, "loss": 0.6540352630615235, "step": 8200 }, { "epoch": 0.27666666666666667, "grad_norm": 0.8691635727882385, "learning_rate": 0.0003464109943697667, "loss": 0.6410691070556641, "step": 8300 }, { "epoch": 0.28, "grad_norm": 0.8667342066764832, "learning_rate": 0.0003449002377453512, "loss": 0.6395606994628906, "step": 8400 }, { "epoch": 0.2833333333333333, "grad_norm": 0.7986162900924683, "learning_rate": 0.00034337187455222835, "loss": 0.6376551055908203, "step": 8500 }, { "epoch": 0.2866666666666667, "grad_norm": 0.9031108617782593, "learning_rate": 0.0003418260904990759, "loss": 0.6303312683105469, "step": 8600 }, { "epoch": 0.29, "grad_norm": 0.8435996174812317, "learning_rate": 0.0003402630734113492, "loss": 0.6225329971313477, "step": 8700 }, { "epoch": 0.29333333333333333, "grad_norm": 0.9413688778877258, "learning_rate": 0.00033868301320845895, "loss": 0.6248882293701172, "step": 8800 }, { "epoch": 0.2966666666666667, "grad_norm": 0.7998372316360474, "learning_rate": 0.000337086101880694, "loss": 0.6171749496459961, "step": 8900 }, { "epoch": 0.3, "grad_norm": 0.8585835099220276, "learning_rate": 0.00033547253346589355, "loss": 0.6206340789794922, "step": 9000 }, { "epoch": 0.30333333333333334, "grad_norm": 0.8483954071998596, "learning_rate": 0.00033384250402586954, "loss": 0.6195469665527343, "step": 9100 }, { "epoch": 0.30666666666666664, "grad_norm": 0.9016720056533813, "learning_rate": 0.00033219621162258343, "loss": 0.6200881958007812, "step": 9200 }, { "epoch": 0.31, "grad_norm": 0.829871416091919, "learning_rate": 0.0003305338562940807, "loss": 0.6127318954467773, "step": 9300 }, { "epoch": 1.002, "grad_norm": 0.9081104397773743, "learning_rate": 0.0003288556400301836, "loss": 0.603317756652832, "step": 9400 }, { "epoch": 1.0053333333333334, "grad_norm": 0.8421012759208679, "learning_rate": 0.00032716176674794884, "loss": 0.5797752380371094, "step": 9500 }, { "epoch": 1.0086666666666666, "grad_norm": 0.8119559288024902, "learning_rate": 0.0003254524422668889, "loss": 0.5843183898925781, "step": 9600 }, { "epoch": 1.012, "grad_norm": 0.8360543847084045, "learning_rate": 0.00032372787428396423, "loss": 0.5793385696411133, "step": 9700 }, { "epoch": 1.0153333333333334, "grad_norm": 0.780649721622467, "learning_rate": 0.0003219882723483456, "loss": 0.5682408142089844, "step": 9800 }, { "epoch": 1.0186666666666666, "grad_norm": 0.7468474507331848, "learning_rate": 0.00032023384783595255, "loss": 0.5659066772460938, "step": 9900 }, { "epoch": 1.022, "grad_norm": 0.8460882902145386, "learning_rate": 0.00031846481392376966, "loss": 0.5553397369384766, "step": 10000 }, { "epoch": 1.022, "eval_loss": 0.5976771116256714, "eval_masked_accuracy": 0.8167562724014337, "eval_runtime": 2.8203, "eval_samples_per_second": 1452.351, "eval_steps_per_second": 5.673, "step": 10000 }, { "epoch": 1.0253333333333334, "grad_norm": 0.7821327447891235, "learning_rate": 0.00031668138556394316, "loss": 0.5550868606567383, "step": 10100 }, { "epoch": 1.0286666666666666, "grad_norm": 1.0433557033538818, "learning_rate": 0.00031488377945766314, "loss": 0.5548404312133789, "step": 10200 }, { "epoch": 1.032, "grad_norm": 0.8580315113067627, "learning_rate": 0.00031307221402883227, "loss": 0.5406364440917969, "step": 10300 }, { "epoch": 1.0353333333333334, "grad_norm": 0.8950467705726624, "learning_rate": 0.00031124690939752543, "loss": 0.533514404296875, "step": 10400 }, { "epoch": 1.0386666666666666, "grad_norm": 0.7847508192062378, "learning_rate": 0.0003094080873532434, "loss": 0.538754539489746, "step": 10500 }, { "epoch": 1.042, "grad_norm": 0.868969738483429, "learning_rate": 0.00030755597132796385, "loss": 0.5428607177734375, "step": 10600 }, { "epoch": 1.0453333333333332, "grad_norm": 0.7972626090049744, "learning_rate": 0.0003056907863689921, "loss": 0.5347858810424805, "step": 10700 }, { "epoch": 1.0486666666666666, "grad_norm": 0.763969361782074, "learning_rate": 0.0003038127591116163, "loss": 0.532847785949707, "step": 10800 }, { "epoch": 1.052, "grad_norm": 0.7701809406280518, "learning_rate": 0.0003019221177515692, "loss": 0.5308395767211914, "step": 10900 }, { "epoch": 1.0553333333333332, "grad_norm": 0.8959071636199951, "learning_rate": 0.0003000190920173008, "loss": 0.5308527374267578, "step": 11000 }, { "epoch": 1.0586666666666666, "grad_norm": 1.0272624492645264, "learning_rate": 0.00029810391314206416, "loss": 0.5359263992309571, "step": 11100 }, { "epoch": 1.062, "grad_norm": 0.8793138861656189, "learning_rate": 0.00029617681383581866, "loss": 0.5368635559082031, "step": 11200 }, { "epoch": 1.0653333333333332, "grad_norm": 0.9605848789215088, "learning_rate": 0.0002942380282569541, "loss": 0.5313293838500976, "step": 11300 }, { "epoch": 1.0686666666666667, "grad_norm": 0.8334460258483887, "learning_rate": 0.00029228779198383834, "loss": 0.5360410690307618, "step": 11400 }, { "epoch": 1.072, "grad_norm": 0.8171955347061157, "learning_rate": 0.0002903263419861924, "loss": 0.5353861999511719, "step": 11500 }, { "epoch": 1.0753333333333333, "grad_norm": 0.8680943250656128, "learning_rate": 0.0002883539165962972, "loss": 0.5278213119506836, "step": 11600 }, { "epoch": 1.0786666666666667, "grad_norm": 0.9106718897819519, "learning_rate": 0.0002863707554800338, "loss": 0.5310506439208984, "step": 11700 }, { "epoch": 1.082, "grad_norm": 0.9140894412994385, "learning_rate": 0.00028437709960776224, "loss": 0.5164321899414063, "step": 11800 }, { "epoch": 1.0853333333333333, "grad_norm": 0.790691077709198, "learning_rate": 0.0002823731912250414, "loss": 0.5228651428222656, "step": 11900 }, { "epoch": 1.0886666666666667, "grad_norm": 0.757777988910675, "learning_rate": 0.0002803592738231946, "loss": 0.5215324401855469, "step": 12000 }, { "epoch": 1.092, "grad_norm": 0.8369808793067932, "learning_rate": 0.00027833559210972307, "loss": 0.5239771270751953, "step": 12100 }, { "epoch": 1.0953333333333333, "grad_norm": 0.8947746157646179, "learning_rate": 0.000276302391978572, "loss": 0.5179909896850586, "step": 12200 }, { "epoch": 1.0986666666666667, "grad_norm": 0.9140170812606812, "learning_rate": 0.00027425992048025273, "loss": 0.5237076568603516, "step": 12300 }, { "epoch": 1.102, "grad_norm": 0.8575257062911987, "learning_rate": 0.00027220842579182353, "loss": 0.5152669525146485, "step": 12400 }, { "epoch": 1.1053333333333333, "grad_norm": 0.7598596215248108, "learning_rate": 0.0002701481571867345, "loss": 0.5134631729125977, "step": 12500 }, { "epoch": 1.1086666666666667, "grad_norm": 0.8437865972518921, "learning_rate": 0.0002680793650045388, "loss": 0.5225432586669921, "step": 12600 }, { "epoch": 1.112, "grad_norm": 0.7969825863838196, "learning_rate": 0.00026600230062047393, "loss": 0.5257926177978516, "step": 12700 }, { "epoch": 1.1153333333333333, "grad_norm": 0.8563022613525391, "learning_rate": 0.00026391721641491817, "loss": 0.5251951217651367, "step": 12800 }, { "epoch": 1.1186666666666667, "grad_norm": 0.708271861076355, "learning_rate": 0.0002618243657427236, "loss": 0.5297073745727539, "step": 12900 }, { "epoch": 1.1219999999999999, "grad_norm": 0.7699816823005676, "learning_rate": 0.00025972400290243195, "loss": 0.5333083724975586, "step": 13000 }, { "epoch": 1.1253333333333333, "grad_norm": 0.8275418877601624, "learning_rate": 0.0002576163831053752, "loss": 0.5334249114990235, "step": 13100 }, { "epoch": 1.1286666666666667, "grad_norm": 0.83842533826828, "learning_rate": 0.00025550176244466485, "loss": 0.5315378189086915, "step": 13200 }, { "epoch": 1.1320000000000001, "grad_norm": 0.8859015703201294, "learning_rate": 0.00025338039786407517, "loss": 0.5462711715698242, "step": 13300 }, { "epoch": 1.1353333333333333, "grad_norm": 0.7318875193595886, "learning_rate": 0.0002512525471268217, "loss": 0.5278379440307617, "step": 13400 }, { "epoch": 1.1386666666666667, "grad_norm": 0.7980539798736572, "learning_rate": 0.00024911846878424156, "loss": 0.5409846115112305, "step": 13500 }, { "epoch": 1.142, "grad_norm": 0.8805834650993347, "learning_rate": 0.00024697842214437704, "loss": 0.538138427734375, "step": 13600 }, { "epoch": 1.1453333333333333, "grad_norm": 0.8037357330322266, "learning_rate": 0.00024483266724046736, "loss": 0.528113784790039, "step": 13700 }, { "epoch": 1.1486666666666667, "grad_norm": 0.8429805636405945, "learning_rate": 0.00024268146479935286, "loss": 0.5357782363891601, "step": 13800 }, { "epoch": 1.152, "grad_norm": 0.876872181892395, "learning_rate": 0.0002405250762097943, "loss": 0.5338603591918946, "step": 13900 }, { "epoch": 1.1553333333333333, "grad_norm": 0.798278272151947, "learning_rate": 0.00023836376349071215, "loss": 0.5351076889038086, "step": 14000 }, { "epoch": 1.1586666666666667, "grad_norm": 0.8131340742111206, "learning_rate": 0.00023619778925934893, "loss": 0.5315785598754883, "step": 14100 }, { "epoch": 1.162, "grad_norm": 0.8453519940376282, "learning_rate": 0.00023402741669935933, "loss": 0.5312258911132812, "step": 14200 }, { "epoch": 1.1653333333333333, "grad_norm": 0.7479920387268066, "learning_rate": 0.00023185290952883097, "loss": 0.5305691909790039, "step": 14300 }, { "epoch": 1.1686666666666667, "grad_norm": 0.7968600392341614, "learning_rate": 0.00022967453196824056, "loss": 0.5351016998291016, "step": 14400 }, { "epoch": 1.172, "grad_norm": 0.7319141030311584, "learning_rate": 0.0002274925487083491, "loss": 0.523140754699707, "step": 14500 }, { "epoch": 1.1753333333333333, "grad_norm": 0.7255148887634277, "learning_rate": 0.00022530722487803967, "loss": 0.5274886322021485, "step": 14600 }, { "epoch": 1.1786666666666668, "grad_norm": 0.8094624876976013, "learning_rate": 0.000223118826012102, "loss": 0.5305857467651367, "step": 14700 }, { "epoch": 1.182, "grad_norm": 0.7611061930656433, "learning_rate": 0.0002209276180189679, "loss": 0.5199204635620117, "step": 14800 }, { "epoch": 1.1853333333333333, "grad_norm": 0.7731903195381165, "learning_rate": 0.00021873386714840122, "loss": 0.5233501434326172, "step": 14900 }, { "epoch": 1.1886666666666668, "grad_norm": 0.802269697189331, "learning_rate": 0.0002165378399591463, "loss": 0.5173654556274414, "step": 15000 }, { "epoch": 1.1886666666666668, "eval_loss": 0.4867754876613617, "eval_masked_accuracy": 0.8465927303032246, "eval_runtime": 2.9083, "eval_samples_per_second": 1408.378, "eval_steps_per_second": 5.501, "step": 15000 }, { "epoch": 1.192, "grad_norm": 0.8154687285423279, "learning_rate": 0.00021433980328653903, "loss": 0.5211496353149414, "step": 15100 }, { "epoch": 1.1953333333333334, "grad_norm": 0.870178759098053, "learning_rate": 0.00021214002421008382, "loss": 0.5156788253784179, "step": 15200 }, { "epoch": 1.1986666666666665, "grad_norm": 0.7339473962783813, "learning_rate": 0.0002099387700210015, "loss": 0.5113505935668945, "step": 15300 }, { "epoch": 1.202, "grad_norm": 0.8333882689476013, "learning_rate": 0.00020773630818975128, "loss": 0.5066380310058594, "step": 15400 }, { "epoch": 1.2053333333333334, "grad_norm": 0.7248000502586365, "learning_rate": 0.00020553290633353074, "loss": 0.5148737716674805, "step": 15500 }, { "epoch": 1.2086666666666668, "grad_norm": 0.8077163696289062, "learning_rate": 0.00020332883218375823, "loss": 0.5026751327514648, "step": 15600 }, { "epoch": 1.212, "grad_norm": 0.7529610991477966, "learning_rate": 0.00020112435355354132, "loss": 0.5074459457397461, "step": 15700 }, { "epoch": 1.2153333333333334, "grad_norm": 0.8418951630592346, "learning_rate": 0.00019891973830513525, "loss": 0.4947340393066406, "step": 15800 }, { "epoch": 1.2186666666666666, "grad_norm": 0.7463741302490234, "learning_rate": 0.00019671525431739546, "loss": 0.49930683135986326, "step": 15900 }, { "epoch": 1.222, "grad_norm": 0.7505474090576172, "learning_rate": 0.0001945111694532282, "loss": 0.49693927764892576, "step": 16000 }, { "epoch": 1.2253333333333334, "grad_norm": 0.7937129735946655, "learning_rate": 0.00019230775152704284, "loss": 0.5052358627319335, "step": 16100 }, { "epoch": 1.2286666666666666, "grad_norm": 0.6797370910644531, "learning_rate": 0.00019010526827221045, "loss": 0.4982032775878906, "step": 16200 }, { "epoch": 1.232, "grad_norm": 0.755185604095459, "learning_rate": 0.0001879039873085317, "loss": 0.4924372482299805, "step": 16300 }, { "epoch": 1.2353333333333334, "grad_norm": 0.6874153017997742, "learning_rate": 0.00018570417610971914, "loss": 0.49145896911621095, "step": 16400 }, { "epoch": 1.2386666666666666, "grad_norm": 0.785365879535675, "learning_rate": 0.0001835061019708968, "loss": 0.4896976470947266, "step": 16500 }, { "epoch": 1.242, "grad_norm": 0.7931706309318542, "learning_rate": 0.00018131003197612158, "loss": 0.48486351013183593, "step": 16600 }, { "epoch": 1.2453333333333334, "grad_norm": 0.711540162563324, "learning_rate": 0.0001791162329659304, "loss": 0.4865373992919922, "step": 16700 }, { "epoch": 1.2486666666666666, "grad_norm": 0.8093428611755371, "learning_rate": 0.00017692497150491703, "loss": 0.4822272491455078, "step": 16800 }, { "epoch": 1.252, "grad_norm": 0.8606541156768799, "learning_rate": 0.00017473651384934213, "loss": 0.47816139221191406, "step": 16900 }, { "epoch": 1.2553333333333334, "grad_norm": 0.6578624248504639, "learning_rate": 0.00017255112591478094, "loss": 0.4819015121459961, "step": 17000 }, { "epoch": 1.2586666666666666, "grad_norm": 0.8381503224372864, "learning_rate": 0.0001703690732438124, "loss": 0.4800693893432617, "step": 17100 }, { "epoch": 1.262, "grad_norm": 0.9081389904022217, "learning_rate": 0.00016819062097375365, "loss": 0.4796139907836914, "step": 17200 }, { "epoch": 1.2653333333333334, "grad_norm": 0.8076674938201904, "learning_rate": 0.00016601603380444338, "loss": 0.47347488403320315, "step": 17300 }, { "epoch": 1.2686666666666666, "grad_norm": 0.7531787157058716, "learning_rate": 0.00016384557596607884, "loss": 0.4700050354003906, "step": 17400 }, { "epoch": 1.272, "grad_norm": 0.843329131603241, "learning_rate": 0.0001616795111871098, "loss": 0.47036163330078123, "step": 17500 }, { "epoch": 1.2753333333333332, "grad_norm": 0.7025447487831116, "learning_rate": 0.0001595181026621931, "loss": 0.46735321044921874, "step": 17600 }, { "epoch": 1.2786666666666666, "grad_norm": 0.7623017430305481, "learning_rate": 0.00015736161302021254, "loss": 0.46535400390625, "step": 17700 }, { "epoch": 1.282, "grad_norm": 0.7620524764060974, "learning_rate": 0.00015521030429236713, "loss": 0.4652018356323242, "step": 17800 }, { "epoch": 1.2853333333333334, "grad_norm": 0.7925307154655457, "learning_rate": 0.00015306443788033248, "loss": 0.46518348693847655, "step": 17900 }, { "epoch": 1.2886666666666666, "grad_norm": 0.7878969311714172, "learning_rate": 0.00015092427452449803, "loss": 0.4622929382324219, "step": 18000 }, { "epoch": 1.292, "grad_norm": 0.7757784724235535, "learning_rate": 0.000148790074272285, "loss": 0.4650875091552734, "step": 18100 }, { "epoch": 1.2953333333333332, "grad_norm": 0.735175371170044, "learning_rate": 0.00014666209644654873, "loss": 0.4549406433105469, "step": 18200 }, { "epoch": 1.2986666666666666, "grad_norm": 0.6873441934585571, "learning_rate": 0.00014454059961406846, "loss": 0.4520915985107422, "step": 18300 }, { "epoch": 1.302, "grad_norm": 0.7766420841217041, "learning_rate": 0.0001424258415541296, "loss": 0.447607536315918, "step": 18400 }, { "epoch": 1.3053333333333335, "grad_norm": 0.6834190487861633, "learning_rate": 0.0001403180792272015, "loss": 0.4524835205078125, "step": 18500 }, { "epoch": 1.3086666666666666, "grad_norm": 0.7714037299156189, "learning_rate": 0.00013821756874371426, "loss": 0.43865036010742187, "step": 18600 }, { "epoch": 2.0006666666666666, "grad_norm": 0.6421045064926147, "learning_rate": 0.0001361245653329396, "loss": 0.45037097930908204, "step": 18700 }, { "epoch": 2.004, "grad_norm": 0.8619283437728882, "learning_rate": 0.00013403932331197823, "loss": 0.4485680389404297, "step": 18800 }, { "epoch": 2.0073333333333334, "grad_norm": 0.7336652278900146, "learning_rate": 0.00013196209605485825, "loss": 0.4345798110961914, "step": 18900 }, { "epoch": 2.010666666666667, "grad_norm": 0.7360154986381531, "learning_rate": 0.00012989313596174825, "loss": 0.4353963470458984, "step": 19000 }, { "epoch": 2.014, "grad_norm": 0.7875688076019287, "learning_rate": 0.0001278326944282883, "loss": 0.4323548126220703, "step": 19100 }, { "epoch": 2.017333333333333, "grad_norm": 0.8237797617912292, "learning_rate": 0.0001257810218150438, "loss": 0.43446548461914064, "step": 19200 }, { "epoch": 2.0206666666666666, "grad_norm": 0.775242030620575, "learning_rate": 0.0001237383674170841, "loss": 0.4317903900146484, "step": 19300 }, { "epoch": 2.024, "grad_norm": 0.7316193580627441, "learning_rate": 0.00012170497943369139, "loss": 0.4266176223754883, "step": 19400 }, { "epoch": 2.0273333333333334, "grad_norm": 0.8828946352005005, "learning_rate": 0.00011968110493820255, "loss": 0.42110267639160154, "step": 19500 }, { "epoch": 2.030666666666667, "grad_norm": 0.7441554665565491, "learning_rate": 0.00011766698984798741, "loss": 0.42277420043945313, "step": 19600 }, { "epoch": 2.034, "grad_norm": 0.7916893362998962, "learning_rate": 0.0001156628788945679, "loss": 0.42497276306152343, "step": 19700 }, { "epoch": 2.037333333333333, "grad_norm": 0.7108286023139954, "learning_rate": 0.00011366901559388127, "loss": 0.42226448059082033, "step": 19800 }, { "epoch": 2.0406666666666666, "grad_norm": 0.7501102089881897, "learning_rate": 0.00011168564221669089, "loss": 0.4148076629638672, "step": 19900 }, { "epoch": 2.044, "grad_norm": 0.7276322841644287, "learning_rate": 0.000109712999759148, "loss": 0.41933116912841795, "step": 20000 }, { "epoch": 2.044, "eval_loss": 0.4309006333351135, "eval_masked_accuracy": 0.862885533617241, "eval_runtime": 2.9684, "eval_samples_per_second": 1379.874, "eval_steps_per_second": 5.39, "step": 20000 }, { "epoch": 2.0473333333333334, "grad_norm": 0.8200253844261169, "learning_rate": 0.0001077513279135093, "loss": 0.4121805572509766, "step": 20100 }, { "epoch": 2.050666666666667, "grad_norm": 0.7574154734611511, "learning_rate": 0.000105800865039012, "loss": 0.4140956115722656, "step": 20200 }, { "epoch": 2.054, "grad_norm": 0.7535119652748108, "learning_rate": 0.00010386184813291108, "loss": 0.4128216552734375, "step": 20300 }, { "epoch": 2.0573333333333332, "grad_norm": 0.7665644884109497, "learning_rate": 0.00010193451280168258, "loss": 0.4141941833496094, "step": 20400 }, { "epoch": 2.0606666666666666, "grad_norm": 0.6833004951477051, "learning_rate": 0.00010001909323239524, "loss": 0.41669425964355467, "step": 20500 }, { "epoch": 2.064, "grad_norm": 0.6854680180549622, "learning_rate": 9.811582216425472e-05, "loss": 0.40588130950927737, "step": 20600 }, { "epoch": 2.0673333333333335, "grad_norm": 0.7551723122596741, "learning_rate": 9.622493086032432e-05, "loss": 0.40616172790527344, "step": 20700 }, { "epoch": 2.070666666666667, "grad_norm": 0.7875136733055115, "learning_rate": 9.434664907942397e-05, "loss": 0.40618175506591797, "step": 20800 }, { "epoch": 2.074, "grad_norm": 0.7156426906585693, "learning_rate": 9.24812050482134e-05, "loss": 0.40087387084960935, "step": 20900 }, { "epoch": 2.0773333333333333, "grad_norm": 0.7035794258117676, "learning_rate": 9.062882543345999e-05, "loss": 0.3979297637939453, "step": 21000 }, { "epoch": 2.0806666666666667, "grad_norm": 0.7434916496276855, "learning_rate": 8.878973531449748e-05, "loss": 0.3994139099121094, "step": 21100 }, { "epoch": 2.084, "grad_norm": 0.6868703961372375, "learning_rate": 8.696415815587673e-05, "loss": 0.39528240203857423, "step": 21200 }, { "epoch": 2.0873333333333335, "grad_norm": 0.7844119071960449, "learning_rate": 8.515231578021277e-05, "loss": 0.3911682891845703, "step": 21300 }, { "epoch": 2.0906666666666665, "grad_norm": 0.7842739820480347, "learning_rate": 8.335442834123192e-05, "loss": 0.3987908935546875, "step": 21400 }, { "epoch": 2.094, "grad_norm": 0.7348713874816895, "learning_rate": 8.157071429702113e-05, "loss": 0.38934185028076174, "step": 21500 }, { "epoch": 2.0973333333333333, "grad_norm": 0.7054168581962585, "learning_rate": 7.98013903834832e-05, "loss": 0.39156261444091794, "step": 21600 }, { "epoch": 2.1006666666666667, "grad_norm": 0.7588643431663513, "learning_rate": 7.80466715880023e-05, "loss": 0.38873050689697264, "step": 21700 }, { "epoch": 2.104, "grad_norm": 0.7288216948509216, "learning_rate": 7.630677112332046e-05, "loss": 0.3866202926635742, "step": 21800 }, { "epoch": 2.1073333333333335, "grad_norm": 0.7503123879432678, "learning_rate": 7.458190040163115e-05, "loss": 0.39182708740234373, "step": 21900 }, { "epoch": 2.1106666666666665, "grad_norm": 0.7055880427360535, "learning_rate": 7.287226900889039e-05, "loss": 0.401009635925293, "step": 22000 }, { "epoch": 2.114, "grad_norm": 0.8966184258460999, "learning_rate": 7.117808467935076e-05, "loss": 0.39603382110595703, "step": 22100 }, { "epoch": 2.1173333333333333, "grad_norm": 0.6970842480659485, "learning_rate": 6.949955327031988e-05, "loss": 0.398880729675293, "step": 22200 }, { "epoch": 2.1206666666666667, "grad_norm": 0.7583353519439697, "learning_rate": 6.783687873714672e-05, "loss": 0.3997147369384766, "step": 22300 }, { "epoch": 2.124, "grad_norm": 0.7861075401306152, "learning_rate": 6.61902631084399e-05, "loss": 0.4028291702270508, "step": 22400 }, { "epoch": 2.1273333333333335, "grad_norm": 0.6678594946861267, "learning_rate": 6.455990646151924e-05, "loss": 0.3987395095825195, "step": 22500 }, { "epoch": 2.1306666666666665, "grad_norm": 0.7038342952728271, "learning_rate": 6.29460068981046e-05, "loss": 0.39326480865478514, "step": 22600 }, { "epoch": 2.134, "grad_norm": 0.7392048239707947, "learning_rate": 6.134876052024527e-05, "loss": 0.40042667388916015, "step": 22700 }, { "epoch": 2.1373333333333333, "grad_norm": 0.8075382113456726, "learning_rate": 5.9768361406491533e-05, "loss": 0.3967801284790039, "step": 22800 }, { "epoch": 2.1406666666666667, "grad_norm": 0.7892723679542542, "learning_rate": 5.8205001588313014e-05, "loss": 0.39166572570800784, "step": 22900 }, { "epoch": 2.144, "grad_norm": 0.7251806855201721, "learning_rate": 5.6658871026764704e-05, "loss": 0.3836771011352539, "step": 23000 }, { "epoch": 2.1473333333333335, "grad_norm": 0.782537579536438, "learning_rate": 5.513015758940567e-05, "loss": 0.39198822021484375, "step": 23100 }, { "epoch": 2.1506666666666665, "grad_norm": 0.8268524408340454, "learning_rate": 5.361904702747136e-05, "loss": 0.38895458221435547, "step": 23200 }, { "epoch": 2.154, "grad_norm": 0.7508871555328369, "learning_rate": 5.212572295330311e-05, "loss": 0.40076961517333987, "step": 23300 }, { "epoch": 2.1573333333333333, "grad_norm": 0.6501144170761108, "learning_rate": 5.065036681803819e-05, "loss": 0.4024519348144531, "step": 23400 }, { "epoch": 2.1606666666666667, "grad_norm": 0.6458573937416077, "learning_rate": 4.919315788956167e-05, "loss": 0.4000421142578125, "step": 23500 }, { "epoch": 2.164, "grad_norm": 0.732280433177948, "learning_rate": 4.775427323072386e-05, "loss": 0.39758953094482424, "step": 23600 }, { "epoch": 2.1673333333333336, "grad_norm": 0.6772671937942505, "learning_rate": 4.6333887677826025e-05, "loss": 0.39006378173828127, "step": 23700 }, { "epoch": 2.1706666666666665, "grad_norm": 0.7737159729003906, "learning_rate": 4.4932173819376064e-05, "loss": 0.3929125213623047, "step": 23800 }, { "epoch": 2.174, "grad_norm": 0.8250499963760376, "learning_rate": 4.354930197511762e-05, "loss": 0.396903076171875, "step": 23900 }, { "epoch": 2.1773333333333333, "grad_norm": 0.7866168022155762, "learning_rate": 4.218544017533499e-05, "loss": 0.387851676940918, "step": 24000 }, { "epoch": 2.1806666666666668, "grad_norm": 0.7040881514549255, "learning_rate": 4.084075414043598e-05, "loss": 0.3934907913208008, "step": 24100 }, { "epoch": 2.184, "grad_norm": 0.7672249674797058, "learning_rate": 3.951540726081553e-05, "loss": 0.3852077484130859, "step": 24200 }, { "epoch": 2.187333333333333, "grad_norm": 0.7783628702163696, "learning_rate": 3.82095605770022e-05, "loss": 0.3871307373046875, "step": 24300 }, { "epoch": 2.1906666666666665, "grad_norm": 0.8870095610618591, "learning_rate": 3.69233727600909e-05, "loss": 0.3772114181518555, "step": 24400 }, { "epoch": 2.194, "grad_norm": 0.738532304763794, "learning_rate": 3.565700009246269e-05, "loss": 0.3705712890625, "step": 24500 }, { "epoch": 2.1973333333333334, "grad_norm": 0.6864748001098633, "learning_rate": 3.4410596448795184e-05, "loss": 0.383516845703125, "step": 24600 }, { "epoch": 2.2006666666666668, "grad_norm": 0.6553505063056946, "learning_rate": 3.318431327736577e-05, "loss": 0.38183685302734377, "step": 24700 }, { "epoch": 2.204, "grad_norm": 0.6033626794815063, "learning_rate": 3.197829958164917e-05, "loss": 0.3845671081542969, "step": 24800 }, { "epoch": 2.207333333333333, "grad_norm": 0.7695163488388062, "learning_rate": 3.079270190221231e-05, "loss": 0.3796828079223633, "step": 24900 }, { "epoch": 2.2106666666666666, "grad_norm": 0.7200196385383606, "learning_rate": 2.96276642989086e-05, "loss": 0.38924953460693357, "step": 25000 }, { "epoch": 2.2106666666666666, "eval_loss": 0.3823796212673187, "eval_masked_accuracy": 0.878150720164609, "eval_runtime": 3.0159, "eval_samples_per_second": 1358.12, "eval_steps_per_second": 5.305, "step": 25000 }, { "epoch": 2.214, "grad_norm": 0.7287200689315796, "learning_rate": 2.848332833337335e-05, "loss": 0.3876392364501953, "step": 25100 }, { "epoch": 2.2173333333333334, "grad_norm": 0.7604002952575684, "learning_rate": 2.7359833051822837e-05, "loss": 0.3845469284057617, "step": 25200 }, { "epoch": 2.220666666666667, "grad_norm": 0.6634399890899658, "learning_rate": 2.625731496815913e-05, "loss": 0.3846179962158203, "step": 25300 }, { "epoch": 2.224, "grad_norm": 0.7272804975509644, "learning_rate": 2.5175908047382592e-05, "loss": 0.39008934020996094, "step": 25400 }, { "epoch": 2.227333333333333, "grad_norm": 0.714460015296936, "learning_rate": 2.4115743689313774e-05, "loss": 0.3927734756469727, "step": 25500 }, { "epoch": 2.2306666666666666, "grad_norm": 0.8357155919075012, "learning_rate": 2.3076950712627588e-05, "loss": 0.38554725646972654, "step": 25600 }, { "epoch": 2.234, "grad_norm": 0.7323917150497437, "learning_rate": 2.2059655339200536e-05, "loss": 0.3921313095092773, "step": 25700 }, { "epoch": 2.2373333333333334, "grad_norm": 0.7257605791091919, "learning_rate": 2.1063981178773884e-05, "loss": 0.38508140563964843, "step": 25800 }, { "epoch": 2.240666666666667, "grad_norm": 0.7842901945114136, "learning_rate": 2.0090049213933803e-05, "loss": 0.39042671203613283, "step": 25900 }, { "epoch": 2.2439999999999998, "grad_norm": 0.6478227376937866, "learning_rate": 1.9137977785411333e-05, "loss": 0.3918688201904297, "step": 26000 }, { "epoch": 2.247333333333333, "grad_norm": 0.7710049748420715, "learning_rate": 1.820788257770283e-05, "loss": 0.3908076858520508, "step": 26100 }, { "epoch": 2.2506666666666666, "grad_norm": 0.7351255416870117, "learning_rate": 1.7299876605013267e-05, "loss": 0.37932159423828127, "step": 26200 }, { "epoch": 2.254, "grad_norm": 0.6514462232589722, "learning_rate": 1.641407019752428e-05, "loss": 0.38645931243896486, "step": 26300 }, { "epoch": 2.2573333333333334, "grad_norm": 0.7680016160011292, "learning_rate": 1.5550570987988067e-05, "loss": 0.381392707824707, "step": 26400 }, { "epoch": 2.260666666666667, "grad_norm": 0.7839369177818298, "learning_rate": 1.4709483898648945e-05, "loss": 0.37340118408203127, "step": 26500 }, { "epoch": 2.2640000000000002, "grad_norm": 0.6791050434112549, "learning_rate": 1.3890911128494788e-05, "loss": 0.38508747100830076, "step": 26600 }, { "epoch": 2.267333333333333, "grad_norm": 0.6227408051490784, "learning_rate": 1.3094952140838712e-05, "loss": 0.3770198059082031, "step": 26700 }, { "epoch": 2.2706666666666666, "grad_norm": 0.6502448916435242, "learning_rate": 1.2321703651233574e-05, "loss": 0.37348697662353514, "step": 26800 }, { "epoch": 2.274, "grad_norm": 0.6978487968444824, "learning_rate": 1.157125961572021e-05, "loss": 0.3783902359008789, "step": 26900 }, { "epoch": 2.2773333333333334, "grad_norm": 0.7682250738143921, "learning_rate": 1.0843711219411101e-05, "loss": 0.3767197799682617, "step": 27000 }, { "epoch": 2.280666666666667, "grad_norm": 0.6915271878242493, "learning_rate": 1.0139146865410554e-05, "loss": 0.3798466110229492, "step": 27100 }, { "epoch": 2.284, "grad_norm": 0.819548487663269, "learning_rate": 9.457652164072928e-06, "loss": 0.3809815979003906, "step": 27200 }, { "epoch": 2.287333333333333, "grad_norm": 0.7806178331375122, "learning_rate": 8.79930992260043e-06, "loss": 0.3813274383544922, "step": 27300 }, { "epoch": 2.2906666666666666, "grad_norm": 0.9139585494995117, "learning_rate": 8.16420013498127e-06, "loss": 0.38432167053222654, "step": 27400 }, { "epoch": 2.294, "grad_norm": 0.719249963760376, "learning_rate": 7.552399972269686e-06, "loss": 0.3763787078857422, "step": 27500 }, { "epoch": 2.2973333333333334, "grad_norm": 0.7366885542869568, "learning_rate": 6.963983773209149e-06, "loss": 0.3752469253540039, "step": 27600 }, { "epoch": 2.300666666666667, "grad_norm": 0.7235630750656128, "learning_rate": 6.399023035199547e-06, "loss": 0.37348270416259766, "step": 27700 }, { "epoch": 2.304, "grad_norm": 0.6602711081504822, "learning_rate": 5.857586405609583e-06, "loss": 0.38024497985839845, "step": 27800 }, { "epoch": 2.3073333333333332, "grad_norm": 0.6910043954849243, "learning_rate": 5.339739673435662e-06, "loss": 0.3761766815185547, "step": 27900 }, { "epoch": 2.3106666666666666, "grad_norm": 0.7024565935134888, "learning_rate": 4.8455457613079345e-06, "loss": 0.37851264953613284, "step": 28000 }, { "epoch": 3.002666666666667, "grad_norm": 0.9012552499771118, "learning_rate": 4.375064717844746e-06, "loss": 0.3574191665649414, "step": 28100 }, { "epoch": 3.006, "grad_norm": 0.680111825466156, "learning_rate": 3.928353710356114e-06, "loss": 0.3549924087524414, "step": 28200 }, { "epoch": 3.009333333333333, "grad_norm": 0.79486083984375, "learning_rate": 3.5054670178975346e-06, "loss": 0.35243122100830077, "step": 28300 }, { "epoch": 3.0126666666666666, "grad_norm": 0.6971395015716553, "learning_rate": 3.1064560246746088e-06, "loss": 0.34856960296630857, "step": 28400 }, { "epoch": 3.016, "grad_norm": 0.7989268898963928, "learning_rate": 2.7313692137993952e-06, "loss": 0.35404052734375, "step": 28500 }, { "epoch": 3.0193333333333334, "grad_norm": 0.681338369846344, "learning_rate": 2.3802521613993878e-06, "loss": 0.3551434326171875, "step": 28600 }, { "epoch": 3.022666666666667, "grad_norm": 0.6259098052978516, "learning_rate": 2.053147531079591e-06, "loss": 0.3543955230712891, "step": 28700 }, { "epoch": 3.026, "grad_norm": 0.6789717078208923, "learning_rate": 1.7500950687385332e-06, "loss": 0.3479387664794922, "step": 28800 }, { "epoch": 3.029333333333333, "grad_norm": 0.6986877918243408, "learning_rate": 1.4711315977388617e-06, "loss": 0.35285072326660155, "step": 28900 }, { "epoch": 3.0326666666666666, "grad_norm": 0.8804546594619751, "learning_rate": 1.2162910144329464e-06, "loss": 0.3571059799194336, "step": 29000 }, { "epoch": 3.036, "grad_norm": 0.7633663415908813, "learning_rate": 9.856042840442393e-07, "loss": 0.3522502517700195, "step": 29100 }, { "epoch": 3.0393333333333334, "grad_norm": 0.8087472319602966, "learning_rate": 7.790994369047289e-07, "loss": 0.3503116607666016, "step": 29200 }, { "epoch": 3.042666666666667, "grad_norm": 0.6872431039810181, "learning_rate": 5.968015650490211e-07, "loss": 0.34913509368896484, "step": 29300 }, { "epoch": 3.046, "grad_norm": 0.7077915668487549, "learning_rate": 4.387328191654438e-07, "loss": 0.34669517517089843, "step": 29400 }, { "epoch": 3.0493333333333332, "grad_norm": 0.721786379814148, "learning_rate": 3.0491240590457823e-07, "loss": 0.3519774627685547, "step": 29500 }, { "epoch": 3.0526666666666666, "grad_norm": 0.7876111268997192, "learning_rate": 1.9535658554545867e-07, "loss": 0.34955368041992185, "step": 29600 }, { "epoch": 3.056, "grad_norm": 0.5993502140045166, "learning_rate": 1.1007867001988637e-07, "loss": 0.3491347885131836, "step": 29700 }, { "epoch": 3.0593333333333335, "grad_norm": 0.7406614422798157, "learning_rate": 4.9089021294834726e-08, "loss": 0.35303794860839843, "step": 29800 }, { "epoch": 3.062666666666667, "grad_norm": 0.7397328615188599, "learning_rate": 1.2395050113389595e-08, "loss": 0.34634124755859375, "step": 29900 }, { "epoch": 3.066, "grad_norm": 0.7702119946479797, "learning_rate": 1.215094425077723e-12, "loss": 0.34748374938964843, "step": 30000 }, { "epoch": 3.066, "eval_loss": 0.37694016098976135, "eval_masked_accuracy": 0.8775784753363228, "eval_runtime": 2.9576, "eval_samples_per_second": 1384.896, "eval_steps_per_second": 5.41, "step": 30000 }, { "epoch": 3.066, "step": 30000, "total_flos": 9.74439612930639e+16, "train_loss": 0.6228721523284912, "train_runtime": 2832.8619, "train_samples_per_second": 2711.039, "train_steps_per_second": 10.59 }, { "epoch": 3.066, "eval_loss": 0.3744058609008789, "eval_masked_accuracy": 0.8805643239064613, "eval_runtime": 2.8656, "eval_samples_per_second": 1429.379, "eval_steps_per_second": 5.584, "step": 30000 } ], "logging_steps": 100, "max_steps": 30000, "num_input_tokens_seen": 0, "num_train_epochs": 9223372036854775807, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": true }, "attributes": {} } }, "total_flos": 9.74439612930639e+16, "train_batch_size": 256, "trial_name": null, "trial_params": null }