Fill-Mask
Transformers
Safetensors
modernbert
chemistry
molecules
selfies
ape-tokenizer
masked-language-modeling
Instructions to use HauserGroup/ModernMolBERT-small with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use HauserGroup/ModernMolBERT-small with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("fill-mask", model="HauserGroup/ModernMolBERT-small")# Load model directly from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("HauserGroup/ModernMolBERT-small") model = AutoModelForMaskedLM.from_pretrained("HauserGroup/ModernMolBERT-small") - Notebooks
- Google Colab
- Kaggle
| { | |
| "best_global_step": 30000, | |
| "best_metric": 0.37694016098976135, | |
| "best_model_checkpoint": "runs/chembl36_small_mask_mlm_lr_sweep/mask_standard__mlm_0p15__lr_4e-4/checkpoint-30000", | |
| "epoch": 3.066, | |
| "eval_steps": 5000, | |
| "global_step": 30000, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.0033333333333333335, | |
| "grad_norm": 2.7403433322906494, | |
| "learning_rate": 2.64e-05, | |
| "loss": 5.425458984375, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 4.65195894241333, | |
| "learning_rate": 5.3066666666666665e-05, | |
| "loss": 3.9814361572265624, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 2.9648351669311523, | |
| "learning_rate": 7.973333333333334e-05, | |
| "loss": 2.9717633056640627, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 2.79247784614563, | |
| "learning_rate": 0.00010640000000000001, | |
| "loss": 2.318418426513672, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 2.95702862739563, | |
| "learning_rate": 0.00013306666666666668, | |
| "loss": 2.012203826904297, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 2.464130401611328, | |
| "learning_rate": 0.00015973333333333333, | |
| "loss": 1.8253421020507812, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.023333333333333334, | |
| "grad_norm": 2.5683345794677734, | |
| "learning_rate": 0.00018640000000000003, | |
| "loss": 1.7040005493164063, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 2.7064743041992188, | |
| "learning_rate": 0.00021306666666666665, | |
| "loss": 1.5912832641601562, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.03, | |
| "grad_norm": 1.7914412021636963, | |
| "learning_rate": 0.00023973333333333338, | |
| "loss": 1.532608184814453, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 2.02378511428833, | |
| "learning_rate": 0.0002664, | |
| "loss": 1.4479930114746093, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.03666666666666667, | |
| "grad_norm": 1.8761825561523438, | |
| "learning_rate": 0.00029306666666666667, | |
| "loss": 1.4139170837402344, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 1.751976490020752, | |
| "learning_rate": 0.00031973333333333337, | |
| "loss": 1.3751948547363282, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 0.043333333333333335, | |
| "grad_norm": 1.8251773118972778, | |
| "learning_rate": 0.0003464, | |
| "loss": 1.3400251770019531, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 1.5843342542648315, | |
| "learning_rate": 0.00037306666666666666, | |
| "loss": 1.327974853515625, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 1.5720994472503662, | |
| "learning_rate": 0.00039973333333333336, | |
| "loss": 1.2728753662109376, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 1.2932488918304443, | |
| "learning_rate": 0.0003999880909778094, | |
| "loss": 1.259843521118164, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 0.056666666666666664, | |
| "grad_norm": 1.4394837617874146, | |
| "learning_rate": 0.00039995188297549443, | |
| "loss": 1.2250770568847655, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 1.3632104396820068, | |
| "learning_rate": 0.0003998913791775301, | |
| "loss": 1.1869202423095704, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 0.06333333333333334, | |
| "grad_norm": 1.4223003387451172, | |
| "learning_rate": 0.000399806586935625, | |
| "loss": 1.1602543640136718, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 1.3835265636444092, | |
| "learning_rate": 0.00039969751655273246, | |
| "loss": 1.1331352233886718, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "grad_norm": 1.4172451496124268, | |
| "learning_rate": 0.0003995641812817998, | |
| "loss": 1.1115520477294922, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 1.2611116170883179, | |
| "learning_rate": 0.00039940659732415714, | |
| "loss": 1.0953889465332032, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 0.07666666666666666, | |
| "grad_norm": 1.4010944366455078, | |
| "learning_rate": 0.00039922478382754947, | |
| "loss": 1.0633756256103515, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 1.277366280555725, | |
| "learning_rate": 0.00039901876288380946, | |
| "loss": 1.0482559967041016, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 1.1845537424087524, | |
| "learning_rate": 0.00039878855952617357, | |
| "loss": 1.0299220275878906, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 1.1772642135620117, | |
| "learning_rate": 0.00039853420172623985, | |
| "loss": 1.0119639587402345, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 1.241080641746521, | |
| "learning_rate": 0.00039825572039056976, | |
| "loss": 0.9945954895019531, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 1.1556016206741333, | |
| "learning_rate": 0.0003979531493569322, | |
| "loss": 0.9795339965820312, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 0.09666666666666666, | |
| "grad_norm": 1.1028602123260498, | |
| "learning_rate": 0.0003976265253901924, | |
| "loss": 0.9684971618652344, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 1.3073146343231201, | |
| "learning_rate": 0.00039727588817784414, | |
| "loss": 0.9519919586181641, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 0.10333333333333333, | |
| "grad_norm": 1.224905252456665, | |
| "learning_rate": 0.000396901280325188, | |
| "loss": 0.9399765777587891, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 1.0792871713638306, | |
| "learning_rate": 0.0003965027473501541, | |
| "loss": 0.9271878814697265, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 0.11, | |
| "grad_norm": 1.077876329421997, | |
| "learning_rate": 0.0003960803376777714, | |
| "loss": 0.9128645324707031, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 0.11333333333333333, | |
| "grad_norm": 1.1184345483779907, | |
| "learning_rate": 0.0003956341026342837, | |
| "loss": 0.9120386505126953, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 0.11666666666666667, | |
| "grad_norm": 1.1383893489837646, | |
| "learning_rate": 0.0003951640964409127, | |
| "loss": 0.9151699829101563, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 0.12, | |
| "grad_norm": 1.12523353099823, | |
| "learning_rate": 0.0003946703762072706, | |
| "loss": 0.8922748565673828, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 0.12333333333333334, | |
| "grad_norm": 1.0355699062347412, | |
| "learning_rate": 0.0003941530019244196, | |
| "loss": 0.8890122222900391, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.12666666666666668, | |
| "grad_norm": 1.0852240324020386, | |
| "learning_rate": 0.00039361203645758364, | |
| "loss": 0.8781277465820313, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.13, | |
| "grad_norm": 1.0739648342132568, | |
| "learning_rate": 0.00039304754553850873, | |
| "loss": 0.8778704833984375, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.13333333333333333, | |
| "grad_norm": 1.0522024631500244, | |
| "learning_rate": 0.0003924595977574769, | |
| "loss": 0.8774790954589844, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.13666666666666666, | |
| "grad_norm": 1.0717562437057495, | |
| "learning_rate": 0.00039184826455497133, | |
| "loss": 0.8516897583007812, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.14, | |
| "grad_norm": 1.0378234386444092, | |
| "learning_rate": 0.00039121362021299604, | |
| "loss": 0.8448622894287109, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.14333333333333334, | |
| "grad_norm": 1.0532786846160889, | |
| "learning_rate": 0.00039055574184604976, | |
| "loss": 0.8344584655761719, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.14666666666666667, | |
| "grad_norm": 1.021437644958496, | |
| "learning_rate": 0.0003898747093917561, | |
| "loss": 0.8287362670898437, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.15, | |
| "grad_norm": 0.9874396920204163, | |
| "learning_rate": 0.0003891706056011505, | |
| "loss": 0.8258264923095703, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.15333333333333332, | |
| "grad_norm": 0.9322711825370789, | |
| "learning_rate": 0.0003884435160286251, | |
| "loss": 0.816080322265625, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.15666666666666668, | |
| "grad_norm": 0.9402130842208862, | |
| "learning_rate": 0.00038769352902153333, | |
| "loss": 0.8135909271240235, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.16, | |
| "grad_norm": 1.0193718671798706, | |
| "learning_rate": 0.00038692073570945496, | |
| "loss": 0.817694091796875, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.16333333333333333, | |
| "grad_norm": 0.9926565289497375, | |
| "learning_rate": 0.000386125229993123, | |
| "loss": 0.7987307739257813, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "grad_norm": 0.9364326596260071, | |
| "learning_rate": 0.0003853071085330141, | |
| "loss": 0.8007232666015625, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.16666666666666666, | |
| "eval_loss": 0.7967580556869507, | |
| "eval_masked_accuracy": 0.7653559496273451, | |
| "eval_runtime": 2.5634, | |
| "eval_samples_per_second": 1597.853, | |
| "eval_steps_per_second": 6.242, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.17, | |
| "grad_norm": 0.9981640577316284, | |
| "learning_rate": 0.0003844664707376037, | |
| "loss": 0.7831909942626953, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.17333333333333334, | |
| "grad_norm": 0.935793936252594, | |
| "learning_rate": 0.00038360341875128646, | |
| "loss": 0.7719477081298828, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.17666666666666667, | |
| "grad_norm": 0.9942166805267334, | |
| "learning_rate": 0.0003827180574419656, | |
| "loss": 0.7788728332519531, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.18, | |
| "grad_norm": 0.921302318572998, | |
| "learning_rate": 0.00038181049438831024, | |
| "loss": 0.7685958099365234, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.18333333333333332, | |
| "grad_norm": 0.8787013292312622, | |
| "learning_rate": 0.0003808808398666837, | |
| "loss": 0.7563288116455078, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.18666666666666668, | |
| "grad_norm": 0.8968636989593506, | |
| "learning_rate": 0.00037992920683774386, | |
| "loss": 0.7474672698974609, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.19, | |
| "grad_norm": 0.9104163646697998, | |
| "learning_rate": 0.00037895571093271807, | |
| "loss": 0.7457213592529297, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 0.19333333333333333, | |
| "grad_norm": 0.8929153680801392, | |
| "learning_rate": 0.00037796047043935234, | |
| "loss": 0.7423068237304687, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.19666666666666666, | |
| "grad_norm": 0.9810736775398254, | |
| "learning_rate": 0.00037694360628753897, | |
| "loss": 0.7346783447265625, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 0.2, | |
| "grad_norm": 0.931078314781189, | |
| "learning_rate": 0.00037590524203462216, | |
| "loss": 0.7334535217285156, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.20333333333333334, | |
| "grad_norm": 1.019803524017334, | |
| "learning_rate": 0.0003748455038503849, | |
| "loss": 0.7276763916015625, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 0.20666666666666667, | |
| "grad_norm": 0.9782306551933289, | |
| "learning_rate": 0.0003737645205017185, | |
| "loss": 0.7344593048095703, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.21, | |
| "grad_norm": 0.9293437004089355, | |
| "learning_rate": 0.0003726624233369761, | |
| "loss": 0.7246415710449219, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 0.8795522451400757, | |
| "learning_rate": 0.0003715393462700129, | |
| "loss": 0.7216864776611328, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.21666666666666667, | |
| "grad_norm": 0.9632502198219299, | |
| "learning_rate": 0.00037039542576391445, | |
| "loss": 0.7085445404052735, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.22, | |
| "grad_norm": 0.8495221138000488, | |
| "learning_rate": 0.0003692308008144153, | |
| "loss": 0.7115458679199219, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.22333333333333333, | |
| "grad_norm": 0.8541926741600037, | |
| "learning_rate": 0.0003680456129330099, | |
| "loss": 0.6990865325927734, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 0.22666666666666666, | |
| "grad_norm": 0.8344811201095581, | |
| "learning_rate": 0.0003668400061297579, | |
| "loss": 0.6993592071533203, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.23, | |
| "grad_norm": 0.8975337147712708, | |
| "learning_rate": 0.00036561412689578544, | |
| "loss": 0.6972901153564454, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 0.23333333333333334, | |
| "grad_norm": 0.8364660143852234, | |
| "learning_rate": 0.00036436812418548547, | |
| "loss": 0.6967823791503907, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.23666666666666666, | |
| "grad_norm": 0.8676795363426208, | |
| "learning_rate": 0.00036310214939841873, | |
| "loss": 0.6893701934814453, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 0.24, | |
| "grad_norm": 0.8879637718200684, | |
| "learning_rate": 0.0003618163563609171, | |
| "loss": 0.6855775451660157, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 0.24333333333333335, | |
| "grad_norm": 0.9070082306861877, | |
| "learning_rate": 0.00036051090130739274, | |
| "loss": 0.6840663146972656, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 0.24666666666666667, | |
| "grad_norm": 0.8394324779510498, | |
| "learning_rate": 0.0003591859428613541, | |
| "loss": 0.6798997497558594, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 0.25, | |
| "grad_norm": 0.8838658332824707, | |
| "learning_rate": 0.000357841642016132, | |
| "loss": 0.6784028625488281, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 0.25333333333333335, | |
| "grad_norm": 0.8179841041564941, | |
| "learning_rate": 0.0003564781621153176, | |
| "loss": 0.6701314544677734, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 0.25666666666666665, | |
| "grad_norm": 0.8342909812927246, | |
| "learning_rate": 0.000355095668832915, | |
| "loss": 0.6615406799316407, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 0.26, | |
| "grad_norm": 0.8877819180488586, | |
| "learning_rate": 0.00035369433015320983, | |
| "loss": 0.6670161437988281, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 0.2633333333333333, | |
| "grad_norm": 0.9063718914985657, | |
| "learning_rate": 0.0003522743163503587, | |
| "loss": 0.6525628662109375, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 0.26666666666666666, | |
| "grad_norm": 0.8738296627998352, | |
| "learning_rate": 0.00035083579996769866, | |
| "loss": 0.6613227081298828, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 0.27, | |
| "grad_norm": 0.9108850359916687, | |
| "learning_rate": 0.00034937895579678256, | |
| "loss": 0.6542455291748047, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 0.2733333333333333, | |
| "grad_norm": 0.7989206314086914, | |
| "learning_rate": 0.00034790396085613955, | |
| "loss": 0.6540352630615235, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 0.27666666666666667, | |
| "grad_norm": 0.8691635727882385, | |
| "learning_rate": 0.0003464109943697667, | |
| "loss": 0.6410691070556641, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 0.28, | |
| "grad_norm": 0.8667342066764832, | |
| "learning_rate": 0.0003449002377453512, | |
| "loss": 0.6395606994628906, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 0.2833333333333333, | |
| "grad_norm": 0.7986162900924683, | |
| "learning_rate": 0.00034337187455222835, | |
| "loss": 0.6376551055908203, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 0.2866666666666667, | |
| "grad_norm": 0.9031108617782593, | |
| "learning_rate": 0.0003418260904990759, | |
| "loss": 0.6303312683105469, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 0.29, | |
| "grad_norm": 0.8435996174812317, | |
| "learning_rate": 0.0003402630734113492, | |
| "loss": 0.6225329971313477, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 0.29333333333333333, | |
| "grad_norm": 0.9413688778877258, | |
| "learning_rate": 0.00033868301320845895, | |
| "loss": 0.6248882293701172, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 0.2966666666666667, | |
| "grad_norm": 0.7998372316360474, | |
| "learning_rate": 0.000337086101880694, | |
| "loss": 0.6171749496459961, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 0.3, | |
| "grad_norm": 0.8585835099220276, | |
| "learning_rate": 0.00033547253346589355, | |
| "loss": 0.6206340789794922, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 0.30333333333333334, | |
| "grad_norm": 0.8483954071998596, | |
| "learning_rate": 0.00033384250402586954, | |
| "loss": 0.6195469665527343, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 0.30666666666666664, | |
| "grad_norm": 0.9016720056533813, | |
| "learning_rate": 0.00033219621162258343, | |
| "loss": 0.6200881958007812, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 0.31, | |
| "grad_norm": 0.829871416091919, | |
| "learning_rate": 0.0003305338562940807, | |
| "loss": 0.6127318954467773, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 1.002, | |
| "grad_norm": 0.9081104397773743, | |
| "learning_rate": 0.0003288556400301836, | |
| "loss": 0.603317756652832, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 1.0053333333333334, | |
| "grad_norm": 0.8421012759208679, | |
| "learning_rate": 0.00032716176674794884, | |
| "loss": 0.5797752380371094, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 1.0086666666666666, | |
| "grad_norm": 0.8119559288024902, | |
| "learning_rate": 0.0003254524422668889, | |
| "loss": 0.5843183898925781, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 1.012, | |
| "grad_norm": 0.8360543847084045, | |
| "learning_rate": 0.00032372787428396423, | |
| "loss": 0.5793385696411133, | |
| "step": 9700 | |
| }, | |
| { | |
| "epoch": 1.0153333333333334, | |
| "grad_norm": 0.780649721622467, | |
| "learning_rate": 0.0003219882723483456, | |
| "loss": 0.5682408142089844, | |
| "step": 9800 | |
| }, | |
| { | |
| "epoch": 1.0186666666666666, | |
| "grad_norm": 0.7468474507331848, | |
| "learning_rate": 0.00032023384783595255, | |
| "loss": 0.5659066772460938, | |
| "step": 9900 | |
| }, | |
| { | |
| "epoch": 1.022, | |
| "grad_norm": 0.8460882902145386, | |
| "learning_rate": 0.00031846481392376966, | |
| "loss": 0.5553397369384766, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 1.022, | |
| "eval_loss": 0.5976771116256714, | |
| "eval_masked_accuracy": 0.8167562724014337, | |
| "eval_runtime": 2.8203, | |
| "eval_samples_per_second": 1452.351, | |
| "eval_steps_per_second": 5.673, | |
| "step": 10000 | |
| }, | |
| { | |
| "epoch": 1.0253333333333334, | |
| "grad_norm": 0.7821327447891235, | |
| "learning_rate": 0.00031668138556394316, | |
| "loss": 0.5550868606567383, | |
| "step": 10100 | |
| }, | |
| { | |
| "epoch": 1.0286666666666666, | |
| "grad_norm": 1.0433557033538818, | |
| "learning_rate": 0.00031488377945766314, | |
| "loss": 0.5548404312133789, | |
| "step": 10200 | |
| }, | |
| { | |
| "epoch": 1.032, | |
| "grad_norm": 0.8580315113067627, | |
| "learning_rate": 0.00031307221402883227, | |
| "loss": 0.5406364440917969, | |
| "step": 10300 | |
| }, | |
| { | |
| "epoch": 1.0353333333333334, | |
| "grad_norm": 0.8950467705726624, | |
| "learning_rate": 0.00031124690939752543, | |
| "loss": 0.533514404296875, | |
| "step": 10400 | |
| }, | |
| { | |
| "epoch": 1.0386666666666666, | |
| "grad_norm": 0.7847508192062378, | |
| "learning_rate": 0.0003094080873532434, | |
| "loss": 0.538754539489746, | |
| "step": 10500 | |
| }, | |
| { | |
| "epoch": 1.042, | |
| "grad_norm": 0.868969738483429, | |
| "learning_rate": 0.00030755597132796385, | |
| "loss": 0.5428607177734375, | |
| "step": 10600 | |
| }, | |
| { | |
| "epoch": 1.0453333333333332, | |
| "grad_norm": 0.7972626090049744, | |
| "learning_rate": 0.0003056907863689921, | |
| "loss": 0.5347858810424805, | |
| "step": 10700 | |
| }, | |
| { | |
| "epoch": 1.0486666666666666, | |
| "grad_norm": 0.763969361782074, | |
| "learning_rate": 0.0003038127591116163, | |
| "loss": 0.532847785949707, | |
| "step": 10800 | |
| }, | |
| { | |
| "epoch": 1.052, | |
| "grad_norm": 0.7701809406280518, | |
| "learning_rate": 0.0003019221177515692, | |
| "loss": 0.5308395767211914, | |
| "step": 10900 | |
| }, | |
| { | |
| "epoch": 1.0553333333333332, | |
| "grad_norm": 0.8959071636199951, | |
| "learning_rate": 0.0003000190920173008, | |
| "loss": 0.5308527374267578, | |
| "step": 11000 | |
| }, | |
| { | |
| "epoch": 1.0586666666666666, | |
| "grad_norm": 1.0272624492645264, | |
| "learning_rate": 0.00029810391314206416, | |
| "loss": 0.5359263992309571, | |
| "step": 11100 | |
| }, | |
| { | |
| "epoch": 1.062, | |
| "grad_norm": 0.8793138861656189, | |
| "learning_rate": 0.00029617681383581866, | |
| "loss": 0.5368635559082031, | |
| "step": 11200 | |
| }, | |
| { | |
| "epoch": 1.0653333333333332, | |
| "grad_norm": 0.9605848789215088, | |
| "learning_rate": 0.0002942380282569541, | |
| "loss": 0.5313293838500976, | |
| "step": 11300 | |
| }, | |
| { | |
| "epoch": 1.0686666666666667, | |
| "grad_norm": 0.8334460258483887, | |
| "learning_rate": 0.00029228779198383834, | |
| "loss": 0.5360410690307618, | |
| "step": 11400 | |
| }, | |
| { | |
| "epoch": 1.072, | |
| "grad_norm": 0.8171955347061157, | |
| "learning_rate": 0.0002903263419861924, | |
| "loss": 0.5353861999511719, | |
| "step": 11500 | |
| }, | |
| { | |
| "epoch": 1.0753333333333333, | |
| "grad_norm": 0.8680943250656128, | |
| "learning_rate": 0.0002883539165962972, | |
| "loss": 0.5278213119506836, | |
| "step": 11600 | |
| }, | |
| { | |
| "epoch": 1.0786666666666667, | |
| "grad_norm": 0.9106718897819519, | |
| "learning_rate": 0.0002863707554800338, | |
| "loss": 0.5310506439208984, | |
| "step": 11700 | |
| }, | |
| { | |
| "epoch": 1.082, | |
| "grad_norm": 0.9140894412994385, | |
| "learning_rate": 0.00028437709960776224, | |
| "loss": 0.5164321899414063, | |
| "step": 11800 | |
| }, | |
| { | |
| "epoch": 1.0853333333333333, | |
| "grad_norm": 0.790691077709198, | |
| "learning_rate": 0.0002823731912250414, | |
| "loss": 0.5228651428222656, | |
| "step": 11900 | |
| }, | |
| { | |
| "epoch": 1.0886666666666667, | |
| "grad_norm": 0.757777988910675, | |
| "learning_rate": 0.0002803592738231946, | |
| "loss": 0.5215324401855469, | |
| "step": 12000 | |
| }, | |
| { | |
| "epoch": 1.092, | |
| "grad_norm": 0.8369808793067932, | |
| "learning_rate": 0.00027833559210972307, | |
| "loss": 0.5239771270751953, | |
| "step": 12100 | |
| }, | |
| { | |
| "epoch": 1.0953333333333333, | |
| "grad_norm": 0.8947746157646179, | |
| "learning_rate": 0.000276302391978572, | |
| "loss": 0.5179909896850586, | |
| "step": 12200 | |
| }, | |
| { | |
| "epoch": 1.0986666666666667, | |
| "grad_norm": 0.9140170812606812, | |
| "learning_rate": 0.00027425992048025273, | |
| "loss": 0.5237076568603516, | |
| "step": 12300 | |
| }, | |
| { | |
| "epoch": 1.102, | |
| "grad_norm": 0.8575257062911987, | |
| "learning_rate": 0.00027220842579182353, | |
| "loss": 0.5152669525146485, | |
| "step": 12400 | |
| }, | |
| { | |
| "epoch": 1.1053333333333333, | |
| "grad_norm": 0.7598596215248108, | |
| "learning_rate": 0.0002701481571867345, | |
| "loss": 0.5134631729125977, | |
| "step": 12500 | |
| }, | |
| { | |
| "epoch": 1.1086666666666667, | |
| "grad_norm": 0.8437865972518921, | |
| "learning_rate": 0.0002680793650045388, | |
| "loss": 0.5225432586669921, | |
| "step": 12600 | |
| }, | |
| { | |
| "epoch": 1.112, | |
| "grad_norm": 0.7969825863838196, | |
| "learning_rate": 0.00026600230062047393, | |
| "loss": 0.5257926177978516, | |
| "step": 12700 | |
| }, | |
| { | |
| "epoch": 1.1153333333333333, | |
| "grad_norm": 0.8563022613525391, | |
| "learning_rate": 0.00026391721641491817, | |
| "loss": 0.5251951217651367, | |
| "step": 12800 | |
| }, | |
| { | |
| "epoch": 1.1186666666666667, | |
| "grad_norm": 0.708271861076355, | |
| "learning_rate": 0.0002618243657427236, | |
| "loss": 0.5297073745727539, | |
| "step": 12900 | |
| }, | |
| { | |
| "epoch": 1.1219999999999999, | |
| "grad_norm": 0.7699816823005676, | |
| "learning_rate": 0.00025972400290243195, | |
| "loss": 0.5333083724975586, | |
| "step": 13000 | |
| }, | |
| { | |
| "epoch": 1.1253333333333333, | |
| "grad_norm": 0.8275418877601624, | |
| "learning_rate": 0.0002576163831053752, | |
| "loss": 0.5334249114990235, | |
| "step": 13100 | |
| }, | |
| { | |
| "epoch": 1.1286666666666667, | |
| "grad_norm": 0.83842533826828, | |
| "learning_rate": 0.00025550176244466485, | |
| "loss": 0.5315378189086915, | |
| "step": 13200 | |
| }, | |
| { | |
| "epoch": 1.1320000000000001, | |
| "grad_norm": 0.8859015703201294, | |
| "learning_rate": 0.00025338039786407517, | |
| "loss": 0.5462711715698242, | |
| "step": 13300 | |
| }, | |
| { | |
| "epoch": 1.1353333333333333, | |
| "grad_norm": 0.7318875193595886, | |
| "learning_rate": 0.0002512525471268217, | |
| "loss": 0.5278379440307617, | |
| "step": 13400 | |
| }, | |
| { | |
| "epoch": 1.1386666666666667, | |
| "grad_norm": 0.7980539798736572, | |
| "learning_rate": 0.00024911846878424156, | |
| "loss": 0.5409846115112305, | |
| "step": 13500 | |
| }, | |
| { | |
| "epoch": 1.142, | |
| "grad_norm": 0.8805834650993347, | |
| "learning_rate": 0.00024697842214437704, | |
| "loss": 0.538138427734375, | |
| "step": 13600 | |
| }, | |
| { | |
| "epoch": 1.1453333333333333, | |
| "grad_norm": 0.8037357330322266, | |
| "learning_rate": 0.00024483266724046736, | |
| "loss": 0.528113784790039, | |
| "step": 13700 | |
| }, | |
| { | |
| "epoch": 1.1486666666666667, | |
| "grad_norm": 0.8429805636405945, | |
| "learning_rate": 0.00024268146479935286, | |
| "loss": 0.5357782363891601, | |
| "step": 13800 | |
| }, | |
| { | |
| "epoch": 1.152, | |
| "grad_norm": 0.876872181892395, | |
| "learning_rate": 0.0002405250762097943, | |
| "loss": 0.5338603591918946, | |
| "step": 13900 | |
| }, | |
| { | |
| "epoch": 1.1553333333333333, | |
| "grad_norm": 0.798278272151947, | |
| "learning_rate": 0.00023836376349071215, | |
| "loss": 0.5351076889038086, | |
| "step": 14000 | |
| }, | |
| { | |
| "epoch": 1.1586666666666667, | |
| "grad_norm": 0.8131340742111206, | |
| "learning_rate": 0.00023619778925934893, | |
| "loss": 0.5315785598754883, | |
| "step": 14100 | |
| }, | |
| { | |
| "epoch": 1.162, | |
| "grad_norm": 0.8453519940376282, | |
| "learning_rate": 0.00023402741669935933, | |
| "loss": 0.5312258911132812, | |
| "step": 14200 | |
| }, | |
| { | |
| "epoch": 1.1653333333333333, | |
| "grad_norm": 0.7479920387268066, | |
| "learning_rate": 0.00023185290952883097, | |
| "loss": 0.5305691909790039, | |
| "step": 14300 | |
| }, | |
| { | |
| "epoch": 1.1686666666666667, | |
| "grad_norm": 0.7968600392341614, | |
| "learning_rate": 0.00022967453196824056, | |
| "loss": 0.5351016998291016, | |
| "step": 14400 | |
| }, | |
| { | |
| "epoch": 1.172, | |
| "grad_norm": 0.7319141030311584, | |
| "learning_rate": 0.0002274925487083491, | |
| "loss": 0.523140754699707, | |
| "step": 14500 | |
| }, | |
| { | |
| "epoch": 1.1753333333333333, | |
| "grad_norm": 0.7255148887634277, | |
| "learning_rate": 0.00022530722487803967, | |
| "loss": 0.5274886322021485, | |
| "step": 14600 | |
| }, | |
| { | |
| "epoch": 1.1786666666666668, | |
| "grad_norm": 0.8094624876976013, | |
| "learning_rate": 0.000223118826012102, | |
| "loss": 0.5305857467651367, | |
| "step": 14700 | |
| }, | |
| { | |
| "epoch": 1.182, | |
| "grad_norm": 0.7611061930656433, | |
| "learning_rate": 0.0002209276180189679, | |
| "loss": 0.5199204635620117, | |
| "step": 14800 | |
| }, | |
| { | |
| "epoch": 1.1853333333333333, | |
| "grad_norm": 0.7731903195381165, | |
| "learning_rate": 0.00021873386714840122, | |
| "loss": 0.5233501434326172, | |
| "step": 14900 | |
| }, | |
| { | |
| "epoch": 1.1886666666666668, | |
| "grad_norm": 0.802269697189331, | |
| "learning_rate": 0.0002165378399591463, | |
| "loss": 0.5173654556274414, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 1.1886666666666668, | |
| "eval_loss": 0.4867754876613617, | |
| "eval_masked_accuracy": 0.8465927303032246, | |
| "eval_runtime": 2.9083, | |
| "eval_samples_per_second": 1408.378, | |
| "eval_steps_per_second": 5.501, | |
| "step": 15000 | |
| }, | |
| { | |
| "epoch": 1.192, | |
| "grad_norm": 0.8154687285423279, | |
| "learning_rate": 0.00021433980328653903, | |
| "loss": 0.5211496353149414, | |
| "step": 15100 | |
| }, | |
| { | |
| "epoch": 1.1953333333333334, | |
| "grad_norm": 0.870178759098053, | |
| "learning_rate": 0.00021214002421008382, | |
| "loss": 0.5156788253784179, | |
| "step": 15200 | |
| }, | |
| { | |
| "epoch": 1.1986666666666665, | |
| "grad_norm": 0.7339473962783813, | |
| "learning_rate": 0.0002099387700210015, | |
| "loss": 0.5113505935668945, | |
| "step": 15300 | |
| }, | |
| { | |
| "epoch": 1.202, | |
| "grad_norm": 0.8333882689476013, | |
| "learning_rate": 0.00020773630818975128, | |
| "loss": 0.5066380310058594, | |
| "step": 15400 | |
| }, | |
| { | |
| "epoch": 1.2053333333333334, | |
| "grad_norm": 0.7248000502586365, | |
| "learning_rate": 0.00020553290633353074, | |
| "loss": 0.5148737716674805, | |
| "step": 15500 | |
| }, | |
| { | |
| "epoch": 1.2086666666666668, | |
| "grad_norm": 0.8077163696289062, | |
| "learning_rate": 0.00020332883218375823, | |
| "loss": 0.5026751327514648, | |
| "step": 15600 | |
| }, | |
| { | |
| "epoch": 1.212, | |
| "grad_norm": 0.7529610991477966, | |
| "learning_rate": 0.00020112435355354132, | |
| "loss": 0.5074459457397461, | |
| "step": 15700 | |
| }, | |
| { | |
| "epoch": 1.2153333333333334, | |
| "grad_norm": 0.8418951630592346, | |
| "learning_rate": 0.00019891973830513525, | |
| "loss": 0.4947340393066406, | |
| "step": 15800 | |
| }, | |
| { | |
| "epoch": 1.2186666666666666, | |
| "grad_norm": 0.7463741302490234, | |
| "learning_rate": 0.00019671525431739546, | |
| "loss": 0.49930683135986326, | |
| "step": 15900 | |
| }, | |
| { | |
| "epoch": 1.222, | |
| "grad_norm": 0.7505474090576172, | |
| "learning_rate": 0.0001945111694532282, | |
| "loss": 0.49693927764892576, | |
| "step": 16000 | |
| }, | |
| { | |
| "epoch": 1.2253333333333334, | |
| "grad_norm": 0.7937129735946655, | |
| "learning_rate": 0.00019230775152704284, | |
| "loss": 0.5052358627319335, | |
| "step": 16100 | |
| }, | |
| { | |
| "epoch": 1.2286666666666666, | |
| "grad_norm": 0.6797370910644531, | |
| "learning_rate": 0.00019010526827221045, | |
| "loss": 0.4982032775878906, | |
| "step": 16200 | |
| }, | |
| { | |
| "epoch": 1.232, | |
| "grad_norm": 0.755185604095459, | |
| "learning_rate": 0.0001879039873085317, | |
| "loss": 0.4924372482299805, | |
| "step": 16300 | |
| }, | |
| { | |
| "epoch": 1.2353333333333334, | |
| "grad_norm": 0.6874153017997742, | |
| "learning_rate": 0.00018570417610971914, | |
| "loss": 0.49145896911621095, | |
| "step": 16400 | |
| }, | |
| { | |
| "epoch": 1.2386666666666666, | |
| "grad_norm": 0.785365879535675, | |
| "learning_rate": 0.0001835061019708968, | |
| "loss": 0.4896976470947266, | |
| "step": 16500 | |
| }, | |
| { | |
| "epoch": 1.242, | |
| "grad_norm": 0.7931706309318542, | |
| "learning_rate": 0.00018131003197612158, | |
| "loss": 0.48486351013183593, | |
| "step": 16600 | |
| }, | |
| { | |
| "epoch": 1.2453333333333334, | |
| "grad_norm": 0.711540162563324, | |
| "learning_rate": 0.0001791162329659304, | |
| "loss": 0.4865373992919922, | |
| "step": 16700 | |
| }, | |
| { | |
| "epoch": 1.2486666666666666, | |
| "grad_norm": 0.8093428611755371, | |
| "learning_rate": 0.00017692497150491703, | |
| "loss": 0.4822272491455078, | |
| "step": 16800 | |
| }, | |
| { | |
| "epoch": 1.252, | |
| "grad_norm": 0.8606541156768799, | |
| "learning_rate": 0.00017473651384934213, | |
| "loss": 0.47816139221191406, | |
| "step": 16900 | |
| }, | |
| { | |
| "epoch": 1.2553333333333334, | |
| "grad_norm": 0.6578624248504639, | |
| "learning_rate": 0.00017255112591478094, | |
| "loss": 0.4819015121459961, | |
| "step": 17000 | |
| }, | |
| { | |
| "epoch": 1.2586666666666666, | |
| "grad_norm": 0.8381503224372864, | |
| "learning_rate": 0.0001703690732438124, | |
| "loss": 0.4800693893432617, | |
| "step": 17100 | |
| }, | |
| { | |
| "epoch": 1.262, | |
| "grad_norm": 0.9081389904022217, | |
| "learning_rate": 0.00016819062097375365, | |
| "loss": 0.4796139907836914, | |
| "step": 17200 | |
| }, | |
| { | |
| "epoch": 1.2653333333333334, | |
| "grad_norm": 0.8076674938201904, | |
| "learning_rate": 0.00016601603380444338, | |
| "loss": 0.47347488403320315, | |
| "step": 17300 | |
| }, | |
| { | |
| "epoch": 1.2686666666666666, | |
| "grad_norm": 0.7531787157058716, | |
| "learning_rate": 0.00016384557596607884, | |
| "loss": 0.4700050354003906, | |
| "step": 17400 | |
| }, | |
| { | |
| "epoch": 1.272, | |
| "grad_norm": 0.843329131603241, | |
| "learning_rate": 0.0001616795111871098, | |
| "loss": 0.47036163330078123, | |
| "step": 17500 | |
| }, | |
| { | |
| "epoch": 1.2753333333333332, | |
| "grad_norm": 0.7025447487831116, | |
| "learning_rate": 0.0001595181026621931, | |
| "loss": 0.46735321044921874, | |
| "step": 17600 | |
| }, | |
| { | |
| "epoch": 1.2786666666666666, | |
| "grad_norm": 0.7623017430305481, | |
| "learning_rate": 0.00015736161302021254, | |
| "loss": 0.46535400390625, | |
| "step": 17700 | |
| }, | |
| { | |
| "epoch": 1.282, | |
| "grad_norm": 0.7620524764060974, | |
| "learning_rate": 0.00015521030429236713, | |
| "loss": 0.4652018356323242, | |
| "step": 17800 | |
| }, | |
| { | |
| "epoch": 1.2853333333333334, | |
| "grad_norm": 0.7925307154655457, | |
| "learning_rate": 0.00015306443788033248, | |
| "loss": 0.46518348693847655, | |
| "step": 17900 | |
| }, | |
| { | |
| "epoch": 1.2886666666666666, | |
| "grad_norm": 0.7878969311714172, | |
| "learning_rate": 0.00015092427452449803, | |
| "loss": 0.4622929382324219, | |
| "step": 18000 | |
| }, | |
| { | |
| "epoch": 1.292, | |
| "grad_norm": 0.7757784724235535, | |
| "learning_rate": 0.000148790074272285, | |
| "loss": 0.4650875091552734, | |
| "step": 18100 | |
| }, | |
| { | |
| "epoch": 1.2953333333333332, | |
| "grad_norm": 0.735175371170044, | |
| "learning_rate": 0.00014666209644654873, | |
| "loss": 0.4549406433105469, | |
| "step": 18200 | |
| }, | |
| { | |
| "epoch": 1.2986666666666666, | |
| "grad_norm": 0.6873441934585571, | |
| "learning_rate": 0.00014454059961406846, | |
| "loss": 0.4520915985107422, | |
| "step": 18300 | |
| }, | |
| { | |
| "epoch": 1.302, | |
| "grad_norm": 0.7766420841217041, | |
| "learning_rate": 0.0001424258415541296, | |
| "loss": 0.447607536315918, | |
| "step": 18400 | |
| }, | |
| { | |
| "epoch": 1.3053333333333335, | |
| "grad_norm": 0.6834190487861633, | |
| "learning_rate": 0.0001403180792272015, | |
| "loss": 0.4524835205078125, | |
| "step": 18500 | |
| }, | |
| { | |
| "epoch": 1.3086666666666666, | |
| "grad_norm": 0.7714037299156189, | |
| "learning_rate": 0.00013821756874371426, | |
| "loss": 0.43865036010742187, | |
| "step": 18600 | |
| }, | |
| { | |
| "epoch": 2.0006666666666666, | |
| "grad_norm": 0.6421045064926147, | |
| "learning_rate": 0.0001361245653329396, | |
| "loss": 0.45037097930908204, | |
| "step": 18700 | |
| }, | |
| { | |
| "epoch": 2.004, | |
| "grad_norm": 0.8619283437728882, | |
| "learning_rate": 0.00013403932331197823, | |
| "loss": 0.4485680389404297, | |
| "step": 18800 | |
| }, | |
| { | |
| "epoch": 2.0073333333333334, | |
| "grad_norm": 0.7336652278900146, | |
| "learning_rate": 0.00013196209605485825, | |
| "loss": 0.4345798110961914, | |
| "step": 18900 | |
| }, | |
| { | |
| "epoch": 2.010666666666667, | |
| "grad_norm": 0.7360154986381531, | |
| "learning_rate": 0.00012989313596174825, | |
| "loss": 0.4353963470458984, | |
| "step": 19000 | |
| }, | |
| { | |
| "epoch": 2.014, | |
| "grad_norm": 0.7875688076019287, | |
| "learning_rate": 0.0001278326944282883, | |
| "loss": 0.4323548126220703, | |
| "step": 19100 | |
| }, | |
| { | |
| "epoch": 2.017333333333333, | |
| "grad_norm": 0.8237797617912292, | |
| "learning_rate": 0.0001257810218150438, | |
| "loss": 0.43446548461914064, | |
| "step": 19200 | |
| }, | |
| { | |
| "epoch": 2.0206666666666666, | |
| "grad_norm": 0.775242030620575, | |
| "learning_rate": 0.0001237383674170841, | |
| "loss": 0.4317903900146484, | |
| "step": 19300 | |
| }, | |
| { | |
| "epoch": 2.024, | |
| "grad_norm": 0.7316193580627441, | |
| "learning_rate": 0.00012170497943369139, | |
| "loss": 0.4266176223754883, | |
| "step": 19400 | |
| }, | |
| { | |
| "epoch": 2.0273333333333334, | |
| "grad_norm": 0.8828946352005005, | |
| "learning_rate": 0.00011968110493820255, | |
| "loss": 0.42110267639160154, | |
| "step": 19500 | |
| }, | |
| { | |
| "epoch": 2.030666666666667, | |
| "grad_norm": 0.7441554665565491, | |
| "learning_rate": 0.00011766698984798741, | |
| "loss": 0.42277420043945313, | |
| "step": 19600 | |
| }, | |
| { | |
| "epoch": 2.034, | |
| "grad_norm": 0.7916893362998962, | |
| "learning_rate": 0.0001156628788945679, | |
| "loss": 0.42497276306152343, | |
| "step": 19700 | |
| }, | |
| { | |
| "epoch": 2.037333333333333, | |
| "grad_norm": 0.7108286023139954, | |
| "learning_rate": 0.00011366901559388127, | |
| "loss": 0.42226448059082033, | |
| "step": 19800 | |
| }, | |
| { | |
| "epoch": 2.0406666666666666, | |
| "grad_norm": 0.7501102089881897, | |
| "learning_rate": 0.00011168564221669089, | |
| "loss": 0.4148076629638672, | |
| "step": 19900 | |
| }, | |
| { | |
| "epoch": 2.044, | |
| "grad_norm": 0.7276322841644287, | |
| "learning_rate": 0.000109712999759148, | |
| "loss": 0.41933116912841795, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 2.044, | |
| "eval_loss": 0.4309006333351135, | |
| "eval_masked_accuracy": 0.862885533617241, | |
| "eval_runtime": 2.9684, | |
| "eval_samples_per_second": 1379.874, | |
| "eval_steps_per_second": 5.39, | |
| "step": 20000 | |
| }, | |
| { | |
| "epoch": 2.0473333333333334, | |
| "grad_norm": 0.8200253844261169, | |
| "learning_rate": 0.0001077513279135093, | |
| "loss": 0.4121805572509766, | |
| "step": 20100 | |
| }, | |
| { | |
| "epoch": 2.050666666666667, | |
| "grad_norm": 0.7574154734611511, | |
| "learning_rate": 0.000105800865039012, | |
| "loss": 0.4140956115722656, | |
| "step": 20200 | |
| }, | |
| { | |
| "epoch": 2.054, | |
| "grad_norm": 0.7535119652748108, | |
| "learning_rate": 0.00010386184813291108, | |
| "loss": 0.4128216552734375, | |
| "step": 20300 | |
| }, | |
| { | |
| "epoch": 2.0573333333333332, | |
| "grad_norm": 0.7665644884109497, | |
| "learning_rate": 0.00010193451280168258, | |
| "loss": 0.4141941833496094, | |
| "step": 20400 | |
| }, | |
| { | |
| "epoch": 2.0606666666666666, | |
| "grad_norm": 0.6833004951477051, | |
| "learning_rate": 0.00010001909323239524, | |
| "loss": 0.41669425964355467, | |
| "step": 20500 | |
| }, | |
| { | |
| "epoch": 2.064, | |
| "grad_norm": 0.6854680180549622, | |
| "learning_rate": 9.811582216425472e-05, | |
| "loss": 0.40588130950927737, | |
| "step": 20600 | |
| }, | |
| { | |
| "epoch": 2.0673333333333335, | |
| "grad_norm": 0.7551723122596741, | |
| "learning_rate": 9.622493086032432e-05, | |
| "loss": 0.40616172790527344, | |
| "step": 20700 | |
| }, | |
| { | |
| "epoch": 2.070666666666667, | |
| "grad_norm": 0.7875136733055115, | |
| "learning_rate": 9.434664907942397e-05, | |
| "loss": 0.40618175506591797, | |
| "step": 20800 | |
| }, | |
| { | |
| "epoch": 2.074, | |
| "grad_norm": 0.7156426906585693, | |
| "learning_rate": 9.24812050482134e-05, | |
| "loss": 0.40087387084960935, | |
| "step": 20900 | |
| }, | |
| { | |
| "epoch": 2.0773333333333333, | |
| "grad_norm": 0.7035794258117676, | |
| "learning_rate": 9.062882543345999e-05, | |
| "loss": 0.3979297637939453, | |
| "step": 21000 | |
| }, | |
| { | |
| "epoch": 2.0806666666666667, | |
| "grad_norm": 0.7434916496276855, | |
| "learning_rate": 8.878973531449748e-05, | |
| "loss": 0.3994139099121094, | |
| "step": 21100 | |
| }, | |
| { | |
| "epoch": 2.084, | |
| "grad_norm": 0.6868703961372375, | |
| "learning_rate": 8.696415815587673e-05, | |
| "loss": 0.39528240203857423, | |
| "step": 21200 | |
| }, | |
| { | |
| "epoch": 2.0873333333333335, | |
| "grad_norm": 0.7844119071960449, | |
| "learning_rate": 8.515231578021277e-05, | |
| "loss": 0.3911682891845703, | |
| "step": 21300 | |
| }, | |
| { | |
| "epoch": 2.0906666666666665, | |
| "grad_norm": 0.7842739820480347, | |
| "learning_rate": 8.335442834123192e-05, | |
| "loss": 0.3987908935546875, | |
| "step": 21400 | |
| }, | |
| { | |
| "epoch": 2.094, | |
| "grad_norm": 0.7348713874816895, | |
| "learning_rate": 8.157071429702113e-05, | |
| "loss": 0.38934185028076174, | |
| "step": 21500 | |
| }, | |
| { | |
| "epoch": 2.0973333333333333, | |
| "grad_norm": 0.7054168581962585, | |
| "learning_rate": 7.98013903834832e-05, | |
| "loss": 0.39156261444091794, | |
| "step": 21600 | |
| }, | |
| { | |
| "epoch": 2.1006666666666667, | |
| "grad_norm": 0.7588643431663513, | |
| "learning_rate": 7.80466715880023e-05, | |
| "loss": 0.38873050689697264, | |
| "step": 21700 | |
| }, | |
| { | |
| "epoch": 2.104, | |
| "grad_norm": 0.7288216948509216, | |
| "learning_rate": 7.630677112332046e-05, | |
| "loss": 0.3866202926635742, | |
| "step": 21800 | |
| }, | |
| { | |
| "epoch": 2.1073333333333335, | |
| "grad_norm": 0.7503123879432678, | |
| "learning_rate": 7.458190040163115e-05, | |
| "loss": 0.39182708740234373, | |
| "step": 21900 | |
| }, | |
| { | |
| "epoch": 2.1106666666666665, | |
| "grad_norm": 0.7055880427360535, | |
| "learning_rate": 7.287226900889039e-05, | |
| "loss": 0.401009635925293, | |
| "step": 22000 | |
| }, | |
| { | |
| "epoch": 2.114, | |
| "grad_norm": 0.8966184258460999, | |
| "learning_rate": 7.117808467935076e-05, | |
| "loss": 0.39603382110595703, | |
| "step": 22100 | |
| }, | |
| { | |
| "epoch": 2.1173333333333333, | |
| "grad_norm": 0.6970842480659485, | |
| "learning_rate": 6.949955327031988e-05, | |
| "loss": 0.398880729675293, | |
| "step": 22200 | |
| }, | |
| { | |
| "epoch": 2.1206666666666667, | |
| "grad_norm": 0.7583353519439697, | |
| "learning_rate": 6.783687873714672e-05, | |
| "loss": 0.3997147369384766, | |
| "step": 22300 | |
| }, | |
| { | |
| "epoch": 2.124, | |
| "grad_norm": 0.7861075401306152, | |
| "learning_rate": 6.61902631084399e-05, | |
| "loss": 0.4028291702270508, | |
| "step": 22400 | |
| }, | |
| { | |
| "epoch": 2.1273333333333335, | |
| "grad_norm": 0.6678594946861267, | |
| "learning_rate": 6.455990646151924e-05, | |
| "loss": 0.3987395095825195, | |
| "step": 22500 | |
| }, | |
| { | |
| "epoch": 2.1306666666666665, | |
| "grad_norm": 0.7038342952728271, | |
| "learning_rate": 6.29460068981046e-05, | |
| "loss": 0.39326480865478514, | |
| "step": 22600 | |
| }, | |
| { | |
| "epoch": 2.134, | |
| "grad_norm": 0.7392048239707947, | |
| "learning_rate": 6.134876052024527e-05, | |
| "loss": 0.40042667388916015, | |
| "step": 22700 | |
| }, | |
| { | |
| "epoch": 2.1373333333333333, | |
| "grad_norm": 0.8075382113456726, | |
| "learning_rate": 5.9768361406491533e-05, | |
| "loss": 0.3967801284790039, | |
| "step": 22800 | |
| }, | |
| { | |
| "epoch": 2.1406666666666667, | |
| "grad_norm": 0.7892723679542542, | |
| "learning_rate": 5.8205001588313014e-05, | |
| "loss": 0.39166572570800784, | |
| "step": 22900 | |
| }, | |
| { | |
| "epoch": 2.144, | |
| "grad_norm": 0.7251806855201721, | |
| "learning_rate": 5.6658871026764704e-05, | |
| "loss": 0.3836771011352539, | |
| "step": 23000 | |
| }, | |
| { | |
| "epoch": 2.1473333333333335, | |
| "grad_norm": 0.782537579536438, | |
| "learning_rate": 5.513015758940567e-05, | |
| "loss": 0.39198822021484375, | |
| "step": 23100 | |
| }, | |
| { | |
| "epoch": 2.1506666666666665, | |
| "grad_norm": 0.8268524408340454, | |
| "learning_rate": 5.361904702747136e-05, | |
| "loss": 0.38895458221435547, | |
| "step": 23200 | |
| }, | |
| { | |
| "epoch": 2.154, | |
| "grad_norm": 0.7508871555328369, | |
| "learning_rate": 5.212572295330311e-05, | |
| "loss": 0.40076961517333987, | |
| "step": 23300 | |
| }, | |
| { | |
| "epoch": 2.1573333333333333, | |
| "grad_norm": 0.6501144170761108, | |
| "learning_rate": 5.065036681803819e-05, | |
| "loss": 0.4024519348144531, | |
| "step": 23400 | |
| }, | |
| { | |
| "epoch": 2.1606666666666667, | |
| "grad_norm": 0.6458573937416077, | |
| "learning_rate": 4.919315788956167e-05, | |
| "loss": 0.4000421142578125, | |
| "step": 23500 | |
| }, | |
| { | |
| "epoch": 2.164, | |
| "grad_norm": 0.732280433177948, | |
| "learning_rate": 4.775427323072386e-05, | |
| "loss": 0.39758953094482424, | |
| "step": 23600 | |
| }, | |
| { | |
| "epoch": 2.1673333333333336, | |
| "grad_norm": 0.6772671937942505, | |
| "learning_rate": 4.6333887677826025e-05, | |
| "loss": 0.39006378173828127, | |
| "step": 23700 | |
| }, | |
| { | |
| "epoch": 2.1706666666666665, | |
| "grad_norm": 0.7737159729003906, | |
| "learning_rate": 4.4932173819376064e-05, | |
| "loss": 0.3929125213623047, | |
| "step": 23800 | |
| }, | |
| { | |
| "epoch": 2.174, | |
| "grad_norm": 0.8250499963760376, | |
| "learning_rate": 4.354930197511762e-05, | |
| "loss": 0.396903076171875, | |
| "step": 23900 | |
| }, | |
| { | |
| "epoch": 2.1773333333333333, | |
| "grad_norm": 0.7866168022155762, | |
| "learning_rate": 4.218544017533499e-05, | |
| "loss": 0.387851676940918, | |
| "step": 24000 | |
| }, | |
| { | |
| "epoch": 2.1806666666666668, | |
| "grad_norm": 0.7040881514549255, | |
| "learning_rate": 4.084075414043598e-05, | |
| "loss": 0.3934907913208008, | |
| "step": 24100 | |
| }, | |
| { | |
| "epoch": 2.184, | |
| "grad_norm": 0.7672249674797058, | |
| "learning_rate": 3.951540726081553e-05, | |
| "loss": 0.3852077484130859, | |
| "step": 24200 | |
| }, | |
| { | |
| "epoch": 2.187333333333333, | |
| "grad_norm": 0.7783628702163696, | |
| "learning_rate": 3.82095605770022e-05, | |
| "loss": 0.3871307373046875, | |
| "step": 24300 | |
| }, | |
| { | |
| "epoch": 2.1906666666666665, | |
| "grad_norm": 0.8870095610618591, | |
| "learning_rate": 3.69233727600909e-05, | |
| "loss": 0.3772114181518555, | |
| "step": 24400 | |
| }, | |
| { | |
| "epoch": 2.194, | |
| "grad_norm": 0.738532304763794, | |
| "learning_rate": 3.565700009246269e-05, | |
| "loss": 0.3705712890625, | |
| "step": 24500 | |
| }, | |
| { | |
| "epoch": 2.1973333333333334, | |
| "grad_norm": 0.6864748001098633, | |
| "learning_rate": 3.4410596448795184e-05, | |
| "loss": 0.383516845703125, | |
| "step": 24600 | |
| }, | |
| { | |
| "epoch": 2.2006666666666668, | |
| "grad_norm": 0.6553505063056946, | |
| "learning_rate": 3.318431327736577e-05, | |
| "loss": 0.38183685302734377, | |
| "step": 24700 | |
| }, | |
| { | |
| "epoch": 2.204, | |
| "grad_norm": 0.6033626794815063, | |
| "learning_rate": 3.197829958164917e-05, | |
| "loss": 0.3845671081542969, | |
| "step": 24800 | |
| }, | |
| { | |
| "epoch": 2.207333333333333, | |
| "grad_norm": 0.7695163488388062, | |
| "learning_rate": 3.079270190221231e-05, | |
| "loss": 0.3796828079223633, | |
| "step": 24900 | |
| }, | |
| { | |
| "epoch": 2.2106666666666666, | |
| "grad_norm": 0.7200196385383606, | |
| "learning_rate": 2.96276642989086e-05, | |
| "loss": 0.38924953460693357, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.2106666666666666, | |
| "eval_loss": 0.3823796212673187, | |
| "eval_masked_accuracy": 0.878150720164609, | |
| "eval_runtime": 3.0159, | |
| "eval_samples_per_second": 1358.12, | |
| "eval_steps_per_second": 5.305, | |
| "step": 25000 | |
| }, | |
| { | |
| "epoch": 2.214, | |
| "grad_norm": 0.7287200689315796, | |
| "learning_rate": 2.848332833337335e-05, | |
| "loss": 0.3876392364501953, | |
| "step": 25100 | |
| }, | |
| { | |
| "epoch": 2.2173333333333334, | |
| "grad_norm": 0.7604002952575684, | |
| "learning_rate": 2.7359833051822837e-05, | |
| "loss": 0.3845469284057617, | |
| "step": 25200 | |
| }, | |
| { | |
| "epoch": 2.220666666666667, | |
| "grad_norm": 0.6634399890899658, | |
| "learning_rate": 2.625731496815913e-05, | |
| "loss": 0.3846179962158203, | |
| "step": 25300 | |
| }, | |
| { | |
| "epoch": 2.224, | |
| "grad_norm": 0.7272804975509644, | |
| "learning_rate": 2.5175908047382592e-05, | |
| "loss": 0.39008934020996094, | |
| "step": 25400 | |
| }, | |
| { | |
| "epoch": 2.227333333333333, | |
| "grad_norm": 0.714460015296936, | |
| "learning_rate": 2.4115743689313774e-05, | |
| "loss": 0.3927734756469727, | |
| "step": 25500 | |
| }, | |
| { | |
| "epoch": 2.2306666666666666, | |
| "grad_norm": 0.8357155919075012, | |
| "learning_rate": 2.3076950712627588e-05, | |
| "loss": 0.38554725646972654, | |
| "step": 25600 | |
| }, | |
| { | |
| "epoch": 2.234, | |
| "grad_norm": 0.7323917150497437, | |
| "learning_rate": 2.2059655339200536e-05, | |
| "loss": 0.3921313095092773, | |
| "step": 25700 | |
| }, | |
| { | |
| "epoch": 2.2373333333333334, | |
| "grad_norm": 0.7257605791091919, | |
| "learning_rate": 2.1063981178773884e-05, | |
| "loss": 0.38508140563964843, | |
| "step": 25800 | |
| }, | |
| { | |
| "epoch": 2.240666666666667, | |
| "grad_norm": 0.7842901945114136, | |
| "learning_rate": 2.0090049213933803e-05, | |
| "loss": 0.39042671203613283, | |
| "step": 25900 | |
| }, | |
| { | |
| "epoch": 2.2439999999999998, | |
| "grad_norm": 0.6478227376937866, | |
| "learning_rate": 1.9137977785411333e-05, | |
| "loss": 0.3918688201904297, | |
| "step": 26000 | |
| }, | |
| { | |
| "epoch": 2.247333333333333, | |
| "grad_norm": 0.7710049748420715, | |
| "learning_rate": 1.820788257770283e-05, | |
| "loss": 0.3908076858520508, | |
| "step": 26100 | |
| }, | |
| { | |
| "epoch": 2.2506666666666666, | |
| "grad_norm": 0.7351255416870117, | |
| "learning_rate": 1.7299876605013267e-05, | |
| "loss": 0.37932159423828127, | |
| "step": 26200 | |
| }, | |
| { | |
| "epoch": 2.254, | |
| "grad_norm": 0.6514462232589722, | |
| "learning_rate": 1.641407019752428e-05, | |
| "loss": 0.38645931243896486, | |
| "step": 26300 | |
| }, | |
| { | |
| "epoch": 2.2573333333333334, | |
| "grad_norm": 0.7680016160011292, | |
| "learning_rate": 1.5550570987988067e-05, | |
| "loss": 0.381392707824707, | |
| "step": 26400 | |
| }, | |
| { | |
| "epoch": 2.260666666666667, | |
| "grad_norm": 0.7839369177818298, | |
| "learning_rate": 1.4709483898648945e-05, | |
| "loss": 0.37340118408203127, | |
| "step": 26500 | |
| }, | |
| { | |
| "epoch": 2.2640000000000002, | |
| "grad_norm": 0.6791050434112549, | |
| "learning_rate": 1.3890911128494788e-05, | |
| "loss": 0.38508747100830076, | |
| "step": 26600 | |
| }, | |
| { | |
| "epoch": 2.267333333333333, | |
| "grad_norm": 0.6227408051490784, | |
| "learning_rate": 1.3094952140838712e-05, | |
| "loss": 0.3770198059082031, | |
| "step": 26700 | |
| }, | |
| { | |
| "epoch": 2.2706666666666666, | |
| "grad_norm": 0.6502448916435242, | |
| "learning_rate": 1.2321703651233574e-05, | |
| "loss": 0.37348697662353514, | |
| "step": 26800 | |
| }, | |
| { | |
| "epoch": 2.274, | |
| "grad_norm": 0.6978487968444824, | |
| "learning_rate": 1.157125961572021e-05, | |
| "loss": 0.3783902359008789, | |
| "step": 26900 | |
| }, | |
| { | |
| "epoch": 2.2773333333333334, | |
| "grad_norm": 0.7682250738143921, | |
| "learning_rate": 1.0843711219411101e-05, | |
| "loss": 0.3767197799682617, | |
| "step": 27000 | |
| }, | |
| { | |
| "epoch": 2.280666666666667, | |
| "grad_norm": 0.6915271878242493, | |
| "learning_rate": 1.0139146865410554e-05, | |
| "loss": 0.3798466110229492, | |
| "step": 27100 | |
| }, | |
| { | |
| "epoch": 2.284, | |
| "grad_norm": 0.819548487663269, | |
| "learning_rate": 9.457652164072928e-06, | |
| "loss": 0.3809815979003906, | |
| "step": 27200 | |
| }, | |
| { | |
| "epoch": 2.287333333333333, | |
| "grad_norm": 0.7806178331375122, | |
| "learning_rate": 8.79930992260043e-06, | |
| "loss": 0.3813274383544922, | |
| "step": 27300 | |
| }, | |
| { | |
| "epoch": 2.2906666666666666, | |
| "grad_norm": 0.9139585494995117, | |
| "learning_rate": 8.16420013498127e-06, | |
| "loss": 0.38432167053222654, | |
| "step": 27400 | |
| }, | |
| { | |
| "epoch": 2.294, | |
| "grad_norm": 0.719249963760376, | |
| "learning_rate": 7.552399972269686e-06, | |
| "loss": 0.3763787078857422, | |
| "step": 27500 | |
| }, | |
| { | |
| "epoch": 2.2973333333333334, | |
| "grad_norm": 0.7366885542869568, | |
| "learning_rate": 6.963983773209149e-06, | |
| "loss": 0.3752469253540039, | |
| "step": 27600 | |
| }, | |
| { | |
| "epoch": 2.300666666666667, | |
| "grad_norm": 0.7235630750656128, | |
| "learning_rate": 6.399023035199547e-06, | |
| "loss": 0.37348270416259766, | |
| "step": 27700 | |
| }, | |
| { | |
| "epoch": 2.304, | |
| "grad_norm": 0.6602711081504822, | |
| "learning_rate": 5.857586405609583e-06, | |
| "loss": 0.38024497985839845, | |
| "step": 27800 | |
| }, | |
| { | |
| "epoch": 2.3073333333333332, | |
| "grad_norm": 0.6910043954849243, | |
| "learning_rate": 5.339739673435662e-06, | |
| "loss": 0.3761766815185547, | |
| "step": 27900 | |
| }, | |
| { | |
| "epoch": 2.3106666666666666, | |
| "grad_norm": 0.7024565935134888, | |
| "learning_rate": 4.8455457613079345e-06, | |
| "loss": 0.37851264953613284, | |
| "step": 28000 | |
| }, | |
| { | |
| "epoch": 3.002666666666667, | |
| "grad_norm": 0.9012552499771118, | |
| "learning_rate": 4.375064717844746e-06, | |
| "loss": 0.3574191665649414, | |
| "step": 28100 | |
| }, | |
| { | |
| "epoch": 3.006, | |
| "grad_norm": 0.680111825466156, | |
| "learning_rate": 3.928353710356114e-06, | |
| "loss": 0.3549924087524414, | |
| "step": 28200 | |
| }, | |
| { | |
| "epoch": 3.009333333333333, | |
| "grad_norm": 0.79486083984375, | |
| "learning_rate": 3.5054670178975346e-06, | |
| "loss": 0.35243122100830077, | |
| "step": 28300 | |
| }, | |
| { | |
| "epoch": 3.0126666666666666, | |
| "grad_norm": 0.6971395015716553, | |
| "learning_rate": 3.1064560246746088e-06, | |
| "loss": 0.34856960296630857, | |
| "step": 28400 | |
| }, | |
| { | |
| "epoch": 3.016, | |
| "grad_norm": 0.7989268898963928, | |
| "learning_rate": 2.7313692137993952e-06, | |
| "loss": 0.35404052734375, | |
| "step": 28500 | |
| }, | |
| { | |
| "epoch": 3.0193333333333334, | |
| "grad_norm": 0.681338369846344, | |
| "learning_rate": 2.3802521613993878e-06, | |
| "loss": 0.3551434326171875, | |
| "step": 28600 | |
| }, | |
| { | |
| "epoch": 3.022666666666667, | |
| "grad_norm": 0.6259098052978516, | |
| "learning_rate": 2.053147531079591e-06, | |
| "loss": 0.3543955230712891, | |
| "step": 28700 | |
| }, | |
| { | |
| "epoch": 3.026, | |
| "grad_norm": 0.6789717078208923, | |
| "learning_rate": 1.7500950687385332e-06, | |
| "loss": 0.3479387664794922, | |
| "step": 28800 | |
| }, | |
| { | |
| "epoch": 3.029333333333333, | |
| "grad_norm": 0.6986877918243408, | |
| "learning_rate": 1.4711315977388617e-06, | |
| "loss": 0.35285072326660155, | |
| "step": 28900 | |
| }, | |
| { | |
| "epoch": 3.0326666666666666, | |
| "grad_norm": 0.8804546594619751, | |
| "learning_rate": 1.2162910144329464e-06, | |
| "loss": 0.3571059799194336, | |
| "step": 29000 | |
| }, | |
| { | |
| "epoch": 3.036, | |
| "grad_norm": 0.7633663415908813, | |
| "learning_rate": 9.856042840442393e-07, | |
| "loss": 0.3522502517700195, | |
| "step": 29100 | |
| }, | |
| { | |
| "epoch": 3.0393333333333334, | |
| "grad_norm": 0.8087472319602966, | |
| "learning_rate": 7.790994369047289e-07, | |
| "loss": 0.3503116607666016, | |
| "step": 29200 | |
| }, | |
| { | |
| "epoch": 3.042666666666667, | |
| "grad_norm": 0.6872431039810181, | |
| "learning_rate": 5.968015650490211e-07, | |
| "loss": 0.34913509368896484, | |
| "step": 29300 | |
| }, | |
| { | |
| "epoch": 3.046, | |
| "grad_norm": 0.7077915668487549, | |
| "learning_rate": 4.387328191654438e-07, | |
| "loss": 0.34669517517089843, | |
| "step": 29400 | |
| }, | |
| { | |
| "epoch": 3.0493333333333332, | |
| "grad_norm": 0.721786379814148, | |
| "learning_rate": 3.0491240590457823e-07, | |
| "loss": 0.3519774627685547, | |
| "step": 29500 | |
| }, | |
| { | |
| "epoch": 3.0526666666666666, | |
| "grad_norm": 0.7876111268997192, | |
| "learning_rate": 1.9535658554545867e-07, | |
| "loss": 0.34955368041992185, | |
| "step": 29600 | |
| }, | |
| { | |
| "epoch": 3.056, | |
| "grad_norm": 0.5993502140045166, | |
| "learning_rate": 1.1007867001988637e-07, | |
| "loss": 0.3491347885131836, | |
| "step": 29700 | |
| }, | |
| { | |
| "epoch": 3.0593333333333335, | |
| "grad_norm": 0.7406614422798157, | |
| "learning_rate": 4.9089021294834726e-08, | |
| "loss": 0.35303794860839843, | |
| "step": 29800 | |
| }, | |
| { | |
| "epoch": 3.062666666666667, | |
| "grad_norm": 0.7397328615188599, | |
| "learning_rate": 1.2395050113389595e-08, | |
| "loss": 0.34634124755859375, | |
| "step": 29900 | |
| }, | |
| { | |
| "epoch": 3.066, | |
| "grad_norm": 0.7702119946479797, | |
| "learning_rate": 1.215094425077723e-12, | |
| "loss": 0.34748374938964843, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 3.066, | |
| "eval_loss": 0.37694016098976135, | |
| "eval_masked_accuracy": 0.8775784753363228, | |
| "eval_runtime": 2.9576, | |
| "eval_samples_per_second": 1384.896, | |
| "eval_steps_per_second": 5.41, | |
| "step": 30000 | |
| }, | |
| { | |
| "epoch": 3.066, | |
| "step": 30000, | |
| "total_flos": 9.74439612930639e+16, | |
| "train_loss": 0.6228721523284912, | |
| "train_runtime": 2832.8619, | |
| "train_samples_per_second": 2711.039, | |
| "train_steps_per_second": 10.59 | |
| }, | |
| { | |
| "epoch": 3.066, | |
| "eval_loss": 0.3744058609008789, | |
| "eval_masked_accuracy": 0.8805643239064613, | |
| "eval_runtime": 2.8656, | |
| "eval_samples_per_second": 1429.379, | |
| "eval_steps_per_second": 5.584, | |
| "step": 30000 | |
| } | |
| ], | |
| "logging_steps": 100, | |
| "max_steps": 30000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 9223372036854775807, | |
| "save_steps": 5000, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 9.74439612930639e+16, | |
| "train_batch_size": 256, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |