B:\8B\!models--SicariusSicariiStuff--Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct_Abliterated>PMPF4_finetune_7B_3060ti_v12B_llama.py
--- POOR MAN'S PORTABLE FINETUNER v12 ---
Loading Tokenizer...
Loading dataset: B:\8B\!models--SicariusSicariiStuff--Llama-3.1-Nemotron-8B-UltraLong-1M-Instruct_Abliterated\dataset_cache\unified_dataset.parquet
Formatting dataset for Llama 3...
Map: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<00:00, 7695.05 examples/s]
Training on 77 distinct Q&A pairs.
Loading Model with VRAM Augmentation (Limit: 4GiB)...
Loading Model with Manual CPU Offload (VRAM Cap: 4GiB)...
`torch_dtype` is deprecated! Use `dtype` instead!
Loading checkpoint shards: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:07<00:00,  1.01s/it]
Some parameters are on the meta device because they were offloaded to the cpu.
Applying surgical float32 casts to Norm layers...
Applying formatting function to train dataset: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<00:00, 7665.83 examples/s]
Adding EOS to train dataset: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<?, ? examples/s]
Tokenizing train dataset: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<00:00, 507.52 examples/s]
Truncating train dataset: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 77/77 [00:00<00:00, 9529.70 examples/s]
test.c
LINK : fatal error LNK1181: cannot open input file 'aio.lib'
test.c
LINK : fatal error LNK1181: cannot open input file 'cufile.lib'
W0225 02:38:12.633000 32 site-packages\torch\distributed\elastic\multiprocessing\redirects.py:29] NOTE: Redirects are currently not supported in Windows or MacOs.
Starting Training...
The tokenizer has new PAD/BOS/EOS tokens that differ from the model config and generation config. The model config and generation config were aligned accordingly, being updated with the tokenizer's values. Updated tokens: {'eos_token_id': 128009, 'pad_token_id': 128009}.
{'loss': 2.8229, 'grad_norm': 1.2545554637908936, 'learning_rate': 0.0, 'entropy': 1.6612415611743927, 'num_tokens': 4096.0, 'mean_token_accuracy': 0.4667644128203392, 'epoch': 0.05}
{'loss': 2.3429, 'grad_norm': 1.0619807243347168, 'learning_rate': 1.6666666666666667e-05, 'entropy': 1.5064147114753723, 'num_tokens': 8010.0, 'mean_token_accuracy': 0.5117309913039207, 'epoch': 0.1}
{'loss': 2.3915, 'grad_norm': 1.1672756671905518, 'learning_rate': 3.3333333333333335e-05, 'entropy': 1.4792742729187012, 'num_tokens': 11715.0, 'mean_token_accuracy': 0.4944116547703743, 'epoch': 0.16}
{'loss': 2.4184, 'grad_norm': 1.09641432762146, 'learning_rate': 5e-05, 'entropy': 1.5979790687561035, 'num_tokens': 15228.0, 'mean_token_accuracy': 0.49816617369651794, 'epoch': 0.21}
{'loss': 2.4974, 'grad_norm': 1.096662998199463, 'learning_rate': 6.666666666666667e-05, 'entropy': 1.6903985142707825, 'num_tokens': 19318.0, 'mean_token_accuracy': 0.49043820798397064, 'epoch': 0.26}
{'loss': 2.2518, 'grad_norm': 1.1147456169128418, 'learning_rate': 8.333333333333334e-05, 'entropy': 1.632474958896637, 'num_tokens': 23275.0, 'mean_token_accuracy': 0.5173201188445091, 'epoch': 0.31}
{'loss': 2.1947, 'grad_norm': 0.7295235991477966, 'learning_rate': 0.0001, 'entropy': 1.8074122667312622, 'num_tokens': 27077.0, 'mean_token_accuracy': 0.527435913681984, 'epoch': 0.36}
{'loss': 2.2421, 'grad_norm': 0.8505409359931946, 'learning_rate': 9.999344418328162e-05, 'entropy': 2.104872405529022, 'num_tokens': 30574.0, 'mean_token_accuracy': 0.514554888010025, 'epoch': 0.42}
{'loss': 2.3464, 'grad_norm': 0.7220447063446045, 'learning_rate': 9.997377845227576e-05, 'entropy': 2.209208309650421, 'num_tokens': 34670.0, 'mean_token_accuracy': 0.5144183710217476, 'epoch': 0.47}
{'loss': 2.0397, 'grad_norm': 0.7539252042770386, 'learning_rate': 9.994100796397954e-05, 'entropy': 2.177700936794281, 'num_tokens': 38658.0, 'mean_token_accuracy': 0.549127459526062, 'epoch': 0.52}
{'loss': 1.9843, 'grad_norm': 0.736770510673523, 'learning_rate': 9.989514131188559e-05, 'entropy': 2.1807625889778137, 'num_tokens': 42472.0, 'mean_token_accuracy': 0.550884336233139, 'epoch': 0.57}
{'loss': 2.1232, 'grad_norm': 0.7984391450881958, 'learning_rate': 9.983619052372848e-05, 'entropy': 2.426550805568695, 'num_tokens': 46077.0, 'mean_token_accuracy': 0.5432499647140503, 'epoch': 0.62}
{'loss': 2.3017, 'grad_norm': 0.6982719302177429, 'learning_rate': 9.97641710583307e-05, 'entropy': 2.5265204310417175, 'num_tokens': 50173.0, 'mean_token_accuracy': 0.5117301940917969, 'epoch': 0.68}
{'loss': 1.9348, 'grad_norm': 0.6852265000343323, 'learning_rate': 9.967910180154889e-05, 'entropy': 2.274176061153412, 'num_tokens': 54222.0, 'mean_token_accuracy': 0.5749196112155914, 'epoch': 0.73}
{'loss': 2.1185, 'grad_norm': 0.5347428321838379, 'learning_rate': 9.958100506132127e-05, 'entropy': 2.2453370690345764, 'num_tokens': 58039.0, 'mean_token_accuracy': 0.5339359790086746, 'epoch': 0.78}
{'loss': 1.8898, 'grad_norm': 0.5916596055030823, 'learning_rate': 9.946990656181781e-05, 'entropy': 2.066192477941513, 'num_tokens': 61514.0, 'mean_token_accuracy': 0.5651500970125198, 'epoch': 0.83}
{'loss': 2.2393, 'grad_norm': 0.5342420339584351, 'learning_rate': 9.934583543669453e-05, 'entropy': 2.15504390001297, 'num_tokens': 65610.0, 'mean_token_accuracy': 0.5127077326178551, 'epoch': 0.88}
{'loss': 2.0067, 'grad_norm': 0.5286645293235779, 'learning_rate': 9.920882422145372e-05, 'entropy': 1.9676308035850525, 'num_tokens': 69654.0, 'mean_token_accuracy': 0.5475686341524124, 'epoch': 0.94}
{'loss': 1.8916, 'grad_norm': 0.5927273035049438, 'learning_rate': 9.905890884491195e-05, 'entropy': 1.8845832347869873, 'num_tokens': 73396.0, 'mean_token_accuracy': 0.5534204989671707, 'epoch': 0.99}
{'loss': 2.3883, 'grad_norm': 1.2490240335464478, 'learning_rate': 9.889612861977853e-05, 'entropy': 2.155970811843872, 'num_tokens': 74280.0, 'mean_token_accuracy': 0.5062287449836731, 'epoch': 1.0}
{'loss': 1.9647, 'grad_norm': 0.6541571617126465, 'learning_rate': 9.872052623234632e-05, 'entropy': 1.8437265753746033, 'num_tokens': 78376.0, 'mean_token_accuracy': 0.5547409653663635, 'epoch': 1.05}
{'loss': 1.901, 'grad_norm': 0.65852290391922, 'learning_rate': 9.853214773129796e-05, 'entropy': 1.873015820980072, 'num_tokens': 82321.0, 'mean_token_accuracy': 0.5627671629190445, 'epoch': 1.1}
{'loss': 1.6811, 'grad_norm': 0.6219690442085266, 'learning_rate': 9.833104251563056e-05, 'entropy': 1.7705570757389069, 'num_tokens': 86010.0, 'mean_token_accuracy': 0.5918023884296417, 'epoch': 1.16}
{'loss': 1.8, 'grad_norm': 0.7832255363464355, 'learning_rate': 9.811726332170153e-05, 'entropy': 1.9696500301361084, 'num_tokens': 89360.0, 'mean_token_accuracy': 0.5748277008533478, 'epoch': 1.21}
{'loss': 1.905, 'grad_norm': 0.6504762172698975, 'learning_rate': 9.789086620939936e-05, 'entropy': 1.9509253799915314, 'num_tokens': 93450.0, 'mean_token_accuracy': 0.5606802999973297, 'epoch': 1.26}
{'loss': 1.6902, 'grad_norm': 0.7335563898086548, 'learning_rate': 9.765191054744305e-05, 'entropy': 1.811412364244461, 'num_tokens': 97449.0, 'mean_token_accuracy': 0.5881140530109406, 'epoch': 1.31}
{'loss': 1.6369, 'grad_norm': 0.7298111915588379, 'learning_rate': 9.740045899781352e-05, 'entropy': 1.7409493923187256, 'num_tokens': 101305.0, 'mean_token_accuracy': 0.6011488884687424, 'epoch': 1.36}
{'loss': 1.7149, 'grad_norm': 0.778084933757782, 'learning_rate': 9.713657749932172e-05, 'entropy': 1.6975655853748322, 'num_tokens': 104946.0, 'mean_token_accuracy': 0.5848293602466583, 'epoch': 1.42}
{'loss': 1.896, 'grad_norm': 0.7938727140426636, 'learning_rate': 9.686033525031719e-05, 'entropy': 1.8566109538078308, 'num_tokens': 109042.0, 'mean_token_accuracy': 0.5645161271095276, 'epoch': 1.47}
{'loss': 1.965, 'grad_norm': 0.78084397315979, 'learning_rate': 9.657180469054213e-05, 'entropy': 1.8176575899124146, 'num_tokens': 113138.0, 'mean_token_accuracy': 0.561094805598259, 'epoch': 1.52}
{'loss': 1.8331, 'grad_norm': 0.7886506915092468, 'learning_rate': 9.627106148213522e-05, 'entropy': 1.777187168598175, 'num_tokens': 116958.0, 'mean_token_accuracy': 0.5816262662410736, 'epoch': 1.57}
{'loss': 1.6672, 'grad_norm': 0.8005099892616272, 'learning_rate': 9.595818448979061e-05, 'entropy': 1.6994190216064453, 'num_tokens': 120563.0, 'mean_token_accuracy': 0.5971692055463791, 'epoch': 1.62}
{'loss': 1.7872, 'grad_norm': 0.7808312773704529, 'learning_rate': 9.563325576007701e-05, 'entropy': 1.7796986103057861, 'num_tokens': 124659.0, 'mean_token_accuracy': 0.5847996026277542, 'epoch': 1.68}
{'loss': 1.5865, 'grad_norm': 0.7226642370223999, 'learning_rate': 9.529636049992234e-05, 'entropy': 1.6944488883018494, 'num_tokens': 128596.0, 'mean_token_accuracy': 0.6051100641489029, 'epoch': 1.73}
{'loss': 1.522, 'grad_norm': 0.7886234521865845, 'learning_rate': 9.494758705426978e-05, 'entropy': 1.6621068716049194, 'num_tokens': 132295.0, 'mean_token_accuracy': 0.6299429535865784, 'epoch': 1.78}
{'loss': 1.7458, 'grad_norm': 0.8245624899864197, 'learning_rate': 9.458702688291073e-05, 'entropy': 1.8453331887722015, 'num_tokens': 135816.0, 'mean_token_accuracy': 0.5934227854013443, 'epoch': 1.83}
{'loss': 2.1321, 'grad_norm': 1.0027128458023071, 'learning_rate': 9.421477453650118e-05, 'entropy': 2.066304177045822, 'num_tokens': 139912.0, 'mean_token_accuracy': 0.5356793776154518, 'epoch': 1.88}
{'loss': 1.6275, 'grad_norm': 0.8158688545227051, 'learning_rate': 9.38309276317674e-05, 'entropy': 1.6762649714946747, 'num_tokens': 143905.0, 'mean_token_accuracy': 0.6110067367553711, 'epoch': 1.94}
{'loss': 1.6366, 'grad_norm': 0.8459532260894775, 'learning_rate': 9.343558682590756e-05, 'entropy': 1.6517015397548676, 'num_tokens': 147682.0, 'mean_token_accuracy': 0.6045466512441635, 'epoch': 1.99}
{'loss': 1.4937, 'grad_norm': 1.7424273490905762, 'learning_rate': 9.302885579019627e-05, 'entropy': 1.5589299201965332, 'num_tokens': 148560.0, 'mean_token_accuracy': 0.6499429941177368, 'epoch': 2.0}
{'loss': 1.4515, 'grad_norm': 0.8533061146736145, 'learning_rate': 9.261084118279847e-05, 'entropy': 1.6290643513202667, 'num_tokens': 152656.0, 'mean_token_accuracy': 0.6292766332626343, 'epoch': 2.05}
{'loss': 1.4119, 'grad_norm': 0.9023143649101257, 'learning_rate': 9.218165262080023e-05, 'entropy': 1.541412740945816, 'num_tokens': 156678.0, 'mean_token_accuracy': 0.6449220925569534, 'epoch': 2.1}
{'loss': 1.4574, 'grad_norm': 0.8674481511116028, 'learning_rate': 9.174140265146356e-05, 'entropy': 1.6052694618701935, 'num_tokens': 160537.0, 'mean_token_accuracy': 0.6248188018798828, 'epoch': 2.16}
{'loss': 1.4817, 'grad_norm': 0.9931773543357849, 'learning_rate': 9.129020672271283e-05, 'entropy': 1.6251555979251862, 'num_tokens': 164160.0, 'mean_token_accuracy': 0.6347929984331131, 'epoch': 2.21}
{'loss': 1.7517, 'grad_norm': 1.0430934429168701, 'learning_rate': 9.082818315286055e-05, 'entropy': 1.7670360505580902, 'num_tokens': 168256.0, 'mean_token_accuracy': 0.5965298265218735, 'epoch': 2.26}
{'loss': 1.3069, 'grad_norm': 1.1206802129745483, 'learning_rate': 9.035545309958046e-05, 'entropy': 1.438127338886261, 'num_tokens': 172223.0, 'mean_token_accuracy': 0.6554354876279831, 'epoch': 2.31}
{'loss': 1.4495, 'grad_norm': 1.3503690958023071, 'learning_rate': 8.987214052813604e-05, 'entropy': 1.4479431509971619, 'num_tokens': 175899.0, 'mean_token_accuracy': 0.6341079622507095, 'epoch': 2.36}
{'loss': 1.334, 'grad_norm': 1.2127736806869507, 'learning_rate': 8.937837217887273e-05, 'entropy': 1.4236878454685211, 'num_tokens': 179368.0, 'mean_token_accuracy': 0.6621280014514923, 'epoch': 2.42}
{'loss': 1.7457, 'grad_norm': 1.171679973602295, 'learning_rate': 8.887427753398248e-05, 'entropy': 1.6718567609786987, 'num_tokens': 183464.0, 'mean_token_accuracy': 0.5838220864534378, 'epoch': 2.47}
{'loss': 1.4366, 'grad_norm': 1.073988676071167, 'learning_rate': 8.835998878354931e-05, 'entropy': 1.41694974899292, 'num_tokens': 187405.0, 'mean_token_accuracy': 0.6373634338378906, 'epoch': 2.52}
{'loss': 1.2508, 'grad_norm': 1.0498541593551636, 'learning_rate': 8.783564079088477e-05, 'entropy': 1.3842715322971344, 'num_tokens': 191186.0, 'mean_token_accuracy': 0.6792880147695541, 'epoch': 2.57}
{'loss': 1.5519, 'grad_norm': 1.2883260250091553, 'learning_rate': 8.73013710571623e-05, 'entropy': 1.6336288750171661, 'num_tokens': 194677.0, 'mean_token_accuracy': 0.6254672706127167, 'epoch': 2.62}
{'loss': 1.6618, 'grad_norm': 1.0319790840148926, 'learning_rate': 8.675731968536002e-05, 'entropy': 1.5771606266498566, 'num_tokens': 198773.0, 'mean_token_accuracy': 0.605083093047142, 'epoch': 2.68}
{'loss': 1.2673, 'grad_norm': 1.1074345111846924, 'learning_rate': 8.620362934352109e-05, 'entropy': 1.3617461025714874, 'num_tokens': 202793.0, 'mean_token_accuracy': 0.6671880185604095, 'epoch': 2.73}
{'loss': 1.3257, 'grad_norm': 1.158461332321167, 'learning_rate': 8.564044522734147e-05, 'entropy': 1.4558056890964508, 'num_tokens': 206555.0, 'mean_token_accuracy': 0.666563406586647, 'epoch': 2.78}
{'loss': 1.1915, 'grad_norm': 1.2438595294952393, 'learning_rate': 8.506791502209496e-05, 'entropy': 1.3986586332321167, 'num_tokens': 210108.0, 'mean_token_accuracy': 0.6882313936948776, 'epoch': 2.83}
{'loss': 1.6953, 'grad_norm': 1.1758759021759033, 'learning_rate': 8.448618886390522e-05, 'entropy': 1.7255285382270813, 'num_tokens': 214204.0, 'mean_token_accuracy': 0.6023949086666107, 'epoch': 2.88}
{'loss': 1.4799, 'grad_norm': 1.1779791116714478, 'learning_rate': 8.389541930037516e-05, 'entropy': 1.5788085460662842, 'num_tokens': 218216.0, 'mean_token_accuracy': 0.6282133609056473, 'epoch': 2.94}
{'loss': 1.2091, 'grad_norm': 1.2786287069320679, 'learning_rate': 8.329576125058406e-05, 'entropy': 1.321722000837326, 'num_tokens': 221939.0, 'mean_token_accuracy': 0.6849942356348038, 'epoch': 2.99}
{'loss': 1.3284, 'grad_norm': 3.0034196376800537, 'learning_rate': 8.268737196446264e-05, 'entropy': 1.3356980085372925, 'num_tokens': 222840.0, 'mean_token_accuracy': 0.6666666865348816, 'epoch': 3.0}
{'loss': 1.269, 'grad_norm': 1.2327446937561035, 'learning_rate': 8.2070410981557e-05, 'entropy': 1.3742820918560028, 'num_tokens': 226936.0, 'mean_token_accuracy': 0.6759530752897263, 'epoch': 3.05}
{'loss': 1.1365, 'grad_norm': 1.3644627332687378, 'learning_rate': 8.144504008919222e-05, 'entropy': 1.271314114332199, 'num_tokens': 231014.0, 'mean_token_accuracy': 0.7064891457557678, 'epoch': 3.1}
{'loss': 1.1172, 'grad_norm': 1.3361932039260864, 'learning_rate': 8.081142328004637e-05, 'entropy': 1.2813405990600586, 'num_tokens': 234841.0, 'mean_token_accuracy': 0.7072587013244629, 'epoch': 3.16}
{'loss': 0.9179, 'grad_norm': 1.3955376148223877, 'learning_rate': 8.016972670914624e-05, 'entropy': 1.1255999654531479, 'num_tokens': 238399.0, 'mean_token_accuracy': 0.7483630329370499, 'epoch': 3.21}
{'loss': 1.1141, 'grad_norm': 1.5487165451049805, 'learning_rate': 7.952011865029614e-05, 'entropy': 1.2032314836978912, 'num_tokens': 242495.0, 'mean_token_accuracy': 0.7001466453075409, 'epoch': 3.26}
{'loss': 1.1248, 'grad_norm': 1.8262654542922974, 'learning_rate': 7.886276945195099e-05, 'entropy': 1.1855443716049194, 'num_tokens': 246390.0, 'mean_token_accuracy': 0.700496181845665, 'epoch': 3.31}
{'loss': 0.9357, 'grad_norm': 1.6796680688858032, 'learning_rate': 7.819785149254532e-05, 'entropy': 1.0835289061069489, 'num_tokens': 250112.0, 'mean_token_accuracy': 0.7570765763521194, 'epoch': 3.36}
{'loss': 0.8982, 'grad_norm': 1.6412791013717651, 'learning_rate': 7.752553913529018e-05, 'entropy': 1.0516019612550735, 'num_tokens': 253688.0, 'mean_token_accuracy': 0.7499471455812454, 'epoch': 3.42}
{'loss': 1.1137, 'grad_norm': 1.6225557327270508, 'learning_rate': 7.68460086824492e-05, 'entropy': 1.2056544423103333, 'num_tokens': 257784.0, 'mean_token_accuracy': 0.7030791640281677, 'epoch': 3.47}
{'loss': 1.0232, 'grad_norm': 1.5842618942260742, 'learning_rate': 7.61594383291065e-05, 'entropy': 1.1370487213134766, 'num_tokens': 261737.0, 'mean_token_accuracy': 0.7287678569555283, 'epoch': 3.52}
{'loss': 1.0661, 'grad_norm': 1.6576257944107056, 'learning_rate': 7.546600811643816e-05, 'entropy': 1.2185786068439484, 'num_tokens': 265371.0, 'mean_token_accuracy': 0.7229238301515579, 'epoch': 3.57}
{'loss': 1.1858, 'grad_norm': 1.7349029779434204, 'learning_rate': 7.476589988449939e-05, 'entropy': 1.3296240866184235, 'num_tokens': 268774.0, 'mean_token_accuracy': 0.7033194899559021, 'epoch': 3.62}
{'loss': 1.3067, 'grad_norm': 1.4770621061325073, 'learning_rate': 7.405929722454026e-05, 'entropy': 1.3684271275997162, 'num_tokens': 272870.0, 'mean_token_accuracy': 0.6737536489963531, 'epoch': 3.68}
{'loss': 1.3665, 'grad_norm': 1.7398244142532349, 'learning_rate': 7.334638543086203e-05, 'entropy': 1.3583631217479706, 'num_tokens': 276966.0, 'mean_token_accuracy': 0.6617790907621384, 'epoch': 3.73}
{'loss': 0.9076, 'grad_norm': 1.6651912927627563, 'learning_rate': 7.262735145222696e-05, 'entropy': 1.0133518874645233, 'num_tokens': 280884.0, 'mean_token_accuracy': 0.738780677318573, 'epoch': 3.78}
{'loss': 0.9283, 'grad_norm': 1.7953972816467285, 'learning_rate': 7.190238384283412e-05, 'entropy': 1.093063086271286, 'num_tokens': 284593.0, 'mean_token_accuracy': 0.7387404590845108, 'epoch': 3.83}
{'loss': 1.3442, 'grad_norm': 1.79207444190979, 'learning_rate': 7.117167271287453e-05, 'entropy': 1.3437651097774506, 'num_tokens': 288683.0, 'mean_token_accuracy': 0.670368418097496, 'epoch': 3.88}
{'loss': 0.9117, 'grad_norm': 1.9189069271087646, 'learning_rate': 7.043540967867782e-05, 'entropy': 1.0536675155162811, 'num_tokens': 292584.0, 'mean_token_accuracy': 0.7466351091861725, 'epoch': 3.94}
{'loss': 0.958, 'grad_norm': 2.020191192626953, 'learning_rate': 6.969378781246436e-05, 'entropy': 1.120176374912262, 'num_tokens': 296265.0, 'mean_token_accuracy': 0.7352689951658249, 'epoch': 3.99}
{'loss': 0.862, 'grad_norm': 3.7123961448669434, 'learning_rate': 6.894700159171534e-05, 'entropy': 0.9889850616455078, 'num_tokens': 297120.0, 'mean_token_accuracy': 0.7658079862594604, 'epoch': 4.0}
{'loss': 0.8797, 'grad_norm': 1.7850309610366821, 'learning_rate': 6.819524684817438e-05, 'entropy': 1.124858021736145, 'num_tokens': 301216.0, 'mean_token_accuracy': 0.7627077251672745, 'epoch': 4.05}
{'loss': 1.2466, 'grad_norm': 1.7152117490768433, 'learning_rate': 6.743872071649411e-05, 'entropy': 1.3499763011932373, 'num_tokens': 305303.0, 'mean_token_accuracy': 0.6994792819023132, 'epoch': 4.1}
{'loss': 0.7373, 'grad_norm': 1.7457388639450073, 'learning_rate': 6.667762158254104e-05, 'entropy': 0.9427630305290222, 'num_tokens': 309201.0, 'mean_token_accuracy': 0.8045518398284912, 'epoch': 4.16}
{'loss': 0.5763, 'grad_norm': 1.7773171663284302, 'learning_rate': 6.59121490313722e-05, 'entropy': 0.7794821858406067, 'num_tokens': 312810.0, 'mean_token_accuracy': 0.8459970057010651, 'epoch': 4.21}
{'loss': 0.9981, 'grad_norm': 2.0008206367492676, 'learning_rate': 6.514250379489753e-05, 'entropy': 1.0699696391820908, 'num_tokens': 316906.0, 'mean_token_accuracy': 0.7436461299657822, 'epoch': 4.26}
{'loss': 0.771, 'grad_norm': 2.362311840057373, 'learning_rate': 6.436888769924142e-05, 'entropy': 0.845048725605011, 'num_tokens': 320987.0, 'mean_token_accuracy': 0.7836093753576279, 'epoch': 4.31}
{'loss': 0.6449, 'grad_norm': 2.0145182609558105, 'learning_rate': 6.359150361181715e-05, 'entropy': 0.7634787559509277, 'num_tokens': 324888.0, 'mean_token_accuracy': 0.817314550280571, 'epoch': 4.36}
{'loss': 0.6854, 'grad_norm': 2.5013935565948486, 'learning_rate': 6.281055538812861e-05, 'entropy': 0.8285084962844849, 'num_tokens': 328494.0, 'mean_token_accuracy': 0.8047721087932587, 'epoch': 4.42}
{'loss': 0.9446, 'grad_norm': 2.220364809036255, 'learning_rate': 6.202624781831268e-05, 'entropy': 1.017030030488968, 'num_tokens': 332590.0, 'mean_token_accuracy': 0.7512218952178955, 'epoch': 4.47}
{'loss': 0.6572, 'grad_norm': 1.9630929231643677, 'learning_rate': 6.123878657343648e-05, 'entropy': 0.8249380439519882, 'num_tokens': 336505.0, 'mean_token_accuracy': 0.8229930400848389, 'epoch': 4.52}
{'loss': 0.6828, 'grad_norm': 1.9558978080749512, 'learning_rate': 6.044837815156377e-05, 'entropy': 0.9076548516750336, 'num_tokens': 340300.0, 'mean_token_accuracy': 0.8071335107088089, 'epoch': 4.57}
{'loss': 0.6528, 'grad_norm': 2.078434944152832, 'learning_rate': 5.9655229823604406e-05, 'entropy': 0.8694950044155121, 'num_tokens': 343835.0, 'mean_token_accuracy': 0.8316585719585419, 'epoch': 4.62}
{'loss': 0.6311, 'grad_norm': 2.0356922149658203, 'learning_rate': 5.885954957896115e-05, 'entropy': 0.8068187087774277, 'num_tokens': 347931.0, 'mean_token_accuracy': 0.8132942318916321, 'epoch': 4.68}
{'loss': 0.5962, 'grad_norm': 2.0881903171539307, 'learning_rate': 5.8061546070987994e-05, 'entropy': 0.7849206626415253, 'num_tokens': 351790.0, 'mean_token_accuracy': 0.8346388041973114, 'epoch': 4.73}
{'loss': 0.669, 'grad_norm': 2.016810655593872, 'learning_rate': 5.726142856227452e-05, 'entropy': 0.8519690036773682, 'num_tokens': 355469.0, 'mean_token_accuracy': 0.8151010125875473, 'epoch': 4.78}
{'loss': 0.8002, 'grad_norm': 2.497628927230835, 'learning_rate': 5.645940686977033e-05, 'entropy': 0.9296257048845291, 'num_tokens': 358902.0, 'mean_token_accuracy': 0.7957542389631271, 'epoch': 4.83}
{'loss': 0.9022, 'grad_norm': 3.0375559329986572, 'learning_rate': 5.565569130976422e-05, 'entropy': 0.8939022272825241, 'num_tokens': 362998.0, 'mean_token_accuracy': 0.7561094909906387, 'epoch': 4.88}
{'loss': 0.9251, 'grad_norm': 2.3828494548797607, 'learning_rate': 5.4850492642732406e-05, 'entropy': 1.0005419105291367, 'num_tokens': 366867.0, 'mean_token_accuracy': 0.7512698471546173, 'epoch': 4.94}
{'loss': 0.6605, 'grad_norm': 2.0517995357513428, 'learning_rate': 5.4044022018070214e-05, 'entropy': 0.822820857167244, 'num_tokens': 370530.0, 'mean_token_accuracy': 0.8110035061836243, 'epoch': 4.99}
{'loss': 0.6097, 'grad_norm': 4.1223931312561035, 'learning_rate': 5.3236490918721794e-05, 'entropy': 0.7975618243217468, 'num_tokens': 371400.0, 'mean_token_accuracy': 0.8319907784461975, 'epoch': 5.0}
{'loss': 0.8484, 'grad_norm': 2.3100929260253906, 'learning_rate': 5.242811110572242e-05, 'entropy': 1.0681920796632767, 'num_tokens': 375496.0, 'mean_token_accuracy': 0.7812805473804474, 'epoch': 5.05}
{'loss': 0.458, 'grad_norm': 2.3488125801086426, 'learning_rate': 5.1619094562667804e-05, 'entropy': 0.7335644513368607, 'num_tokens': 379364.0, 'mean_token_accuracy': 0.8794455081224442, 'epoch': 5.1}
{'loss': 0.4748, 'grad_norm': 2.211441993713379, 'learning_rate': 5.080965344012508e-05, 'entropy': 0.7293557226657867, 'num_tokens': 383036.0, 'mean_token_accuracy': 0.8892362713813782, 'epoch': 5.16}
{'loss': 0.3201, 'grad_norm': 1.930281162261963, 'learning_rate': 5e-05, 'entropy': 0.523077204823494, 'num_tokens': 386559.0, 'mean_token_accuracy': 0.9218983054161072, 'epoch': 5.21}
{'loss': 0.6151, 'grad_norm': 2.4826388359069824, 'learning_rate': 4.919034655987493e-05, 'entropy': 0.7449419796466827, 'num_tokens': 390655.0, 'mean_token_accuracy': 0.8360214978456497, 'epoch': 5.26}
{'loss': 0.4523, 'grad_norm': 2.891653537750244, 'learning_rate': 4.838090543733222e-05, 'entropy': 0.5930984318256378, 'num_tokens': 394668.0, 'mean_token_accuracy': 0.8741688877344131, 'epoch': 5.31}
{'loss': 0.4744, 'grad_norm': 2.999936103820801, 'learning_rate': 4.7571888894277604e-05, 'entropy': 0.6119607985019684, 'num_tokens': 398500.0, 'mean_token_accuracy': 0.8672105669975281, 'epoch': 5.36}
{'loss': 0.5495, 'grad_norm': 2.629514455795288, 'learning_rate': 4.676350908127822e-05, 'entropy': 0.6728324741125107, 'num_tokens': 401948.0, 'mean_token_accuracy': 0.8649416416883469, 'epoch': 5.42}
{'loss': 0.5546, 'grad_norm': 3.138479471206665, 'learning_rate': 4.59559779819298e-05, 'entropy': 0.6127533614635468, 'num_tokens': 406044.0, 'mean_token_accuracy': 0.8472629636526108, 'epoch': 5.47}
{'loss': 0.531, 'grad_norm': 2.557055950164795, 'learning_rate': 4.51495073572676e-05, 'entropy': 0.6424791514873505, 'num_tokens': 410036.0, 'mean_token_accuracy': 0.8459004461765289, 'epoch': 5.52}
{'loss': 0.4557, 'grad_norm': 2.1267683506011963, 'learning_rate': 4.434430869023579e-05, 'entropy': 0.6400215476751328, 'num_tokens': 413824.0, 'mean_token_accuracy': 0.8696991056203842, 'epoch': 5.57}
{'loss': 0.3724, 'grad_norm': 2.155333995819092, 'learning_rate': 4.35405931302297e-05, 'entropy': 0.5783148482441902, 'num_tokens': 417303.0, 'mean_token_accuracy': 0.8994632512331009, 'epoch': 5.62}
{'loss': 0.5646, 'grad_norm': 2.167154312133789, 'learning_rate': 4.27385714377255e-05, 'entropy': 0.7168131172657013, 'num_tokens': 421399.0, 'mean_token_accuracy': 0.8418866097927094, 'epoch': 5.68}
{'loss': 0.7497, 'grad_norm': 2.21268367767334, 'learning_rate': 4.193845392901201e-05, 'entropy': 0.8661331534385681, 'num_tokens': 425457.0, 'mean_token_accuracy': 0.8035022467374802, 'epoch': 5.73}
{'loss': 0.4445, 'grad_norm': 2.1089937686920166, 'learning_rate': 4.114045042103887e-05, 'entropy': 0.6252447366714478, 'num_tokens': 429240.0, 'mean_token_accuracy': 0.8809040933847427, 'epoch': 5.78}
{'loss': 0.3529, 'grad_norm': 2.0615506172180176, 'learning_rate': 4.0344770176395606e-05, 'entropy': 0.5776079967617989, 'num_tokens': 432833.0, 'mean_token_accuracy': 0.9059677720069885, 'epoch': 5.83}
{'loss': 0.8261, 'grad_norm': 2.3361973762512207, 'learning_rate': 3.955162184843625e-05, 'entropy': 0.940310537815094, 'num_tokens': 436929.0, 'mean_token_accuracy': 0.7834799438714981, 'epoch': 5.88}
{'loss': 0.4158, 'grad_norm': 2.82218074798584, 'learning_rate': 3.876121342656355e-05, 'entropy': 0.5590986832976341, 'num_tokens': 440943.0, 'mean_token_accuracy': 0.884469211101532, 'epoch': 5.94}
{'loss': 0.4631, 'grad_norm': 2.3521251678466797, 'learning_rate': 3.7973752181687335e-05, 'entropy': 0.6349512189626694, 'num_tokens': 444766.0, 'mean_token_accuracy': 0.8727635592222214, 'epoch': 5.99}
{'loss': 0.3338, 'grad_norm': 4.114785194396973, 'learning_rate': 3.718944461187138e-05, 'entropy': 0.5096912980079651, 'num_tokens': 445680.0, 'mean_token_accuracy': 0.9123767614364624, 'epoch': 6.0}
{'loss': 0.5025, 'grad_norm': 2.101614236831665, 'learning_rate': 3.640849638818286e-05, 'entropy': 0.6745897978544235, 'num_tokens': 449776.0, 'mean_token_accuracy': 0.879032239317894, 'epoch': 6.05}
 60%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 121/200 [32:39<22:34, 17.14s/it]