| { |
| "best_global_step": null, |
| "best_metric": null, |
| "best_model_checkpoint": null, |
| "epoch": 1.2444444444444445, |
| "eval_steps": 1000, |
| "global_step": 7000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.0017777777777777779, |
| "grad_norm": 0.08699894696474075, |
| "learning_rate": 0.000299952, |
| "loss": 0.0382, |
| "step": 10 |
| }, |
| { |
| "epoch": 0.0035555555555555557, |
| "grad_norm": 0.07960943877696991, |
| "learning_rate": 0.00029989866666666664, |
| "loss": 0.0469, |
| "step": 20 |
| }, |
| { |
| "epoch": 0.005333333333333333, |
| "grad_norm": 0.10373344272375107, |
| "learning_rate": 0.0002998453333333333, |
| "loss": 0.0365, |
| "step": 30 |
| }, |
| { |
| "epoch": 0.0071111111111111115, |
| "grad_norm": 0.06741292029619217, |
| "learning_rate": 0.00029979199999999995, |
| "loss": 0.0289, |
| "step": 40 |
| }, |
| { |
| "epoch": 0.008888888888888889, |
| "grad_norm": 0.0950508564710617, |
| "learning_rate": 0.0002997386666666666, |
| "loss": 0.0301, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.010666666666666666, |
| "grad_norm": 0.09060576558113098, |
| "learning_rate": 0.0002996853333333333, |
| "loss": 0.0375, |
| "step": 60 |
| }, |
| { |
| "epoch": 0.012444444444444444, |
| "grad_norm": 0.10300493985414505, |
| "learning_rate": 0.000299632, |
| "loss": 0.0355, |
| "step": 70 |
| }, |
| { |
| "epoch": 0.014222222222222223, |
| "grad_norm": 0.09146833419799805, |
| "learning_rate": 0.00029957866666666664, |
| "loss": 0.0268, |
| "step": 80 |
| }, |
| { |
| "epoch": 0.016, |
| "grad_norm": 0.04962315782904625, |
| "learning_rate": 0.0002995253333333333, |
| "loss": 0.0303, |
| "step": 90 |
| }, |
| { |
| "epoch": 0.017777777777777778, |
| "grad_norm": 0.06788129359483719, |
| "learning_rate": 0.00029947199999999995, |
| "loss": 0.0344, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.019555555555555555, |
| "grad_norm": 0.08723676949739456, |
| "learning_rate": 0.0002994186666666666, |
| "loss": 0.031, |
| "step": 110 |
| }, |
| { |
| "epoch": 0.021333333333333333, |
| "grad_norm": 0.07770177721977234, |
| "learning_rate": 0.0002993653333333333, |
| "loss": 0.0357, |
| "step": 120 |
| }, |
| { |
| "epoch": 0.02311111111111111, |
| "grad_norm": 0.11762720346450806, |
| "learning_rate": 0.000299312, |
| "loss": 0.0368, |
| "step": 130 |
| }, |
| { |
| "epoch": 0.024888888888888887, |
| "grad_norm": 0.18745559453964233, |
| "learning_rate": 0.00029925866666666664, |
| "loss": 0.0319, |
| "step": 140 |
| }, |
| { |
| "epoch": 0.02666666666666667, |
| "grad_norm": 0.1387699544429779, |
| "learning_rate": 0.0002992053333333333, |
| "loss": 0.0314, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.028444444444444446, |
| "grad_norm": 0.08668556064367294, |
| "learning_rate": 0.00029915199999999996, |
| "loss": 0.0247, |
| "step": 160 |
| }, |
| { |
| "epoch": 0.030222222222222223, |
| "grad_norm": 0.10908863693475723, |
| "learning_rate": 0.0002990986666666666, |
| "loss": 0.0206, |
| "step": 170 |
| }, |
| { |
| "epoch": 0.032, |
| "grad_norm": 0.1083473190665245, |
| "learning_rate": 0.00029904533333333333, |
| "loss": 0.0293, |
| "step": 180 |
| }, |
| { |
| "epoch": 0.033777777777777775, |
| "grad_norm": 0.0761309564113617, |
| "learning_rate": 0.000298992, |
| "loss": 0.0341, |
| "step": 190 |
| }, |
| { |
| "epoch": 0.035555555555555556, |
| "grad_norm": 0.09856925159692764, |
| "learning_rate": 0.00029893866666666664, |
| "loss": 0.0406, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.037333333333333336, |
| "grad_norm": 0.24180924892425537, |
| "learning_rate": 0.0002988853333333333, |
| "loss": 0.0289, |
| "step": 210 |
| }, |
| { |
| "epoch": 0.03911111111111111, |
| "grad_norm": 0.11392025649547577, |
| "learning_rate": 0.00029883199999999996, |
| "loss": 0.0292, |
| "step": 220 |
| }, |
| { |
| "epoch": 0.04088888888888889, |
| "grad_norm": 0.05144877731800079, |
| "learning_rate": 0.0002987786666666666, |
| "loss": 0.0207, |
| "step": 230 |
| }, |
| { |
| "epoch": 0.042666666666666665, |
| "grad_norm": 0.05780678242444992, |
| "learning_rate": 0.00029872533333333333, |
| "loss": 0.0323, |
| "step": 240 |
| }, |
| { |
| "epoch": 0.044444444444444446, |
| "grad_norm": 0.08328460901975632, |
| "learning_rate": 0.000298672, |
| "loss": 0.0285, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.04622222222222222, |
| "grad_norm": 0.09992341697216034, |
| "learning_rate": 0.00029861866666666665, |
| "loss": 0.0304, |
| "step": 260 |
| }, |
| { |
| "epoch": 0.048, |
| "grad_norm": 0.07704894989728928, |
| "learning_rate": 0.0002985653333333333, |
| "loss": 0.034, |
| "step": 270 |
| }, |
| { |
| "epoch": 0.049777777777777775, |
| "grad_norm": 0.13885270059108734, |
| "learning_rate": 0.00029851199999999996, |
| "loss": 0.0272, |
| "step": 280 |
| }, |
| { |
| "epoch": 0.051555555555555556, |
| "grad_norm": 0.26443561911582947, |
| "learning_rate": 0.0002984586666666666, |
| "loss": 0.03, |
| "step": 290 |
| }, |
| { |
| "epoch": 0.05333333333333334, |
| "grad_norm": 0.0671650618314743, |
| "learning_rate": 0.00029840533333333333, |
| "loss": 0.0287, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.05511111111111111, |
| "grad_norm": 0.07168793678283691, |
| "learning_rate": 0.000298352, |
| "loss": 0.0327, |
| "step": 310 |
| }, |
| { |
| "epoch": 0.05688888888888889, |
| "grad_norm": 0.18215090036392212, |
| "learning_rate": 0.00029829866666666665, |
| "loss": 0.0303, |
| "step": 320 |
| }, |
| { |
| "epoch": 0.058666666666666666, |
| "grad_norm": 0.06032688915729523, |
| "learning_rate": 0.0002982453333333333, |
| "loss": 0.0274, |
| "step": 330 |
| }, |
| { |
| "epoch": 0.060444444444444446, |
| "grad_norm": 0.12203675508499146, |
| "learning_rate": 0.00029819199999999997, |
| "loss": 0.0324, |
| "step": 340 |
| }, |
| { |
| "epoch": 0.06222222222222222, |
| "grad_norm": 0.13374367356300354, |
| "learning_rate": 0.0002981386666666666, |
| "loss": 0.0304, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.064, |
| "grad_norm": 0.04323069378733635, |
| "learning_rate": 0.00029808533333333334, |
| "loss": 0.0297, |
| "step": 360 |
| }, |
| { |
| "epoch": 0.06577777777777778, |
| "grad_norm": 0.09900318086147308, |
| "learning_rate": 0.000298032, |
| "loss": 0.0283, |
| "step": 370 |
| }, |
| { |
| "epoch": 0.06755555555555555, |
| "grad_norm": 0.12863968312740326, |
| "learning_rate": 0.00029797866666666665, |
| "loss": 0.0306, |
| "step": 380 |
| }, |
| { |
| "epoch": 0.06933333333333333, |
| "grad_norm": 0.11872851103544235, |
| "learning_rate": 0.0002979253333333333, |
| "loss": 0.0289, |
| "step": 390 |
| }, |
| { |
| "epoch": 0.07111111111111111, |
| "grad_norm": 0.13416750729084015, |
| "learning_rate": 0.00029787199999999997, |
| "loss": 0.0402, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.07288888888888889, |
| "grad_norm": 0.1103440672159195, |
| "learning_rate": 0.00029781866666666663, |
| "loss": 0.0193, |
| "step": 410 |
| }, |
| { |
| "epoch": 0.07466666666666667, |
| "grad_norm": 0.14888077974319458, |
| "learning_rate": 0.00029776533333333334, |
| "loss": 0.0317, |
| "step": 420 |
| }, |
| { |
| "epoch": 0.07644444444444444, |
| "grad_norm": 0.13680554926395416, |
| "learning_rate": 0.000297712, |
| "loss": 0.0341, |
| "step": 430 |
| }, |
| { |
| "epoch": 0.07822222222222222, |
| "grad_norm": 0.05971519276499748, |
| "learning_rate": 0.00029765866666666666, |
| "loss": 0.0327, |
| "step": 440 |
| }, |
| { |
| "epoch": 0.08, |
| "grad_norm": 0.15051446855068207, |
| "learning_rate": 0.0002976053333333333, |
| "loss": 0.028, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.08177777777777778, |
| "grad_norm": 0.07047642022371292, |
| "learning_rate": 0.00029755199999999997, |
| "loss": 0.0311, |
| "step": 460 |
| }, |
| { |
| "epoch": 0.08355555555555555, |
| "grad_norm": 0.08709419518709183, |
| "learning_rate": 0.00029749866666666663, |
| "loss": 0.0351, |
| "step": 470 |
| }, |
| { |
| "epoch": 0.08533333333333333, |
| "grad_norm": 0.12891785800457, |
| "learning_rate": 0.0002974453333333333, |
| "loss": 0.0268, |
| "step": 480 |
| }, |
| { |
| "epoch": 0.08711111111111111, |
| "grad_norm": 0.1153012290596962, |
| "learning_rate": 0.000297392, |
| "loss": 0.0377, |
| "step": 490 |
| }, |
| { |
| "epoch": 0.08888888888888889, |
| "grad_norm": 0.05062064900994301, |
| "learning_rate": 0.0002973386666666666, |
| "loss": 0.026, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.09066666666666667, |
| "grad_norm": 0.09977056831121445, |
| "learning_rate": 0.0002972853333333333, |
| "loss": 0.0278, |
| "step": 510 |
| }, |
| { |
| "epoch": 0.09244444444444444, |
| "grad_norm": 0.0959126427769661, |
| "learning_rate": 0.000297232, |
| "loss": 0.0371, |
| "step": 520 |
| }, |
| { |
| "epoch": 0.09422222222222222, |
| "grad_norm": 0.05825706198811531, |
| "learning_rate": 0.00029717866666666663, |
| "loss": 0.0306, |
| "step": 530 |
| }, |
| { |
| "epoch": 0.096, |
| "grad_norm": 0.13851483166217804, |
| "learning_rate": 0.0002971253333333333, |
| "loss": 0.038, |
| "step": 540 |
| }, |
| { |
| "epoch": 0.09777777777777778, |
| "grad_norm": 0.22746726870536804, |
| "learning_rate": 0.00029707199999999995, |
| "loss": 0.0209, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.09955555555555555, |
| "grad_norm": 0.06507899612188339, |
| "learning_rate": 0.0002970186666666666, |
| "loss": 0.0286, |
| "step": 560 |
| }, |
| { |
| "epoch": 0.10133333333333333, |
| "grad_norm": 0.07220398634672165, |
| "learning_rate": 0.0002969653333333333, |
| "loss": 0.0279, |
| "step": 570 |
| }, |
| { |
| "epoch": 0.10311111111111111, |
| "grad_norm": 0.06591857224702835, |
| "learning_rate": 0.000296912, |
| "loss": 0.03, |
| "step": 580 |
| }, |
| { |
| "epoch": 0.10488888888888889, |
| "grad_norm": 0.06433718651533127, |
| "learning_rate": 0.00029685866666666664, |
| "loss": 0.0276, |
| "step": 590 |
| }, |
| { |
| "epoch": 0.10666666666666667, |
| "grad_norm": 0.06255055963993073, |
| "learning_rate": 0.0002968053333333333, |
| "loss": 0.0219, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.10844444444444444, |
| "grad_norm": 0.25509411096572876, |
| "learning_rate": 0.00029675199999999995, |
| "loss": 0.0305, |
| "step": 610 |
| }, |
| { |
| "epoch": 0.11022222222222222, |
| "grad_norm": 0.2092062085866928, |
| "learning_rate": 0.0002966986666666666, |
| "loss": 0.0293, |
| "step": 620 |
| }, |
| { |
| "epoch": 0.112, |
| "grad_norm": 0.16890083253383636, |
| "learning_rate": 0.0002966453333333333, |
| "loss": 0.0289, |
| "step": 630 |
| }, |
| { |
| "epoch": 0.11377777777777778, |
| "grad_norm": 0.16671471297740936, |
| "learning_rate": 0.000296592, |
| "loss": 0.0273, |
| "step": 640 |
| }, |
| { |
| "epoch": 0.11555555555555555, |
| "grad_norm": 0.12516531348228455, |
| "learning_rate": 0.00029653866666666664, |
| "loss": 0.0262, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.11733333333333333, |
| "grad_norm": 0.07666122168302536, |
| "learning_rate": 0.0002964853333333333, |
| "loss": 0.03, |
| "step": 660 |
| }, |
| { |
| "epoch": 0.11911111111111111, |
| "grad_norm": 0.1718071550130844, |
| "learning_rate": 0.00029643199999999996, |
| "loss": 0.0304, |
| "step": 670 |
| }, |
| { |
| "epoch": 0.12088888888888889, |
| "grad_norm": 0.06207623705267906, |
| "learning_rate": 0.0002963786666666666, |
| "loss": 0.0333, |
| "step": 680 |
| }, |
| { |
| "epoch": 0.12266666666666666, |
| "grad_norm": 0.28347769379615784, |
| "learning_rate": 0.0002963253333333333, |
| "loss": 0.0293, |
| "step": 690 |
| }, |
| { |
| "epoch": 0.12444444444444444, |
| "grad_norm": 0.07060191035270691, |
| "learning_rate": 0.000296272, |
| "loss": 0.0326, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.12622222222222224, |
| "grad_norm": 0.09357782453298569, |
| "learning_rate": 0.00029621866666666664, |
| "loss": 0.0377, |
| "step": 710 |
| }, |
| { |
| "epoch": 0.128, |
| "grad_norm": 0.06910397112369537, |
| "learning_rate": 0.0002961653333333333, |
| "loss": 0.0276, |
| "step": 720 |
| }, |
| { |
| "epoch": 0.12977777777777777, |
| "grad_norm": 0.12975437939167023, |
| "learning_rate": 0.00029611199999999996, |
| "loss": 0.027, |
| "step": 730 |
| }, |
| { |
| "epoch": 0.13155555555555556, |
| "grad_norm": 0.06548379361629486, |
| "learning_rate": 0.0002960586666666666, |
| "loss": 0.0204, |
| "step": 740 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 0.14813624322414398, |
| "learning_rate": 0.00029600533333333333, |
| "loss": 0.028, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.1351111111111111, |
| "grad_norm": 0.22292684018611908, |
| "learning_rate": 0.000295952, |
| "loss": 0.0245, |
| "step": 760 |
| }, |
| { |
| "epoch": 0.1368888888888889, |
| "grad_norm": 0.06060492619872093, |
| "learning_rate": 0.00029589866666666665, |
| "loss": 0.0282, |
| "step": 770 |
| }, |
| { |
| "epoch": 0.13866666666666666, |
| "grad_norm": 0.05400988459587097, |
| "learning_rate": 0.0002958453333333333, |
| "loss": 0.0264, |
| "step": 780 |
| }, |
| { |
| "epoch": 0.14044444444444446, |
| "grad_norm": 0.11169034242630005, |
| "learning_rate": 0.00029579199999999996, |
| "loss": 0.0327, |
| "step": 790 |
| }, |
| { |
| "epoch": 0.14222222222222222, |
| "grad_norm": 0.09408850222826004, |
| "learning_rate": 0.0002957386666666666, |
| "loss": 0.0252, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.144, |
| "grad_norm": 0.0814380869269371, |
| "learning_rate": 0.00029568533333333333, |
| "loss": 0.0326, |
| "step": 810 |
| }, |
| { |
| "epoch": 0.14577777777777778, |
| "grad_norm": 0.06769911199808121, |
| "learning_rate": 0.000295632, |
| "loss": 0.022, |
| "step": 820 |
| }, |
| { |
| "epoch": 0.14755555555555555, |
| "grad_norm": 0.06367345154285431, |
| "learning_rate": 0.00029557866666666665, |
| "loss": 0.0293, |
| "step": 830 |
| }, |
| { |
| "epoch": 0.14933333333333335, |
| "grad_norm": 0.07426635921001434, |
| "learning_rate": 0.0002955253333333333, |
| "loss": 0.0254, |
| "step": 840 |
| }, |
| { |
| "epoch": 0.1511111111111111, |
| "grad_norm": 0.07864944636821747, |
| "learning_rate": 0.00029547199999999997, |
| "loss": 0.0238, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.15288888888888888, |
| "grad_norm": 0.06357907503843307, |
| "learning_rate": 0.0002954186666666666, |
| "loss": 0.0265, |
| "step": 860 |
| }, |
| { |
| "epoch": 0.15466666666666667, |
| "grad_norm": 0.08894886076450348, |
| "learning_rate": 0.00029536533333333334, |
| "loss": 0.0244, |
| "step": 870 |
| }, |
| { |
| "epoch": 0.15644444444444444, |
| "grad_norm": 0.12095648795366287, |
| "learning_rate": 0.000295312, |
| "loss": 0.0335, |
| "step": 880 |
| }, |
| { |
| "epoch": 0.1582222222222222, |
| "grad_norm": 0.07614068686962128, |
| "learning_rate": 0.00029525866666666665, |
| "loss": 0.0397, |
| "step": 890 |
| }, |
| { |
| "epoch": 0.16, |
| "grad_norm": 0.12491751462221146, |
| "learning_rate": 0.0002952053333333333, |
| "loss": 0.0318, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.16177777777777777, |
| "grad_norm": 0.06847213953733444, |
| "learning_rate": 0.00029515199999999997, |
| "loss": 0.035, |
| "step": 910 |
| }, |
| { |
| "epoch": 0.16355555555555557, |
| "grad_norm": 0.08039793372154236, |
| "learning_rate": 0.0002950986666666666, |
| "loss": 0.0321, |
| "step": 920 |
| }, |
| { |
| "epoch": 0.16533333333333333, |
| "grad_norm": 0.14803963899612427, |
| "learning_rate": 0.00029504533333333334, |
| "loss": 0.0233, |
| "step": 930 |
| }, |
| { |
| "epoch": 0.1671111111111111, |
| "grad_norm": 0.11538252979516983, |
| "learning_rate": 0.000294992, |
| "loss": 0.0325, |
| "step": 940 |
| }, |
| { |
| "epoch": 0.1688888888888889, |
| "grad_norm": 0.16967880725860596, |
| "learning_rate": 0.00029493866666666666, |
| "loss": 0.0292, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.17066666666666666, |
| "grad_norm": 0.09237322211265564, |
| "learning_rate": 0.0002948853333333333, |
| "loss": 0.029, |
| "step": 960 |
| }, |
| { |
| "epoch": 0.17244444444444446, |
| "grad_norm": 0.12154370546340942, |
| "learning_rate": 0.00029483199999999997, |
| "loss": 0.0152, |
| "step": 970 |
| }, |
| { |
| "epoch": 0.17422222222222222, |
| "grad_norm": 0.17975209653377533, |
| "learning_rate": 0.00029477866666666663, |
| "loss": 0.0215, |
| "step": 980 |
| }, |
| { |
| "epoch": 0.176, |
| "grad_norm": 0.14124400913715363, |
| "learning_rate": 0.0002947253333333333, |
| "loss": 0.0354, |
| "step": 990 |
| }, |
| { |
| "epoch": 0.17777777777777778, |
| "grad_norm": 0.11977864801883698, |
| "learning_rate": 0.000294672, |
| "loss": 0.0442, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.17777777777777778, |
| "eval_accuracy": 0.7478, |
| "eval_f1": 0.945502736472486, |
| "eval_loss": 0.0255670715123415, |
| "eval_precision": 0.9439028048340548, |
| "eval_recall": 0.9488640647510385, |
| "eval_runtime": 639.8304, |
| "eval_samples_per_second": 15.629, |
| "eval_steps_per_second": 1.954, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.17955555555555555, |
| "grad_norm": 0.055781953036785126, |
| "learning_rate": 0.0002946186666666666, |
| "loss": 0.0238, |
| "step": 1010 |
| }, |
| { |
| "epoch": 0.18133333333333335, |
| "grad_norm": 0.0902746394276619, |
| "learning_rate": 0.0002945653333333333, |
| "loss": 0.037, |
| "step": 1020 |
| }, |
| { |
| "epoch": 0.1831111111111111, |
| "grad_norm": 0.08535508811473846, |
| "learning_rate": 0.000294512, |
| "loss": 0.0374, |
| "step": 1030 |
| }, |
| { |
| "epoch": 0.18488888888888888, |
| "grad_norm": 0.059737782925367355, |
| "learning_rate": 0.00029445866666666663, |
| "loss": 0.0266, |
| "step": 1040 |
| }, |
| { |
| "epoch": 0.18666666666666668, |
| "grad_norm": 0.06842650473117828, |
| "learning_rate": 0.0002944053333333333, |
| "loss": 0.0234, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.18844444444444444, |
| "grad_norm": 0.06363359093666077, |
| "learning_rate": 0.000294352, |
| "loss": 0.033, |
| "step": 1060 |
| }, |
| { |
| "epoch": 0.1902222222222222, |
| "grad_norm": 0.06755832582712173, |
| "learning_rate": 0.0002942986666666666, |
| "loss": 0.0253, |
| "step": 1070 |
| }, |
| { |
| "epoch": 0.192, |
| "grad_norm": 0.13304175436496735, |
| "learning_rate": 0.0002942453333333333, |
| "loss": 0.0272, |
| "step": 1080 |
| }, |
| { |
| "epoch": 0.19377777777777777, |
| "grad_norm": 0.09009236842393875, |
| "learning_rate": 0.000294192, |
| "loss": 0.0291, |
| "step": 1090 |
| }, |
| { |
| "epoch": 0.19555555555555557, |
| "grad_norm": 0.15461042523384094, |
| "learning_rate": 0.00029413866666666664, |
| "loss": 0.0251, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.19733333333333333, |
| "grad_norm": 0.10490956902503967, |
| "learning_rate": 0.0002940853333333333, |
| "loss": 0.0189, |
| "step": 1110 |
| }, |
| { |
| "epoch": 0.1991111111111111, |
| "grad_norm": 0.04693615809082985, |
| "learning_rate": 0.00029403199999999995, |
| "loss": 0.0297, |
| "step": 1120 |
| }, |
| { |
| "epoch": 0.2008888888888889, |
| "grad_norm": 0.23660215735435486, |
| "learning_rate": 0.0002939786666666666, |
| "loss": 0.0253, |
| "step": 1130 |
| }, |
| { |
| "epoch": 0.20266666666666666, |
| "grad_norm": 0.1499308943748474, |
| "learning_rate": 0.0002939253333333333, |
| "loss": 0.0152, |
| "step": 1140 |
| }, |
| { |
| "epoch": 0.20444444444444446, |
| "grad_norm": 0.07655435055494308, |
| "learning_rate": 0.000293872, |
| "loss": 0.0338, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.20622222222222222, |
| "grad_norm": 0.10019325464963913, |
| "learning_rate": 0.00029381866666666664, |
| "loss": 0.0191, |
| "step": 1160 |
| }, |
| { |
| "epoch": 0.208, |
| "grad_norm": 0.11768526583909988, |
| "learning_rate": 0.0002937653333333333, |
| "loss": 0.0269, |
| "step": 1170 |
| }, |
| { |
| "epoch": 0.20977777777777779, |
| "grad_norm": 0.1752464771270752, |
| "learning_rate": 0.00029371199999999996, |
| "loss": 0.03, |
| "step": 1180 |
| }, |
| { |
| "epoch": 0.21155555555555555, |
| "grad_norm": 0.0824725404381752, |
| "learning_rate": 0.0002936586666666666, |
| "loss": 0.0263, |
| "step": 1190 |
| }, |
| { |
| "epoch": 0.21333333333333335, |
| "grad_norm": 0.10733446478843689, |
| "learning_rate": 0.0002936053333333333, |
| "loss": 0.0316, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.21511111111111111, |
| "grad_norm": 0.07831903547048569, |
| "learning_rate": 0.000293552, |
| "loss": 0.025, |
| "step": 1210 |
| }, |
| { |
| "epoch": 0.21688888888888888, |
| "grad_norm": 0.05593474209308624, |
| "learning_rate": 0.00029349866666666664, |
| "loss": 0.028, |
| "step": 1220 |
| }, |
| { |
| "epoch": 0.21866666666666668, |
| "grad_norm": 0.08755391836166382, |
| "learning_rate": 0.0002934453333333333, |
| "loss": 0.0278, |
| "step": 1230 |
| }, |
| { |
| "epoch": 0.22044444444444444, |
| "grad_norm": 0.05314774066209793, |
| "learning_rate": 0.00029339199999999996, |
| "loss": 0.0249, |
| "step": 1240 |
| }, |
| { |
| "epoch": 0.2222222222222222, |
| "grad_norm": 0.09742765128612518, |
| "learning_rate": 0.0002933386666666666, |
| "loss": 0.0351, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.224, |
| "grad_norm": 0.08220130950212479, |
| "learning_rate": 0.00029328533333333333, |
| "loss": 0.0246, |
| "step": 1260 |
| }, |
| { |
| "epoch": 0.22577777777777777, |
| "grad_norm": 0.12160548567771912, |
| "learning_rate": 0.000293232, |
| "loss": 0.0309, |
| "step": 1270 |
| }, |
| { |
| "epoch": 0.22755555555555557, |
| "grad_norm": 0.04271721467375755, |
| "learning_rate": 0.00029317866666666665, |
| "loss": 0.0199, |
| "step": 1280 |
| }, |
| { |
| "epoch": 0.22933333333333333, |
| "grad_norm": 0.10768424719572067, |
| "learning_rate": 0.0002931253333333333, |
| "loss": 0.0403, |
| "step": 1290 |
| }, |
| { |
| "epoch": 0.2311111111111111, |
| "grad_norm": 0.10115483403205872, |
| "learning_rate": 0.00029307199999999996, |
| "loss": 0.0301, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.2328888888888889, |
| "grad_norm": 0.06167054921388626, |
| "learning_rate": 0.0002930186666666666, |
| "loss": 0.022, |
| "step": 1310 |
| }, |
| { |
| "epoch": 0.23466666666666666, |
| "grad_norm": 0.07526614516973495, |
| "learning_rate": 0.00029296533333333333, |
| "loss": 0.0247, |
| "step": 1320 |
| }, |
| { |
| "epoch": 0.23644444444444446, |
| "grad_norm": 0.0718500167131424, |
| "learning_rate": 0.000292912, |
| "loss": 0.0306, |
| "step": 1330 |
| }, |
| { |
| "epoch": 0.23822222222222222, |
| "grad_norm": 0.09048707038164139, |
| "learning_rate": 0.00029285866666666665, |
| "loss": 0.0342, |
| "step": 1340 |
| }, |
| { |
| "epoch": 0.24, |
| "grad_norm": 0.03385091572999954, |
| "learning_rate": 0.0002928053333333333, |
| "loss": 0.0133, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.24177777777777779, |
| "grad_norm": 0.05868247151374817, |
| "learning_rate": 0.00029275199999999996, |
| "loss": 0.0233, |
| "step": 1360 |
| }, |
| { |
| "epoch": 0.24355555555555555, |
| "grad_norm": 0.03412957862019539, |
| "learning_rate": 0.0002926986666666666, |
| "loss": 0.0207, |
| "step": 1370 |
| }, |
| { |
| "epoch": 0.24533333333333332, |
| "grad_norm": 0.1037665456533432, |
| "learning_rate": 0.00029264533333333334, |
| "loss": 0.0245, |
| "step": 1380 |
| }, |
| { |
| "epoch": 0.24711111111111111, |
| "grad_norm": 0.1433638036251068, |
| "learning_rate": 0.000292592, |
| "loss": 0.0337, |
| "step": 1390 |
| }, |
| { |
| "epoch": 0.24888888888888888, |
| "grad_norm": 0.07344509661197662, |
| "learning_rate": 0.00029253866666666665, |
| "loss": 0.0259, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.25066666666666665, |
| "grad_norm": 0.0688699260354042, |
| "learning_rate": 0.0002924853333333333, |
| "loss": 0.0255, |
| "step": 1410 |
| }, |
| { |
| "epoch": 0.25244444444444447, |
| "grad_norm": 0.06304153054952621, |
| "learning_rate": 0.00029243199999999997, |
| "loss": 0.0313, |
| "step": 1420 |
| }, |
| { |
| "epoch": 0.25422222222222224, |
| "grad_norm": 0.0799403265118599, |
| "learning_rate": 0.0002923786666666666, |
| "loss": 0.0293, |
| "step": 1430 |
| }, |
| { |
| "epoch": 0.256, |
| "grad_norm": 0.05794990807771683, |
| "learning_rate": 0.00029232533333333334, |
| "loss": 0.0328, |
| "step": 1440 |
| }, |
| { |
| "epoch": 0.2577777777777778, |
| "grad_norm": 0.10939860343933105, |
| "learning_rate": 0.000292272, |
| "loss": 0.0312, |
| "step": 1450 |
| }, |
| { |
| "epoch": 0.25955555555555554, |
| "grad_norm": 0.1068209558725357, |
| "learning_rate": 0.00029221866666666665, |
| "loss": 0.0319, |
| "step": 1460 |
| }, |
| { |
| "epoch": 0.2613333333333333, |
| "grad_norm": 0.0788411796092987, |
| "learning_rate": 0.0002921653333333333, |
| "loss": 0.0177, |
| "step": 1470 |
| }, |
| { |
| "epoch": 0.26311111111111113, |
| "grad_norm": 0.08480872958898544, |
| "learning_rate": 0.00029211199999999997, |
| "loss": 0.0366, |
| "step": 1480 |
| }, |
| { |
| "epoch": 0.2648888888888889, |
| "grad_norm": 0.11964548379182816, |
| "learning_rate": 0.00029205866666666663, |
| "loss": 0.0289, |
| "step": 1490 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 0.09924939274787903, |
| "learning_rate": 0.0002920053333333333, |
| "loss": 0.0389, |
| "step": 1500 |
| }, |
| { |
| "epoch": 0.26844444444444443, |
| "grad_norm": 0.1460910588502884, |
| "learning_rate": 0.000291952, |
| "loss": 0.0255, |
| "step": 1510 |
| }, |
| { |
| "epoch": 0.2702222222222222, |
| "grad_norm": 0.07585305720567703, |
| "learning_rate": 0.0002918986666666666, |
| "loss": 0.0265, |
| "step": 1520 |
| }, |
| { |
| "epoch": 0.272, |
| "grad_norm": 0.10140100866556168, |
| "learning_rate": 0.0002918453333333333, |
| "loss": 0.0218, |
| "step": 1530 |
| }, |
| { |
| "epoch": 0.2737777777777778, |
| "grad_norm": 0.06293733417987823, |
| "learning_rate": 0.000291792, |
| "loss": 0.0229, |
| "step": 1540 |
| }, |
| { |
| "epoch": 0.27555555555555555, |
| "grad_norm": 0.05778166651725769, |
| "learning_rate": 0.00029173866666666663, |
| "loss": 0.0189, |
| "step": 1550 |
| }, |
| { |
| "epoch": 0.2773333333333333, |
| "grad_norm": 0.10015172511339188, |
| "learning_rate": 0.0002916853333333333, |
| "loss": 0.0265, |
| "step": 1560 |
| }, |
| { |
| "epoch": 0.2791111111111111, |
| "grad_norm": 0.09747335314750671, |
| "learning_rate": 0.000291632, |
| "loss": 0.0237, |
| "step": 1570 |
| }, |
| { |
| "epoch": 0.2808888888888889, |
| "grad_norm": 0.08547953516244888, |
| "learning_rate": 0.0002915786666666666, |
| "loss": 0.0265, |
| "step": 1580 |
| }, |
| { |
| "epoch": 0.2826666666666667, |
| "grad_norm": 0.07761196047067642, |
| "learning_rate": 0.0002915253333333333, |
| "loss": 0.0251, |
| "step": 1590 |
| }, |
| { |
| "epoch": 0.28444444444444444, |
| "grad_norm": 0.2071438729763031, |
| "learning_rate": 0.000291472, |
| "loss": 0.036, |
| "step": 1600 |
| }, |
| { |
| "epoch": 0.2862222222222222, |
| "grad_norm": 0.1412833034992218, |
| "learning_rate": 0.00029141866666666663, |
| "loss": 0.031, |
| "step": 1610 |
| }, |
| { |
| "epoch": 0.288, |
| "grad_norm": 0.18887145817279816, |
| "learning_rate": 0.0002913653333333333, |
| "loss": 0.0279, |
| "step": 1620 |
| }, |
| { |
| "epoch": 0.2897777777777778, |
| "grad_norm": 0.24295015633106232, |
| "learning_rate": 0.000291312, |
| "loss": 0.0218, |
| "step": 1630 |
| }, |
| { |
| "epoch": 0.29155555555555557, |
| "grad_norm": 0.05178207904100418, |
| "learning_rate": 0.0002912586666666666, |
| "loss": 0.0188, |
| "step": 1640 |
| }, |
| { |
| "epoch": 0.29333333333333333, |
| "grad_norm": 0.08417447656393051, |
| "learning_rate": 0.0002912053333333333, |
| "loss": 0.0377, |
| "step": 1650 |
| }, |
| { |
| "epoch": 0.2951111111111111, |
| "grad_norm": 0.1539195477962494, |
| "learning_rate": 0.000291152, |
| "loss": 0.0337, |
| "step": 1660 |
| }, |
| { |
| "epoch": 0.29688888888888887, |
| "grad_norm": 0.08653148263692856, |
| "learning_rate": 0.00029109866666666664, |
| "loss": 0.0288, |
| "step": 1670 |
| }, |
| { |
| "epoch": 0.2986666666666667, |
| "grad_norm": 0.06827989220619202, |
| "learning_rate": 0.0002910453333333333, |
| "loss": 0.033, |
| "step": 1680 |
| }, |
| { |
| "epoch": 0.30044444444444446, |
| "grad_norm": 0.06921634823083878, |
| "learning_rate": 0.00029099199999999995, |
| "loss": 0.0342, |
| "step": 1690 |
| }, |
| { |
| "epoch": 0.3022222222222222, |
| "grad_norm": 0.0933580994606018, |
| "learning_rate": 0.0002909386666666666, |
| "loss": 0.0264, |
| "step": 1700 |
| }, |
| { |
| "epoch": 0.304, |
| "grad_norm": 0.06207526847720146, |
| "learning_rate": 0.0002908853333333333, |
| "loss": 0.0287, |
| "step": 1710 |
| }, |
| { |
| "epoch": 0.30577777777777776, |
| "grad_norm": 0.06998030096292496, |
| "learning_rate": 0.000290832, |
| "loss": 0.0312, |
| "step": 1720 |
| }, |
| { |
| "epoch": 0.3075555555555556, |
| "grad_norm": 0.06357523053884506, |
| "learning_rate": 0.00029077866666666664, |
| "loss": 0.0176, |
| "step": 1730 |
| }, |
| { |
| "epoch": 0.30933333333333335, |
| "grad_norm": 0.0615546740591526, |
| "learning_rate": 0.0002907253333333333, |
| "loss": 0.0175, |
| "step": 1740 |
| }, |
| { |
| "epoch": 0.3111111111111111, |
| "grad_norm": 0.08233962953090668, |
| "learning_rate": 0.00029067199999999996, |
| "loss": 0.0219, |
| "step": 1750 |
| }, |
| { |
| "epoch": 0.3128888888888889, |
| "grad_norm": 0.11235872656106949, |
| "learning_rate": 0.0002906186666666666, |
| "loss": 0.0228, |
| "step": 1760 |
| }, |
| { |
| "epoch": 0.31466666666666665, |
| "grad_norm": 0.07158353179693222, |
| "learning_rate": 0.00029056533333333333, |
| "loss": 0.025, |
| "step": 1770 |
| }, |
| { |
| "epoch": 0.3164444444444444, |
| "grad_norm": 0.06164095178246498, |
| "learning_rate": 0.000290512, |
| "loss": 0.0372, |
| "step": 1780 |
| }, |
| { |
| "epoch": 0.31822222222222224, |
| "grad_norm": 0.06013910844922066, |
| "learning_rate": 0.00029045866666666664, |
| "loss": 0.0217, |
| "step": 1790 |
| }, |
| { |
| "epoch": 0.32, |
| "grad_norm": 0.07148768752813339, |
| "learning_rate": 0.0002904053333333333, |
| "loss": 0.0255, |
| "step": 1800 |
| }, |
| { |
| "epoch": 0.3217777777777778, |
| "grad_norm": 0.0596451498568058, |
| "learning_rate": 0.00029035199999999996, |
| "loss": 0.0271, |
| "step": 1810 |
| }, |
| { |
| "epoch": 0.32355555555555554, |
| "grad_norm": 0.1655549556016922, |
| "learning_rate": 0.0002902986666666666, |
| "loss": 0.0284, |
| "step": 1820 |
| }, |
| { |
| "epoch": 0.3253333333333333, |
| "grad_norm": 0.06064489856362343, |
| "learning_rate": 0.00029024533333333333, |
| "loss": 0.0295, |
| "step": 1830 |
| }, |
| { |
| "epoch": 0.32711111111111113, |
| "grad_norm": 0.08867213875055313, |
| "learning_rate": 0.000290192, |
| "loss": 0.0346, |
| "step": 1840 |
| }, |
| { |
| "epoch": 0.3288888888888889, |
| "grad_norm": 0.07153977453708649, |
| "learning_rate": 0.00029013866666666665, |
| "loss": 0.0181, |
| "step": 1850 |
| }, |
| { |
| "epoch": 0.33066666666666666, |
| "grad_norm": 0.10434221476316452, |
| "learning_rate": 0.0002900853333333333, |
| "loss": 0.021, |
| "step": 1860 |
| }, |
| { |
| "epoch": 0.33244444444444443, |
| "grad_norm": 0.18994474411010742, |
| "learning_rate": 0.00029003199999999996, |
| "loss": 0.0426, |
| "step": 1870 |
| }, |
| { |
| "epoch": 0.3342222222222222, |
| "grad_norm": 0.14286014437675476, |
| "learning_rate": 0.0002899786666666666, |
| "loss": 0.0201, |
| "step": 1880 |
| }, |
| { |
| "epoch": 0.336, |
| "grad_norm": 0.10460743308067322, |
| "learning_rate": 0.00028992533333333333, |
| "loss": 0.0237, |
| "step": 1890 |
| }, |
| { |
| "epoch": 0.3377777777777778, |
| "grad_norm": 0.12452530115842819, |
| "learning_rate": 0.000289872, |
| "loss": 0.0434, |
| "step": 1900 |
| }, |
| { |
| "epoch": 0.33955555555555555, |
| "grad_norm": 0.1265326738357544, |
| "learning_rate": 0.00028981866666666665, |
| "loss": 0.0251, |
| "step": 1910 |
| }, |
| { |
| "epoch": 0.3413333333333333, |
| "grad_norm": 0.1008426696062088, |
| "learning_rate": 0.0002897653333333333, |
| "loss": 0.0219, |
| "step": 1920 |
| }, |
| { |
| "epoch": 0.3431111111111111, |
| "grad_norm": 0.08846145123243332, |
| "learning_rate": 0.00028971199999999997, |
| "loss": 0.0329, |
| "step": 1930 |
| }, |
| { |
| "epoch": 0.3448888888888889, |
| "grad_norm": 0.09375877678394318, |
| "learning_rate": 0.0002896586666666666, |
| "loss": 0.0303, |
| "step": 1940 |
| }, |
| { |
| "epoch": 0.3466666666666667, |
| "grad_norm": 0.09024661034345627, |
| "learning_rate": 0.00028960533333333334, |
| "loss": 0.0227, |
| "step": 1950 |
| }, |
| { |
| "epoch": 0.34844444444444445, |
| "grad_norm": 0.05938957259058952, |
| "learning_rate": 0.000289552, |
| "loss": 0.0226, |
| "step": 1960 |
| }, |
| { |
| "epoch": 0.3502222222222222, |
| "grad_norm": 0.07051919400691986, |
| "learning_rate": 0.00028949866666666665, |
| "loss": 0.0283, |
| "step": 1970 |
| }, |
| { |
| "epoch": 0.352, |
| "grad_norm": 0.04391910880804062, |
| "learning_rate": 0.0002894453333333333, |
| "loss": 0.0238, |
| "step": 1980 |
| }, |
| { |
| "epoch": 0.3537777777777778, |
| "grad_norm": 0.074351005256176, |
| "learning_rate": 0.00028939199999999997, |
| "loss": 0.0263, |
| "step": 1990 |
| }, |
| { |
| "epoch": 0.35555555555555557, |
| "grad_norm": 0.1263705939054489, |
| "learning_rate": 0.00028933866666666663, |
| "loss": 0.0209, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.35555555555555557, |
| "eval_accuracy": 0.7627, |
| "eval_f1": 0.9573098476657924, |
| "eval_loss": 0.024347538128495216, |
| "eval_precision": 0.9551886790986791, |
| "eval_recall": 0.9610763042513043, |
| "eval_runtime": 651.7148, |
| "eval_samples_per_second": 15.344, |
| "eval_steps_per_second": 1.918, |
| "step": 2000 |
| }, |
| { |
| "epoch": 0.35733333333333334, |
| "grad_norm": 0.07733402401208878, |
| "learning_rate": 0.00028928533333333334, |
| "loss": 0.0286, |
| "step": 2010 |
| }, |
| { |
| "epoch": 0.3591111111111111, |
| "grad_norm": 0.15344883501529694, |
| "learning_rate": 0.000289232, |
| "loss": 0.0354, |
| "step": 2020 |
| }, |
| { |
| "epoch": 0.36088888888888887, |
| "grad_norm": 0.07696090638637543, |
| "learning_rate": 0.0002891786666666666, |
| "loss": 0.0255, |
| "step": 2030 |
| }, |
| { |
| "epoch": 0.3626666666666667, |
| "grad_norm": 0.14050455391407013, |
| "learning_rate": 0.0002891253333333333, |
| "loss": 0.0306, |
| "step": 2040 |
| }, |
| { |
| "epoch": 0.36444444444444446, |
| "grad_norm": 0.13546547293663025, |
| "learning_rate": 0.00028907199999999997, |
| "loss": 0.0333, |
| "step": 2050 |
| }, |
| { |
| "epoch": 0.3662222222222222, |
| "grad_norm": 0.07343069463968277, |
| "learning_rate": 0.00028901866666666663, |
| "loss": 0.0333, |
| "step": 2060 |
| }, |
| { |
| "epoch": 0.368, |
| "grad_norm": 0.0838441252708435, |
| "learning_rate": 0.0002889653333333333, |
| "loss": 0.0368, |
| "step": 2070 |
| }, |
| { |
| "epoch": 0.36977777777777776, |
| "grad_norm": 0.0723879411816597, |
| "learning_rate": 0.000288912, |
| "loss": 0.0194, |
| "step": 2080 |
| }, |
| { |
| "epoch": 0.37155555555555553, |
| "grad_norm": 0.08837046474218369, |
| "learning_rate": 0.0002888586666666666, |
| "loss": 0.0199, |
| "step": 2090 |
| }, |
| { |
| "epoch": 0.37333333333333335, |
| "grad_norm": 0.08860599994659424, |
| "learning_rate": 0.0002888053333333333, |
| "loss": 0.0262, |
| "step": 2100 |
| }, |
| { |
| "epoch": 0.3751111111111111, |
| "grad_norm": 0.06852641701698303, |
| "learning_rate": 0.000288752, |
| "loss": 0.0173, |
| "step": 2110 |
| }, |
| { |
| "epoch": 0.3768888888888889, |
| "grad_norm": 0.08341096341609955, |
| "learning_rate": 0.00028869866666666663, |
| "loss": 0.0266, |
| "step": 2120 |
| }, |
| { |
| "epoch": 0.37866666666666665, |
| "grad_norm": 0.09122495353221893, |
| "learning_rate": 0.0002886453333333333, |
| "loss": 0.0303, |
| "step": 2130 |
| }, |
| { |
| "epoch": 0.3804444444444444, |
| "grad_norm": 0.05174389109015465, |
| "learning_rate": 0.000288592, |
| "loss": 0.0332, |
| "step": 2140 |
| }, |
| { |
| "epoch": 0.38222222222222224, |
| "grad_norm": 0.16697311401367188, |
| "learning_rate": 0.0002885386666666666, |
| "loss": 0.0457, |
| "step": 2150 |
| }, |
| { |
| "epoch": 0.384, |
| "grad_norm": 0.09387817233800888, |
| "learning_rate": 0.0002884853333333333, |
| "loss": 0.0296, |
| "step": 2160 |
| }, |
| { |
| "epoch": 0.3857777777777778, |
| "grad_norm": 0.07832591980695724, |
| "learning_rate": 0.000288432, |
| "loss": 0.0254, |
| "step": 2170 |
| }, |
| { |
| "epoch": 0.38755555555555554, |
| "grad_norm": 0.05770006775856018, |
| "learning_rate": 0.00028837866666666664, |
| "loss": 0.0289, |
| "step": 2180 |
| }, |
| { |
| "epoch": 0.3893333333333333, |
| "grad_norm": 0.041991833597421646, |
| "learning_rate": 0.0002883253333333333, |
| "loss": 0.0259, |
| "step": 2190 |
| }, |
| { |
| "epoch": 0.39111111111111113, |
| "grad_norm": 0.0862719863653183, |
| "learning_rate": 0.000288272, |
| "loss": 0.0293, |
| "step": 2200 |
| }, |
| { |
| "epoch": 0.3928888888888889, |
| "grad_norm": 0.0876149982213974, |
| "learning_rate": 0.0002882186666666666, |
| "loss": 0.0318, |
| "step": 2210 |
| }, |
| { |
| "epoch": 0.39466666666666667, |
| "grad_norm": 0.26843714714050293, |
| "learning_rate": 0.0002881653333333333, |
| "loss": 0.0275, |
| "step": 2220 |
| }, |
| { |
| "epoch": 0.39644444444444443, |
| "grad_norm": 0.10490261763334274, |
| "learning_rate": 0.000288112, |
| "loss": 0.023, |
| "step": 2230 |
| }, |
| { |
| "epoch": 0.3982222222222222, |
| "grad_norm": 0.043965961784124374, |
| "learning_rate": 0.00028805866666666664, |
| "loss": 0.0302, |
| "step": 2240 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 0.11250148713588715, |
| "learning_rate": 0.0002880053333333333, |
| "loss": 0.0256, |
| "step": 2250 |
| }, |
| { |
| "epoch": 0.4017777777777778, |
| "grad_norm": 0.14937596023082733, |
| "learning_rate": 0.00028795199999999996, |
| "loss": 0.0296, |
| "step": 2260 |
| }, |
| { |
| "epoch": 0.40355555555555556, |
| "grad_norm": 0.07885195314884186, |
| "learning_rate": 0.0002878986666666666, |
| "loss": 0.0172, |
| "step": 2270 |
| }, |
| { |
| "epoch": 0.4053333333333333, |
| "grad_norm": 0.204289972782135, |
| "learning_rate": 0.0002878453333333333, |
| "loss": 0.0406, |
| "step": 2280 |
| }, |
| { |
| "epoch": 0.4071111111111111, |
| "grad_norm": 0.08917578309774399, |
| "learning_rate": 0.000287792, |
| "loss": 0.0302, |
| "step": 2290 |
| }, |
| { |
| "epoch": 0.4088888888888889, |
| "grad_norm": 0.10555682331323624, |
| "learning_rate": 0.00028773866666666664, |
| "loss": 0.0271, |
| "step": 2300 |
| }, |
| { |
| "epoch": 0.4106666666666667, |
| "grad_norm": 0.12323552370071411, |
| "learning_rate": 0.0002876853333333333, |
| "loss": 0.0272, |
| "step": 2310 |
| }, |
| { |
| "epoch": 0.41244444444444445, |
| "grad_norm": 0.07189056277275085, |
| "learning_rate": 0.00028763199999999996, |
| "loss": 0.0258, |
| "step": 2320 |
| }, |
| { |
| "epoch": 0.4142222222222222, |
| "grad_norm": 0.10721557587385178, |
| "learning_rate": 0.0002875786666666666, |
| "loss": 0.0219, |
| "step": 2330 |
| }, |
| { |
| "epoch": 0.416, |
| "grad_norm": 0.15874731540679932, |
| "learning_rate": 0.00028752533333333333, |
| "loss": 0.0255, |
| "step": 2340 |
| }, |
| { |
| "epoch": 0.4177777777777778, |
| "grad_norm": 0.0631805881857872, |
| "learning_rate": 0.000287472, |
| "loss": 0.0301, |
| "step": 2350 |
| }, |
| { |
| "epoch": 0.41955555555555557, |
| "grad_norm": 0.08577944338321686, |
| "learning_rate": 0.00028741866666666665, |
| "loss": 0.0373, |
| "step": 2360 |
| }, |
| { |
| "epoch": 0.42133333333333334, |
| "grad_norm": 0.03026222065091133, |
| "learning_rate": 0.0002873653333333333, |
| "loss": 0.0199, |
| "step": 2370 |
| }, |
| { |
| "epoch": 0.4231111111111111, |
| "grad_norm": 0.059838082641363144, |
| "learning_rate": 0.00028731199999999996, |
| "loss": 0.0261, |
| "step": 2380 |
| }, |
| { |
| "epoch": 0.42488888888888887, |
| "grad_norm": 0.06966649740934372, |
| "learning_rate": 0.0002872586666666666, |
| "loss": 0.0311, |
| "step": 2390 |
| }, |
| { |
| "epoch": 0.4266666666666667, |
| "grad_norm": 0.058014433830976486, |
| "learning_rate": 0.00028720533333333333, |
| "loss": 0.0297, |
| "step": 2400 |
| }, |
| { |
| "epoch": 0.42844444444444446, |
| "grad_norm": 0.16240113973617554, |
| "learning_rate": 0.000287152, |
| "loss": 0.0281, |
| "step": 2410 |
| }, |
| { |
| "epoch": 0.43022222222222223, |
| "grad_norm": 0.03950966149568558, |
| "learning_rate": 0.00028709866666666665, |
| "loss": 0.0281, |
| "step": 2420 |
| }, |
| { |
| "epoch": 0.432, |
| "grad_norm": 0.05715180188417435, |
| "learning_rate": 0.0002870453333333333, |
| "loss": 0.0198, |
| "step": 2430 |
| }, |
| { |
| "epoch": 0.43377777777777776, |
| "grad_norm": 0.04981226474046707, |
| "learning_rate": 0.00028699199999999997, |
| "loss": 0.0233, |
| "step": 2440 |
| }, |
| { |
| "epoch": 0.43555555555555553, |
| "grad_norm": 0.05428339168429375, |
| "learning_rate": 0.0002869386666666666, |
| "loss": 0.0221, |
| "step": 2450 |
| }, |
| { |
| "epoch": 0.43733333333333335, |
| "grad_norm": 0.28096815943717957, |
| "learning_rate": 0.00028688533333333334, |
| "loss": 0.033, |
| "step": 2460 |
| }, |
| { |
| "epoch": 0.4391111111111111, |
| "grad_norm": 0.05512421205639839, |
| "learning_rate": 0.000286832, |
| "loss": 0.0208, |
| "step": 2470 |
| }, |
| { |
| "epoch": 0.4408888888888889, |
| "grad_norm": 0.05635492876172066, |
| "learning_rate": 0.00028677866666666665, |
| "loss": 0.0237, |
| "step": 2480 |
| }, |
| { |
| "epoch": 0.44266666666666665, |
| "grad_norm": 0.12980712950229645, |
| "learning_rate": 0.0002867253333333333, |
| "loss": 0.0292, |
| "step": 2490 |
| }, |
| { |
| "epoch": 0.4444444444444444, |
| "grad_norm": 0.06960833817720413, |
| "learning_rate": 0.00028667199999999997, |
| "loss": 0.0207, |
| "step": 2500 |
| }, |
| { |
| "epoch": 0.44622222222222224, |
| "grad_norm": 0.09307900071144104, |
| "learning_rate": 0.0002866186666666666, |
| "loss": 0.0212, |
| "step": 2510 |
| }, |
| { |
| "epoch": 0.448, |
| "grad_norm": 0.11810287088155746, |
| "learning_rate": 0.00028656533333333334, |
| "loss": 0.0207, |
| "step": 2520 |
| }, |
| { |
| "epoch": 0.4497777777777778, |
| "grad_norm": 0.09437887370586395, |
| "learning_rate": 0.000286512, |
| "loss": 0.0301, |
| "step": 2530 |
| }, |
| { |
| "epoch": 0.45155555555555554, |
| "grad_norm": 0.09049661457538605, |
| "learning_rate": 0.0002864586666666666, |
| "loss": 0.0296, |
| "step": 2540 |
| }, |
| { |
| "epoch": 0.4533333333333333, |
| "grad_norm": 0.09026191383600235, |
| "learning_rate": 0.0002864053333333333, |
| "loss": 0.0346, |
| "step": 2550 |
| }, |
| { |
| "epoch": 0.45511111111111113, |
| "grad_norm": 0.15376700460910797, |
| "learning_rate": 0.00028635199999999997, |
| "loss": 0.0293, |
| "step": 2560 |
| }, |
| { |
| "epoch": 0.4568888888888889, |
| "grad_norm": 0.09648899734020233, |
| "learning_rate": 0.00028629866666666663, |
| "loss": 0.0253, |
| "step": 2570 |
| }, |
| { |
| "epoch": 0.45866666666666667, |
| "grad_norm": 0.3402349352836609, |
| "learning_rate": 0.0002862453333333333, |
| "loss": 0.0227, |
| "step": 2580 |
| }, |
| { |
| "epoch": 0.46044444444444443, |
| "grad_norm": 0.05629970133304596, |
| "learning_rate": 0.000286192, |
| "loss": 0.0197, |
| "step": 2590 |
| }, |
| { |
| "epoch": 0.4622222222222222, |
| "grad_norm": 0.08770111948251724, |
| "learning_rate": 0.0002861386666666666, |
| "loss": 0.0272, |
| "step": 2600 |
| }, |
| { |
| "epoch": 0.464, |
| "grad_norm": 0.05160212144255638, |
| "learning_rate": 0.0002860853333333333, |
| "loss": 0.0223, |
| "step": 2610 |
| }, |
| { |
| "epoch": 0.4657777777777778, |
| "grad_norm": 0.05589841678738594, |
| "learning_rate": 0.000286032, |
| "loss": 0.0239, |
| "step": 2620 |
| }, |
| { |
| "epoch": 0.46755555555555556, |
| "grad_norm": 0.07784659415483475, |
| "learning_rate": 0.00028597866666666663, |
| "loss": 0.0265, |
| "step": 2630 |
| }, |
| { |
| "epoch": 0.4693333333333333, |
| "grad_norm": 0.04981613531708717, |
| "learning_rate": 0.0002859253333333333, |
| "loss": 0.0289, |
| "step": 2640 |
| }, |
| { |
| "epoch": 0.4711111111111111, |
| "grad_norm": 0.07681208848953247, |
| "learning_rate": 0.000285872, |
| "loss": 0.0294, |
| "step": 2650 |
| }, |
| { |
| "epoch": 0.4728888888888889, |
| "grad_norm": 0.05933229625225067, |
| "learning_rate": 0.0002858186666666666, |
| "loss": 0.0302, |
| "step": 2660 |
| }, |
| { |
| "epoch": 0.4746666666666667, |
| "grad_norm": 0.049334846436977386, |
| "learning_rate": 0.0002857653333333333, |
| "loss": 0.0309, |
| "step": 2670 |
| }, |
| { |
| "epoch": 0.47644444444444445, |
| "grad_norm": 0.1261008232831955, |
| "learning_rate": 0.000285712, |
| "loss": 0.0284, |
| "step": 2680 |
| }, |
| { |
| "epoch": 0.4782222222222222, |
| "grad_norm": 0.061224110424518585, |
| "learning_rate": 0.00028565866666666664, |
| "loss": 0.0239, |
| "step": 2690 |
| }, |
| { |
| "epoch": 0.48, |
| "grad_norm": 0.09782722592353821, |
| "learning_rate": 0.0002856053333333333, |
| "loss": 0.0274, |
| "step": 2700 |
| }, |
| { |
| "epoch": 0.4817777777777778, |
| "grad_norm": 0.08544397354125977, |
| "learning_rate": 0.000285552, |
| "loss": 0.0264, |
| "step": 2710 |
| }, |
| { |
| "epoch": 0.48355555555555557, |
| "grad_norm": 0.06903214007616043, |
| "learning_rate": 0.0002854986666666666, |
| "loss": 0.0239, |
| "step": 2720 |
| }, |
| { |
| "epoch": 0.48533333333333334, |
| "grad_norm": 0.1085357666015625, |
| "learning_rate": 0.0002854453333333333, |
| "loss": 0.0324, |
| "step": 2730 |
| }, |
| { |
| "epoch": 0.4871111111111111, |
| "grad_norm": 0.19770896434783936, |
| "learning_rate": 0.000285392, |
| "loss": 0.0307, |
| "step": 2740 |
| }, |
| { |
| "epoch": 0.4888888888888889, |
| "grad_norm": 0.07220843434333801, |
| "learning_rate": 0.00028533866666666664, |
| "loss": 0.0265, |
| "step": 2750 |
| }, |
| { |
| "epoch": 0.49066666666666664, |
| "grad_norm": 0.0733049288392067, |
| "learning_rate": 0.0002852853333333333, |
| "loss": 0.0234, |
| "step": 2760 |
| }, |
| { |
| "epoch": 0.49244444444444446, |
| "grad_norm": 0.05413531884551048, |
| "learning_rate": 0.000285232, |
| "loss": 0.0205, |
| "step": 2770 |
| }, |
| { |
| "epoch": 0.49422222222222223, |
| "grad_norm": 0.11062481999397278, |
| "learning_rate": 0.0002851786666666666, |
| "loss": 0.0301, |
| "step": 2780 |
| }, |
| { |
| "epoch": 0.496, |
| "grad_norm": 0.10900420695543289, |
| "learning_rate": 0.0002851253333333333, |
| "loss": 0.0215, |
| "step": 2790 |
| }, |
| { |
| "epoch": 0.49777777777777776, |
| "grad_norm": 0.0699872151017189, |
| "learning_rate": 0.000285072, |
| "loss": 0.0303, |
| "step": 2800 |
| }, |
| { |
| "epoch": 0.49955555555555553, |
| "grad_norm": 0.05985388159751892, |
| "learning_rate": 0.00028501866666666664, |
| "loss": 0.0293, |
| "step": 2810 |
| }, |
| { |
| "epoch": 0.5013333333333333, |
| "grad_norm": 0.0919581800699234, |
| "learning_rate": 0.0002849653333333333, |
| "loss": 0.0248, |
| "step": 2820 |
| }, |
| { |
| "epoch": 0.5031111111111111, |
| "grad_norm": 0.053666852414608, |
| "learning_rate": 0.00028491199999999996, |
| "loss": 0.021, |
| "step": 2830 |
| }, |
| { |
| "epoch": 0.5048888888888889, |
| "grad_norm": 0.09157125651836395, |
| "learning_rate": 0.0002848586666666666, |
| "loss": 0.0339, |
| "step": 2840 |
| }, |
| { |
| "epoch": 0.5066666666666667, |
| "grad_norm": 0.14482910931110382, |
| "learning_rate": 0.00028480533333333333, |
| "loss": 0.0163, |
| "step": 2850 |
| }, |
| { |
| "epoch": 0.5084444444444445, |
| "grad_norm": 0.07155676931142807, |
| "learning_rate": 0.000284752, |
| "loss": 0.0274, |
| "step": 2860 |
| }, |
| { |
| "epoch": 0.5102222222222222, |
| "grad_norm": 0.06836314499378204, |
| "learning_rate": 0.00028469866666666665, |
| "loss": 0.0224, |
| "step": 2870 |
| }, |
| { |
| "epoch": 0.512, |
| "grad_norm": 0.04311711713671684, |
| "learning_rate": 0.0002846453333333333, |
| "loss": 0.0261, |
| "step": 2880 |
| }, |
| { |
| "epoch": 0.5137777777777778, |
| "grad_norm": 0.05936416983604431, |
| "learning_rate": 0.00028459199999999996, |
| "loss": 0.0235, |
| "step": 2890 |
| }, |
| { |
| "epoch": 0.5155555555555555, |
| "grad_norm": 0.0663696750998497, |
| "learning_rate": 0.0002845386666666666, |
| "loss": 0.0256, |
| "step": 2900 |
| }, |
| { |
| "epoch": 0.5173333333333333, |
| "grad_norm": 0.1328098326921463, |
| "learning_rate": 0.00028448533333333333, |
| "loss": 0.03, |
| "step": 2910 |
| }, |
| { |
| "epoch": 0.5191111111111111, |
| "grad_norm": 0.08240935951471329, |
| "learning_rate": 0.000284432, |
| "loss": 0.0284, |
| "step": 2920 |
| }, |
| { |
| "epoch": 0.5208888888888888, |
| "grad_norm": 0.08728118240833282, |
| "learning_rate": 0.00028437866666666665, |
| "loss": 0.0221, |
| "step": 2930 |
| }, |
| { |
| "epoch": 0.5226666666666666, |
| "grad_norm": 0.058592695742845535, |
| "learning_rate": 0.0002843253333333333, |
| "loss": 0.0282, |
| "step": 2940 |
| }, |
| { |
| "epoch": 0.5244444444444445, |
| "grad_norm": 0.08862440288066864, |
| "learning_rate": 0.00028427199999999996, |
| "loss": 0.0297, |
| "step": 2950 |
| }, |
| { |
| "epoch": 0.5262222222222223, |
| "grad_norm": 0.12409399449825287, |
| "learning_rate": 0.0002842186666666666, |
| "loss": 0.0281, |
| "step": 2960 |
| }, |
| { |
| "epoch": 0.528, |
| "grad_norm": 0.0908299908041954, |
| "learning_rate": 0.00028416533333333333, |
| "loss": 0.0294, |
| "step": 2970 |
| }, |
| { |
| "epoch": 0.5297777777777778, |
| "grad_norm": 0.10704029351472855, |
| "learning_rate": 0.000284112, |
| "loss": 0.0232, |
| "step": 2980 |
| }, |
| { |
| "epoch": 0.5315555555555556, |
| "grad_norm": 0.050082478672266006, |
| "learning_rate": 0.00028405866666666665, |
| "loss": 0.0162, |
| "step": 2990 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 0.17065931856632233, |
| "learning_rate": 0.0002840053333333333, |
| "loss": 0.0266, |
| "step": 3000 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "eval_accuracy": 0.7727, |
| "eval_f1": 0.9574046882744435, |
| "eval_loss": 0.023515120148658752, |
| "eval_precision": 0.9558694061494062, |
| "eval_recall": 0.960483739885845, |
| "eval_runtime": 640.5512, |
| "eval_samples_per_second": 15.612, |
| "eval_steps_per_second": 1.951, |
| "step": 3000 |
| }, |
| { |
| "epoch": 0.5351111111111111, |
| "grad_norm": 0.07140597701072693, |
| "learning_rate": 0.00028395199999999997, |
| "loss": 0.023, |
| "step": 3010 |
| }, |
| { |
| "epoch": 0.5368888888888889, |
| "grad_norm": 0.07117987424135208, |
| "learning_rate": 0.0002838986666666666, |
| "loss": 0.0296, |
| "step": 3020 |
| }, |
| { |
| "epoch": 0.5386666666666666, |
| "grad_norm": 0.14514616131782532, |
| "learning_rate": 0.00028384533333333334, |
| "loss": 0.024, |
| "step": 3030 |
| }, |
| { |
| "epoch": 0.5404444444444444, |
| "grad_norm": 0.20337609946727753, |
| "learning_rate": 0.000283792, |
| "loss": 0.0382, |
| "step": 3040 |
| }, |
| { |
| "epoch": 0.5422222222222223, |
| "grad_norm": 0.05621475353837013, |
| "learning_rate": 0.0002837386666666666, |
| "loss": 0.0248, |
| "step": 3050 |
| }, |
| { |
| "epoch": 0.544, |
| "grad_norm": 0.0626642256975174, |
| "learning_rate": 0.0002836853333333333, |
| "loss": 0.0187, |
| "step": 3060 |
| }, |
| { |
| "epoch": 0.5457777777777778, |
| "grad_norm": 0.1031564474105835, |
| "learning_rate": 0.00028363199999999997, |
| "loss": 0.0302, |
| "step": 3070 |
| }, |
| { |
| "epoch": 0.5475555555555556, |
| "grad_norm": 0.06050852686166763, |
| "learning_rate": 0.00028357866666666663, |
| "loss": 0.011, |
| "step": 3080 |
| }, |
| { |
| "epoch": 0.5493333333333333, |
| "grad_norm": 0.07742660492658615, |
| "learning_rate": 0.0002835253333333333, |
| "loss": 0.0239, |
| "step": 3090 |
| }, |
| { |
| "epoch": 0.5511111111111111, |
| "grad_norm": 0.10780712962150574, |
| "learning_rate": 0.000283472, |
| "loss": 0.018, |
| "step": 3100 |
| }, |
| { |
| "epoch": 0.5528888888888889, |
| "grad_norm": 0.18680323660373688, |
| "learning_rate": 0.0002834186666666666, |
| "loss": 0.0261, |
| "step": 3110 |
| }, |
| { |
| "epoch": 0.5546666666666666, |
| "grad_norm": 0.07397971302270889, |
| "learning_rate": 0.0002833653333333333, |
| "loss": 0.029, |
| "step": 3120 |
| }, |
| { |
| "epoch": 0.5564444444444444, |
| "grad_norm": 0.2938878834247589, |
| "learning_rate": 0.000283312, |
| "loss": 0.0282, |
| "step": 3130 |
| }, |
| { |
| "epoch": 0.5582222222222222, |
| "grad_norm": 0.1269586980342865, |
| "learning_rate": 0.00028325866666666663, |
| "loss": 0.0281, |
| "step": 3140 |
| }, |
| { |
| "epoch": 0.56, |
| "grad_norm": 0.063466876745224, |
| "learning_rate": 0.0002832053333333333, |
| "loss": 0.0207, |
| "step": 3150 |
| }, |
| { |
| "epoch": 0.5617777777777778, |
| "grad_norm": 0.06853649020195007, |
| "learning_rate": 0.000283152, |
| "loss": 0.0367, |
| "step": 3160 |
| }, |
| { |
| "epoch": 0.5635555555555556, |
| "grad_norm": 0.11174353212118149, |
| "learning_rate": 0.0002830986666666666, |
| "loss": 0.0369, |
| "step": 3170 |
| }, |
| { |
| "epoch": 0.5653333333333334, |
| "grad_norm": 0.09678266942501068, |
| "learning_rate": 0.0002830453333333333, |
| "loss": 0.0302, |
| "step": 3180 |
| }, |
| { |
| "epoch": 0.5671111111111111, |
| "grad_norm": 0.07290956377983093, |
| "learning_rate": 0.000282992, |
| "loss": 0.0211, |
| "step": 3190 |
| }, |
| { |
| "epoch": 0.5688888888888889, |
| "grad_norm": 0.1320604532957077, |
| "learning_rate": 0.00028293866666666663, |
| "loss": 0.0451, |
| "step": 3200 |
| }, |
| { |
| "epoch": 0.5706666666666667, |
| "grad_norm": 0.053190432488918304, |
| "learning_rate": 0.0002828853333333333, |
| "loss": 0.0197, |
| "step": 3210 |
| }, |
| { |
| "epoch": 0.5724444444444444, |
| "grad_norm": 0.06059429794549942, |
| "learning_rate": 0.000282832, |
| "loss": 0.0118, |
| "step": 3220 |
| }, |
| { |
| "epoch": 0.5742222222222222, |
| "grad_norm": 0.03522539883852005, |
| "learning_rate": 0.0002827786666666666, |
| "loss": 0.0247, |
| "step": 3230 |
| }, |
| { |
| "epoch": 0.576, |
| "grad_norm": 0.039473287761211395, |
| "learning_rate": 0.0002827253333333333, |
| "loss": 0.0202, |
| "step": 3240 |
| }, |
| { |
| "epoch": 0.5777777777777777, |
| "grad_norm": 0.06863950192928314, |
| "learning_rate": 0.000282672, |
| "loss": 0.0225, |
| "step": 3250 |
| }, |
| { |
| "epoch": 0.5795555555555556, |
| "grad_norm": 0.03817706182599068, |
| "learning_rate": 0.00028261866666666664, |
| "loss": 0.031, |
| "step": 3260 |
| }, |
| { |
| "epoch": 0.5813333333333334, |
| "grad_norm": 0.04472897946834564, |
| "learning_rate": 0.0002825653333333333, |
| "loss": 0.0302, |
| "step": 3270 |
| }, |
| { |
| "epoch": 0.5831111111111111, |
| "grad_norm": 0.06225752830505371, |
| "learning_rate": 0.000282512, |
| "loss": 0.0246, |
| "step": 3280 |
| }, |
| { |
| "epoch": 0.5848888888888889, |
| "grad_norm": 0.059107642620801926, |
| "learning_rate": 0.0002824586666666666, |
| "loss": 0.0276, |
| "step": 3290 |
| }, |
| { |
| "epoch": 0.5866666666666667, |
| "grad_norm": 0.06899523735046387, |
| "learning_rate": 0.0002824053333333333, |
| "loss": 0.0171, |
| "step": 3300 |
| }, |
| { |
| "epoch": 0.5884444444444444, |
| "grad_norm": 0.06581231206655502, |
| "learning_rate": 0.000282352, |
| "loss": 0.0327, |
| "step": 3310 |
| }, |
| { |
| "epoch": 0.5902222222222222, |
| "grad_norm": 0.045066848397254944, |
| "learning_rate": 0.00028229866666666664, |
| "loss": 0.0241, |
| "step": 3320 |
| }, |
| { |
| "epoch": 0.592, |
| "grad_norm": 0.07268764078617096, |
| "learning_rate": 0.0002822453333333333, |
| "loss": 0.0331, |
| "step": 3330 |
| }, |
| { |
| "epoch": 0.5937777777777777, |
| "grad_norm": 0.060960572212934494, |
| "learning_rate": 0.000282192, |
| "loss": 0.0256, |
| "step": 3340 |
| }, |
| { |
| "epoch": 0.5955555555555555, |
| "grad_norm": 0.2513478994369507, |
| "learning_rate": 0.0002821386666666666, |
| "loss": 0.025, |
| "step": 3350 |
| }, |
| { |
| "epoch": 0.5973333333333334, |
| "grad_norm": 0.06498312205076218, |
| "learning_rate": 0.00028208533333333333, |
| "loss": 0.0289, |
| "step": 3360 |
| }, |
| { |
| "epoch": 0.5991111111111111, |
| "grad_norm": 0.09297536313533783, |
| "learning_rate": 0.000282032, |
| "loss": 0.0303, |
| "step": 3370 |
| }, |
| { |
| "epoch": 0.6008888888888889, |
| "grad_norm": 0.13179464638233185, |
| "learning_rate": 0.00028197866666666664, |
| "loss": 0.0192, |
| "step": 3380 |
| }, |
| { |
| "epoch": 0.6026666666666667, |
| "grad_norm": 0.10963452607393265, |
| "learning_rate": 0.0002819253333333333, |
| "loss": 0.0246, |
| "step": 3390 |
| }, |
| { |
| "epoch": 0.6044444444444445, |
| "grad_norm": 0.09506689757108688, |
| "learning_rate": 0.00028187199999999996, |
| "loss": 0.0239, |
| "step": 3400 |
| }, |
| { |
| "epoch": 0.6062222222222222, |
| "grad_norm": 0.04913311451673508, |
| "learning_rate": 0.0002818186666666666, |
| "loss": 0.0261, |
| "step": 3410 |
| }, |
| { |
| "epoch": 0.608, |
| "grad_norm": 0.08195222169160843, |
| "learning_rate": 0.00028176533333333333, |
| "loss": 0.0247, |
| "step": 3420 |
| }, |
| { |
| "epoch": 0.6097777777777778, |
| "grad_norm": 0.0691281408071518, |
| "learning_rate": 0.000281712, |
| "loss": 0.0207, |
| "step": 3430 |
| }, |
| { |
| "epoch": 0.6115555555555555, |
| "grad_norm": 0.0718892365694046, |
| "learning_rate": 0.00028165866666666665, |
| "loss": 0.0241, |
| "step": 3440 |
| }, |
| { |
| "epoch": 0.6133333333333333, |
| "grad_norm": 0.06909991800785065, |
| "learning_rate": 0.0002816053333333333, |
| "loss": 0.0272, |
| "step": 3450 |
| }, |
| { |
| "epoch": 0.6151111111111112, |
| "grad_norm": 0.04485394060611725, |
| "learning_rate": 0.00028155199999999996, |
| "loss": 0.0215, |
| "step": 3460 |
| }, |
| { |
| "epoch": 0.6168888888888889, |
| "grad_norm": 0.04724091663956642, |
| "learning_rate": 0.0002814986666666666, |
| "loss": 0.0212, |
| "step": 3470 |
| }, |
| { |
| "epoch": 0.6186666666666667, |
| "grad_norm": 0.029085082933306694, |
| "learning_rate": 0.00028144533333333333, |
| "loss": 0.0196, |
| "step": 3480 |
| }, |
| { |
| "epoch": 0.6204444444444445, |
| "grad_norm": 0.19220128655433655, |
| "learning_rate": 0.000281392, |
| "loss": 0.0247, |
| "step": 3490 |
| }, |
| { |
| "epoch": 0.6222222222222222, |
| "grad_norm": 0.05309440195560455, |
| "learning_rate": 0.00028133866666666665, |
| "loss": 0.0244, |
| "step": 3500 |
| }, |
| { |
| "epoch": 0.624, |
| "grad_norm": 0.07952793687582016, |
| "learning_rate": 0.0002812853333333333, |
| "loss": 0.0195, |
| "step": 3510 |
| }, |
| { |
| "epoch": 0.6257777777777778, |
| "grad_norm": 0.3154834508895874, |
| "learning_rate": 0.00028123199999999997, |
| "loss": 0.0295, |
| "step": 3520 |
| }, |
| { |
| "epoch": 0.6275555555555555, |
| "grad_norm": 0.0766853392124176, |
| "learning_rate": 0.0002811786666666666, |
| "loss": 0.0324, |
| "step": 3530 |
| }, |
| { |
| "epoch": 0.6293333333333333, |
| "grad_norm": 0.08639875799417496, |
| "learning_rate": 0.00028112533333333334, |
| "loss": 0.0236, |
| "step": 3540 |
| }, |
| { |
| "epoch": 0.6311111111111111, |
| "grad_norm": 0.08146939426660538, |
| "learning_rate": 0.000281072, |
| "loss": 0.0326, |
| "step": 3550 |
| }, |
| { |
| "epoch": 0.6328888888888888, |
| "grad_norm": 0.05373803526163101, |
| "learning_rate": 0.00028101866666666665, |
| "loss": 0.0287, |
| "step": 3560 |
| }, |
| { |
| "epoch": 0.6346666666666667, |
| "grad_norm": 0.07657090574502945, |
| "learning_rate": 0.0002809653333333333, |
| "loss": 0.0285, |
| "step": 3570 |
| }, |
| { |
| "epoch": 0.6364444444444445, |
| "grad_norm": 0.06270106136798859, |
| "learning_rate": 0.00028091199999999997, |
| "loss": 0.0257, |
| "step": 3580 |
| }, |
| { |
| "epoch": 0.6382222222222222, |
| "grad_norm": 0.08759273588657379, |
| "learning_rate": 0.00028085866666666663, |
| "loss": 0.0198, |
| "step": 3590 |
| }, |
| { |
| "epoch": 0.64, |
| "grad_norm": 0.11989719420671463, |
| "learning_rate": 0.0002808053333333333, |
| "loss": 0.0305, |
| "step": 3600 |
| }, |
| { |
| "epoch": 0.6417777777777778, |
| "grad_norm": 0.0724174827337265, |
| "learning_rate": 0.000280752, |
| "loss": 0.0248, |
| "step": 3610 |
| }, |
| { |
| "epoch": 0.6435555555555555, |
| "grad_norm": 0.03285994380712509, |
| "learning_rate": 0.0002806986666666666, |
| "loss": 0.0266, |
| "step": 3620 |
| }, |
| { |
| "epoch": 0.6453333333333333, |
| "grad_norm": 0.07670129835605621, |
| "learning_rate": 0.0002806453333333333, |
| "loss": 0.0297, |
| "step": 3630 |
| }, |
| { |
| "epoch": 0.6471111111111111, |
| "grad_norm": 0.08773159980773926, |
| "learning_rate": 0.00028059199999999997, |
| "loss": 0.0175, |
| "step": 3640 |
| }, |
| { |
| "epoch": 0.6488888888888888, |
| "grad_norm": 0.061989523470401764, |
| "learning_rate": 0.00028053866666666663, |
| "loss": 0.019, |
| "step": 3650 |
| }, |
| { |
| "epoch": 0.6506666666666666, |
| "grad_norm": 0.07524633407592773, |
| "learning_rate": 0.0002804853333333333, |
| "loss": 0.0236, |
| "step": 3660 |
| }, |
| { |
| "epoch": 0.6524444444444445, |
| "grad_norm": 0.05378331243991852, |
| "learning_rate": 0.000280432, |
| "loss": 0.0245, |
| "step": 3670 |
| }, |
| { |
| "epoch": 0.6542222222222223, |
| "grad_norm": 0.11779718846082687, |
| "learning_rate": 0.0002803786666666666, |
| "loss": 0.0367, |
| "step": 3680 |
| }, |
| { |
| "epoch": 0.656, |
| "grad_norm": 0.0681007131934166, |
| "learning_rate": 0.0002803253333333333, |
| "loss": 0.0201, |
| "step": 3690 |
| }, |
| { |
| "epoch": 0.6577777777777778, |
| "grad_norm": 0.07915254682302475, |
| "learning_rate": 0.000280272, |
| "loss": 0.0269, |
| "step": 3700 |
| }, |
| { |
| "epoch": 0.6595555555555556, |
| "grad_norm": 0.08552742004394531, |
| "learning_rate": 0.00028021866666666663, |
| "loss": 0.0205, |
| "step": 3710 |
| }, |
| { |
| "epoch": 0.6613333333333333, |
| "grad_norm": 0.2085397094488144, |
| "learning_rate": 0.0002801653333333333, |
| "loss": 0.0208, |
| "step": 3720 |
| }, |
| { |
| "epoch": 0.6631111111111111, |
| "grad_norm": 0.1683596819639206, |
| "learning_rate": 0.000280112, |
| "loss": 0.0238, |
| "step": 3730 |
| }, |
| { |
| "epoch": 0.6648888888888889, |
| "grad_norm": 0.10576564073562622, |
| "learning_rate": 0.0002800586666666666, |
| "loss": 0.0197, |
| "step": 3740 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 0.08186109364032745, |
| "learning_rate": 0.0002800053333333333, |
| "loss": 0.0248, |
| "step": 3750 |
| }, |
| { |
| "epoch": 0.6684444444444444, |
| "grad_norm": 0.18161682784557343, |
| "learning_rate": 0.000279952, |
| "loss": 0.0349, |
| "step": 3760 |
| }, |
| { |
| "epoch": 0.6702222222222223, |
| "grad_norm": 0.09221694618463516, |
| "learning_rate": 0.00027989866666666664, |
| "loss": 0.0277, |
| "step": 3770 |
| }, |
| { |
| "epoch": 0.672, |
| "grad_norm": 0.06621862202882767, |
| "learning_rate": 0.0002798453333333333, |
| "loss": 0.0156, |
| "step": 3780 |
| }, |
| { |
| "epoch": 0.6737777777777778, |
| "grad_norm": 0.06530987471342087, |
| "learning_rate": 0.000279792, |
| "loss": 0.0261, |
| "step": 3790 |
| }, |
| { |
| "epoch": 0.6755555555555556, |
| "grad_norm": 0.044641200453042984, |
| "learning_rate": 0.0002797386666666666, |
| "loss": 0.0312, |
| "step": 3800 |
| }, |
| { |
| "epoch": 0.6773333333333333, |
| "grad_norm": 0.11770203709602356, |
| "learning_rate": 0.0002796853333333333, |
| "loss": 0.0193, |
| "step": 3810 |
| }, |
| { |
| "epoch": 0.6791111111111111, |
| "grad_norm": 0.06111403554677963, |
| "learning_rate": 0.000279632, |
| "loss": 0.0242, |
| "step": 3820 |
| }, |
| { |
| "epoch": 0.6808888888888889, |
| "grad_norm": 0.05925939977169037, |
| "learning_rate": 0.00027957866666666664, |
| "loss": 0.0257, |
| "step": 3830 |
| }, |
| { |
| "epoch": 0.6826666666666666, |
| "grad_norm": 0.08108479529619217, |
| "learning_rate": 0.0002795253333333333, |
| "loss": 0.0424, |
| "step": 3840 |
| }, |
| { |
| "epoch": 0.6844444444444444, |
| "grad_norm": 0.05645951256155968, |
| "learning_rate": 0.000279472, |
| "loss": 0.0248, |
| "step": 3850 |
| }, |
| { |
| "epoch": 0.6862222222222222, |
| "grad_norm": 0.08995641767978668, |
| "learning_rate": 0.0002794186666666666, |
| "loss": 0.0215, |
| "step": 3860 |
| }, |
| { |
| "epoch": 0.688, |
| "grad_norm": 0.0512068085372448, |
| "learning_rate": 0.0002793653333333333, |
| "loss": 0.0288, |
| "step": 3870 |
| }, |
| { |
| "epoch": 0.6897777777777778, |
| "grad_norm": 0.12146838754415512, |
| "learning_rate": 0.000279312, |
| "loss": 0.0243, |
| "step": 3880 |
| }, |
| { |
| "epoch": 0.6915555555555556, |
| "grad_norm": 0.04428360238671303, |
| "learning_rate": 0.00027925866666666664, |
| "loss": 0.0163, |
| "step": 3890 |
| }, |
| { |
| "epoch": 0.6933333333333334, |
| "grad_norm": 0.0743410661816597, |
| "learning_rate": 0.0002792053333333333, |
| "loss": 0.026, |
| "step": 3900 |
| }, |
| { |
| "epoch": 0.6951111111111111, |
| "grad_norm": 0.12399561703205109, |
| "learning_rate": 0.000279152, |
| "loss": 0.024, |
| "step": 3910 |
| }, |
| { |
| "epoch": 0.6968888888888889, |
| "grad_norm": 0.06302154064178467, |
| "learning_rate": 0.0002790986666666666, |
| "loss": 0.0226, |
| "step": 3920 |
| }, |
| { |
| "epoch": 0.6986666666666667, |
| "grad_norm": 0.21663370728492737, |
| "learning_rate": 0.00027904533333333333, |
| "loss": 0.0275, |
| "step": 3930 |
| }, |
| { |
| "epoch": 0.7004444444444444, |
| "grad_norm": 0.06273024529218674, |
| "learning_rate": 0.000278992, |
| "loss": 0.0176, |
| "step": 3940 |
| }, |
| { |
| "epoch": 0.7022222222222222, |
| "grad_norm": 0.08824668824672699, |
| "learning_rate": 0.00027893866666666665, |
| "loss": 0.0306, |
| "step": 3950 |
| }, |
| { |
| "epoch": 0.704, |
| "grad_norm": 0.09272222965955734, |
| "learning_rate": 0.0002788853333333333, |
| "loss": 0.0215, |
| "step": 3960 |
| }, |
| { |
| "epoch": 0.7057777777777777, |
| "grad_norm": 0.08313607424497604, |
| "learning_rate": 0.00027883199999999996, |
| "loss": 0.0342, |
| "step": 3970 |
| }, |
| { |
| "epoch": 0.7075555555555556, |
| "grad_norm": 0.10409655421972275, |
| "learning_rate": 0.0002787786666666666, |
| "loss": 0.0225, |
| "step": 3980 |
| }, |
| { |
| "epoch": 0.7093333333333334, |
| "grad_norm": 0.07407916337251663, |
| "learning_rate": 0.00027872533333333333, |
| "loss": 0.028, |
| "step": 3990 |
| }, |
| { |
| "epoch": 0.7111111111111111, |
| "grad_norm": 0.10124842822551727, |
| "learning_rate": 0.000278672, |
| "loss": 0.0265, |
| "step": 4000 |
| }, |
| { |
| "epoch": 0.7111111111111111, |
| "eval_accuracy": 0.7807, |
| "eval_f1": 0.9520720583561755, |
| "eval_loss": 0.024143511429429054, |
| "eval_precision": 0.9509243568565938, |
| "eval_recall": 0.954729496161733, |
| "eval_runtime": 653.5539, |
| "eval_samples_per_second": 15.301, |
| "eval_steps_per_second": 1.913, |
| "step": 4000 |
| }, |
| { |
| "epoch": 0.7128888888888889, |
| "grad_norm": 0.24815025925636292, |
| "learning_rate": 0.00027861866666666665, |
| "loss": 0.0284, |
| "step": 4010 |
| }, |
| { |
| "epoch": 0.7146666666666667, |
| "grad_norm": 0.05122653767466545, |
| "learning_rate": 0.0002785653333333333, |
| "loss": 0.0235, |
| "step": 4020 |
| }, |
| { |
| "epoch": 0.7164444444444444, |
| "grad_norm": 0.10150625556707382, |
| "learning_rate": 0.00027851199999999997, |
| "loss": 0.0254, |
| "step": 4030 |
| }, |
| { |
| "epoch": 0.7182222222222222, |
| "grad_norm": 0.06908834725618362, |
| "learning_rate": 0.0002784586666666666, |
| "loss": 0.0236, |
| "step": 4040 |
| }, |
| { |
| "epoch": 0.72, |
| "grad_norm": 0.04954081028699875, |
| "learning_rate": 0.00027840533333333334, |
| "loss": 0.0274, |
| "step": 4050 |
| }, |
| { |
| "epoch": 0.7217777777777777, |
| "grad_norm": 0.05035025253891945, |
| "learning_rate": 0.000278352, |
| "loss": 0.0225, |
| "step": 4060 |
| }, |
| { |
| "epoch": 0.7235555555555555, |
| "grad_norm": 0.11174604296684265, |
| "learning_rate": 0.00027829866666666665, |
| "loss": 0.0311, |
| "step": 4070 |
| }, |
| { |
| "epoch": 0.7253333333333334, |
| "grad_norm": 0.09249529987573624, |
| "learning_rate": 0.0002782453333333333, |
| "loss": 0.0208, |
| "step": 4080 |
| }, |
| { |
| "epoch": 0.7271111111111112, |
| "grad_norm": 0.06818148493766785, |
| "learning_rate": 0.00027819199999999997, |
| "loss": 0.0265, |
| "step": 4090 |
| }, |
| { |
| "epoch": 0.7288888888888889, |
| "grad_norm": 0.15703712403774261, |
| "learning_rate": 0.0002781386666666666, |
| "loss": 0.0268, |
| "step": 4100 |
| }, |
| { |
| "epoch": 0.7306666666666667, |
| "grad_norm": 0.1412905901670456, |
| "learning_rate": 0.0002780853333333333, |
| "loss": 0.0274, |
| "step": 4110 |
| }, |
| { |
| "epoch": 0.7324444444444445, |
| "grad_norm": 0.10994693636894226, |
| "learning_rate": 0.000278032, |
| "loss": 0.0299, |
| "step": 4120 |
| }, |
| { |
| "epoch": 0.7342222222222222, |
| "grad_norm": 0.05300424247980118, |
| "learning_rate": 0.0002779786666666666, |
| "loss": 0.0239, |
| "step": 4130 |
| }, |
| { |
| "epoch": 0.736, |
| "grad_norm": 0.04120921716094017, |
| "learning_rate": 0.0002779253333333333, |
| "loss": 0.0184, |
| "step": 4140 |
| }, |
| { |
| "epoch": 0.7377777777777778, |
| "grad_norm": 0.20823882520198822, |
| "learning_rate": 0.00027787199999999997, |
| "loss": 0.0252, |
| "step": 4150 |
| }, |
| { |
| "epoch": 0.7395555555555555, |
| "grad_norm": 0.09810299426317215, |
| "learning_rate": 0.00027781866666666663, |
| "loss": 0.0227, |
| "step": 4160 |
| }, |
| { |
| "epoch": 0.7413333333333333, |
| "grad_norm": 0.08327528834342957, |
| "learning_rate": 0.0002777653333333333, |
| "loss": 0.0216, |
| "step": 4170 |
| }, |
| { |
| "epoch": 0.7431111111111111, |
| "grad_norm": 0.039426740258932114, |
| "learning_rate": 0.000277712, |
| "loss": 0.0234, |
| "step": 4180 |
| }, |
| { |
| "epoch": 0.7448888888888889, |
| "grad_norm": 0.06340809911489487, |
| "learning_rate": 0.0002776586666666666, |
| "loss": 0.0241, |
| "step": 4190 |
| }, |
| { |
| "epoch": 0.7466666666666667, |
| "grad_norm": 0.08526232838630676, |
| "learning_rate": 0.0002776053333333333, |
| "loss": 0.027, |
| "step": 4200 |
| }, |
| { |
| "epoch": 0.7484444444444445, |
| "grad_norm": 0.044167906045913696, |
| "learning_rate": 0.000277552, |
| "loss": 0.0247, |
| "step": 4210 |
| }, |
| { |
| "epoch": 0.7502222222222222, |
| "grad_norm": 0.08132551610469818, |
| "learning_rate": 0.00027749866666666663, |
| "loss": 0.0225, |
| "step": 4220 |
| }, |
| { |
| "epoch": 0.752, |
| "grad_norm": 0.2031109631061554, |
| "learning_rate": 0.0002774453333333333, |
| "loss": 0.0147, |
| "step": 4230 |
| }, |
| { |
| "epoch": 0.7537777777777778, |
| "grad_norm": 0.07283439487218857, |
| "learning_rate": 0.000277392, |
| "loss": 0.0209, |
| "step": 4240 |
| }, |
| { |
| "epoch": 0.7555555555555555, |
| "grad_norm": 0.06650519371032715, |
| "learning_rate": 0.0002773386666666666, |
| "loss": 0.0274, |
| "step": 4250 |
| }, |
| { |
| "epoch": 0.7573333333333333, |
| "grad_norm": 0.1117628887295723, |
| "learning_rate": 0.0002772853333333333, |
| "loss": 0.0233, |
| "step": 4260 |
| }, |
| { |
| "epoch": 0.7591111111111111, |
| "grad_norm": 0.1228516548871994, |
| "learning_rate": 0.000277232, |
| "loss": 0.024, |
| "step": 4270 |
| }, |
| { |
| "epoch": 0.7608888888888888, |
| "grad_norm": 0.2279478758573532, |
| "learning_rate": 0.00027717866666666664, |
| "loss": 0.0238, |
| "step": 4280 |
| }, |
| { |
| "epoch": 0.7626666666666667, |
| "grad_norm": 0.06056941673159599, |
| "learning_rate": 0.0002771253333333333, |
| "loss": 0.0193, |
| "step": 4290 |
| }, |
| { |
| "epoch": 0.7644444444444445, |
| "grad_norm": 0.0885508731007576, |
| "learning_rate": 0.000277072, |
| "loss": 0.0319, |
| "step": 4300 |
| }, |
| { |
| "epoch": 0.7662222222222222, |
| "grad_norm": 0.07146623730659485, |
| "learning_rate": 0.0002770186666666666, |
| "loss": 0.015, |
| "step": 4310 |
| }, |
| { |
| "epoch": 0.768, |
| "grad_norm": 0.03771064803004265, |
| "learning_rate": 0.0002769653333333333, |
| "loss": 0.016, |
| "step": 4320 |
| }, |
| { |
| "epoch": 0.7697777777777778, |
| "grad_norm": 0.055286455899477005, |
| "learning_rate": 0.000276912, |
| "loss": 0.0204, |
| "step": 4330 |
| }, |
| { |
| "epoch": 0.7715555555555556, |
| "grad_norm": 0.035712361335754395, |
| "learning_rate": 0.00027685866666666664, |
| "loss": 0.0208, |
| "step": 4340 |
| }, |
| { |
| "epoch": 0.7733333333333333, |
| "grad_norm": 0.0691710114479065, |
| "learning_rate": 0.0002768053333333333, |
| "loss": 0.0263, |
| "step": 4350 |
| }, |
| { |
| "epoch": 0.7751111111111111, |
| "grad_norm": 0.05109955370426178, |
| "learning_rate": 0.000276752, |
| "loss": 0.0237, |
| "step": 4360 |
| }, |
| { |
| "epoch": 0.7768888888888889, |
| "grad_norm": 0.11392170935869217, |
| "learning_rate": 0.0002766986666666666, |
| "loss": 0.037, |
| "step": 4370 |
| }, |
| { |
| "epoch": 0.7786666666666666, |
| "grad_norm": 0.03930488973855972, |
| "learning_rate": 0.0002766453333333333, |
| "loss": 0.0224, |
| "step": 4380 |
| }, |
| { |
| "epoch": 0.7804444444444445, |
| "grad_norm": 0.1951311230659485, |
| "learning_rate": 0.000276592, |
| "loss": 0.0239, |
| "step": 4390 |
| }, |
| { |
| "epoch": 0.7822222222222223, |
| "grad_norm": 0.1288134753704071, |
| "learning_rate": 0.00027653866666666664, |
| "loss": 0.0294, |
| "step": 4400 |
| }, |
| { |
| "epoch": 0.784, |
| "grad_norm": 0.0636647418141365, |
| "learning_rate": 0.0002764853333333333, |
| "loss": 0.0159, |
| "step": 4410 |
| }, |
| { |
| "epoch": 0.7857777777777778, |
| "grad_norm": 0.04233495146036148, |
| "learning_rate": 0.000276432, |
| "loss": 0.0191, |
| "step": 4420 |
| }, |
| { |
| "epoch": 0.7875555555555556, |
| "grad_norm": 0.16061605513095856, |
| "learning_rate": 0.0002763786666666666, |
| "loss": 0.0276, |
| "step": 4430 |
| }, |
| { |
| "epoch": 0.7893333333333333, |
| "grad_norm": 0.2412431836128235, |
| "learning_rate": 0.00027632533333333333, |
| "loss": 0.019, |
| "step": 4440 |
| }, |
| { |
| "epoch": 0.7911111111111111, |
| "grad_norm": 0.11416659504175186, |
| "learning_rate": 0.000276272, |
| "loss": 0.0283, |
| "step": 4450 |
| }, |
| { |
| "epoch": 0.7928888888888889, |
| "grad_norm": 0.03350535407662392, |
| "learning_rate": 0.00027621866666666664, |
| "loss": 0.0243, |
| "step": 4460 |
| }, |
| { |
| "epoch": 0.7946666666666666, |
| "grad_norm": 0.0885830745100975, |
| "learning_rate": 0.0002761653333333333, |
| "loss": 0.02, |
| "step": 4470 |
| }, |
| { |
| "epoch": 0.7964444444444444, |
| "grad_norm": 0.062161337584257126, |
| "learning_rate": 0.000276112, |
| "loss": 0.0207, |
| "step": 4480 |
| }, |
| { |
| "epoch": 0.7982222222222223, |
| "grad_norm": 0.16883093118667603, |
| "learning_rate": 0.0002760586666666666, |
| "loss": 0.0287, |
| "step": 4490 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 0.05297341197729111, |
| "learning_rate": 0.00027600533333333333, |
| "loss": 0.0272, |
| "step": 4500 |
| }, |
| { |
| "epoch": 0.8017777777777778, |
| "grad_norm": 0.0917816013097763, |
| "learning_rate": 0.000275952, |
| "loss": 0.0357, |
| "step": 4510 |
| }, |
| { |
| "epoch": 0.8035555555555556, |
| "grad_norm": 0.14493350684642792, |
| "learning_rate": 0.00027589866666666665, |
| "loss": 0.023, |
| "step": 4520 |
| }, |
| { |
| "epoch": 0.8053333333333333, |
| "grad_norm": 0.09328983724117279, |
| "learning_rate": 0.0002758453333333333, |
| "loss": 0.028, |
| "step": 4530 |
| }, |
| { |
| "epoch": 0.8071111111111111, |
| "grad_norm": 0.05816565826535225, |
| "learning_rate": 0.00027579199999999996, |
| "loss": 0.0205, |
| "step": 4540 |
| }, |
| { |
| "epoch": 0.8088888888888889, |
| "grad_norm": 0.06090319901704788, |
| "learning_rate": 0.0002757386666666666, |
| "loss": 0.022, |
| "step": 4550 |
| }, |
| { |
| "epoch": 0.8106666666666666, |
| "grad_norm": 0.05104518681764603, |
| "learning_rate": 0.00027568533333333333, |
| "loss": 0.0266, |
| "step": 4560 |
| }, |
| { |
| "epoch": 0.8124444444444444, |
| "grad_norm": 0.053427401930093765, |
| "learning_rate": 0.000275632, |
| "loss": 0.0301, |
| "step": 4570 |
| }, |
| { |
| "epoch": 0.8142222222222222, |
| "grad_norm": 0.06332672387361526, |
| "learning_rate": 0.00027557866666666665, |
| "loss": 0.021, |
| "step": 4580 |
| }, |
| { |
| "epoch": 0.816, |
| "grad_norm": 0.11252682656049728, |
| "learning_rate": 0.0002755253333333333, |
| "loss": 0.0185, |
| "step": 4590 |
| }, |
| { |
| "epoch": 0.8177777777777778, |
| "grad_norm": 0.05031600967049599, |
| "learning_rate": 0.00027547199999999997, |
| "loss": 0.028, |
| "step": 4600 |
| }, |
| { |
| "epoch": 0.8195555555555556, |
| "grad_norm": 0.10952623188495636, |
| "learning_rate": 0.0002754186666666666, |
| "loss": 0.0315, |
| "step": 4610 |
| }, |
| { |
| "epoch": 0.8213333333333334, |
| "grad_norm": 0.06622734665870667, |
| "learning_rate": 0.0002753653333333333, |
| "loss": 0.0277, |
| "step": 4620 |
| }, |
| { |
| "epoch": 0.8231111111111111, |
| "grad_norm": 0.09400101751089096, |
| "learning_rate": 0.000275312, |
| "loss": 0.0307, |
| "step": 4630 |
| }, |
| { |
| "epoch": 0.8248888888888889, |
| "grad_norm": 0.11097563058137894, |
| "learning_rate": 0.00027525866666666665, |
| "loss": 0.0359, |
| "step": 4640 |
| }, |
| { |
| "epoch": 0.8266666666666667, |
| "grad_norm": 0.032760389149188995, |
| "learning_rate": 0.0002752053333333333, |
| "loss": 0.0308, |
| "step": 4650 |
| }, |
| { |
| "epoch": 0.8284444444444444, |
| "grad_norm": 0.1319246143102646, |
| "learning_rate": 0.00027515199999999997, |
| "loss": 0.0198, |
| "step": 4660 |
| }, |
| { |
| "epoch": 0.8302222222222222, |
| "grad_norm": 0.053603872656822205, |
| "learning_rate": 0.00027509866666666663, |
| "loss": 0.023, |
| "step": 4670 |
| }, |
| { |
| "epoch": 0.832, |
| "grad_norm": 0.09825598448514938, |
| "learning_rate": 0.0002750453333333333, |
| "loss": 0.0257, |
| "step": 4680 |
| }, |
| { |
| "epoch": 0.8337777777777777, |
| "grad_norm": 0.03865765780210495, |
| "learning_rate": 0.000274992, |
| "loss": 0.0156, |
| "step": 4690 |
| }, |
| { |
| "epoch": 0.8355555555555556, |
| "grad_norm": 0.04348286986351013, |
| "learning_rate": 0.0002749386666666666, |
| "loss": 0.0242, |
| "step": 4700 |
| }, |
| { |
| "epoch": 0.8373333333333334, |
| "grad_norm": 0.04887940734624863, |
| "learning_rate": 0.0002748853333333333, |
| "loss": 0.0258, |
| "step": 4710 |
| }, |
| { |
| "epoch": 0.8391111111111111, |
| "grad_norm": 0.09802955389022827, |
| "learning_rate": 0.000274832, |
| "loss": 0.0228, |
| "step": 4720 |
| }, |
| { |
| "epoch": 0.8408888888888889, |
| "grad_norm": 0.04323141649365425, |
| "learning_rate": 0.00027477866666666663, |
| "loss": 0.0183, |
| "step": 4730 |
| }, |
| { |
| "epoch": 0.8426666666666667, |
| "grad_norm": 0.15568454563617706, |
| "learning_rate": 0.0002747253333333333, |
| "loss": 0.0263, |
| "step": 4740 |
| }, |
| { |
| "epoch": 0.8444444444444444, |
| "grad_norm": 0.09386380016803741, |
| "learning_rate": 0.000274672, |
| "loss": 0.0248, |
| "step": 4750 |
| }, |
| { |
| "epoch": 0.8462222222222222, |
| "grad_norm": 0.07869990915060043, |
| "learning_rate": 0.0002746186666666666, |
| "loss": 0.0276, |
| "step": 4760 |
| }, |
| { |
| "epoch": 0.848, |
| "grad_norm": 0.08227825909852982, |
| "learning_rate": 0.0002745653333333333, |
| "loss": 0.0259, |
| "step": 4770 |
| }, |
| { |
| "epoch": 0.8497777777777777, |
| "grad_norm": 0.1594904512166977, |
| "learning_rate": 0.000274512, |
| "loss": 0.023, |
| "step": 4780 |
| }, |
| { |
| "epoch": 0.8515555555555555, |
| "grad_norm": 0.08040431141853333, |
| "learning_rate": 0.00027445866666666663, |
| "loss": 0.0285, |
| "step": 4790 |
| }, |
| { |
| "epoch": 0.8533333333333334, |
| "grad_norm": 0.09920360893011093, |
| "learning_rate": 0.0002744053333333333, |
| "loss": 0.0263, |
| "step": 4800 |
| }, |
| { |
| "epoch": 0.8551111111111112, |
| "grad_norm": 0.10600800812244415, |
| "learning_rate": 0.000274352, |
| "loss": 0.0263, |
| "step": 4810 |
| }, |
| { |
| "epoch": 0.8568888888888889, |
| "grad_norm": 0.046839192509651184, |
| "learning_rate": 0.0002742986666666666, |
| "loss": 0.0288, |
| "step": 4820 |
| }, |
| { |
| "epoch": 0.8586666666666667, |
| "grad_norm": 0.050161466002464294, |
| "learning_rate": 0.0002742453333333333, |
| "loss": 0.022, |
| "step": 4830 |
| }, |
| { |
| "epoch": 0.8604444444444445, |
| "grad_norm": 0.03671692684292793, |
| "learning_rate": 0.000274192, |
| "loss": 0.0143, |
| "step": 4840 |
| }, |
| { |
| "epoch": 0.8622222222222222, |
| "grad_norm": 0.04957146570086479, |
| "learning_rate": 0.00027413866666666664, |
| "loss": 0.0292, |
| "step": 4850 |
| }, |
| { |
| "epoch": 0.864, |
| "grad_norm": 0.055758293718099594, |
| "learning_rate": 0.0002740853333333333, |
| "loss": 0.0274, |
| "step": 4860 |
| }, |
| { |
| "epoch": 0.8657777777777778, |
| "grad_norm": 0.07606534659862518, |
| "learning_rate": 0.000274032, |
| "loss": 0.0278, |
| "step": 4870 |
| }, |
| { |
| "epoch": 0.8675555555555555, |
| "grad_norm": 0.04726061224937439, |
| "learning_rate": 0.0002739786666666666, |
| "loss": 0.0129, |
| "step": 4880 |
| }, |
| { |
| "epoch": 0.8693333333333333, |
| "grad_norm": 0.08245188742876053, |
| "learning_rate": 0.0002739253333333333, |
| "loss": 0.0305, |
| "step": 4890 |
| }, |
| { |
| "epoch": 0.8711111111111111, |
| "grad_norm": 0.18735721707344055, |
| "learning_rate": 0.000273872, |
| "loss": 0.024, |
| "step": 4900 |
| }, |
| { |
| "epoch": 0.8728888888888889, |
| "grad_norm": 0.05333717539906502, |
| "learning_rate": 0.00027381866666666664, |
| "loss": 0.0202, |
| "step": 4910 |
| }, |
| { |
| "epoch": 0.8746666666666667, |
| "grad_norm": 0.10776514559984207, |
| "learning_rate": 0.0002737653333333333, |
| "loss": 0.0214, |
| "step": 4920 |
| }, |
| { |
| "epoch": 0.8764444444444445, |
| "grad_norm": 0.06848230212926865, |
| "learning_rate": 0.000273712, |
| "loss": 0.029, |
| "step": 4930 |
| }, |
| { |
| "epoch": 0.8782222222222222, |
| "grad_norm": 0.05506756529211998, |
| "learning_rate": 0.0002736586666666666, |
| "loss": 0.0353, |
| "step": 4940 |
| }, |
| { |
| "epoch": 0.88, |
| "grad_norm": 0.08956385403871536, |
| "learning_rate": 0.00027360533333333333, |
| "loss": 0.0226, |
| "step": 4950 |
| }, |
| { |
| "epoch": 0.8817777777777778, |
| "grad_norm": 0.05630868300795555, |
| "learning_rate": 0.000273552, |
| "loss": 0.0252, |
| "step": 4960 |
| }, |
| { |
| "epoch": 0.8835555555555555, |
| "grad_norm": 0.10978707671165466, |
| "learning_rate": 0.00027349866666666664, |
| "loss": 0.0216, |
| "step": 4970 |
| }, |
| { |
| "epoch": 0.8853333333333333, |
| "grad_norm": 0.07564612478017807, |
| "learning_rate": 0.0002734453333333333, |
| "loss": 0.0226, |
| "step": 4980 |
| }, |
| { |
| "epoch": 0.8871111111111111, |
| "grad_norm": 0.04177866503596306, |
| "learning_rate": 0.000273392, |
| "loss": 0.0164, |
| "step": 4990 |
| }, |
| { |
| "epoch": 0.8888888888888888, |
| "grad_norm": 0.0588146410882473, |
| "learning_rate": 0.0002733386666666666, |
| "loss": 0.0218, |
| "step": 5000 |
| }, |
| { |
| "epoch": 0.8888888888888888, |
| "eval_accuracy": 0.7805, |
| "eval_f1": 0.9489121749806473, |
| "eval_loss": 0.022677874192595482, |
| "eval_precision": 0.9481304534354534, |
| "eval_recall": 0.9511378704774758, |
| "eval_runtime": 650.1813, |
| "eval_samples_per_second": 15.38, |
| "eval_steps_per_second": 1.923, |
| "step": 5000 |
| }, |
| { |
| "epoch": 0.8906666666666667, |
| "grad_norm": 0.0680263340473175, |
| "learning_rate": 0.00027328533333333333, |
| "loss": 0.022, |
| "step": 5010 |
| }, |
| { |
| "epoch": 0.8924444444444445, |
| "grad_norm": 0.17622599005699158, |
| "learning_rate": 0.000273232, |
| "loss": 0.0283, |
| "step": 5020 |
| }, |
| { |
| "epoch": 0.8942222222222223, |
| "grad_norm": 0.0849849283695221, |
| "learning_rate": 0.00027317866666666665, |
| "loss": 0.0375, |
| "step": 5030 |
| }, |
| { |
| "epoch": 0.896, |
| "grad_norm": 0.06796667724847794, |
| "learning_rate": 0.0002731253333333333, |
| "loss": 0.0268, |
| "step": 5040 |
| }, |
| { |
| "epoch": 0.8977777777777778, |
| "grad_norm": 0.140039324760437, |
| "learning_rate": 0.000273072, |
| "loss": 0.018, |
| "step": 5050 |
| }, |
| { |
| "epoch": 0.8995555555555556, |
| "grad_norm": 0.08042261749505997, |
| "learning_rate": 0.0002730186666666666, |
| "loss": 0.0201, |
| "step": 5060 |
| }, |
| { |
| "epoch": 0.9013333333333333, |
| "grad_norm": 0.08478634059429169, |
| "learning_rate": 0.00027296533333333333, |
| "loss": 0.0274, |
| "step": 5070 |
| }, |
| { |
| "epoch": 0.9031111111111111, |
| "grad_norm": 0.06009805202484131, |
| "learning_rate": 0.000272912, |
| "loss": 0.0242, |
| "step": 5080 |
| }, |
| { |
| "epoch": 0.9048888888888889, |
| "grad_norm": 0.04202135652303696, |
| "learning_rate": 0.00027285866666666665, |
| "loss": 0.0147, |
| "step": 5090 |
| }, |
| { |
| "epoch": 0.9066666666666666, |
| "grad_norm": 0.07510834187269211, |
| "learning_rate": 0.0002728053333333333, |
| "loss": 0.0206, |
| "step": 5100 |
| }, |
| { |
| "epoch": 0.9084444444444445, |
| "grad_norm": 0.08231019228696823, |
| "learning_rate": 0.00027275199999999997, |
| "loss": 0.0191, |
| "step": 5110 |
| }, |
| { |
| "epoch": 0.9102222222222223, |
| "grad_norm": 0.11279986798763275, |
| "learning_rate": 0.0002726986666666666, |
| "loss": 0.0218, |
| "step": 5120 |
| }, |
| { |
| "epoch": 0.912, |
| "grad_norm": 0.04988230764865875, |
| "learning_rate": 0.0002726453333333333, |
| "loss": 0.0196, |
| "step": 5130 |
| }, |
| { |
| "epoch": 0.9137777777777778, |
| "grad_norm": 0.05115022882819176, |
| "learning_rate": 0.000272592, |
| "loss": 0.0203, |
| "step": 5140 |
| }, |
| { |
| "epoch": 0.9155555555555556, |
| "grad_norm": 0.13574576377868652, |
| "learning_rate": 0.00027253866666666665, |
| "loss": 0.0251, |
| "step": 5150 |
| }, |
| { |
| "epoch": 0.9173333333333333, |
| "grad_norm": 0.05182376131415367, |
| "learning_rate": 0.0002724853333333333, |
| "loss": 0.0201, |
| "step": 5160 |
| }, |
| { |
| "epoch": 0.9191111111111111, |
| "grad_norm": 0.10832846164703369, |
| "learning_rate": 0.00027243199999999997, |
| "loss": 0.0249, |
| "step": 5170 |
| }, |
| { |
| "epoch": 0.9208888888888889, |
| "grad_norm": 0.051869019865989685, |
| "learning_rate": 0.00027237866666666663, |
| "loss": 0.0308, |
| "step": 5180 |
| }, |
| { |
| "epoch": 0.9226666666666666, |
| "grad_norm": 0.10531347990036011, |
| "learning_rate": 0.0002723253333333333, |
| "loss": 0.0202, |
| "step": 5190 |
| }, |
| { |
| "epoch": 0.9244444444444444, |
| "grad_norm": 0.06323233991861343, |
| "learning_rate": 0.000272272, |
| "loss": 0.0201, |
| "step": 5200 |
| }, |
| { |
| "epoch": 0.9262222222222222, |
| "grad_norm": 0.06002742797136307, |
| "learning_rate": 0.00027221866666666666, |
| "loss": 0.0223, |
| "step": 5210 |
| }, |
| { |
| "epoch": 0.928, |
| "grad_norm": 0.06098544970154762, |
| "learning_rate": 0.0002721653333333333, |
| "loss": 0.0244, |
| "step": 5220 |
| }, |
| { |
| "epoch": 0.9297777777777778, |
| "grad_norm": 0.06522677093744278, |
| "learning_rate": 0.00027211199999999997, |
| "loss": 0.0216, |
| "step": 5230 |
| }, |
| { |
| "epoch": 0.9315555555555556, |
| "grad_norm": 0.06100668013095856, |
| "learning_rate": 0.00027205866666666663, |
| "loss": 0.0318, |
| "step": 5240 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 0.06935697793960571, |
| "learning_rate": 0.0002720053333333333, |
| "loss": 0.0225, |
| "step": 5250 |
| }, |
| { |
| "epoch": 0.9351111111111111, |
| "grad_norm": 0.05445867404341698, |
| "learning_rate": 0.000271952, |
| "loss": 0.0168, |
| "step": 5260 |
| }, |
| { |
| "epoch": 0.9368888888888889, |
| "grad_norm": 0.08664330095052719, |
| "learning_rate": 0.0002718986666666666, |
| "loss": 0.0232, |
| "step": 5270 |
| }, |
| { |
| "epoch": 0.9386666666666666, |
| "grad_norm": 0.072798952460289, |
| "learning_rate": 0.0002718453333333333, |
| "loss": 0.024, |
| "step": 5280 |
| }, |
| { |
| "epoch": 0.9404444444444444, |
| "grad_norm": 0.08220954239368439, |
| "learning_rate": 0.000271792, |
| "loss": 0.024, |
| "step": 5290 |
| }, |
| { |
| "epoch": 0.9422222222222222, |
| "grad_norm": 0.030204858630895615, |
| "learning_rate": 0.00027173866666666663, |
| "loss": 0.0259, |
| "step": 5300 |
| }, |
| { |
| "epoch": 0.944, |
| "grad_norm": 0.03738045692443848, |
| "learning_rate": 0.0002716853333333333, |
| "loss": 0.0271, |
| "step": 5310 |
| }, |
| { |
| "epoch": 0.9457777777777778, |
| "grad_norm": 0.08690766245126724, |
| "learning_rate": 0.000271632, |
| "loss": 0.0237, |
| "step": 5320 |
| }, |
| { |
| "epoch": 0.9475555555555556, |
| "grad_norm": 0.1310735046863556, |
| "learning_rate": 0.0002715786666666666, |
| "loss": 0.0345, |
| "step": 5330 |
| }, |
| { |
| "epoch": 0.9493333333333334, |
| "grad_norm": 0.10899726301431656, |
| "learning_rate": 0.0002715253333333333, |
| "loss": 0.0309, |
| "step": 5340 |
| }, |
| { |
| "epoch": 0.9511111111111111, |
| "grad_norm": 0.1176820620894432, |
| "learning_rate": 0.000271472, |
| "loss": 0.029, |
| "step": 5350 |
| }, |
| { |
| "epoch": 0.9528888888888889, |
| "grad_norm": 0.08592703938484192, |
| "learning_rate": 0.00027141866666666664, |
| "loss": 0.0252, |
| "step": 5360 |
| }, |
| { |
| "epoch": 0.9546666666666667, |
| "grad_norm": 0.1073814332485199, |
| "learning_rate": 0.0002713653333333333, |
| "loss": 0.0237, |
| "step": 5370 |
| }, |
| { |
| "epoch": 0.9564444444444444, |
| "grad_norm": 0.06471919268369675, |
| "learning_rate": 0.000271312, |
| "loss": 0.0235, |
| "step": 5380 |
| }, |
| { |
| "epoch": 0.9582222222222222, |
| "grad_norm": 0.09008841961622238, |
| "learning_rate": 0.0002712586666666666, |
| "loss": 0.0224, |
| "step": 5390 |
| }, |
| { |
| "epoch": 0.96, |
| "grad_norm": 0.10253197699785233, |
| "learning_rate": 0.0002712053333333333, |
| "loss": 0.0268, |
| "step": 5400 |
| }, |
| { |
| "epoch": 0.9617777777777777, |
| "grad_norm": 0.10255160927772522, |
| "learning_rate": 0.000271152, |
| "loss": 0.0243, |
| "step": 5410 |
| }, |
| { |
| "epoch": 0.9635555555555556, |
| "grad_norm": 0.08443213999271393, |
| "learning_rate": 0.00027109866666666664, |
| "loss": 0.0274, |
| "step": 5420 |
| }, |
| { |
| "epoch": 0.9653333333333334, |
| "grad_norm": 0.07566241919994354, |
| "learning_rate": 0.0002710453333333333, |
| "loss": 0.0206, |
| "step": 5430 |
| }, |
| { |
| "epoch": 0.9671111111111111, |
| "grad_norm": 0.09296461194753647, |
| "learning_rate": 0.000270992, |
| "loss": 0.027, |
| "step": 5440 |
| }, |
| { |
| "epoch": 0.9688888888888889, |
| "grad_norm": 0.07470197230577469, |
| "learning_rate": 0.0002709386666666666, |
| "loss": 0.0279, |
| "step": 5450 |
| }, |
| { |
| "epoch": 0.9706666666666667, |
| "grad_norm": 0.05518031492829323, |
| "learning_rate": 0.0002708853333333333, |
| "loss": 0.024, |
| "step": 5460 |
| }, |
| { |
| "epoch": 0.9724444444444444, |
| "grad_norm": 0.06700322777032852, |
| "learning_rate": 0.000270832, |
| "loss": 0.0239, |
| "step": 5470 |
| }, |
| { |
| "epoch": 0.9742222222222222, |
| "grad_norm": 0.043132733553647995, |
| "learning_rate": 0.00027077866666666664, |
| "loss": 0.015, |
| "step": 5480 |
| }, |
| { |
| "epoch": 0.976, |
| "grad_norm": 0.03849382698535919, |
| "learning_rate": 0.0002707253333333333, |
| "loss": 0.0314, |
| "step": 5490 |
| }, |
| { |
| "epoch": 0.9777777777777777, |
| "grad_norm": 0.14933045208454132, |
| "learning_rate": 0.000270672, |
| "loss": 0.0249, |
| "step": 5500 |
| }, |
| { |
| "epoch": 0.9795555555555555, |
| "grad_norm": 0.12208105623722076, |
| "learning_rate": 0.0002706186666666666, |
| "loss": 0.0216, |
| "step": 5510 |
| }, |
| { |
| "epoch": 0.9813333333333333, |
| "grad_norm": 0.048986442387104034, |
| "learning_rate": 0.00027056533333333333, |
| "loss": 0.0275, |
| "step": 5520 |
| }, |
| { |
| "epoch": 0.9831111111111112, |
| "grad_norm": 0.08445523679256439, |
| "learning_rate": 0.000270512, |
| "loss": 0.0217, |
| "step": 5530 |
| }, |
| { |
| "epoch": 0.9848888888888889, |
| "grad_norm": 0.21780821681022644, |
| "learning_rate": 0.00027045866666666665, |
| "loss": 0.0296, |
| "step": 5540 |
| }, |
| { |
| "epoch": 0.9866666666666667, |
| "grad_norm": 0.06558253616094589, |
| "learning_rate": 0.0002704053333333333, |
| "loss": 0.0258, |
| "step": 5550 |
| }, |
| { |
| "epoch": 0.9884444444444445, |
| "grad_norm": 0.044081203639507294, |
| "learning_rate": 0.000270352, |
| "loss": 0.031, |
| "step": 5560 |
| }, |
| { |
| "epoch": 0.9902222222222222, |
| "grad_norm": 0.055624719709157944, |
| "learning_rate": 0.0002702986666666666, |
| "loss": 0.0247, |
| "step": 5570 |
| }, |
| { |
| "epoch": 0.992, |
| "grad_norm": 0.1662399172782898, |
| "learning_rate": 0.00027024533333333333, |
| "loss": 0.0251, |
| "step": 5580 |
| }, |
| { |
| "epoch": 0.9937777777777778, |
| "grad_norm": 0.0771157369017601, |
| "learning_rate": 0.000270192, |
| "loss": 0.0207, |
| "step": 5590 |
| }, |
| { |
| "epoch": 0.9955555555555555, |
| "grad_norm": 0.1563335508108139, |
| "learning_rate": 0.00027013866666666665, |
| "loss": 0.0201, |
| "step": 5600 |
| }, |
| { |
| "epoch": 0.9973333333333333, |
| "grad_norm": 0.09246068447828293, |
| "learning_rate": 0.0002700853333333333, |
| "loss": 0.0184, |
| "step": 5610 |
| }, |
| { |
| "epoch": 0.9991111111111111, |
| "grad_norm": 0.0873664990067482, |
| "learning_rate": 0.000270032, |
| "loss": 0.0155, |
| "step": 5620 |
| }, |
| { |
| "epoch": 1.000888888888889, |
| "grad_norm": 0.09236636012792587, |
| "learning_rate": 0.0002699786666666666, |
| "loss": 0.0284, |
| "step": 5630 |
| }, |
| { |
| "epoch": 1.0026666666666666, |
| "grad_norm": 0.08516989648342133, |
| "learning_rate": 0.0002699253333333333, |
| "loss": 0.0193, |
| "step": 5640 |
| }, |
| { |
| "epoch": 1.0044444444444445, |
| "grad_norm": 0.10584837198257446, |
| "learning_rate": 0.000269872, |
| "loss": 0.019, |
| "step": 5650 |
| }, |
| { |
| "epoch": 1.0062222222222221, |
| "grad_norm": 0.08721577376127243, |
| "learning_rate": 0.00026981866666666665, |
| "loss": 0.0155, |
| "step": 5660 |
| }, |
| { |
| "epoch": 1.008, |
| "grad_norm": 0.1088644489645958, |
| "learning_rate": 0.0002697653333333333, |
| "loss": 0.0391, |
| "step": 5670 |
| }, |
| { |
| "epoch": 1.0097777777777779, |
| "grad_norm": 0.09955207258462906, |
| "learning_rate": 0.00026971199999999997, |
| "loss": 0.0307, |
| "step": 5680 |
| }, |
| { |
| "epoch": 1.0115555555555555, |
| "grad_norm": 0.06394711136817932, |
| "learning_rate": 0.0002696586666666666, |
| "loss": 0.0117, |
| "step": 5690 |
| }, |
| { |
| "epoch": 1.0133333333333334, |
| "grad_norm": 0.07576421648263931, |
| "learning_rate": 0.0002696053333333333, |
| "loss": 0.0218, |
| "step": 5700 |
| }, |
| { |
| "epoch": 1.015111111111111, |
| "grad_norm": 0.05984245240688324, |
| "learning_rate": 0.000269552, |
| "loss": 0.0188, |
| "step": 5710 |
| }, |
| { |
| "epoch": 1.016888888888889, |
| "grad_norm": 0.13615387678146362, |
| "learning_rate": 0.00026949866666666666, |
| "loss": 0.0196, |
| "step": 5720 |
| }, |
| { |
| "epoch": 1.0186666666666666, |
| "grad_norm": 0.11591221392154694, |
| "learning_rate": 0.0002694453333333333, |
| "loss": 0.0211, |
| "step": 5730 |
| }, |
| { |
| "epoch": 1.0204444444444445, |
| "grad_norm": 0.03672238439321518, |
| "learning_rate": 0.00026939199999999997, |
| "loss": 0.0163, |
| "step": 5740 |
| }, |
| { |
| "epoch": 1.0222222222222221, |
| "grad_norm": 0.07665427774190903, |
| "learning_rate": 0.00026933866666666663, |
| "loss": 0.0235, |
| "step": 5750 |
| }, |
| { |
| "epoch": 1.024, |
| "grad_norm": 0.08643534779548645, |
| "learning_rate": 0.0002692853333333333, |
| "loss": 0.0196, |
| "step": 5760 |
| }, |
| { |
| "epoch": 1.0257777777777777, |
| "grad_norm": 0.04845563322305679, |
| "learning_rate": 0.000269232, |
| "loss": 0.0222, |
| "step": 5770 |
| }, |
| { |
| "epoch": 1.0275555555555556, |
| "grad_norm": 0.05832474306225777, |
| "learning_rate": 0.00026917866666666666, |
| "loss": 0.0151, |
| "step": 5780 |
| }, |
| { |
| "epoch": 1.0293333333333334, |
| "grad_norm": 0.08152145892381668, |
| "learning_rate": 0.0002691253333333333, |
| "loss": 0.023, |
| "step": 5790 |
| }, |
| { |
| "epoch": 1.031111111111111, |
| "grad_norm": 0.07723015546798706, |
| "learning_rate": 0.000269072, |
| "loss": 0.0194, |
| "step": 5800 |
| }, |
| { |
| "epoch": 1.032888888888889, |
| "grad_norm": 0.08425486832857132, |
| "learning_rate": 0.00026901866666666663, |
| "loss": 0.0209, |
| "step": 5810 |
| }, |
| { |
| "epoch": 1.0346666666666666, |
| "grad_norm": 0.16199788451194763, |
| "learning_rate": 0.0002689653333333333, |
| "loss": 0.0184, |
| "step": 5820 |
| }, |
| { |
| "epoch": 1.0364444444444445, |
| "grad_norm": 0.0392846055328846, |
| "learning_rate": 0.000268912, |
| "loss": 0.0214, |
| "step": 5830 |
| }, |
| { |
| "epoch": 1.0382222222222222, |
| "grad_norm": 0.0637868121266365, |
| "learning_rate": 0.0002688586666666666, |
| "loss": 0.0206, |
| "step": 5840 |
| }, |
| { |
| "epoch": 1.04, |
| "grad_norm": 0.12309300899505615, |
| "learning_rate": 0.0002688053333333333, |
| "loss": 0.0194, |
| "step": 5850 |
| }, |
| { |
| "epoch": 1.0417777777777777, |
| "grad_norm": 0.05401608720421791, |
| "learning_rate": 0.000268752, |
| "loss": 0.0237, |
| "step": 5860 |
| }, |
| { |
| "epoch": 1.0435555555555556, |
| "grad_norm": 0.06477317214012146, |
| "learning_rate": 0.00026869866666666664, |
| "loss": 0.0162, |
| "step": 5870 |
| }, |
| { |
| "epoch": 1.0453333333333332, |
| "grad_norm": 0.08347102254629135, |
| "learning_rate": 0.0002686453333333333, |
| "loss": 0.021, |
| "step": 5880 |
| }, |
| { |
| "epoch": 1.047111111111111, |
| "grad_norm": 0.07340535521507263, |
| "learning_rate": 0.000268592, |
| "loss": 0.0237, |
| "step": 5890 |
| }, |
| { |
| "epoch": 1.048888888888889, |
| "grad_norm": 0.03568523749709129, |
| "learning_rate": 0.0002685386666666666, |
| "loss": 0.0164, |
| "step": 5900 |
| }, |
| { |
| "epoch": 1.0506666666666666, |
| "grad_norm": 0.08179934322834015, |
| "learning_rate": 0.0002684853333333333, |
| "loss": 0.0185, |
| "step": 5910 |
| }, |
| { |
| "epoch": 1.0524444444444445, |
| "grad_norm": 0.07522140443325043, |
| "learning_rate": 0.000268432, |
| "loss": 0.0292, |
| "step": 5920 |
| }, |
| { |
| "epoch": 1.0542222222222222, |
| "grad_norm": 0.12679794430732727, |
| "learning_rate": 0.00026837866666666664, |
| "loss": 0.0222, |
| "step": 5930 |
| }, |
| { |
| "epoch": 1.056, |
| "grad_norm": 0.0890289843082428, |
| "learning_rate": 0.0002683253333333333, |
| "loss": 0.0226, |
| "step": 5940 |
| }, |
| { |
| "epoch": 1.0577777777777777, |
| "grad_norm": 0.05332579463720322, |
| "learning_rate": 0.000268272, |
| "loss": 0.0198, |
| "step": 5950 |
| }, |
| { |
| "epoch": 1.0595555555555556, |
| "grad_norm": 0.04473736509680748, |
| "learning_rate": 0.0002682186666666666, |
| "loss": 0.019, |
| "step": 5960 |
| }, |
| { |
| "epoch": 1.0613333333333332, |
| "grad_norm": 0.13032497465610504, |
| "learning_rate": 0.0002681653333333333, |
| "loss": 0.0239, |
| "step": 5970 |
| }, |
| { |
| "epoch": 1.0631111111111111, |
| "grad_norm": 0.08634962886571884, |
| "learning_rate": 0.000268112, |
| "loss": 0.0243, |
| "step": 5980 |
| }, |
| { |
| "epoch": 1.064888888888889, |
| "grad_norm": 0.05588865652680397, |
| "learning_rate": 0.00026805866666666664, |
| "loss": 0.0234, |
| "step": 5990 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 0.07553177326917648, |
| "learning_rate": 0.0002680053333333333, |
| "loss": 0.0211, |
| "step": 6000 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "eval_accuracy": 0.7888, |
| "eval_f1": 0.9608752422852569, |
| "eval_loss": 0.022772355005145073, |
| "eval_precision": 0.9597344936642305, |
| "eval_recall": 0.9634640968388336, |
| "eval_runtime": 646.4114, |
| "eval_samples_per_second": 15.47, |
| "eval_steps_per_second": 1.934, |
| "step": 6000 |
| }, |
| { |
| "epoch": 1.0684444444444445, |
| "grad_norm": 0.08226612955331802, |
| "learning_rate": 0.000267952, |
| "loss": 0.0237, |
| "step": 6010 |
| }, |
| { |
| "epoch": 1.0702222222222222, |
| "grad_norm": 0.04895941540598869, |
| "learning_rate": 0.0002678986666666666, |
| "loss": 0.0187, |
| "step": 6020 |
| }, |
| { |
| "epoch": 1.072, |
| "grad_norm": 0.07697124779224396, |
| "learning_rate": 0.00026784533333333333, |
| "loss": 0.0204, |
| "step": 6030 |
| }, |
| { |
| "epoch": 1.0737777777777777, |
| "grad_norm": 0.07198483496904373, |
| "learning_rate": 0.000267792, |
| "loss": 0.0329, |
| "step": 6040 |
| }, |
| { |
| "epoch": 1.0755555555555556, |
| "grad_norm": 0.14414814114570618, |
| "learning_rate": 0.00026773866666666664, |
| "loss": 0.0242, |
| "step": 6050 |
| }, |
| { |
| "epoch": 1.0773333333333333, |
| "grad_norm": 0.07089535892009735, |
| "learning_rate": 0.0002676853333333333, |
| "loss": 0.0242, |
| "step": 6060 |
| }, |
| { |
| "epoch": 1.0791111111111111, |
| "grad_norm": 0.07860027998685837, |
| "learning_rate": 0.000267632, |
| "loss": 0.0233, |
| "step": 6070 |
| }, |
| { |
| "epoch": 1.0808888888888888, |
| "grad_norm": 0.024272069334983826, |
| "learning_rate": 0.0002675786666666666, |
| "loss": 0.0191, |
| "step": 6080 |
| }, |
| { |
| "epoch": 1.0826666666666667, |
| "grad_norm": 0.20330259203910828, |
| "learning_rate": 0.00026752533333333333, |
| "loss": 0.0246, |
| "step": 6090 |
| }, |
| { |
| "epoch": 1.0844444444444445, |
| "grad_norm": 0.056514300405979156, |
| "learning_rate": 0.000267472, |
| "loss": 0.0197, |
| "step": 6100 |
| }, |
| { |
| "epoch": 1.0862222222222222, |
| "grad_norm": 0.09598847478628159, |
| "learning_rate": 0.00026741866666666665, |
| "loss": 0.0196, |
| "step": 6110 |
| }, |
| { |
| "epoch": 1.088, |
| "grad_norm": 0.0808069035410881, |
| "learning_rate": 0.0002673653333333333, |
| "loss": 0.0174, |
| "step": 6120 |
| }, |
| { |
| "epoch": 1.0897777777777777, |
| "grad_norm": 0.02423759177327156, |
| "learning_rate": 0.000267312, |
| "loss": 0.0223, |
| "step": 6130 |
| }, |
| { |
| "epoch": 1.0915555555555556, |
| "grad_norm": 0.14889276027679443, |
| "learning_rate": 0.0002672586666666666, |
| "loss": 0.0222, |
| "step": 6140 |
| }, |
| { |
| "epoch": 1.0933333333333333, |
| "grad_norm": 0.07997959852218628, |
| "learning_rate": 0.0002672053333333333, |
| "loss": 0.0236, |
| "step": 6150 |
| }, |
| { |
| "epoch": 1.0951111111111111, |
| "grad_norm": 0.07679922878742218, |
| "learning_rate": 0.000267152, |
| "loss": 0.0179, |
| "step": 6160 |
| }, |
| { |
| "epoch": 1.0968888888888888, |
| "grad_norm": 0.17518191039562225, |
| "learning_rate": 0.00026709866666666665, |
| "loss": 0.0138, |
| "step": 6170 |
| }, |
| { |
| "epoch": 1.0986666666666667, |
| "grad_norm": 0.06905455142259598, |
| "learning_rate": 0.0002670453333333333, |
| "loss": 0.0111, |
| "step": 6180 |
| }, |
| { |
| "epoch": 1.1004444444444443, |
| "grad_norm": 0.09649280458688736, |
| "learning_rate": 0.00026699199999999997, |
| "loss": 0.0246, |
| "step": 6190 |
| }, |
| { |
| "epoch": 1.1022222222222222, |
| "grad_norm": 0.06124288961291313, |
| "learning_rate": 0.0002669386666666666, |
| "loss": 0.0191, |
| "step": 6200 |
| }, |
| { |
| "epoch": 1.104, |
| "grad_norm": 0.05284019559621811, |
| "learning_rate": 0.0002668853333333333, |
| "loss": 0.0238, |
| "step": 6210 |
| }, |
| { |
| "epoch": 1.1057777777777777, |
| "grad_norm": 0.07209029793739319, |
| "learning_rate": 0.000266832, |
| "loss": 0.023, |
| "step": 6220 |
| }, |
| { |
| "epoch": 1.1075555555555556, |
| "grad_norm": 0.0753553956747055, |
| "learning_rate": 0.00026677866666666665, |
| "loss": 0.0227, |
| "step": 6230 |
| }, |
| { |
| "epoch": 1.1093333333333333, |
| "grad_norm": 0.032091863453388214, |
| "learning_rate": 0.0002667253333333333, |
| "loss": 0.0218, |
| "step": 6240 |
| }, |
| { |
| "epoch": 1.1111111111111112, |
| "grad_norm": 0.08066971600055695, |
| "learning_rate": 0.00026667199999999997, |
| "loss": 0.0198, |
| "step": 6250 |
| }, |
| { |
| "epoch": 1.1128888888888888, |
| "grad_norm": 0.11901221424341202, |
| "learning_rate": 0.00026661866666666663, |
| "loss": 0.0239, |
| "step": 6260 |
| }, |
| { |
| "epoch": 1.1146666666666667, |
| "grad_norm": 0.09724316000938416, |
| "learning_rate": 0.0002665653333333333, |
| "loss": 0.0284, |
| "step": 6270 |
| }, |
| { |
| "epoch": 1.1164444444444444, |
| "grad_norm": 0.056774791330099106, |
| "learning_rate": 0.000266512, |
| "loss": 0.0187, |
| "step": 6280 |
| }, |
| { |
| "epoch": 1.1182222222222222, |
| "grad_norm": 0.0744025856256485, |
| "learning_rate": 0.00026645866666666666, |
| "loss": 0.0252, |
| "step": 6290 |
| }, |
| { |
| "epoch": 1.12, |
| "grad_norm": 0.0717066302895546, |
| "learning_rate": 0.0002664053333333333, |
| "loss": 0.0198, |
| "step": 6300 |
| }, |
| { |
| "epoch": 1.1217777777777778, |
| "grad_norm": 0.05018769949674606, |
| "learning_rate": 0.000266352, |
| "loss": 0.0195, |
| "step": 6310 |
| }, |
| { |
| "epoch": 1.1235555555555556, |
| "grad_norm": 0.07212472707033157, |
| "learning_rate": 0.00026629866666666663, |
| "loss": 0.0208, |
| "step": 6320 |
| }, |
| { |
| "epoch": 1.1253333333333333, |
| "grad_norm": 0.09545619040727615, |
| "learning_rate": 0.0002662453333333333, |
| "loss": 0.0172, |
| "step": 6330 |
| }, |
| { |
| "epoch": 1.1271111111111112, |
| "grad_norm": 0.1480916291475296, |
| "learning_rate": 0.000266192, |
| "loss": 0.023, |
| "step": 6340 |
| }, |
| { |
| "epoch": 1.1288888888888888, |
| "grad_norm": 0.06415636837482452, |
| "learning_rate": 0.00026613866666666666, |
| "loss": 0.0175, |
| "step": 6350 |
| }, |
| { |
| "epoch": 1.1306666666666667, |
| "grad_norm": 0.06716844439506531, |
| "learning_rate": 0.0002660853333333333, |
| "loss": 0.0203, |
| "step": 6360 |
| }, |
| { |
| "epoch": 1.1324444444444444, |
| "grad_norm": 0.06009915471076965, |
| "learning_rate": 0.000266032, |
| "loss": 0.0112, |
| "step": 6370 |
| }, |
| { |
| "epoch": 1.1342222222222222, |
| "grad_norm": 0.16594372689723969, |
| "learning_rate": 0.00026597866666666663, |
| "loss": 0.0277, |
| "step": 6380 |
| }, |
| { |
| "epoch": 1.1360000000000001, |
| "grad_norm": 0.08360890299081802, |
| "learning_rate": 0.0002659253333333333, |
| "loss": 0.0217, |
| "step": 6390 |
| }, |
| { |
| "epoch": 1.1377777777777778, |
| "grad_norm": 0.27243664860725403, |
| "learning_rate": 0.000265872, |
| "loss": 0.018, |
| "step": 6400 |
| }, |
| { |
| "epoch": 1.1395555555555554, |
| "grad_norm": 0.21879877150058746, |
| "learning_rate": 0.0002658186666666666, |
| "loss": 0.0205, |
| "step": 6410 |
| }, |
| { |
| "epoch": 1.1413333333333333, |
| "grad_norm": 0.04842181131243706, |
| "learning_rate": 0.0002657653333333333, |
| "loss": 0.03, |
| "step": 6420 |
| }, |
| { |
| "epoch": 1.1431111111111112, |
| "grad_norm": 0.03564498573541641, |
| "learning_rate": 0.000265712, |
| "loss": 0.0176, |
| "step": 6430 |
| }, |
| { |
| "epoch": 1.1448888888888888, |
| "grad_norm": 0.04952355474233627, |
| "learning_rate": 0.00026565866666666664, |
| "loss": 0.0193, |
| "step": 6440 |
| }, |
| { |
| "epoch": 1.1466666666666667, |
| "grad_norm": 0.10026893764734268, |
| "learning_rate": 0.0002656053333333333, |
| "loss": 0.0206, |
| "step": 6450 |
| }, |
| { |
| "epoch": 1.1484444444444444, |
| "grad_norm": 0.12454218417406082, |
| "learning_rate": 0.000265552, |
| "loss": 0.0112, |
| "step": 6460 |
| }, |
| { |
| "epoch": 1.1502222222222223, |
| "grad_norm": 0.08369217067956924, |
| "learning_rate": 0.0002654986666666666, |
| "loss": 0.0155, |
| "step": 6470 |
| }, |
| { |
| "epoch": 1.152, |
| "grad_norm": 0.028163114562630653, |
| "learning_rate": 0.0002654453333333333, |
| "loss": 0.0201, |
| "step": 6480 |
| }, |
| { |
| "epoch": 1.1537777777777778, |
| "grad_norm": 0.09226653724908829, |
| "learning_rate": 0.000265392, |
| "loss": 0.0175, |
| "step": 6490 |
| }, |
| { |
| "epoch": 1.1555555555555554, |
| "grad_norm": 0.04451766982674599, |
| "learning_rate": 0.00026533866666666664, |
| "loss": 0.0158, |
| "step": 6500 |
| }, |
| { |
| "epoch": 1.1573333333333333, |
| "grad_norm": 0.04195033758878708, |
| "learning_rate": 0.0002652853333333333, |
| "loss": 0.0204, |
| "step": 6510 |
| }, |
| { |
| "epoch": 1.1591111111111112, |
| "grad_norm": 0.06519827246665955, |
| "learning_rate": 0.000265232, |
| "loss": 0.0206, |
| "step": 6520 |
| }, |
| { |
| "epoch": 1.1608888888888889, |
| "grad_norm": 0.06192832812666893, |
| "learning_rate": 0.0002651786666666666, |
| "loss": 0.0233, |
| "step": 6530 |
| }, |
| { |
| "epoch": 1.1626666666666667, |
| "grad_norm": 0.04507620260119438, |
| "learning_rate": 0.00026512533333333333, |
| "loss": 0.025, |
| "step": 6540 |
| }, |
| { |
| "epoch": 1.1644444444444444, |
| "grad_norm": 0.05026322603225708, |
| "learning_rate": 0.000265072, |
| "loss": 0.0255, |
| "step": 6550 |
| }, |
| { |
| "epoch": 1.1662222222222223, |
| "grad_norm": 0.0816965252161026, |
| "learning_rate": 0.00026501866666666664, |
| "loss": 0.0162, |
| "step": 6560 |
| }, |
| { |
| "epoch": 1.168, |
| "grad_norm": 0.11233066022396088, |
| "learning_rate": 0.0002649653333333333, |
| "loss": 0.028, |
| "step": 6570 |
| }, |
| { |
| "epoch": 1.1697777777777778, |
| "grad_norm": 0.06947654485702515, |
| "learning_rate": 0.000264912, |
| "loss": 0.0169, |
| "step": 6580 |
| }, |
| { |
| "epoch": 1.1715555555555555, |
| "grad_norm": 0.07992644608020782, |
| "learning_rate": 0.0002648586666666666, |
| "loss": 0.0241, |
| "step": 6590 |
| }, |
| { |
| "epoch": 1.1733333333333333, |
| "grad_norm": 0.07435277849435806, |
| "learning_rate": 0.00026480533333333333, |
| "loss": 0.0152, |
| "step": 6600 |
| }, |
| { |
| "epoch": 1.1751111111111112, |
| "grad_norm": 0.14906832575798035, |
| "learning_rate": 0.000264752, |
| "loss": 0.013, |
| "step": 6610 |
| }, |
| { |
| "epoch": 1.1768888888888889, |
| "grad_norm": 0.026851756498217583, |
| "learning_rate": 0.00026469866666666665, |
| "loss": 0.0175, |
| "step": 6620 |
| }, |
| { |
| "epoch": 1.1786666666666668, |
| "grad_norm": 0.13004520535469055, |
| "learning_rate": 0.0002646453333333333, |
| "loss": 0.0217, |
| "step": 6630 |
| }, |
| { |
| "epoch": 1.1804444444444444, |
| "grad_norm": 0.09514859318733215, |
| "learning_rate": 0.000264592, |
| "loss": 0.0168, |
| "step": 6640 |
| }, |
| { |
| "epoch": 1.1822222222222223, |
| "grad_norm": 0.058868490159511566, |
| "learning_rate": 0.0002645386666666666, |
| "loss": 0.0172, |
| "step": 6650 |
| }, |
| { |
| "epoch": 1.184, |
| "grad_norm": 0.05696805194020271, |
| "learning_rate": 0.0002644853333333333, |
| "loss": 0.0238, |
| "step": 6660 |
| }, |
| { |
| "epoch": 1.1857777777777778, |
| "grad_norm": 0.14026899635791779, |
| "learning_rate": 0.000264432, |
| "loss": 0.0252, |
| "step": 6670 |
| }, |
| { |
| "epoch": 1.1875555555555555, |
| "grad_norm": 0.18993432819843292, |
| "learning_rate": 0.00026437866666666665, |
| "loss": 0.0227, |
| "step": 6680 |
| }, |
| { |
| "epoch": 1.1893333333333334, |
| "grad_norm": 0.11388243734836578, |
| "learning_rate": 0.0002643253333333333, |
| "loss": 0.0229, |
| "step": 6690 |
| }, |
| { |
| "epoch": 1.1911111111111112, |
| "grad_norm": 0.025548333302140236, |
| "learning_rate": 0.00026427199999999997, |
| "loss": 0.0205, |
| "step": 6700 |
| }, |
| { |
| "epoch": 1.1928888888888889, |
| "grad_norm": 0.0805412083864212, |
| "learning_rate": 0.0002642186666666666, |
| "loss": 0.0227, |
| "step": 6710 |
| }, |
| { |
| "epoch": 1.1946666666666665, |
| "grad_norm": 0.05033315345644951, |
| "learning_rate": 0.0002641653333333333, |
| "loss": 0.026, |
| "step": 6720 |
| }, |
| { |
| "epoch": 1.1964444444444444, |
| "grad_norm": 0.12822557985782623, |
| "learning_rate": 0.000264112, |
| "loss": 0.0171, |
| "step": 6730 |
| }, |
| { |
| "epoch": 1.1982222222222223, |
| "grad_norm": 0.05787438154220581, |
| "learning_rate": 0.00026405866666666665, |
| "loss": 0.0156, |
| "step": 6740 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 0.03533678874373436, |
| "learning_rate": 0.0002640053333333333, |
| "loss": 0.0228, |
| "step": 6750 |
| }, |
| { |
| "epoch": 1.2017777777777778, |
| "grad_norm": 0.07523424923419952, |
| "learning_rate": 0.00026395199999999997, |
| "loss": 0.0203, |
| "step": 6760 |
| }, |
| { |
| "epoch": 1.2035555555555555, |
| "grad_norm": 0.07903579622507095, |
| "learning_rate": 0.00026389866666666663, |
| "loss": 0.0241, |
| "step": 6770 |
| }, |
| { |
| "epoch": 1.2053333333333334, |
| "grad_norm": 0.05588415265083313, |
| "learning_rate": 0.0002638453333333333, |
| "loss": 0.0186, |
| "step": 6780 |
| }, |
| { |
| "epoch": 1.207111111111111, |
| "grad_norm": 0.07310913503170013, |
| "learning_rate": 0.000263792, |
| "loss": 0.0172, |
| "step": 6790 |
| }, |
| { |
| "epoch": 1.208888888888889, |
| "grad_norm": 0.10237371176481247, |
| "learning_rate": 0.00026373866666666666, |
| "loss": 0.0311, |
| "step": 6800 |
| }, |
| { |
| "epoch": 1.2106666666666666, |
| "grad_norm": 0.08923070877790451, |
| "learning_rate": 0.0002636853333333333, |
| "loss": 0.0299, |
| "step": 6810 |
| }, |
| { |
| "epoch": 1.2124444444444444, |
| "grad_norm": 0.05501580983400345, |
| "learning_rate": 0.00026363199999999997, |
| "loss": 0.0177, |
| "step": 6820 |
| }, |
| { |
| "epoch": 1.2142222222222223, |
| "grad_norm": 0.11276847124099731, |
| "learning_rate": 0.00026357866666666663, |
| "loss": 0.0235, |
| "step": 6830 |
| }, |
| { |
| "epoch": 1.216, |
| "grad_norm": 0.0540320947766304, |
| "learning_rate": 0.0002635253333333333, |
| "loss": 0.0211, |
| "step": 6840 |
| }, |
| { |
| "epoch": 1.2177777777777778, |
| "grad_norm": 0.034252021461725235, |
| "learning_rate": 0.000263472, |
| "loss": 0.0247, |
| "step": 6850 |
| }, |
| { |
| "epoch": 1.2195555555555555, |
| "grad_norm": 0.09573516249656677, |
| "learning_rate": 0.00026341866666666666, |
| "loss": 0.0186, |
| "step": 6860 |
| }, |
| { |
| "epoch": 1.2213333333333334, |
| "grad_norm": 0.09865361452102661, |
| "learning_rate": 0.0002633653333333333, |
| "loss": 0.0174, |
| "step": 6870 |
| }, |
| { |
| "epoch": 1.223111111111111, |
| "grad_norm": 0.13737502694129944, |
| "learning_rate": 0.000263312, |
| "loss": 0.016, |
| "step": 6880 |
| }, |
| { |
| "epoch": 1.224888888888889, |
| "grad_norm": 0.06738601624965668, |
| "learning_rate": 0.00026325866666666663, |
| "loss": 0.0187, |
| "step": 6890 |
| }, |
| { |
| "epoch": 1.2266666666666666, |
| "grad_norm": 0.08652956038713455, |
| "learning_rate": 0.0002632053333333333, |
| "loss": 0.0204, |
| "step": 6900 |
| }, |
| { |
| "epoch": 1.2284444444444444, |
| "grad_norm": 0.10620912909507751, |
| "learning_rate": 0.000263152, |
| "loss": 0.0266, |
| "step": 6910 |
| }, |
| { |
| "epoch": 1.2302222222222223, |
| "grad_norm": 0.06166858598589897, |
| "learning_rate": 0.00026309866666666666, |
| "loss": 0.0236, |
| "step": 6920 |
| }, |
| { |
| "epoch": 1.232, |
| "grad_norm": 0.05199519917368889, |
| "learning_rate": 0.0002630453333333333, |
| "loss": 0.0302, |
| "step": 6930 |
| }, |
| { |
| "epoch": 1.2337777777777779, |
| "grad_norm": 0.08725038170814514, |
| "learning_rate": 0.000262992, |
| "loss": 0.0175, |
| "step": 6940 |
| }, |
| { |
| "epoch": 1.2355555555555555, |
| "grad_norm": 0.15823574364185333, |
| "learning_rate": 0.00026293866666666664, |
| "loss": 0.0126, |
| "step": 6950 |
| }, |
| { |
| "epoch": 1.2373333333333334, |
| "grad_norm": 0.11322572827339172, |
| "learning_rate": 0.0002628853333333333, |
| "loss": 0.0171, |
| "step": 6960 |
| }, |
| { |
| "epoch": 1.239111111111111, |
| "grad_norm": 0.05331611633300781, |
| "learning_rate": 0.000262832, |
| "loss": 0.0165, |
| "step": 6970 |
| }, |
| { |
| "epoch": 1.240888888888889, |
| "grad_norm": 0.10290094465017319, |
| "learning_rate": 0.0002627786666666666, |
| "loss": 0.0352, |
| "step": 6980 |
| }, |
| { |
| "epoch": 1.2426666666666666, |
| "grad_norm": 0.13865168392658234, |
| "learning_rate": 0.0002627253333333333, |
| "loss": 0.0221, |
| "step": 6990 |
| }, |
| { |
| "epoch": 1.2444444444444445, |
| "grad_norm": 0.05420316383242607, |
| "learning_rate": 0.000262672, |
| "loss": 0.0168, |
| "step": 7000 |
| }, |
| { |
| "epoch": 1.2444444444444445, |
| "eval_accuracy": 0.789, |
| "eval_f1": 0.9604236614865518, |
| "eval_loss": 0.02318185567855835, |
| "eval_precision": 0.9584751671531083, |
| "eval_recall": 0.9638210750506804, |
| "eval_runtime": 695.9499, |
| "eval_samples_per_second": 14.369, |
| "eval_steps_per_second": 1.796, |
| "step": 7000 |
| } |
| ], |
| "logging_steps": 10, |
| "max_steps": 56250, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 10, |
| "save_steps": 1000, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 2.5724988162048e+16, |
| "train_batch_size": 8, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|