| loss;grad_norm;learning_rate;epoch;step;eval_loss;eval_accuracy;eval_f1;eval_precision;eval_recall;eval_runtime;eval_samples_per_second;eval_steps_per_second;train_runtime;train_samples_per_second;train_steps_per_second;total_flos;train_loss | |
| 0.7155;3.170656681060791;3.3333333333333333e-06;0.2857142857142857;1;;;;;;;;;;;;; | |
| ;;;0.2857142857142857;1;0.7255510687828064;0.1968503937007874;0.04375;0.022364217252396165;1.0;7.3525;51.819;3.264;;;;; | |
| ;;;0.5714285714285714;2;0.7203730940818787;0.2283464566929134;0.04545454545454545;0.023255813953488372;1.0;7.5704;50.328;3.17;;;;; | |
| ;;;0.8571428571428571;3;0.7101789712905884;0.3333333333333333;0.04511278195488722;0.023166023166023165;0.8571428571428571;7.7608;49.093;3.092;;;;; | |
| ;;;1.1428571428571428;4;0.6954057216644287;0.48031496062992124;0.038834951456310676;0.020100502512562814;0.5714285714285714;7.798;48.859;3.078;;;;; | |
| ;;;1.4285714285714286;5;0.6762979626655579;0.7007874015748031;0.049999999999999996;0.02654867256637168;0.42857142857142855;8.2567;46.144;2.907;;;;; | |
| ;;;1.7142857142857144;6;0.6532518267631531;0.8530183727034121;0.034482758620689655;0.0196078431372549;0.14285714285714285;7.127;53.459;3.367;;;;; | |
| ;;;2.0;7;0.6268358826637268;0.958005249343832;0.0;0.0;0.0;7.3211;52.041;3.278;;;;; | |
| ;;;2.2857142857142856;8;0.6016007661819458;0.9816272965879265;0.0;0.0;0.0;8.4314;45.188;2.847;;;;; | |
| ;;;2.571428571428571;9;0.5776201486587524;0.9816272965879265;0.0;0.0;0.0;7.5633;50.375;3.173;;;;; | |
| ;;;2.571428571428571;9;;;;;;;;;133.4632;31.769;0.45;2156353020864.0;0.68766188621521 | |