attn_implementation="sdpa"
{'loss': 0.0588, 'grad_norm': 0.5057047605514526, 'learning_rate': 3.716814159292036e-05, 'epoch': 0.63}
{'loss': 0.0584, 'grad_norm': 0.6064341068267822, 'learning_rate': 3.710874858941617e-05, 'epoch': 0.63}
{'loss': 0.0612, 'grad_norm': 0.3795555531978607, 'learning_rate': 3.704935558591198e-05, 'epoch': 0.63}
{'loss': 0.0556, 'grad_norm': 0.5578441619873047, 'learning_rate': 3.698996258240779e-05, 'epoch': 0.63}
{'loss': 0.0617, 'grad_norm': 0.610724151134491, 'learning_rate': 3.693056957890361e-05, 'epoch': 0.63}
{'loss': 0.0608, 'grad_norm': 0.38639286160469055, 'learning_rate': 3.6871176575399416e-05, 'epoch': 0.63}
{'loss': 0.0562, 'grad_norm': 0.44168621301651, 'learning_rate': 3.681178357189523e-05, 'epoch': 0.63}
{'loss': 0.0574, 'grad_norm': 0.4822819232940674, 'learning_rate': 3.675239056839104e-05, 'epoch': 0.63}
{'loss': 0.0647, 'grad_norm': 0.6242967844009399, 'learning_rate': 3.669299756488686e-05, 'epoch': 0.63}
{'loss': 0.0577, 'grad_norm': 0.5677422881126404, 'learning_rate': 3.663360456138267e-05, 'epoch': 0.63}
{'loss': 0.0533, 'grad_norm': 0.4947672188282013, 'learning_rate': 3.657421155787849e-05, 'epoch': 0.63}
{'loss': 0.0524, 'grad_norm': 0.5620474815368652, 'learning_rate': 3.6514818554374296e-05, 'epoch': 0.63}
{'loss': 0.0571, 'grad_norm': 0.4905765950679779, 'learning_rate': 3.645542555087011e-05, 'epoch': 0.64}
{'loss': 0.0519, 'grad_norm': 0.4158948063850403, 'learning_rate': 3.639603254736592e-05, 'epoch': 0.64}
{'loss': 0.0587, 'grad_norm': 0.6121139526367188, 'learning_rate': 3.6336639543861736e-05, 'epoch': 0.64}
{'loss': 0.0556, 'grad_norm': 0.4305959939956665, 'learning_rate': 3.6277246540357545e-05, 'epoch': 0.64}
{'loss': 0.0631, 'grad_norm': 0.38073986768722534, 'learning_rate': 3.621785353685336e-05, 'epoch': 0.64}
{'loss': 0.0599, 'grad_norm': 0.4709927439689636, 'learning_rate': 3.6158460533349176e-05, 'epoch': 0.64}
{'loss': 0.0614, 'grad_norm': 0.5560064911842346, 'learning_rate': 3.6099067529844985e-05, 'epoch': 0.64}
{'loss': 0.0656, 'grad_norm': 0.6301421523094177, 'learning_rate': 3.60396745263408e-05, 'epoch': 0.64}
{'loss': 0.0551, 'grad_norm': 0.4808245599269867, 'learning_rate': 3.598028152283661e-05, 'epoch': 0.64}
{'loss': 0.0657, 'grad_norm': 0.5999691486358643, 'learning_rate': 3.5920888519332425e-05, 'epoch': 0.64}
{'loss': 0.0599, 'grad_norm': 0.4307262897491455, 'learning_rate': 3.5861495515828233e-05, 'epoch': 0.64}
{'loss': 0.0553, 'grad_norm': 0.47190502285957336, 'learning_rate': 3.580210251232405e-05, 'epoch': 0.64}
{'loss': 0.0551, 'grad_norm': 0.4708324670791626, 'learning_rate': 3.574270950881986e-05, 'epoch': 0.64}
{'loss': 0.0572, 'grad_norm': 0.4548835754394531, 'learning_rate': 3.568331650531568e-05, 'epoch': 0.64}
{'loss': 0.0577, 'grad_norm': 0.5656465888023376, 'learning_rate': 3.562392350181149e-05, 'epoch': 0.64}
{'loss': 0.0647, 'grad_norm': 0.5835095047950745, 'learning_rate': 3.5564530498307304e-05, 'epoch': 0.64}
{'loss': 0.0626, 'grad_norm': 0.5810447931289673, 'learning_rate': 3.550513749480311e-05, 'epoch': 0.65}
{'loss': 0.0611, 'grad_norm': 0.4791465699672699, 'learning_rate': 3.544574449129893e-05, 'epoch': 0.65}
{'loss': 0.0584, 'grad_norm': 0.400995671749115, 'learning_rate': 3.538635148779474e-05, 'epoch': 0.65}
{'loss': 0.0664, 'grad_norm': 0.5097260475158691, 'learning_rate': 3.532695848429055e-05, 'epoch': 0.65}
{'loss': 0.06, 'grad_norm': 0.48384588956832886, 'learning_rate': 3.526756548078636e-05, 'epoch': 0.65}
{'loss': 0.0584, 'grad_norm': 0.528591513633728, 'learning_rate': 3.520817247728218e-05, 'epoch': 0.65}
{'loss': 0.0547, 'grad_norm': 0.4638294577598572, 'learning_rate': 3.514877947377799e-05, 'epoch': 0.65}
- Downloads last month
- 10