| { |
| "best_global_step": 3000, |
| "best_metric": 0.902, |
| "best_model_checkpoint": "./bert_sentiment/checkpoint-3000", |
| "epoch": 2.0, |
| "eval_steps": 500, |
| "global_step": 3000, |
| "is_hyper_param_search": false, |
| "is_local_process_zero": true, |
| "is_world_process_zero": true, |
| "log_history": [ |
| { |
| "epoch": 0.03333333333333333, |
| "grad_norm": 3.479710578918457, |
| "learning_rate": 1.9782222222222226e-05, |
| "loss": 0.7514212799072265, |
| "step": 50 |
| }, |
| { |
| "epoch": 0.06666666666666667, |
| "grad_norm": 4.670628070831299, |
| "learning_rate": 1.9560000000000002e-05, |
| "loss": 0.3902192687988281, |
| "step": 100 |
| }, |
| { |
| "epoch": 0.1, |
| "grad_norm": 5.7589311599731445, |
| "learning_rate": 1.933777777777778e-05, |
| "loss": 0.33949462890625, |
| "step": 150 |
| }, |
| { |
| "epoch": 0.13333333333333333, |
| "grad_norm": 4.067751884460449, |
| "learning_rate": 1.9115555555555555e-05, |
| "loss": 0.33474082946777345, |
| "step": 200 |
| }, |
| { |
| "epoch": 0.16666666666666666, |
| "grad_norm": 3.686368703842163, |
| "learning_rate": 1.8893333333333334e-05, |
| "loss": 0.3177255439758301, |
| "step": 250 |
| }, |
| { |
| "epoch": 0.2, |
| "grad_norm": 6.319432258605957, |
| "learning_rate": 1.8671111111111114e-05, |
| "loss": 0.2812022018432617, |
| "step": 300 |
| }, |
| { |
| "epoch": 0.23333333333333334, |
| "grad_norm": 3.8072714805603027, |
| "learning_rate": 1.844888888888889e-05, |
| "loss": 0.2559480094909668, |
| "step": 350 |
| }, |
| { |
| "epoch": 0.26666666666666666, |
| "grad_norm": 4.523482322692871, |
| "learning_rate": 1.822666666666667e-05, |
| "loss": 0.2626876449584961, |
| "step": 400 |
| }, |
| { |
| "epoch": 0.3, |
| "grad_norm": 2.817197799682617, |
| "learning_rate": 1.8004444444444446e-05, |
| "loss": 0.3256193923950195, |
| "step": 450 |
| }, |
| { |
| "epoch": 0.3333333333333333, |
| "grad_norm": 3.9101459980010986, |
| "learning_rate": 1.7782222222222222e-05, |
| "loss": 0.30728796005249026, |
| "step": 500 |
| }, |
| { |
| "epoch": 0.36666666666666664, |
| "grad_norm": 3.636112689971924, |
| "learning_rate": 1.756e-05, |
| "loss": 0.2814035415649414, |
| "step": 550 |
| }, |
| { |
| "epoch": 0.4, |
| "grad_norm": 4.270909786224365, |
| "learning_rate": 1.733777777777778e-05, |
| "loss": 0.2671175956726074, |
| "step": 600 |
| }, |
| { |
| "epoch": 0.43333333333333335, |
| "grad_norm": 3.5811963081359863, |
| "learning_rate": 1.7115555555555557e-05, |
| "loss": 0.25774858474731444, |
| "step": 650 |
| }, |
| { |
| "epoch": 0.4666666666666667, |
| "grad_norm": 11.455394744873047, |
| "learning_rate": 1.6893333333333336e-05, |
| "loss": 0.27479818344116214, |
| "step": 700 |
| }, |
| { |
| "epoch": 0.5, |
| "grad_norm": 6.1281538009643555, |
| "learning_rate": 1.6671111111111113e-05, |
| "loss": 0.24686885833740235, |
| "step": 750 |
| }, |
| { |
| "epoch": 0.5333333333333333, |
| "grad_norm": 7.202641010284424, |
| "learning_rate": 1.644888888888889e-05, |
| "loss": 0.26539958953857423, |
| "step": 800 |
| }, |
| { |
| "epoch": 0.5666666666666667, |
| "grad_norm": 3.4096128940582275, |
| "learning_rate": 1.6226666666666668e-05, |
| "loss": 0.2481496238708496, |
| "step": 850 |
| }, |
| { |
| "epoch": 0.6, |
| "grad_norm": 7.4319167137146, |
| "learning_rate": 1.6004444444444444e-05, |
| "loss": 0.25358463287353517, |
| "step": 900 |
| }, |
| { |
| "epoch": 0.6333333333333333, |
| "grad_norm": 3.6229159832000732, |
| "learning_rate": 1.5782222222222224e-05, |
| "loss": 0.2626451301574707, |
| "step": 950 |
| }, |
| { |
| "epoch": 0.6666666666666666, |
| "grad_norm": 2.367079734802246, |
| "learning_rate": 1.556e-05, |
| "loss": 0.26292551040649415, |
| "step": 1000 |
| }, |
| { |
| "epoch": 0.7, |
| "grad_norm": 4.4477362632751465, |
| "learning_rate": 1.533777777777778e-05, |
| "loss": 0.24553998947143554, |
| "step": 1050 |
| }, |
| { |
| "epoch": 0.7333333333333333, |
| "grad_norm": 2.3915748596191406, |
| "learning_rate": 1.5115555555555557e-05, |
| "loss": 0.25567365646362306, |
| "step": 1100 |
| }, |
| { |
| "epoch": 0.7666666666666667, |
| "grad_norm": 6.107210636138916, |
| "learning_rate": 1.4893333333333335e-05, |
| "loss": 0.28151472091674806, |
| "step": 1150 |
| }, |
| { |
| "epoch": 0.8, |
| "grad_norm": 3.2168939113616943, |
| "learning_rate": 1.4671111111111111e-05, |
| "loss": 0.24539962768554688, |
| "step": 1200 |
| }, |
| { |
| "epoch": 0.8333333333333334, |
| "grad_norm": 7.0336480140686035, |
| "learning_rate": 1.444888888888889e-05, |
| "loss": 0.23697126388549805, |
| "step": 1250 |
| }, |
| { |
| "epoch": 0.8666666666666667, |
| "grad_norm": 4.812771320343018, |
| "learning_rate": 1.4226666666666669e-05, |
| "loss": 0.25675743103027343, |
| "step": 1300 |
| }, |
| { |
| "epoch": 0.9, |
| "grad_norm": 4.850314617156982, |
| "learning_rate": 1.4004444444444445e-05, |
| "loss": 0.2451687240600586, |
| "step": 1350 |
| }, |
| { |
| "epoch": 0.9333333333333333, |
| "grad_norm": 5.732236385345459, |
| "learning_rate": 1.3782222222222223e-05, |
| "loss": 0.2709473419189453, |
| "step": 1400 |
| }, |
| { |
| "epoch": 0.9666666666666667, |
| "grad_norm": 3.129007577896118, |
| "learning_rate": 1.3560000000000002e-05, |
| "loss": 0.23223379135131836, |
| "step": 1450 |
| }, |
| { |
| "epoch": 1.0, |
| "grad_norm": 3.3871912956237793, |
| "learning_rate": 1.3337777777777778e-05, |
| "loss": 0.232031192779541, |
| "step": 1500 |
| }, |
| { |
| "epoch": 1.0, |
| "eval_accuracy": 0.9003333333333333, |
| "eval_f1_macro": 0.9200494194751014, |
| "eval_loss": 0.2325107902288437, |
| "eval_runtime": 5.2054, |
| "eval_samples_per_second": 1152.659, |
| "eval_steps_per_second": 36.117, |
| "step": 1500 |
| }, |
| { |
| "epoch": 1.0333333333333334, |
| "grad_norm": 2.816903591156006, |
| "learning_rate": 1.3115555555555556e-05, |
| "loss": 0.16037725448608398, |
| "step": 1550 |
| }, |
| { |
| "epoch": 1.0666666666666667, |
| "grad_norm": 4.2907867431640625, |
| "learning_rate": 1.2893333333333336e-05, |
| "loss": 0.18981908798217773, |
| "step": 1600 |
| }, |
| { |
| "epoch": 1.1, |
| "grad_norm": 1.8919950723648071, |
| "learning_rate": 1.2671111111111112e-05, |
| "loss": 0.20456928253173828, |
| "step": 1650 |
| }, |
| { |
| "epoch": 1.1333333333333333, |
| "grad_norm": 7.305306911468506, |
| "learning_rate": 1.244888888888889e-05, |
| "loss": 0.20954521179199218, |
| "step": 1700 |
| }, |
| { |
| "epoch": 1.1666666666666667, |
| "grad_norm": 5.671319484710693, |
| "learning_rate": 1.2226666666666666e-05, |
| "loss": 0.1750396156311035, |
| "step": 1750 |
| }, |
| { |
| "epoch": 1.2, |
| "grad_norm": 3.4403674602508545, |
| "learning_rate": 1.2004444444444445e-05, |
| "loss": 0.1580425262451172, |
| "step": 1800 |
| }, |
| { |
| "epoch": 1.2333333333333334, |
| "grad_norm": 3.180039644241333, |
| "learning_rate": 1.1782222222222223e-05, |
| "loss": 0.1945333671569824, |
| "step": 1850 |
| }, |
| { |
| "epoch": 1.2666666666666666, |
| "grad_norm": 4.131124019622803, |
| "learning_rate": 1.156e-05, |
| "loss": 0.1714198875427246, |
| "step": 1900 |
| }, |
| { |
| "epoch": 1.3, |
| "grad_norm": 4.44835901260376, |
| "learning_rate": 1.1337777777777779e-05, |
| "loss": 0.1797838592529297, |
| "step": 1950 |
| }, |
| { |
| "epoch": 1.3333333333333333, |
| "grad_norm": 8.10306453704834, |
| "learning_rate": 1.1115555555555557e-05, |
| "loss": 0.16566892623901366, |
| "step": 2000 |
| }, |
| { |
| "epoch": 1.3666666666666667, |
| "grad_norm": 2.1913328170776367, |
| "learning_rate": 1.0893333333333333e-05, |
| "loss": 0.19191305160522462, |
| "step": 2050 |
| }, |
| { |
| "epoch": 1.4, |
| "grad_norm": 5.5452961921691895, |
| "learning_rate": 1.0671111111111112e-05, |
| "loss": 0.16953279495239257, |
| "step": 2100 |
| }, |
| { |
| "epoch": 1.4333333333333333, |
| "grad_norm": 6.535331726074219, |
| "learning_rate": 1.044888888888889e-05, |
| "loss": 0.18914375305175782, |
| "step": 2150 |
| }, |
| { |
| "epoch": 1.4666666666666668, |
| "grad_norm": 3.548736572265625, |
| "learning_rate": 1.0226666666666666e-05, |
| "loss": 0.17549373626708983, |
| "step": 2200 |
| }, |
| { |
| "epoch": 1.5, |
| "grad_norm": 6.765810966491699, |
| "learning_rate": 1.0004444444444446e-05, |
| "loss": 0.21416725158691408, |
| "step": 2250 |
| }, |
| { |
| "epoch": 1.5333333333333332, |
| "grad_norm": 4.802906036376953, |
| "learning_rate": 9.782222222222222e-06, |
| "loss": 0.1929642677307129, |
| "step": 2300 |
| }, |
| { |
| "epoch": 1.5666666666666667, |
| "grad_norm": 2.109327554702759, |
| "learning_rate": 9.56e-06, |
| "loss": 0.14835596084594727, |
| "step": 2350 |
| }, |
| { |
| "epoch": 1.6, |
| "grad_norm": 4.239046096801758, |
| "learning_rate": 9.33777777777778e-06, |
| "loss": 0.16386781692504881, |
| "step": 2400 |
| }, |
| { |
| "epoch": 1.6333333333333333, |
| "grad_norm": 4.252853870391846, |
| "learning_rate": 9.115555555555556e-06, |
| "loss": 0.170528564453125, |
| "step": 2450 |
| }, |
| { |
| "epoch": 1.6666666666666665, |
| "grad_norm": 5.925084590911865, |
| "learning_rate": 8.893333333333333e-06, |
| "loss": 0.17361125946044922, |
| "step": 2500 |
| }, |
| { |
| "epoch": 1.7, |
| "grad_norm": 4.021454811096191, |
| "learning_rate": 8.671111111111113e-06, |
| "loss": 0.16607669830322266, |
| "step": 2550 |
| }, |
| { |
| "epoch": 1.7333333333333334, |
| "grad_norm": 2.922668933868408, |
| "learning_rate": 8.448888888888889e-06, |
| "loss": 0.17937726974487306, |
| "step": 2600 |
| }, |
| { |
| "epoch": 1.7666666666666666, |
| "grad_norm": 2.068452835083008, |
| "learning_rate": 8.226666666666667e-06, |
| "loss": 0.16617158889770509, |
| "step": 2650 |
| }, |
| { |
| "epoch": 1.8, |
| "grad_norm": 5.592191696166992, |
| "learning_rate": 8.004444444444445e-06, |
| "loss": 0.1614869499206543, |
| "step": 2700 |
| }, |
| { |
| "epoch": 1.8333333333333335, |
| "grad_norm": 5.648172378540039, |
| "learning_rate": 7.782222222222223e-06, |
| "loss": 0.16185134887695313, |
| "step": 2750 |
| }, |
| { |
| "epoch": 1.8666666666666667, |
| "grad_norm": 6.319865703582764, |
| "learning_rate": 7.5600000000000005e-06, |
| "loss": 0.1830705451965332, |
| "step": 2800 |
| }, |
| { |
| "epoch": 1.9, |
| "grad_norm": 3.4215216636657715, |
| "learning_rate": 7.337777777777778e-06, |
| "loss": 0.16423120498657226, |
| "step": 2850 |
| }, |
| { |
| "epoch": 1.9333333333333333, |
| "grad_norm": 4.172184944152832, |
| "learning_rate": 7.115555555555557e-06, |
| "loss": 0.1997536849975586, |
| "step": 2900 |
| }, |
| { |
| "epoch": 1.9666666666666668, |
| "grad_norm": 5.516648769378662, |
| "learning_rate": 6.893333333333334e-06, |
| "loss": 0.16453321456909178, |
| "step": 2950 |
| }, |
| { |
| "epoch": 2.0, |
| "grad_norm": 7.063965797424316, |
| "learning_rate": 6.671111111111112e-06, |
| "loss": 0.18409488677978517, |
| "step": 3000 |
| }, |
| { |
| "epoch": 2.0, |
| "eval_accuracy": 0.902, |
| "eval_f1_macro": 0.9212950164722656, |
| "eval_loss": 0.25149524211883545, |
| "eval_runtime": 5.176, |
| "eval_samples_per_second": 1159.188, |
| "eval_steps_per_second": 36.321, |
| "step": 3000 |
| } |
| ], |
| "logging_steps": 50, |
| "max_steps": 4500, |
| "num_input_tokens_seen": 0, |
| "num_train_epochs": 3, |
| "save_steps": 500, |
| "stateful_callbacks": { |
| "TrainerControl": { |
| "args": { |
| "should_epoch_stop": false, |
| "should_evaluate": false, |
| "should_log": false, |
| "should_save": true, |
| "should_training_stop": false |
| }, |
| "attributes": {} |
| } |
| }, |
| "total_flos": 3179274264576000.0, |
| "train_batch_size": 32, |
| "trial_name": null, |
| "trial_params": null |
| } |
|
|