Instructions to use Kush26/ember with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Kush26/ember with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="Kush26/ember")# Load model directly from transformers import AutoModelForCausalLM model = AutoModelForCausalLM.from_pretrained("Kush26/ember", dtype="auto") - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- vLLM
How to use Kush26/ember with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "Kush26/ember" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Kush26/ember", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker
docker model run hf.co/Kush26/ember
- SGLang
How to use Kush26/ember with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "Kush26/ember" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Kush26/ember", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "Kush26/ember" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Kush26/ember", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }' - Docker Model Runner
How to use Kush26/ember with Docker Model Runner:
docker model run hf.co/Kush26/ember
| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 0.1, | |
| "eval_steps": 500, | |
| "global_step": 9650, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.00016666666666666666, | |
| "grad_norm": 14.297810554504395, | |
| "learning_rate": 1.3499999999999998e-06, | |
| "loss": 11.175775146484375, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.0003333333333333333, | |
| "grad_norm": 8.92794418334961, | |
| "learning_rate": 2.85e-06, | |
| "loss": 10.527365112304688, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.0005, | |
| "grad_norm": 3.7201273441314697, | |
| "learning_rate": 4.35e-06, | |
| "loss": 9.680557250976562, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.0006666666666666666, | |
| "grad_norm": 3.4802424907684326, | |
| "learning_rate": 5.85e-06, | |
| "loss": 9.302367401123046, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.0008333333333333334, | |
| "grad_norm": 3.940255880355835, | |
| "learning_rate": 7.35e-06, | |
| "loss": 8.909403991699218, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.001, | |
| "grad_norm": 2.993356704711914, | |
| "learning_rate": 8.849999999999998e-06, | |
| "loss": 8.356079864501954, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.0011666666666666668, | |
| "grad_norm": 2.9796433448791504, | |
| "learning_rate": 1.035e-05, | |
| "loss": 7.9435173034667965, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.0013333333333333333, | |
| "grad_norm": 3.0474584102630615, | |
| "learning_rate": 1.1849999999999998e-05, | |
| "loss": 7.6440284729003904, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.0015, | |
| "grad_norm": 2.147731304168701, | |
| "learning_rate": 1.3349999999999998e-05, | |
| "loss": 7.392823791503906, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.0016666666666666668, | |
| "grad_norm": 2.9777767658233643, | |
| "learning_rate": 1.485e-05, | |
| "loss": 7.160243225097656, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.0018333333333333333, | |
| "grad_norm": 3.442213535308838, | |
| "learning_rate": 1.6349999999999998e-05, | |
| "loss": 6.910230255126953, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.002, | |
| "grad_norm": 1.9802011251449585, | |
| "learning_rate": 1.7849999999999997e-05, | |
| "loss": 6.733470916748047, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.0021666666666666666, | |
| "grad_norm": 3.293522357940674, | |
| "learning_rate": 1.935e-05, | |
| "loss": 6.564137268066406, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.0023333333333333335, | |
| "grad_norm": 2.318138599395752, | |
| "learning_rate": 2.085e-05, | |
| "loss": 6.410511779785156, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.0025, | |
| "grad_norm": 1.8537381887435913, | |
| "learning_rate": 2.2349999999999998e-05, | |
| "loss": 6.195587539672852, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.0026666666666666666, | |
| "grad_norm": 2.452784538269043, | |
| "learning_rate": 2.3849999999999997e-05, | |
| "loss": 6.022871398925782, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.0028333333333333335, | |
| "grad_norm": 2.760226011276245, | |
| "learning_rate": 2.535e-05, | |
| "loss": 5.868363952636718, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.003, | |
| "grad_norm": 2.2246060371398926, | |
| "learning_rate": 2.6849999999999995e-05, | |
| "loss": 5.678731918334961, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.0031666666666666666, | |
| "grad_norm": 2.437960386276245, | |
| "learning_rate": 2.8349999999999998e-05, | |
| "loss": 5.5810894012451175, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.0033333333333333335, | |
| "grad_norm": 2.2690577507019043, | |
| "learning_rate": 2.985e-05, | |
| "loss": 5.393305969238281, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.0035, | |
| "grad_norm": 2.249206066131592, | |
| "learning_rate": 3.1349999999999996e-05, | |
| "loss": 5.256457901000976, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.0036666666666666666, | |
| "grad_norm": 2.175391435623169, | |
| "learning_rate": 3.285e-05, | |
| "loss": 5.130535507202149, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.003833333333333333, | |
| "grad_norm": 3.0227811336517334, | |
| "learning_rate": 3.435e-05, | |
| "loss": 5.026712036132812, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.004, | |
| "grad_norm": 3.269705057144165, | |
| "learning_rate": 3.585e-05, | |
| "loss": 4.898946762084961, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 0.004166666666666667, | |
| "grad_norm": 3.4760587215423584, | |
| "learning_rate": 3.735e-05, | |
| "loss": 4.815313720703125, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 0.004333333333333333, | |
| "grad_norm": 3.678823471069336, | |
| "learning_rate": 3.8849999999999996e-05, | |
| "loss": 4.687419128417969, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 0.0045, | |
| "grad_norm": 2.79219913482666, | |
| "learning_rate": 4.035e-05, | |
| "loss": 4.555228042602539, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 0.004666666666666667, | |
| "grad_norm": 3.8011438846588135, | |
| "learning_rate": 4.185e-05, | |
| "loss": 4.465290832519531, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 0.004833333333333334, | |
| "grad_norm": 3.286940813064575, | |
| "learning_rate": 4.334999999999999e-05, | |
| "loss": 4.359551239013672, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 0.005, | |
| "grad_norm": 4.136998176574707, | |
| "learning_rate": 4.484999999999999e-05, | |
| "loss": 4.275360107421875, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 0.005166666666666667, | |
| "grad_norm": 3.4878525733947754, | |
| "learning_rate": 4.6349999999999995e-05, | |
| "loss": 4.186351013183594, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 0.005333333333333333, | |
| "grad_norm": 3.2811970710754395, | |
| "learning_rate": 4.785e-05, | |
| "loss": 4.137750625610352, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 0.0055, | |
| "grad_norm": 3.300088882446289, | |
| "learning_rate": 4.935e-05, | |
| "loss": 4.083171463012695, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 0.005666666666666667, | |
| "grad_norm": 2.9177348613739014, | |
| "learning_rate": 5.0849999999999996e-05, | |
| "loss": 3.978733444213867, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 0.005833333333333334, | |
| "grad_norm": 2.957092523574829, | |
| "learning_rate": 5.234999999999999e-05, | |
| "loss": 3.9336376190185547, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 0.006, | |
| "grad_norm": 2.75334095954895, | |
| "learning_rate": 5.3849999999999994e-05, | |
| "loss": 3.8648487091064454, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 0.006166666666666667, | |
| "grad_norm": 3.36582612991333, | |
| "learning_rate": 5.535e-05, | |
| "loss": 3.8383750915527344, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 0.006333333333333333, | |
| "grad_norm": 3.27022123336792, | |
| "learning_rate": 5.684999999999999e-05, | |
| "loss": 3.8231891632080077, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 0.0065, | |
| "grad_norm": 2.8231465816497803, | |
| "learning_rate": 5.8349999999999995e-05, | |
| "loss": 3.7710498809814452, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 2.8562817573547363, | |
| "learning_rate": 5.985e-05, | |
| "loss": 3.703901672363281, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 0.006833333333333334, | |
| "grad_norm": 2.708444118499756, | |
| "learning_rate": 6.134999999999999e-05, | |
| "loss": 3.690731430053711, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 0.007, | |
| "grad_norm": 2.327440023422241, | |
| "learning_rate": 6.285e-05, | |
| "loss": 3.64001350402832, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 0.007166666666666667, | |
| "grad_norm": 2.3135883808135986, | |
| "learning_rate": 6.434999999999999e-05, | |
| "loss": 3.63990478515625, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 0.007333333333333333, | |
| "grad_norm": 2.6845688819885254, | |
| "learning_rate": 6.584999999999999e-05, | |
| "loss": 3.602303314208984, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 0.0075, | |
| "grad_norm": 2.0262644290924072, | |
| "learning_rate": 6.735e-05, | |
| "loss": 3.5283145904541016, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 0.007666666666666666, | |
| "grad_norm": 2.0807831287384033, | |
| "learning_rate": 6.884999999999999e-05, | |
| "loss": 3.5422496795654297, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 0.007833333333333333, | |
| "grad_norm": 2.4081315994262695, | |
| "learning_rate": 7.034999999999999e-05, | |
| "loss": 3.4911945343017576, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 0.008, | |
| "grad_norm": 1.836987853050232, | |
| "learning_rate": 7.184999999999998e-05, | |
| "loss": 3.4667892456054688, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 0.008166666666666666, | |
| "grad_norm": 2.355318546295166, | |
| "learning_rate": 7.335e-05, | |
| "loss": 3.4672470092773438, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 2.058490037918091, | |
| "learning_rate": 7.484999999999999e-05, | |
| "loss": 3.393095779418945, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 0.0085, | |
| "grad_norm": 2.053673505783081, | |
| "learning_rate": 7.635e-05, | |
| "loss": 3.391928863525391, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 0.008666666666666666, | |
| "grad_norm": 1.780815601348877, | |
| "learning_rate": 7.785e-05, | |
| "loss": 3.407213592529297, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 0.008833333333333334, | |
| "grad_norm": 1.8663444519042969, | |
| "learning_rate": 7.934999999999999e-05, | |
| "loss": 3.3710628509521485, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 0.009, | |
| "grad_norm": 1.9582051038742065, | |
| "learning_rate": 8.085e-05, | |
| "loss": 3.3235591888427733, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 0.009166666666666667, | |
| "grad_norm": 1.972941279411316, | |
| "learning_rate": 8.235e-05, | |
| "loss": 3.288467788696289, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 0.009333333333333334, | |
| "grad_norm": 1.9734792709350586, | |
| "learning_rate": 8.385e-05, | |
| "loss": 3.278826904296875, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 0.0095, | |
| "grad_norm": 1.7474493980407715, | |
| "learning_rate": 8.534999999999999e-05, | |
| "loss": 3.269306182861328, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 0.009666666666666667, | |
| "grad_norm": 1.6593666076660156, | |
| "learning_rate": 8.684999999999998e-05, | |
| "loss": 3.2291339874267577, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 0.009833333333333333, | |
| "grad_norm": 1.6678528785705566, | |
| "learning_rate": 8.834999999999999e-05, | |
| "loss": 3.19910888671875, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 1.7990621328353882, | |
| "learning_rate": 8.984999999999999e-05, | |
| "loss": 3.2183486938476564, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 0.010166666666666666, | |
| "grad_norm": 1.7901487350463867, | |
| "learning_rate": 9.134999999999998e-05, | |
| "loss": 3.1689579010009767, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 0.010333333333333333, | |
| "grad_norm": 1.7504736185073853, | |
| "learning_rate": 9.285e-05, | |
| "loss": 3.166044235229492, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 0.0105, | |
| "grad_norm": 1.5876473188400269, | |
| "learning_rate": 9.434999999999999e-05, | |
| "loss": 3.132395362854004, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 0.010666666666666666, | |
| "grad_norm": 1.4617185592651367, | |
| "learning_rate": 9.585e-05, | |
| "loss": 3.137837791442871, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 0.010833333333333334, | |
| "grad_norm": 1.510992407798767, | |
| "learning_rate": 9.735e-05, | |
| "loss": 3.134562110900879, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 0.011, | |
| "grad_norm": 1.5073765516281128, | |
| "learning_rate": 9.884999999999999e-05, | |
| "loss": 3.1096372604370117, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 0.011166666666666667, | |
| "grad_norm": 1.5816830396652222, | |
| "learning_rate": 0.00010035, | |
| "loss": 3.0559246063232424, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 0.011333333333333334, | |
| "grad_norm": 1.6063289642333984, | |
| "learning_rate": 0.00010185, | |
| "loss": 3.0526498794555663, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 0.0115, | |
| "grad_norm": 1.3957390785217285, | |
| "learning_rate": 0.00010334999999999998, | |
| "loss": 3.047122764587402, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 0.011666666666666667, | |
| "grad_norm": 1.5005953311920166, | |
| "learning_rate": 0.00010484999999999999, | |
| "loss": 3.0388126373291016, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 0.011833333333333333, | |
| "grad_norm": 1.596427083015442, | |
| "learning_rate": 0.00010634999999999998, | |
| "loss": 3.022883415222168, | |
| "step": 710 | |
| }, | |
| { | |
| "epoch": 0.012, | |
| "grad_norm": 1.3984756469726562, | |
| "learning_rate": 0.00010784999999999999, | |
| "loss": 2.978668212890625, | |
| "step": 720 | |
| }, | |
| { | |
| "epoch": 0.012166666666666666, | |
| "grad_norm": 1.2459074258804321, | |
| "learning_rate": 0.00010934999999999999, | |
| "loss": 2.9714258193969725, | |
| "step": 730 | |
| }, | |
| { | |
| "epoch": 0.012333333333333333, | |
| "grad_norm": 1.3867474794387817, | |
| "learning_rate": 0.00011084999999999998, | |
| "loss": 2.9811878204345703, | |
| "step": 740 | |
| }, | |
| { | |
| "epoch": 0.0125, | |
| "grad_norm": 1.3084795475006104, | |
| "learning_rate": 0.00011235, | |
| "loss": 2.9637191772460936, | |
| "step": 750 | |
| }, | |
| { | |
| "epoch": 0.012666666666666666, | |
| "grad_norm": 1.2939265966415405, | |
| "learning_rate": 0.00011384999999999999, | |
| "loss": 2.940631103515625, | |
| "step": 760 | |
| }, | |
| { | |
| "epoch": 0.012833333333333334, | |
| "grad_norm": 1.3884607553482056, | |
| "learning_rate": 0.00011535, | |
| "loss": 2.898904800415039, | |
| "step": 770 | |
| }, | |
| { | |
| "epoch": 0.013, | |
| "grad_norm": 1.10460364818573, | |
| "learning_rate": 0.00011685, | |
| "loss": 2.914503288269043, | |
| "step": 780 | |
| }, | |
| { | |
| "epoch": 0.013166666666666667, | |
| "grad_norm": 1.2655820846557617, | |
| "learning_rate": 0.00011834999999999999, | |
| "loss": 2.895877456665039, | |
| "step": 790 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 1.1122198104858398, | |
| "learning_rate": 0.00011985, | |
| "loss": 2.904026985168457, | |
| "step": 800 | |
| }, | |
| { | |
| "epoch": 0.0135, | |
| "grad_norm": 1.2572715282440186, | |
| "learning_rate": 0.00012135, | |
| "loss": 2.8351789474487306, | |
| "step": 810 | |
| }, | |
| { | |
| "epoch": 0.013666666666666667, | |
| "grad_norm": 1.3550209999084473, | |
| "learning_rate": 0.00012284999999999998, | |
| "loss": 2.8636459350585937, | |
| "step": 820 | |
| }, | |
| { | |
| "epoch": 0.013833333333333333, | |
| "grad_norm": 0.92742520570755, | |
| "learning_rate": 0.00012435, | |
| "loss": 2.8171138763427734, | |
| "step": 830 | |
| }, | |
| { | |
| "epoch": 0.014, | |
| "grad_norm": 1.07759428024292, | |
| "learning_rate": 0.00012585, | |
| "loss": 2.8060197830200195, | |
| "step": 840 | |
| }, | |
| { | |
| "epoch": 0.014166666666666666, | |
| "grad_norm": 1.1448051929473877, | |
| "learning_rate": 0.00012734999999999998, | |
| "loss": 2.795998382568359, | |
| "step": 850 | |
| }, | |
| { | |
| "epoch": 0.014333333333333333, | |
| "grad_norm": 0.9354196190834045, | |
| "learning_rate": 0.00012885, | |
| "loss": 2.768997001647949, | |
| "step": 860 | |
| }, | |
| { | |
| "epoch": 0.0145, | |
| "grad_norm": 1.0693879127502441, | |
| "learning_rate": 0.00013035, | |
| "loss": 2.7732864379882813, | |
| "step": 870 | |
| }, | |
| { | |
| "epoch": 0.014666666666666666, | |
| "grad_norm": 0.9721701145172119, | |
| "learning_rate": 0.00013184999999999998, | |
| "loss": 2.759377288818359, | |
| "step": 880 | |
| }, | |
| { | |
| "epoch": 0.014833333333333334, | |
| "grad_norm": 1.0717929601669312, | |
| "learning_rate": 0.00013335, | |
| "loss": 2.7331707000732424, | |
| "step": 890 | |
| }, | |
| { | |
| "epoch": 0.015, | |
| "grad_norm": 1.0174472332000732, | |
| "learning_rate": 0.00013485, | |
| "loss": 2.7001853942871095, | |
| "step": 900 | |
| }, | |
| { | |
| "epoch": 0.015166666666666667, | |
| "grad_norm": 1.0769199132919312, | |
| "learning_rate": 0.00013634999999999998, | |
| "loss": 2.7025869369506834, | |
| "step": 910 | |
| }, | |
| { | |
| "epoch": 0.015333333333333332, | |
| "grad_norm": 1.1206380128860474, | |
| "learning_rate": 0.00013785, | |
| "loss": 2.694252586364746, | |
| "step": 920 | |
| }, | |
| { | |
| "epoch": 0.0155, | |
| "grad_norm": 0.9890035390853882, | |
| "learning_rate": 0.00013935, | |
| "loss": 2.681113433837891, | |
| "step": 930 | |
| }, | |
| { | |
| "epoch": 0.015666666666666666, | |
| "grad_norm": 1.035932183265686, | |
| "learning_rate": 0.00014084999999999998, | |
| "loss": 2.682352828979492, | |
| "step": 940 | |
| }, | |
| { | |
| "epoch": 0.015833333333333335, | |
| "grad_norm": 0.9429165124893188, | |
| "learning_rate": 0.00014235, | |
| "loss": 2.6295612335205076, | |
| "step": 950 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 0.8270607590675354, | |
| "learning_rate": 0.00014384999999999997, | |
| "loss": 2.6640741348266603, | |
| "step": 960 | |
| }, | |
| { | |
| "epoch": 0.016166666666666666, | |
| "grad_norm": 1.1936181783676147, | |
| "learning_rate": 0.00014534999999999998, | |
| "loss": 2.6394475936889648, | |
| "step": 970 | |
| }, | |
| { | |
| "epoch": 0.01633333333333333, | |
| "grad_norm": 1.0914827585220337, | |
| "learning_rate": 0.00014685, | |
| "loss": 2.6144994735717773, | |
| "step": 980 | |
| }, | |
| { | |
| "epoch": 0.0165, | |
| "grad_norm": 0.8323391675949097, | |
| "learning_rate": 0.00014834999999999997, | |
| "loss": 2.5976608276367186, | |
| "step": 990 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.817717969417572, | |
| "learning_rate": 0.00014984999999999998, | |
| "loss": 2.5982643127441407, | |
| "step": 1000 | |
| }, | |
| { | |
| "epoch": 0.016833333333333332, | |
| "grad_norm": 1.0404084920883179, | |
| "learning_rate": 0.00015134999999999997, | |
| "loss": 2.5767370223999024, | |
| "step": 1010 | |
| }, | |
| { | |
| "epoch": 0.017, | |
| "grad_norm": 0.9311416745185852, | |
| "learning_rate": 0.00015284999999999997, | |
| "loss": 2.565751838684082, | |
| "step": 1020 | |
| }, | |
| { | |
| "epoch": 0.017166666666666667, | |
| "grad_norm": 0.9678856134414673, | |
| "learning_rate": 0.00015434999999999998, | |
| "loss": 2.5317737579345705, | |
| "step": 1030 | |
| }, | |
| { | |
| "epoch": 0.017333333333333333, | |
| "grad_norm": 0.9805819392204285, | |
| "learning_rate": 0.00015584999999999997, | |
| "loss": 2.5258121490478516, | |
| "step": 1040 | |
| }, | |
| { | |
| "epoch": 0.0175, | |
| "grad_norm": 0.7922776341438293, | |
| "learning_rate": 0.00015734999999999998, | |
| "loss": 2.5400224685668946, | |
| "step": 1050 | |
| }, | |
| { | |
| "epoch": 0.017666666666666667, | |
| "grad_norm": 0.8440002202987671, | |
| "learning_rate": 0.00015884999999999999, | |
| "loss": 2.5049901962280274, | |
| "step": 1060 | |
| }, | |
| { | |
| "epoch": 0.017833333333333333, | |
| "grad_norm": 0.8814069032669067, | |
| "learning_rate": 0.00016034999999999997, | |
| "loss": 2.500185012817383, | |
| "step": 1070 | |
| }, | |
| { | |
| "epoch": 0.018, | |
| "grad_norm": 0.7535040378570557, | |
| "learning_rate": 0.00016184999999999998, | |
| "loss": 2.487553596496582, | |
| "step": 1080 | |
| }, | |
| { | |
| "epoch": 0.018166666666666668, | |
| "grad_norm": 1.007371187210083, | |
| "learning_rate": 0.00016334999999999999, | |
| "loss": 2.50408821105957, | |
| "step": 1090 | |
| }, | |
| { | |
| "epoch": 0.018333333333333333, | |
| "grad_norm": 0.7742697596549988, | |
| "learning_rate": 0.00016485, | |
| "loss": 2.5046213150024412, | |
| "step": 1100 | |
| }, | |
| { | |
| "epoch": 0.0185, | |
| "grad_norm": 0.8482025265693665, | |
| "learning_rate": 0.00016634999999999998, | |
| "loss": 2.493575096130371, | |
| "step": 1110 | |
| }, | |
| { | |
| "epoch": 1.0000666666666667, | |
| "grad_norm": 0.7820495963096619, | |
| "learning_rate": 0.00016785, | |
| "loss": 2.706912040710449, | |
| "step": 1120 | |
| }, | |
| { | |
| "epoch": 1.0002333333333333, | |
| "grad_norm": 0.7099973559379578, | |
| "learning_rate": 0.00016935, | |
| "loss": 2.4309906005859374, | |
| "step": 1130 | |
| }, | |
| { | |
| "epoch": 1.0004, | |
| "grad_norm": 0.6877136826515198, | |
| "learning_rate": 0.00017084999999999998, | |
| "loss": 2.449149322509766, | |
| "step": 1140 | |
| }, | |
| { | |
| "epoch": 1.0005666666666666, | |
| "grad_norm": 0.8360202312469482, | |
| "learning_rate": 0.00017235, | |
| "loss": 2.4464847564697267, | |
| "step": 1150 | |
| }, | |
| { | |
| "epoch": 1.0007333333333333, | |
| "grad_norm": 0.7134903073310852, | |
| "learning_rate": 0.00017385, | |
| "loss": 2.430519866943359, | |
| "step": 1160 | |
| }, | |
| { | |
| "epoch": 1.0009, | |
| "grad_norm": 0.9075033664703369, | |
| "learning_rate": 0.00017534999999999998, | |
| "loss": 2.40509033203125, | |
| "step": 1170 | |
| }, | |
| { | |
| "epoch": 1.0010666666666668, | |
| "grad_norm": 0.8332974314689636, | |
| "learning_rate": 0.00017685, | |
| "loss": 2.4284109115600585, | |
| "step": 1180 | |
| }, | |
| { | |
| "epoch": 1.0012333333333334, | |
| "grad_norm": 0.6970870494842529, | |
| "learning_rate": 0.00017835, | |
| "loss": 2.4098472595214844, | |
| "step": 1190 | |
| }, | |
| { | |
| "epoch": 1.0014, | |
| "grad_norm": 0.6665694713592529, | |
| "learning_rate": 0.00017984999999999998, | |
| "loss": 2.395026206970215, | |
| "step": 1200 | |
| }, | |
| { | |
| "epoch": 1.0015666666666667, | |
| "grad_norm": 0.6687540411949158, | |
| "learning_rate": 0.00018135, | |
| "loss": 2.3692419052124025, | |
| "step": 1210 | |
| }, | |
| { | |
| "epoch": 1.0017333333333334, | |
| "grad_norm": 0.8831247687339783, | |
| "learning_rate": 0.00018285, | |
| "loss": 2.3781986236572266, | |
| "step": 1220 | |
| }, | |
| { | |
| "epoch": 1.0019, | |
| "grad_norm": 0.6402927041053772, | |
| "learning_rate": 0.00018435, | |
| "loss": 2.361619567871094, | |
| "step": 1230 | |
| }, | |
| { | |
| "epoch": 1.0020666666666667, | |
| "grad_norm": 0.7041394710540771, | |
| "learning_rate": 0.00018585, | |
| "loss": 2.353261184692383, | |
| "step": 1240 | |
| }, | |
| { | |
| "epoch": 1.0022333333333333, | |
| "grad_norm": 0.7513797283172607, | |
| "learning_rate": 0.00018735, | |
| "loss": 2.3699949264526365, | |
| "step": 1250 | |
| }, | |
| { | |
| "epoch": 1.0024, | |
| "grad_norm": 0.6802843809127808, | |
| "learning_rate": 0.00018884999999999996, | |
| "loss": 2.355624198913574, | |
| "step": 1260 | |
| }, | |
| { | |
| "epoch": 1.0025666666666666, | |
| "grad_norm": 0.6382043361663818, | |
| "learning_rate": 0.00019034999999999996, | |
| "loss": 2.3294889450073244, | |
| "step": 1270 | |
| }, | |
| { | |
| "epoch": 1.0027333333333333, | |
| "grad_norm": 0.7075265645980835, | |
| "learning_rate": 0.00019184999999999997, | |
| "loss": 2.3211458206176756, | |
| "step": 1280 | |
| }, | |
| { | |
| "epoch": 1.0029, | |
| "grad_norm": 0.6168259382247925, | |
| "learning_rate": 0.00019334999999999998, | |
| "loss": 2.303839683532715, | |
| "step": 1290 | |
| }, | |
| { | |
| "epoch": 1.0030666666666668, | |
| "grad_norm": 0.6752699017524719, | |
| "learning_rate": 0.00019484999999999997, | |
| "loss": 2.331635856628418, | |
| "step": 1300 | |
| }, | |
| { | |
| "epoch": 1.0032333333333334, | |
| "grad_norm": 0.7414150238037109, | |
| "learning_rate": 0.00019634999999999998, | |
| "loss": 2.333931541442871, | |
| "step": 1310 | |
| }, | |
| { | |
| "epoch": 1.0034, | |
| "grad_norm": 0.5768128633499146, | |
| "learning_rate": 0.00019784999999999998, | |
| "loss": 2.309197998046875, | |
| "step": 1320 | |
| }, | |
| { | |
| "epoch": 1.0035666666666667, | |
| "grad_norm": 0.7151084542274475, | |
| "learning_rate": 0.00019934999999999997, | |
| "loss": 2.288164520263672, | |
| "step": 1330 | |
| }, | |
| { | |
| "epoch": 1.0037333333333334, | |
| "grad_norm": 0.6732338666915894, | |
| "learning_rate": 0.00020084999999999998, | |
| "loss": 2.295826530456543, | |
| "step": 1340 | |
| }, | |
| { | |
| "epoch": 1.0039, | |
| "grad_norm": 0.6337047219276428, | |
| "learning_rate": 0.00020234999999999999, | |
| "loss": 2.281715965270996, | |
| "step": 1350 | |
| }, | |
| { | |
| "epoch": 1.0040666666666667, | |
| "grad_norm": 0.6295289993286133, | |
| "learning_rate": 0.00020384999999999997, | |
| "loss": 2.2805261611938477, | |
| "step": 1360 | |
| }, | |
| { | |
| "epoch": 1.0042333333333333, | |
| "grad_norm": 0.5674924254417419, | |
| "learning_rate": 0.00020534999999999998, | |
| "loss": 2.276862907409668, | |
| "step": 1370 | |
| }, | |
| { | |
| "epoch": 1.0044, | |
| "grad_norm": 0.8244264721870422, | |
| "learning_rate": 0.00020684999999999999, | |
| "loss": 2.2846065521240235, | |
| "step": 1380 | |
| }, | |
| { | |
| "epoch": 1.0045666666666666, | |
| "grad_norm": 0.5457371473312378, | |
| "learning_rate": 0.00020835, | |
| "loss": 2.2605510711669923, | |
| "step": 1390 | |
| }, | |
| { | |
| "epoch": 1.0047333333333333, | |
| "grad_norm": 0.8645628690719604, | |
| "learning_rate": 0.00020984999999999998, | |
| "loss": 2.2508319854736327, | |
| "step": 1400 | |
| }, | |
| { | |
| "epoch": 1.0049, | |
| "grad_norm": 0.5244976878166199, | |
| "learning_rate": 0.00021135, | |
| "loss": 2.2424762725830076, | |
| "step": 1410 | |
| }, | |
| { | |
| "epoch": 1.0050666666666668, | |
| "grad_norm": 0.6354586482048035, | |
| "learning_rate": 0.00021285, | |
| "loss": 2.2320966720581055, | |
| "step": 1420 | |
| }, | |
| { | |
| "epoch": 1.0052333333333334, | |
| "grad_norm": 0.6979833841323853, | |
| "learning_rate": 0.00021434999999999998, | |
| "loss": 2.2552522659301757, | |
| "step": 1430 | |
| }, | |
| { | |
| "epoch": 1.0054, | |
| "grad_norm": 0.5455880165100098, | |
| "learning_rate": 0.00021585, | |
| "loss": 2.2437259674072267, | |
| "step": 1440 | |
| }, | |
| { | |
| "epoch": 1.0055666666666667, | |
| "grad_norm": 0.8435111045837402, | |
| "learning_rate": 0.00021735, | |
| "loss": 2.249082565307617, | |
| "step": 1450 | |
| }, | |
| { | |
| "epoch": 1.0057333333333334, | |
| "grad_norm": 0.6287665367126465, | |
| "learning_rate": 0.00021884999999999998, | |
| "loss": 2.229854393005371, | |
| "step": 1460 | |
| }, | |
| { | |
| "epoch": 1.0059, | |
| "grad_norm": 0.4953818917274475, | |
| "learning_rate": 0.00022035, | |
| "loss": 2.229512023925781, | |
| "step": 1470 | |
| }, | |
| { | |
| "epoch": 1.0060666666666667, | |
| "grad_norm": 0.5459710955619812, | |
| "learning_rate": 0.00022185, | |
| "loss": 2.207718086242676, | |
| "step": 1480 | |
| }, | |
| { | |
| "epoch": 1.0062333333333333, | |
| "grad_norm": 0.5606301426887512, | |
| "learning_rate": 0.00022335, | |
| "loss": 2.213382911682129, | |
| "step": 1490 | |
| }, | |
| { | |
| "epoch": 1.0064, | |
| "grad_norm": 0.535137951374054, | |
| "learning_rate": 0.00022485, | |
| "loss": 2.2047290802001953, | |
| "step": 1500 | |
| }, | |
| { | |
| "epoch": 1.0065666666666666, | |
| "grad_norm": 0.7108746767044067, | |
| "learning_rate": 0.00022634999999999997, | |
| "loss": 2.2026611328125, | |
| "step": 1510 | |
| }, | |
| { | |
| "epoch": 1.0067333333333333, | |
| "grad_norm": 0.5354933738708496, | |
| "learning_rate": 0.00022784999999999995, | |
| "loss": 2.1966262817382813, | |
| "step": 1520 | |
| }, | |
| { | |
| "epoch": 1.0069, | |
| "grad_norm": 0.5238562822341919, | |
| "learning_rate": 0.00022934999999999996, | |
| "loss": 2.192904472351074, | |
| "step": 1530 | |
| }, | |
| { | |
| "epoch": 1.0070666666666668, | |
| "grad_norm": 0.5200198888778687, | |
| "learning_rate": 0.00023084999999999997, | |
| "loss": 2.1925033569335937, | |
| "step": 1540 | |
| }, | |
| { | |
| "epoch": 1.0072333333333334, | |
| "grad_norm": 0.5277844071388245, | |
| "learning_rate": 0.00023234999999999998, | |
| "loss": 2.1947145462036133, | |
| "step": 1550 | |
| }, | |
| { | |
| "epoch": 1.0074, | |
| "grad_norm": 0.4872555434703827, | |
| "learning_rate": 0.00023384999999999997, | |
| "loss": 2.1701236724853517, | |
| "step": 1560 | |
| }, | |
| { | |
| "epoch": 1.0075666666666667, | |
| "grad_norm": 0.4913088083267212, | |
| "learning_rate": 0.00023534999999999997, | |
| "loss": 2.184732437133789, | |
| "step": 1570 | |
| }, | |
| { | |
| "epoch": 1.0077333333333334, | |
| "grad_norm": 0.5435949563980103, | |
| "learning_rate": 0.00023684999999999998, | |
| "loss": 2.1729846954345704, | |
| "step": 1580 | |
| }, | |
| { | |
| "epoch": 1.0079, | |
| "grad_norm": 0.6295453906059265, | |
| "learning_rate": 0.00023834999999999997, | |
| "loss": 2.192562294006348, | |
| "step": 1590 | |
| }, | |
| { | |
| "epoch": 1.0080666666666667, | |
| "grad_norm": 0.4600837230682373, | |
| "learning_rate": 0.00023984999999999998, | |
| "loss": 2.1549304962158202, | |
| "step": 1600 | |
| }, | |
| { | |
| "epoch": 1.0082333333333333, | |
| "grad_norm": 0.4506412446498871, | |
| "learning_rate": 0.00024134999999999998, | |
| "loss": 2.158854293823242, | |
| "step": 1610 | |
| }, | |
| { | |
| "epoch": 1.0084, | |
| "grad_norm": 0.5208119750022888, | |
| "learning_rate": 0.00024284999999999997, | |
| "loss": 2.1459197998046875, | |
| "step": 1620 | |
| }, | |
| { | |
| "epoch": 1.0085666666666666, | |
| "grad_norm": 0.4893856942653656, | |
| "learning_rate": 0.00024435, | |
| "loss": 2.148777198791504, | |
| "step": 1630 | |
| }, | |
| { | |
| "epoch": 1.0087333333333333, | |
| "grad_norm": 0.4930168688297272, | |
| "learning_rate": 0.00024585, | |
| "loss": 2.125368118286133, | |
| "step": 1640 | |
| }, | |
| { | |
| "epoch": 1.0089, | |
| "grad_norm": 0.4652084410190582, | |
| "learning_rate": 0.00024734999999999997, | |
| "loss": 2.1323593139648436, | |
| "step": 1650 | |
| }, | |
| { | |
| "epoch": 1.0090666666666666, | |
| "grad_norm": 0.5389001965522766, | |
| "learning_rate": 0.00024885, | |
| "loss": 2.135792350769043, | |
| "step": 1660 | |
| }, | |
| { | |
| "epoch": 1.0092333333333334, | |
| "grad_norm": 0.457022100687027, | |
| "learning_rate": 0.00025035, | |
| "loss": 2.1415658950805665, | |
| "step": 1670 | |
| }, | |
| { | |
| "epoch": 1.0094, | |
| "grad_norm": 0.4299754500389099, | |
| "learning_rate": 0.00025184999999999997, | |
| "loss": 2.122327995300293, | |
| "step": 1680 | |
| }, | |
| { | |
| "epoch": 1.0095666666666667, | |
| "grad_norm": 0.4978894889354706, | |
| "learning_rate": 0.00025335, | |
| "loss": 2.1148754119873048, | |
| "step": 1690 | |
| }, | |
| { | |
| "epoch": 1.0097333333333334, | |
| "grad_norm": 0.429126501083374, | |
| "learning_rate": 0.00025485, | |
| "loss": 2.0946537017822267, | |
| "step": 1700 | |
| }, | |
| { | |
| "epoch": 1.0099, | |
| "grad_norm": 0.4430970549583435, | |
| "learning_rate": 0.00025634999999999997, | |
| "loss": 2.113183784484863, | |
| "step": 1710 | |
| }, | |
| { | |
| "epoch": 1.0100666666666667, | |
| "grad_norm": 0.5041225552558899, | |
| "learning_rate": 0.00025785, | |
| "loss": 2.1197893142700197, | |
| "step": 1720 | |
| }, | |
| { | |
| "epoch": 1.0102333333333333, | |
| "grad_norm": 0.44492107629776, | |
| "learning_rate": 0.00025935, | |
| "loss": 2.083152961730957, | |
| "step": 1730 | |
| }, | |
| { | |
| "epoch": 1.0104, | |
| "grad_norm": 0.5288322567939758, | |
| "learning_rate": 0.00026084999999999997, | |
| "loss": 2.099713897705078, | |
| "step": 1740 | |
| }, | |
| { | |
| "epoch": 1.0105666666666666, | |
| "grad_norm": 0.41168212890625, | |
| "learning_rate": 0.00026235, | |
| "loss": 2.0932744979858398, | |
| "step": 1750 | |
| }, | |
| { | |
| "epoch": 1.0107333333333333, | |
| "grad_norm": 0.5603193044662476, | |
| "learning_rate": 0.00026384999999999994, | |
| "loss": 2.094789505004883, | |
| "step": 1760 | |
| }, | |
| { | |
| "epoch": 1.0109, | |
| "grad_norm": 0.5161806344985962, | |
| "learning_rate": 0.00026534999999999997, | |
| "loss": 2.1284894943237305, | |
| "step": 1770 | |
| }, | |
| { | |
| "epoch": 1.0110666666666666, | |
| "grad_norm": 0.41853898763656616, | |
| "learning_rate": 0.00026684999999999995, | |
| "loss": 2.0773319244384765, | |
| "step": 1780 | |
| }, | |
| { | |
| "epoch": 1.0112333333333334, | |
| "grad_norm": 0.5440929532051086, | |
| "learning_rate": 0.00026835, | |
| "loss": 2.084604835510254, | |
| "step": 1790 | |
| }, | |
| { | |
| "epoch": 1.0114, | |
| "grad_norm": 0.40722721815109253, | |
| "learning_rate": 0.00026984999999999997, | |
| "loss": 2.0671564102172852, | |
| "step": 1800 | |
| }, | |
| { | |
| "epoch": 1.0115666666666667, | |
| "grad_norm": 0.41399574279785156, | |
| "learning_rate": 0.00027134999999999995, | |
| "loss": 2.0832889556884764, | |
| "step": 1810 | |
| }, | |
| { | |
| "epoch": 1.0117333333333334, | |
| "grad_norm": 0.49388933181762695, | |
| "learning_rate": 0.00027285, | |
| "loss": 2.075506591796875, | |
| "step": 1820 | |
| }, | |
| { | |
| "epoch": 1.0119, | |
| "grad_norm": 0.4293297827243805, | |
| "learning_rate": 0.00027435, | |
| "loss": 2.0805021286010743, | |
| "step": 1830 | |
| }, | |
| { | |
| "epoch": 1.0120666666666667, | |
| "grad_norm": 0.40732425451278687, | |
| "learning_rate": 0.00027584999999999996, | |
| "loss": 2.049145317077637, | |
| "step": 1840 | |
| }, | |
| { | |
| "epoch": 1.0122333333333333, | |
| "grad_norm": 0.3965112268924713, | |
| "learning_rate": 0.00027735, | |
| "loss": 2.0812307357788087, | |
| "step": 1850 | |
| }, | |
| { | |
| "epoch": 1.0124, | |
| "grad_norm": 0.4156767725944519, | |
| "learning_rate": 0.00027885, | |
| "loss": 2.062709999084473, | |
| "step": 1860 | |
| }, | |
| { | |
| "epoch": 1.0125666666666666, | |
| "grad_norm": 0.471309632062912, | |
| "learning_rate": 0.00028034999999999996, | |
| "loss": 2.068245506286621, | |
| "step": 1870 | |
| }, | |
| { | |
| "epoch": 1.0127333333333333, | |
| "grad_norm": 0.4497111439704895, | |
| "learning_rate": 0.00028185, | |
| "loss": 2.0558444976806642, | |
| "step": 1880 | |
| }, | |
| { | |
| "epoch": 1.0129, | |
| "grad_norm": 0.4482715129852295, | |
| "learning_rate": 0.00028335, | |
| "loss": 2.0624961853027344, | |
| "step": 1890 | |
| }, | |
| { | |
| "epoch": 1.0130666666666666, | |
| "grad_norm": 0.41347697377204895, | |
| "learning_rate": 0.00028484999999999996, | |
| "loss": 2.0406215667724608, | |
| "step": 1900 | |
| }, | |
| { | |
| "epoch": 1.0132333333333334, | |
| "grad_norm": 0.6128464341163635, | |
| "learning_rate": 0.00028635, | |
| "loss": 2.0728612899780274, | |
| "step": 1910 | |
| }, | |
| { | |
| "epoch": 1.0134, | |
| "grad_norm": 0.38494449853897095, | |
| "learning_rate": 0.00028785, | |
| "loss": 2.0554380416870117, | |
| "step": 1920 | |
| }, | |
| { | |
| "epoch": 1.0135666666666667, | |
| "grad_norm": 0.427548885345459, | |
| "learning_rate": 0.00028934999999999996, | |
| "loss": 2.034651756286621, | |
| "step": 1930 | |
| }, | |
| { | |
| "epoch": 1.0137333333333334, | |
| "grad_norm": 0.43239572644233704, | |
| "learning_rate": 0.00029085, | |
| "loss": 2.026533317565918, | |
| "step": 1940 | |
| }, | |
| { | |
| "epoch": 1.0139, | |
| "grad_norm": 0.3870188891887665, | |
| "learning_rate": 0.00029235, | |
| "loss": 2.03892822265625, | |
| "step": 1950 | |
| }, | |
| { | |
| "epoch": 1.0140666666666667, | |
| "grad_norm": 0.406421422958374, | |
| "learning_rate": 0.00029384999999999996, | |
| "loss": 2.0305675506591796, | |
| "step": 1960 | |
| }, | |
| { | |
| "epoch": 1.0142333333333333, | |
| "grad_norm": 0.3901691138744354, | |
| "learning_rate": 0.00029535, | |
| "loss": 2.0243934631347655, | |
| "step": 1970 | |
| }, | |
| { | |
| "epoch": 1.0144, | |
| "grad_norm": 0.3800658881664276, | |
| "learning_rate": 0.00029685, | |
| "loss": 2.023728942871094, | |
| "step": 1980 | |
| }, | |
| { | |
| "epoch": 1.0145666666666666, | |
| "grad_norm": 0.5150614380836487, | |
| "learning_rate": 0.00029835, | |
| "loss": 2.0288442611694335, | |
| "step": 1990 | |
| }, | |
| { | |
| "epoch": 1.0147333333333333, | |
| "grad_norm": 0.3727407455444336, | |
| "learning_rate": 0.00029985, | |
| "loss": 2.025221824645996, | |
| "step": 2000 | |
| }, | |
| { | |
| "epoch": 1.0149, | |
| "grad_norm": 0.4141431152820587, | |
| "learning_rate": 0.0002999999821766214, | |
| "loss": 2.0167604446411134, | |
| "step": 2010 | |
| }, | |
| { | |
| "epoch": 1.0150666666666666, | |
| "grad_norm": 0.37171122431755066, | |
| "learning_rate": 0.0002999999205649478, | |
| "loss": 1.9933094024658202, | |
| "step": 2020 | |
| }, | |
| { | |
| "epoch": 1.0152333333333334, | |
| "grad_norm": 0.3756411671638489, | |
| "learning_rate": 0.0002999998149449555, | |
| "loss": 2.0210105895996096, | |
| "step": 2030 | |
| }, | |
| { | |
| "epoch": 1.0154, | |
| "grad_norm": 0.3639385402202606, | |
| "learning_rate": 0.00029999966531667557, | |
| "loss": 2.0091827392578123, | |
| "step": 2040 | |
| }, | |
| { | |
| "epoch": 1.0155666666666667, | |
| "grad_norm": 0.8484693765640259, | |
| "learning_rate": 0.0002999994716801518, | |
| "loss": 2.0151844024658203, | |
| "step": 2050 | |
| }, | |
| { | |
| "epoch": 1.0157333333333334, | |
| "grad_norm": 0.4140762388706207, | |
| "learning_rate": 0.0002999992340354411, | |
| "loss": 2.024458885192871, | |
| "step": 2060 | |
| }, | |
| { | |
| "epoch": 1.0159, | |
| "grad_norm": 0.3462969660758972, | |
| "learning_rate": 0.00029999895238261314, | |
| "loss": 2.0107778549194335, | |
| "step": 2070 | |
| }, | |
| { | |
| "epoch": 1.0160666666666667, | |
| "grad_norm": 0.3533947765827179, | |
| "learning_rate": 0.0002999986267217506, | |
| "loss": 2.009040641784668, | |
| "step": 2080 | |
| }, | |
| { | |
| "epoch": 1.0162333333333333, | |
| "grad_norm": 0.3650343120098114, | |
| "learning_rate": 0.00029999825705294896, | |
| "loss": 1.992868995666504, | |
| "step": 2090 | |
| }, | |
| { | |
| "epoch": 1.0164, | |
| "grad_norm": 0.3732404410839081, | |
| "learning_rate": 0.0002999978433763167, | |
| "loss": 1.9918212890625, | |
| "step": 2100 | |
| }, | |
| { | |
| "epoch": 1.0165666666666666, | |
| "grad_norm": 0.3752574920654297, | |
| "learning_rate": 0.0002999973856919752, | |
| "loss": 1.99306640625, | |
| "step": 2110 | |
| }, | |
| { | |
| "epoch": 1.0167333333333333, | |
| "grad_norm": 0.3408653438091278, | |
| "learning_rate": 0.0002999968840000588, | |
| "loss": 1.982255744934082, | |
| "step": 2120 | |
| }, | |
| { | |
| "epoch": 1.0169, | |
| "grad_norm": 0.40709778666496277, | |
| "learning_rate": 0.0002999963383007145, | |
| "loss": 1.9962303161621093, | |
| "step": 2130 | |
| }, | |
| { | |
| "epoch": 1.0170666666666666, | |
| "grad_norm": 0.45272234082221985, | |
| "learning_rate": 0.0002999957485941026, | |
| "loss": 1.9663330078125, | |
| "step": 2140 | |
| }, | |
| { | |
| "epoch": 1.0172333333333334, | |
| "grad_norm": 0.3251003921031952, | |
| "learning_rate": 0.00029999511488039605, | |
| "loss": 1.9691213607788085, | |
| "step": 2150 | |
| }, | |
| { | |
| "epoch": 1.0174, | |
| "grad_norm": 0.4428218603134155, | |
| "learning_rate": 0.0002999944371597808, | |
| "loss": 1.958636474609375, | |
| "step": 2160 | |
| }, | |
| { | |
| "epoch": 1.0175666666666667, | |
| "grad_norm": 0.46182894706726074, | |
| "learning_rate": 0.0002999937154324556, | |
| "loss": 1.9858266830444335, | |
| "step": 2170 | |
| }, | |
| { | |
| "epoch": 1.0177333333333334, | |
| "grad_norm": 0.8355538845062256, | |
| "learning_rate": 0.00029999294969863225, | |
| "loss": 1.9517662048339843, | |
| "step": 2180 | |
| }, | |
| { | |
| "epoch": 1.0179, | |
| "grad_norm": 0.3260430097579956, | |
| "learning_rate": 0.00029999213995853544, | |
| "loss": 1.978273582458496, | |
| "step": 2190 | |
| }, | |
| { | |
| "epoch": 1.0180666666666667, | |
| "grad_norm": 0.32824161648750305, | |
| "learning_rate": 0.0002999912862124027, | |
| "loss": 1.9533300399780273, | |
| "step": 2200 | |
| }, | |
| { | |
| "epoch": 1.0182333333333333, | |
| "grad_norm": 0.43425774574279785, | |
| "learning_rate": 0.00029999038846048446, | |
| "loss": 1.9833160400390626, | |
| "step": 2210 | |
| }, | |
| { | |
| "epoch": 1.0184, | |
| "grad_norm": 0.4289158284664154, | |
| "learning_rate": 0.0002999894467030442, | |
| "loss": 1.9894195556640626, | |
| "step": 2220 | |
| }, | |
| { | |
| "epoch": 1.0185666666666666, | |
| "grad_norm": 0.33242323994636536, | |
| "learning_rate": 0.0002999884609403582, | |
| "loss": 1.9739130020141602, | |
| "step": 2230 | |
| }, | |
| { | |
| "epoch": 2.0001333333333333, | |
| "grad_norm": 0.3483293354511261, | |
| "learning_rate": 0.0002999874311727157, | |
| "loss": 2.1391387939453126, | |
| "step": 2240 | |
| }, | |
| { | |
| "epoch": 2.0003, | |
| "grad_norm": 0.4419577717781067, | |
| "learning_rate": 0.0002999863574004187, | |
| "loss": 1.9526805877685547, | |
| "step": 2250 | |
| }, | |
| { | |
| "epoch": 2.0004666666666666, | |
| "grad_norm": 0.32892906665802, | |
| "learning_rate": 0.00029998523962378236, | |
| "loss": 1.9603885650634765, | |
| "step": 2260 | |
| }, | |
| { | |
| "epoch": 2.0006333333333335, | |
| "grad_norm": 0.3562873303890228, | |
| "learning_rate": 0.0002999840778431346, | |
| "loss": 1.9467247009277344, | |
| "step": 2270 | |
| }, | |
| { | |
| "epoch": 2.0008, | |
| "grad_norm": 0.3505720794200897, | |
| "learning_rate": 0.00029998287205881623, | |
| "loss": 1.9456769943237304, | |
| "step": 2280 | |
| }, | |
| { | |
| "epoch": 2.000966666666667, | |
| "grad_norm": 0.4977933466434479, | |
| "learning_rate": 0.000299981622271181, | |
| "loss": 1.9312908172607421, | |
| "step": 2290 | |
| }, | |
| { | |
| "epoch": 2.001133333333333, | |
| "grad_norm": 0.35553523898124695, | |
| "learning_rate": 0.0002999803284805956, | |
| "loss": 1.9541061401367188, | |
| "step": 2300 | |
| }, | |
| { | |
| "epoch": 2.0013, | |
| "grad_norm": 0.3140776753425598, | |
| "learning_rate": 0.0002999789906874397, | |
| "loss": 1.9477697372436524, | |
| "step": 2310 | |
| }, | |
| { | |
| "epoch": 2.0014666666666665, | |
| "grad_norm": 0.3130316138267517, | |
| "learning_rate": 0.0002999776088921058, | |
| "loss": 1.9310338973999024, | |
| "step": 2320 | |
| }, | |
| { | |
| "epoch": 2.0016333333333334, | |
| "grad_norm": 0.31942018866539, | |
| "learning_rate": 0.0002999761830949991, | |
| "loss": 1.918303871154785, | |
| "step": 2330 | |
| }, | |
| { | |
| "epoch": 2.0018, | |
| "grad_norm": 0.33003127574920654, | |
| "learning_rate": 0.0002999747132965381, | |
| "loss": 1.9304985046386718, | |
| "step": 2340 | |
| }, | |
| { | |
| "epoch": 2.0019666666666667, | |
| "grad_norm": 0.3321942389011383, | |
| "learning_rate": 0.0002999731994971539, | |
| "loss": 1.911811065673828, | |
| "step": 2350 | |
| }, | |
| { | |
| "epoch": 2.0021333333333335, | |
| "grad_norm": 0.3409428000450134, | |
| "learning_rate": 0.00029997164169729074, | |
| "loss": 1.9200147628784179, | |
| "step": 2360 | |
| }, | |
| { | |
| "epoch": 2.0023, | |
| "grad_norm": 0.3252435624599457, | |
| "learning_rate": 0.0002999700398974057, | |
| "loss": 1.935724639892578, | |
| "step": 2370 | |
| }, | |
| { | |
| "epoch": 2.002466666666667, | |
| "grad_norm": 0.31721359491348267, | |
| "learning_rate": 0.00029996839409796857, | |
| "loss": 1.9181198120117187, | |
| "step": 2380 | |
| }, | |
| { | |
| "epoch": 2.0026333333333333, | |
| "grad_norm": 0.3215249180793762, | |
| "learning_rate": 0.00029996670429946226, | |
| "loss": 1.8987350463867188, | |
| "step": 2390 | |
| }, | |
| { | |
| "epoch": 2.0028, | |
| "grad_norm": 0.40686535835266113, | |
| "learning_rate": 0.0002999649705023826, | |
| "loss": 1.9019346237182617, | |
| "step": 2400 | |
| }, | |
| { | |
| "epoch": 2.0029666666666666, | |
| "grad_norm": 0.39925655722618103, | |
| "learning_rate": 0.0002999631927072383, | |
| "loss": 1.902694320678711, | |
| "step": 2410 | |
| }, | |
| { | |
| "epoch": 2.0031333333333334, | |
| "grad_norm": 0.31708091497421265, | |
| "learning_rate": 0.00029996137091455077, | |
| "loss": 1.919948196411133, | |
| "step": 2420 | |
| }, | |
| { | |
| "epoch": 2.0033, | |
| "grad_norm": 0.30797794461250305, | |
| "learning_rate": 0.0002999595051248547, | |
| "loss": 1.9114618301391602, | |
| "step": 2430 | |
| }, | |
| { | |
| "epoch": 2.0034666666666667, | |
| "grad_norm": 0.34483590722084045, | |
| "learning_rate": 0.00029995759533869734, | |
| "loss": 1.9047100067138671, | |
| "step": 2440 | |
| }, | |
| { | |
| "epoch": 2.003633333333333, | |
| "grad_norm": 0.3035229742527008, | |
| "learning_rate": 0.0002999556415566391, | |
| "loss": 1.9036048889160155, | |
| "step": 2450 | |
| }, | |
| { | |
| "epoch": 2.0038, | |
| "grad_norm": 0.31910640001296997, | |
| "learning_rate": 0.00029995364377925315, | |
| "loss": 1.8925201416015625, | |
| "step": 2460 | |
| }, | |
| { | |
| "epoch": 2.0039666666666665, | |
| "grad_norm": 0.31238090991973877, | |
| "learning_rate": 0.00029995160200712564, | |
| "loss": 1.8917516708374023, | |
| "step": 2470 | |
| }, | |
| { | |
| "epoch": 2.0041333333333333, | |
| "grad_norm": 0.33110883831977844, | |
| "learning_rate": 0.00029994951624085566, | |
| "loss": 1.9027652740478516, | |
| "step": 2480 | |
| }, | |
| { | |
| "epoch": 2.0043, | |
| "grad_norm": 0.3299698233604431, | |
| "learning_rate": 0.000299947386481055, | |
| "loss": 1.901352882385254, | |
| "step": 2490 | |
| }, | |
| { | |
| "epoch": 2.0044666666666666, | |
| "grad_norm": 0.31205272674560547, | |
| "learning_rate": 0.0002999452127283486, | |
| "loss": 1.8980585098266602, | |
| "step": 2500 | |
| }, | |
| { | |
| "epoch": 2.0046333333333335, | |
| "grad_norm": 0.29499128460884094, | |
| "learning_rate": 0.0002999429949833742, | |
| "loss": 1.8852500915527344, | |
| "step": 2510 | |
| }, | |
| { | |
| "epoch": 2.0048, | |
| "grad_norm": 0.3277484178543091, | |
| "learning_rate": 0.00029994073324678247, | |
| "loss": 1.88719482421875, | |
| "step": 2520 | |
| }, | |
| { | |
| "epoch": 2.004966666666667, | |
| "grad_norm": 0.3019053637981415, | |
| "learning_rate": 0.000299938427519237, | |
| "loss": 1.8691232681274415, | |
| "step": 2530 | |
| }, | |
| { | |
| "epoch": 2.005133333333333, | |
| "grad_norm": 0.2999207079410553, | |
| "learning_rate": 0.0002999360778014143, | |
| "loss": 1.8811899185180665, | |
| "step": 2540 | |
| }, | |
| { | |
| "epoch": 2.0053, | |
| "grad_norm": 0.309031218290329, | |
| "learning_rate": 0.00029993368409400356, | |
| "loss": 1.8907697677612305, | |
| "step": 2550 | |
| }, | |
| { | |
| "epoch": 2.0054666666666665, | |
| "grad_norm": 0.30694296956062317, | |
| "learning_rate": 0.0002999312463977073, | |
| "loss": 1.8924570083618164, | |
| "step": 2560 | |
| }, | |
| { | |
| "epoch": 2.0056333333333334, | |
| "grad_norm": 0.2894775867462158, | |
| "learning_rate": 0.00029992876471324057, | |
| "loss": 1.8695192337036133, | |
| "step": 2570 | |
| }, | |
| { | |
| "epoch": 2.0058, | |
| "grad_norm": 0.2997623085975647, | |
| "learning_rate": 0.00029992623904133154, | |
| "loss": 1.8780364990234375, | |
| "step": 2580 | |
| }, | |
| { | |
| "epoch": 2.0059666666666667, | |
| "grad_norm": 0.33627018332481384, | |
| "learning_rate": 0.00029992366938272114, | |
| "loss": 1.8802318572998047, | |
| "step": 2590 | |
| }, | |
| { | |
| "epoch": 2.0061333333333335, | |
| "grad_norm": 0.305471271276474, | |
| "learning_rate": 0.00029992105573816336, | |
| "loss": 1.8689495086669923, | |
| "step": 2600 | |
| }, | |
| { | |
| "epoch": 2.0063, | |
| "grad_norm": 0.3067426085472107, | |
| "learning_rate": 0.000299918398108425, | |
| "loss": 1.8797239303588866, | |
| "step": 2610 | |
| }, | |
| { | |
| "epoch": 2.006466666666667, | |
| "grad_norm": 0.30758461356163025, | |
| "learning_rate": 0.00029991569649428574, | |
| "loss": 1.8528533935546876, | |
| "step": 2620 | |
| }, | |
| { | |
| "epoch": 2.0066333333333333, | |
| "grad_norm": 0.39458268880844116, | |
| "learning_rate": 0.00029991295089653827, | |
| "loss": 1.8724189758300782, | |
| "step": 2630 | |
| }, | |
| { | |
| "epoch": 2.0068, | |
| "grad_norm": 0.33424311876296997, | |
| "learning_rate": 0.000299910161315988, | |
| "loss": 1.8637022018432616, | |
| "step": 2640 | |
| }, | |
| { | |
| "epoch": 2.0069666666666666, | |
| "grad_norm": 0.3854370415210724, | |
| "learning_rate": 0.0002999073277534534, | |
| "loss": 1.8546772003173828, | |
| "step": 2650 | |
| }, | |
| { | |
| "epoch": 2.0071333333333334, | |
| "grad_norm": 0.3321525752544403, | |
| "learning_rate": 0.00029990445020976593, | |
| "loss": 1.8813508987426757, | |
| "step": 2660 | |
| }, | |
| { | |
| "epoch": 2.0073, | |
| "grad_norm": 0.5437219142913818, | |
| "learning_rate": 0.00029990152868576974, | |
| "loss": 1.8557924270629882, | |
| "step": 2670 | |
| }, | |
| { | |
| "epoch": 2.0074666666666667, | |
| "grad_norm": 0.29385554790496826, | |
| "learning_rate": 0.00029989856318232195, | |
| "loss": 1.8538352966308593, | |
| "step": 2680 | |
| }, | |
| { | |
| "epoch": 2.007633333333333, | |
| "grad_norm": 0.28902414441108704, | |
| "learning_rate": 0.0002998955537002926, | |
| "loss": 1.867183303833008, | |
| "step": 2690 | |
| }, | |
| { | |
| "epoch": 2.0078, | |
| "grad_norm": 0.3079817593097687, | |
| "learning_rate": 0.0002998925002405647, | |
| "loss": 1.8617700576782226, | |
| "step": 2700 | |
| }, | |
| { | |
| "epoch": 2.0079666666666665, | |
| "grad_norm": 0.31161582469940186, | |
| "learning_rate": 0.00029988940280403407, | |
| "loss": 1.850856399536133, | |
| "step": 2710 | |
| }, | |
| { | |
| "epoch": 2.0081333333333333, | |
| "grad_norm": 0.2734602689743042, | |
| "learning_rate": 0.00029988626139160944, | |
| "loss": 1.8329235076904298, | |
| "step": 2720 | |
| }, | |
| { | |
| "epoch": 2.0083, | |
| "grad_norm": 0.29510024189949036, | |
| "learning_rate": 0.00029988307600421245, | |
| "loss": 1.8493413925170898, | |
| "step": 2730 | |
| }, | |
| { | |
| "epoch": 2.0084666666666666, | |
| "grad_norm": 0.3101499676704407, | |
| "learning_rate": 0.00029987984664277777, | |
| "loss": 1.837864875793457, | |
| "step": 2740 | |
| }, | |
| { | |
| "epoch": 2.0086333333333335, | |
| "grad_norm": 0.29377278685569763, | |
| "learning_rate": 0.0002998765733082528, | |
| "loss": 1.8344387054443358, | |
| "step": 2750 | |
| }, | |
| { | |
| "epoch": 2.0088, | |
| "grad_norm": 0.367495596408844, | |
| "learning_rate": 0.0002998732560015978, | |
| "loss": 1.8256048202514648, | |
| "step": 2760 | |
| }, | |
| { | |
| "epoch": 2.008966666666667, | |
| "grad_norm": 0.8747866749763489, | |
| "learning_rate": 0.00029986989472378613, | |
| "loss": 1.8315084457397461, | |
| "step": 2770 | |
| }, | |
| { | |
| "epoch": 2.009133333333333, | |
| "grad_norm": 0.3131991922855377, | |
| "learning_rate": 0.000299866489475804, | |
| "loss": 1.8437740325927734, | |
| "step": 2780 | |
| }, | |
| { | |
| "epoch": 2.0093, | |
| "grad_norm": 0.30495911836624146, | |
| "learning_rate": 0.00029986304025865035, | |
| "loss": 1.8268943786621095, | |
| "step": 2790 | |
| }, | |
| { | |
| "epoch": 2.0094666666666665, | |
| "grad_norm": 0.2781303822994232, | |
| "learning_rate": 0.00029985954707333724, | |
| "loss": 1.8243549346923829, | |
| "step": 2800 | |
| }, | |
| { | |
| "epoch": 2.0096333333333334, | |
| "grad_norm": 0.31482452154159546, | |
| "learning_rate": 0.00029985600992088945, | |
| "loss": 1.8155588150024413, | |
| "step": 2810 | |
| }, | |
| { | |
| "epoch": 2.0098, | |
| "grad_norm": 0.3138728141784668, | |
| "learning_rate": 0.00029985242880234484, | |
| "loss": 1.811925506591797, | |
| "step": 2820 | |
| }, | |
| { | |
| "epoch": 2.0099666666666667, | |
| "grad_norm": 0.2919290065765381, | |
| "learning_rate": 0.00029984880371875395, | |
| "loss": 1.8293731689453125, | |
| "step": 2830 | |
| }, | |
| { | |
| "epoch": 2.0101333333333335, | |
| "grad_norm": 0.2963739335536957, | |
| "learning_rate": 0.00029984513467118043, | |
| "loss": 1.8097396850585938, | |
| "step": 2840 | |
| }, | |
| { | |
| "epoch": 2.0103, | |
| "grad_norm": 0.2968748211860657, | |
| "learning_rate": 0.00029984142166070073, | |
| "loss": 1.8181087493896484, | |
| "step": 2850 | |
| }, | |
| { | |
| "epoch": 2.010466666666667, | |
| "grad_norm": 0.32753726840019226, | |
| "learning_rate": 0.0002998376646884042, | |
| "loss": 1.8085901260375976, | |
| "step": 2860 | |
| }, | |
| { | |
| "epoch": 2.0106333333333333, | |
| "grad_norm": 0.332154244184494, | |
| "learning_rate": 0.00029983386375539306, | |
| "loss": 1.8173376083374024, | |
| "step": 2870 | |
| }, | |
| { | |
| "epoch": 2.0108, | |
| "grad_norm": 0.30764803290367126, | |
| "learning_rate": 0.0002998300188627825, | |
| "loss": 1.8258855819702149, | |
| "step": 2880 | |
| }, | |
| { | |
| "epoch": 2.0109666666666666, | |
| "grad_norm": 0.2808578312397003, | |
| "learning_rate": 0.0002998261300117005, | |
| "loss": 1.824087905883789, | |
| "step": 2890 | |
| }, | |
| { | |
| "epoch": 2.0111333333333334, | |
| "grad_norm": 0.2978729009628296, | |
| "learning_rate": 0.00029982219720328814, | |
| "loss": 1.7921815872192384, | |
| "step": 2900 | |
| }, | |
| { | |
| "epoch": 2.0113, | |
| "grad_norm": 0.2905280292034149, | |
| "learning_rate": 0.0002998182204386991, | |
| "loss": 1.8095476150512695, | |
| "step": 2910 | |
| }, | |
| { | |
| "epoch": 2.0114666666666667, | |
| "grad_norm": 0.2959212064743042, | |
| "learning_rate": 0.0002998141997191003, | |
| "loss": 1.8007658004760743, | |
| "step": 2920 | |
| }, | |
| { | |
| "epoch": 2.011633333333333, | |
| "grad_norm": 0.29560765624046326, | |
| "learning_rate": 0.0002998101350456712, | |
| "loss": 1.8038867950439452, | |
| "step": 2930 | |
| }, | |
| { | |
| "epoch": 2.0118, | |
| "grad_norm": 0.35846570134162903, | |
| "learning_rate": 0.0002998060264196044, | |
| "loss": 1.8145381927490234, | |
| "step": 2940 | |
| }, | |
| { | |
| "epoch": 2.0119666666666665, | |
| "grad_norm": 0.2926178276538849, | |
| "learning_rate": 0.00029980187384210543, | |
| "loss": 1.7917072296142578, | |
| "step": 2950 | |
| }, | |
| { | |
| "epoch": 2.0121333333333333, | |
| "grad_norm": 0.3068349063396454, | |
| "learning_rate": 0.00029979767731439243, | |
| "loss": 1.7924629211425782, | |
| "step": 2960 | |
| }, | |
| { | |
| "epoch": 2.0123, | |
| "grad_norm": 0.2997657358646393, | |
| "learning_rate": 0.0002997934368376967, | |
| "loss": 1.8075037002563477, | |
| "step": 2970 | |
| }, | |
| { | |
| "epoch": 2.0124666666666666, | |
| "grad_norm": 0.30741429328918457, | |
| "learning_rate": 0.0002997891524132623, | |
| "loss": 1.7943035125732423, | |
| "step": 2980 | |
| }, | |
| { | |
| "epoch": 2.0126333333333335, | |
| "grad_norm": 0.2987091541290283, | |
| "learning_rate": 0.0002997848240423464, | |
| "loss": 1.8019412994384765, | |
| "step": 2990 | |
| }, | |
| { | |
| "epoch": 2.0128, | |
| "grad_norm": 0.30597877502441406, | |
| "learning_rate": 0.0002997804517262187, | |
| "loss": 1.7804391860961915, | |
| "step": 3000 | |
| }, | |
| { | |
| "epoch": 2.012966666666667, | |
| "grad_norm": 0.30425113439559937, | |
| "learning_rate": 0.00029977603546616204, | |
| "loss": 1.7919233322143555, | |
| "step": 3010 | |
| }, | |
| { | |
| "epoch": 2.013133333333333, | |
| "grad_norm": 0.29537034034729004, | |
| "learning_rate": 0.0002997715752634722, | |
| "loss": 1.7906463623046875, | |
| "step": 3020 | |
| }, | |
| { | |
| "epoch": 2.0133, | |
| "grad_norm": 0.31160587072372437, | |
| "learning_rate": 0.00029976707111945765, | |
| "loss": 1.8006792068481445, | |
| "step": 3030 | |
| }, | |
| { | |
| "epoch": 2.0134666666666665, | |
| "grad_norm": 0.2768838107585907, | |
| "learning_rate": 0.00029976252303543985, | |
| "loss": 1.7734039306640625, | |
| "step": 3040 | |
| }, | |
| { | |
| "epoch": 2.0136333333333334, | |
| "grad_norm": 0.34434473514556885, | |
| "learning_rate": 0.0002997579310127532, | |
| "loss": 1.790645217895508, | |
| "step": 3050 | |
| }, | |
| { | |
| "epoch": 2.0138, | |
| "grad_norm": 0.3175096809864044, | |
| "learning_rate": 0.000299753295052745, | |
| "loss": 1.776620101928711, | |
| "step": 3060 | |
| }, | |
| { | |
| "epoch": 2.0139666666666667, | |
| "grad_norm": 0.27720019221305847, | |
| "learning_rate": 0.00029974861515677525, | |
| "loss": 1.7714349746704101, | |
| "step": 3070 | |
| }, | |
| { | |
| "epoch": 2.0141333333333336, | |
| "grad_norm": 0.3595098853111267, | |
| "learning_rate": 0.00029974389132621715, | |
| "loss": 1.7710906982421875, | |
| "step": 3080 | |
| }, | |
| { | |
| "epoch": 2.0143, | |
| "grad_norm": 0.33949705958366394, | |
| "learning_rate": 0.0002997391235624565, | |
| "loss": 1.7787233352661134, | |
| "step": 3090 | |
| }, | |
| { | |
| "epoch": 2.014466666666667, | |
| "grad_norm": 0.29317399859428406, | |
| "learning_rate": 0.0002997343118668921, | |
| "loss": 1.7712892532348632, | |
| "step": 3100 | |
| }, | |
| { | |
| "epoch": 2.0146333333333333, | |
| "grad_norm": 0.29205620288848877, | |
| "learning_rate": 0.0002997294562409357, | |
| "loss": 1.7849128723144532, | |
| "step": 3110 | |
| }, | |
| { | |
| "epoch": 2.0148, | |
| "grad_norm": 0.3042508065700531, | |
| "learning_rate": 0.00029972455668601187, | |
| "loss": 1.7632179260253906, | |
| "step": 3120 | |
| }, | |
| { | |
| "epoch": 2.0149666666666666, | |
| "grad_norm": 0.2817091941833496, | |
| "learning_rate": 0.0002997196132035581, | |
| "loss": 1.7586166381835937, | |
| "step": 3130 | |
| }, | |
| { | |
| "epoch": 2.0151333333333334, | |
| "grad_norm": 0.2994356155395508, | |
| "learning_rate": 0.00029971462579502477, | |
| "loss": 1.765203094482422, | |
| "step": 3140 | |
| }, | |
| { | |
| "epoch": 2.0153, | |
| "grad_norm": 0.34546980261802673, | |
| "learning_rate": 0.00029970959446187507, | |
| "loss": 1.7686321258544921, | |
| "step": 3150 | |
| }, | |
| { | |
| "epoch": 2.0154666666666667, | |
| "grad_norm": 0.29304182529449463, | |
| "learning_rate": 0.0002997045192055852, | |
| "loss": 1.7579254150390624, | |
| "step": 3160 | |
| }, | |
| { | |
| "epoch": 2.015633333333333, | |
| "grad_norm": 0.2991744577884674, | |
| "learning_rate": 0.00029969940002764415, | |
| "loss": 1.7774200439453125, | |
| "step": 3170 | |
| }, | |
| { | |
| "epoch": 2.0158, | |
| "grad_norm": 0.2959384024143219, | |
| "learning_rate": 0.0002996942369295538, | |
| "loss": 1.7614059448242188, | |
| "step": 3180 | |
| }, | |
| { | |
| "epoch": 2.0159666666666665, | |
| "grad_norm": 0.27773720026016235, | |
| "learning_rate": 0.000299689029912829, | |
| "loss": 1.7697029113769531, | |
| "step": 3190 | |
| }, | |
| { | |
| "epoch": 2.0161333333333333, | |
| "grad_norm": 0.32048192620277405, | |
| "learning_rate": 0.0002996837789789975, | |
| "loss": 1.7673730850219727, | |
| "step": 3200 | |
| }, | |
| { | |
| "epoch": 2.0163, | |
| "grad_norm": 0.29490071535110474, | |
| "learning_rate": 0.0002996784841295997, | |
| "loss": 1.754742431640625, | |
| "step": 3210 | |
| }, | |
| { | |
| "epoch": 2.0164666666666666, | |
| "grad_norm": 0.30989086627960205, | |
| "learning_rate": 0.0002996731453661891, | |
| "loss": 1.7523395538330078, | |
| "step": 3220 | |
| }, | |
| { | |
| "epoch": 2.0166333333333335, | |
| "grad_norm": 0.28182804584503174, | |
| "learning_rate": 0.0002996677626903321, | |
| "loss": 1.761356735229492, | |
| "step": 3230 | |
| }, | |
| { | |
| "epoch": 2.0168, | |
| "grad_norm": 0.3071010112762451, | |
| "learning_rate": 0.0002996623361036079, | |
| "loss": 1.7489625930786132, | |
| "step": 3240 | |
| }, | |
| { | |
| "epoch": 2.016966666666667, | |
| "grad_norm": 0.3243575096130371, | |
| "learning_rate": 0.0002996568656076085, | |
| "loss": 1.7530878067016602, | |
| "step": 3250 | |
| }, | |
| { | |
| "epoch": 2.0171333333333332, | |
| "grad_norm": 0.30851274728775024, | |
| "learning_rate": 0.0002996513512039391, | |
| "loss": 1.7365777969360352, | |
| "step": 3260 | |
| }, | |
| { | |
| "epoch": 2.0173, | |
| "grad_norm": 0.31781646609306335, | |
| "learning_rate": 0.0002996457928942173, | |
| "loss": 1.7379327774047852, | |
| "step": 3270 | |
| }, | |
| { | |
| "epoch": 2.0174666666666665, | |
| "grad_norm": 0.30550727248191833, | |
| "learning_rate": 0.0002996401906800741, | |
| "loss": 1.748966598510742, | |
| "step": 3280 | |
| }, | |
| { | |
| "epoch": 2.0176333333333334, | |
| "grad_norm": 0.30173051357269287, | |
| "learning_rate": 0.0002996345445631529, | |
| "loss": 1.7401952743530273, | |
| "step": 3290 | |
| }, | |
| { | |
| "epoch": 2.0178, | |
| "grad_norm": 0.29951369762420654, | |
| "learning_rate": 0.0002996288545451103, | |
| "loss": 1.7343709945678711, | |
| "step": 3300 | |
| }, | |
| { | |
| "epoch": 2.0179666666666667, | |
| "grad_norm": 0.27360084652900696, | |
| "learning_rate": 0.0002996231206276158, | |
| "loss": 1.7397294998168946, | |
| "step": 3310 | |
| }, | |
| { | |
| "epoch": 2.018133333333333, | |
| "grad_norm": 0.30762919783592224, | |
| "learning_rate": 0.00029961734281235155, | |
| "loss": 1.7346086502075195, | |
| "step": 3320 | |
| }, | |
| { | |
| "epoch": 2.0183, | |
| "grad_norm": 0.30437207221984863, | |
| "learning_rate": 0.0002996115211010127, | |
| "loss": 1.7656745910644531, | |
| "step": 3330 | |
| }, | |
| { | |
| "epoch": 2.018466666666667, | |
| "grad_norm": 0.2910079061985016, | |
| "learning_rate": 0.0002996056554953073, | |
| "loss": 1.7637361526489257, | |
| "step": 3340 | |
| }, | |
| { | |
| "epoch": 3.0000333333333336, | |
| "grad_norm": 0.5841907858848572, | |
| "learning_rate": 0.00029959974599695616, | |
| "loss": 1.8916559219360352, | |
| "step": 3350 | |
| }, | |
| { | |
| "epoch": 3.0002, | |
| "grad_norm": 0.30715465545654297, | |
| "learning_rate": 0.00029959379260769325, | |
| "loss": 1.734269905090332, | |
| "step": 3360 | |
| }, | |
| { | |
| "epoch": 3.000366666666667, | |
| "grad_norm": 0.2890932559967041, | |
| "learning_rate": 0.00029958779532926504, | |
| "loss": 1.737888717651367, | |
| "step": 3370 | |
| }, | |
| { | |
| "epoch": 3.0005333333333333, | |
| "grad_norm": 0.2667240500450134, | |
| "learning_rate": 0.00029958175416343124, | |
| "loss": 1.7341463088989257, | |
| "step": 3380 | |
| }, | |
| { | |
| "epoch": 3.0007, | |
| "grad_norm": 0.28347086906433105, | |
| "learning_rate": 0.00029957566911196414, | |
| "loss": 1.7401607513427735, | |
| "step": 3390 | |
| }, | |
| { | |
| "epoch": 3.0008666666666666, | |
| "grad_norm": 0.29408538341522217, | |
| "learning_rate": 0.00029956954017664903, | |
| "loss": 1.7225614547729493, | |
| "step": 3400 | |
| }, | |
| { | |
| "epoch": 3.0010333333333334, | |
| "grad_norm": 0.30668047070503235, | |
| "learning_rate": 0.0002995633673592841, | |
| "loss": 1.7230432510375977, | |
| "step": 3410 | |
| }, | |
| { | |
| "epoch": 3.0012, | |
| "grad_norm": 0.2996319830417633, | |
| "learning_rate": 0.00029955715066168044, | |
| "loss": 1.7335132598876952, | |
| "step": 3420 | |
| }, | |
| { | |
| "epoch": 3.0013666666666667, | |
| "grad_norm": 0.2857902944087982, | |
| "learning_rate": 0.00029955089008566185, | |
| "loss": 1.7325157165527343, | |
| "step": 3430 | |
| }, | |
| { | |
| "epoch": 3.001533333333333, | |
| "grad_norm": 0.3037016987800598, | |
| "learning_rate": 0.0002995445856330652, | |
| "loss": 1.7197406768798829, | |
| "step": 3440 | |
| }, | |
| { | |
| "epoch": 3.0017, | |
| "grad_norm": 0.2963092029094696, | |
| "learning_rate": 0.0002995382373057401, | |
| "loss": 1.722641372680664, | |
| "step": 3450 | |
| }, | |
| { | |
| "epoch": 3.0018666666666665, | |
| "grad_norm": 0.3075854182243347, | |
| "learning_rate": 0.0002995318451055492, | |
| "loss": 1.7070884704589844, | |
| "step": 3460 | |
| }, | |
| { | |
| "epoch": 3.0020333333333333, | |
| "grad_norm": 0.334443062543869, | |
| "learning_rate": 0.0002995254090343677, | |
| "loss": 1.7077157974243165, | |
| "step": 3470 | |
| }, | |
| { | |
| "epoch": 3.0022, | |
| "grad_norm": 0.3198912441730499, | |
| "learning_rate": 0.0002995189290940839, | |
| "loss": 1.730832290649414, | |
| "step": 3480 | |
| }, | |
| { | |
| "epoch": 3.0023666666666666, | |
| "grad_norm": 0.29788824915885925, | |
| "learning_rate": 0.00029951240528659914, | |
| "loss": 1.717129898071289, | |
| "step": 3490 | |
| }, | |
| { | |
| "epoch": 3.0025333333333335, | |
| "grad_norm": 0.31315430998802185, | |
| "learning_rate": 0.0002995058376138273, | |
| "loss": 1.7042694091796875, | |
| "step": 3500 | |
| }, | |
| { | |
| "epoch": 3.0027, | |
| "grad_norm": 0.2997714579105377, | |
| "learning_rate": 0.00029949922607769525, | |
| "loss": 1.6981151580810547, | |
| "step": 3510 | |
| }, | |
| { | |
| "epoch": 3.002866666666667, | |
| "grad_norm": 0.49318060278892517, | |
| "learning_rate": 0.00029949257068014273, | |
| "loss": 1.6965030670166015, | |
| "step": 3520 | |
| }, | |
| { | |
| "epoch": 3.003033333333333, | |
| "grad_norm": 0.302224338054657, | |
| "learning_rate": 0.0002994858714231224, | |
| "loss": 1.716214942932129, | |
| "step": 3530 | |
| }, | |
| { | |
| "epoch": 3.0032, | |
| "grad_norm": 0.33403024077415466, | |
| "learning_rate": 0.00029947912830859976, | |
| "loss": 1.7219301223754884, | |
| "step": 3540 | |
| }, | |
| { | |
| "epoch": 3.0033666666666665, | |
| "grad_norm": 0.3228297233581543, | |
| "learning_rate": 0.0002994723413385531, | |
| "loss": 1.7075923919677733, | |
| "step": 3550 | |
| }, | |
| { | |
| "epoch": 3.0035333333333334, | |
| "grad_norm": 0.2840413749217987, | |
| "learning_rate": 0.0002994655105149737, | |
| "loss": 1.7017856597900392, | |
| "step": 3560 | |
| }, | |
| { | |
| "epoch": 3.0037, | |
| "grad_norm": 0.2929494380950928, | |
| "learning_rate": 0.00029945863583986563, | |
| "loss": 1.7047229766845704, | |
| "step": 3570 | |
| }, | |
| { | |
| "epoch": 3.0038666666666667, | |
| "grad_norm": 0.2888146638870239, | |
| "learning_rate": 0.0002994517173152459, | |
| "loss": 1.696831512451172, | |
| "step": 3580 | |
| }, | |
| { | |
| "epoch": 3.004033333333333, | |
| "grad_norm": 0.3097553849220276, | |
| "learning_rate": 0.00029944475494314424, | |
| "loss": 1.6922567367553711, | |
| "step": 3590 | |
| }, | |
| { | |
| "epoch": 3.0042, | |
| "grad_norm": 0.2964254915714264, | |
| "learning_rate": 0.0002994377487256034, | |
| "loss": 1.7038848876953125, | |
| "step": 3600 | |
| }, | |
| { | |
| "epoch": 3.004366666666667, | |
| "grad_norm": 0.33456939458847046, | |
| "learning_rate": 0.00029943069866467884, | |
| "loss": 1.716048240661621, | |
| "step": 3610 | |
| }, | |
| { | |
| "epoch": 3.0045333333333333, | |
| "grad_norm": 0.315708190202713, | |
| "learning_rate": 0.00029942360476243907, | |
| "loss": 1.699909782409668, | |
| "step": 3620 | |
| }, | |
| { | |
| "epoch": 3.0047, | |
| "grad_norm": 0.31560301780700684, | |
| "learning_rate": 0.0002994164670209653, | |
| "loss": 1.6968250274658203, | |
| "step": 3630 | |
| }, | |
| { | |
| "epoch": 3.0048666666666666, | |
| "grad_norm": 0.30578115582466125, | |
| "learning_rate": 0.0002994092854423517, | |
| "loss": 1.6915258407592773, | |
| "step": 3640 | |
| }, | |
| { | |
| "epoch": 3.0050333333333334, | |
| "grad_norm": 0.295392781496048, | |
| "learning_rate": 0.0002994020600287052, | |
| "loss": 1.6869081497192382, | |
| "step": 3650 | |
| }, | |
| { | |
| "epoch": 0.00016666666666666666, | |
| "grad_norm": 1.5778170824050903, | |
| "learning_rate": 0.00029849904372022663, | |
| "loss": 3.774449920654297, | |
| "step": 3660 | |
| }, | |
| { | |
| "epoch": 0.0003333333333333333, | |
| "grad_norm": 0.7220685482025146, | |
| "learning_rate": 0.000298487751905002, | |
| "loss": 3.307727813720703, | |
| "step": 3670 | |
| }, | |
| { | |
| "epoch": 0.0005, | |
| "grad_norm": 0.6823899149894714, | |
| "learning_rate": 0.00029847641798936566, | |
| "loss": 3.308191680908203, | |
| "step": 3680 | |
| }, | |
| { | |
| "epoch": 0.0006666666666666666, | |
| "grad_norm": 0.7152085304260254, | |
| "learning_rate": 0.00029846504197653096, | |
| "loss": 3.309762191772461, | |
| "step": 3690 | |
| }, | |
| { | |
| "epoch": 0.0008333333333333334, | |
| "grad_norm": 0.6293660998344421, | |
| "learning_rate": 0.0002984536238697233, | |
| "loss": 3.3758075714111326, | |
| "step": 3700 | |
| }, | |
| { | |
| "epoch": 0.001, | |
| "grad_norm": 0.7295067310333252, | |
| "learning_rate": 0.0002984421636721801, | |
| "loss": 3.3281707763671875, | |
| "step": 3710 | |
| }, | |
| { | |
| "epoch": 0.0011666666666666668, | |
| "grad_norm": 0.6338008642196655, | |
| "learning_rate": 0.00029843066138715064, | |
| "loss": 3.3392311096191407, | |
| "step": 3720 | |
| }, | |
| { | |
| "epoch": 0.0013333333333333333, | |
| "grad_norm": 0.6514250636100769, | |
| "learning_rate": 0.0002984191170178961, | |
| "loss": 3.232216644287109, | |
| "step": 3730 | |
| }, | |
| { | |
| "epoch": 0.0015, | |
| "grad_norm": 0.6614907383918762, | |
| "learning_rate": 0.00029840753056768965, | |
| "loss": 3.2421695709228517, | |
| "step": 3740 | |
| }, | |
| { | |
| "epoch": 0.0016666666666666668, | |
| "grad_norm": 0.639617919921875, | |
| "learning_rate": 0.00029839590203981645, | |
| "loss": 3.2931827545166015, | |
| "step": 3750 | |
| }, | |
| { | |
| "epoch": 0.0018333333333333333, | |
| "grad_norm": 0.5634158253669739, | |
| "learning_rate": 0.0002983842314375733, | |
| "loss": 3.185129737854004, | |
| "step": 3760 | |
| }, | |
| { | |
| "epoch": 0.002, | |
| "grad_norm": 0.6283559799194336, | |
| "learning_rate": 0.00029837251876426937, | |
| "loss": 3.244803237915039, | |
| "step": 3770 | |
| }, | |
| { | |
| "epoch": 0.0021666666666666666, | |
| "grad_norm": 0.5802392959594727, | |
| "learning_rate": 0.00029836076402322545, | |
| "loss": 3.0983781814575195, | |
| "step": 3780 | |
| }, | |
| { | |
| "epoch": 0.0023333333333333335, | |
| "grad_norm": 0.5623877644538879, | |
| "learning_rate": 0.0002983489672177743, | |
| "loss": 2.968458557128906, | |
| "step": 3790 | |
| }, | |
| { | |
| "epoch": 0.0025, | |
| "grad_norm": 0.547167181968689, | |
| "learning_rate": 0.00029833712835126064, | |
| "loss": 2.9178205490112306, | |
| "step": 3800 | |
| }, | |
| { | |
| "epoch": 0.0026666666666666666, | |
| "grad_norm": 0.5496246218681335, | |
| "learning_rate": 0.0002983252474270411, | |
| "loss": 3.0116304397583007, | |
| "step": 3810 | |
| }, | |
| { | |
| "epoch": 0.0028333333333333335, | |
| "grad_norm": 0.6299962997436523, | |
| "learning_rate": 0.0002983133244484844, | |
| "loss": 3.1483575820922853, | |
| "step": 3820 | |
| }, | |
| { | |
| "epoch": 0.003, | |
| "grad_norm": 0.6428859233856201, | |
| "learning_rate": 0.0002983013594189709, | |
| "loss": 3.208842086791992, | |
| "step": 3830 | |
| }, | |
| { | |
| "epoch": 0.0031666666666666666, | |
| "grad_norm": 0.5592418909072876, | |
| "learning_rate": 0.00029828935234189294, | |
| "loss": 3.186692810058594, | |
| "step": 3840 | |
| }, | |
| { | |
| "epoch": 0.0033333333333333335, | |
| "grad_norm": 0.6330075860023499, | |
| "learning_rate": 0.0002982773032206551, | |
| "loss": 3.142811393737793, | |
| "step": 3850 | |
| }, | |
| { | |
| "epoch": 0.0035, | |
| "grad_norm": 0.5640964508056641, | |
| "learning_rate": 0.00029826521205867344, | |
| "loss": 3.191600036621094, | |
| "step": 3860 | |
| }, | |
| { | |
| "epoch": 0.0036666666666666666, | |
| "grad_norm": 0.5621790885925293, | |
| "learning_rate": 0.00029825307885937623, | |
| "loss": 3.1665826797485352, | |
| "step": 3870 | |
| }, | |
| { | |
| "epoch": 0.003833333333333333, | |
| "grad_norm": 0.555362343788147, | |
| "learning_rate": 0.00029824090362620356, | |
| "loss": 3.2408042907714845, | |
| "step": 3880 | |
| }, | |
| { | |
| "epoch": 0.004, | |
| "grad_norm": 0.5904632210731506, | |
| "learning_rate": 0.0002982286863626075, | |
| "loss": 3.3447166442871095, | |
| "step": 3890 | |
| }, | |
| { | |
| "epoch": 0.004166666666666667, | |
| "grad_norm": 0.5641190409660339, | |
| "learning_rate": 0.00029821642707205184, | |
| "loss": 3.256772994995117, | |
| "step": 3900 | |
| }, | |
| { | |
| "epoch": 0.004333333333333333, | |
| "grad_norm": 0.57473224401474, | |
| "learning_rate": 0.00029820412575801256, | |
| "loss": 3.270028305053711, | |
| "step": 3910 | |
| }, | |
| { | |
| "epoch": 0.0045, | |
| "grad_norm": 0.5857067108154297, | |
| "learning_rate": 0.00029819178242397734, | |
| "loss": 3.238531494140625, | |
| "step": 3920 | |
| }, | |
| { | |
| "epoch": 0.004666666666666667, | |
| "grad_norm": 0.5126656293869019, | |
| "learning_rate": 0.00029817939707344593, | |
| "loss": 3.300303268432617, | |
| "step": 3930 | |
| }, | |
| { | |
| "epoch": 0.004833333333333334, | |
| "grad_norm": 0.5652568340301514, | |
| "learning_rate": 0.00029816696970992986, | |
| "loss": 3.2070068359375, | |
| "step": 3940 | |
| }, | |
| { | |
| "epoch": 0.005, | |
| "grad_norm": 0.4956953227519989, | |
| "learning_rate": 0.0002981545003369527, | |
| "loss": 3.2531665802001952, | |
| "step": 3950 | |
| }, | |
| { | |
| "epoch": 0.005166666666666667, | |
| "grad_norm": 0.5084554553031921, | |
| "learning_rate": 0.0002981419889580498, | |
| "loss": 3.066339874267578, | |
| "step": 3960 | |
| }, | |
| { | |
| "epoch": 0.005333333333333333, | |
| "grad_norm": 0.5247703790664673, | |
| "learning_rate": 0.00029812943557676856, | |
| "loss": 3.1590555191040037, | |
| "step": 3970 | |
| }, | |
| { | |
| "epoch": 0.0055, | |
| "grad_norm": 0.5014616250991821, | |
| "learning_rate": 0.0002981168401966681, | |
| "loss": 3.192496490478516, | |
| "step": 3980 | |
| }, | |
| { | |
| "epoch": 0.005666666666666667, | |
| "grad_norm": 0.5336611866950989, | |
| "learning_rate": 0.0002981042028213197, | |
| "loss": 3.323842239379883, | |
| "step": 3990 | |
| }, | |
| { | |
| "epoch": 0.005833333333333334, | |
| "grad_norm": 0.5619737505912781, | |
| "learning_rate": 0.00029809152345430627, | |
| "loss": 3.190663719177246, | |
| "step": 4000 | |
| }, | |
| { | |
| "epoch": 0.006, | |
| "grad_norm": 0.5566272139549255, | |
| "learning_rate": 0.00029807880209922283, | |
| "loss": 3.083289909362793, | |
| "step": 4010 | |
| }, | |
| { | |
| "epoch": 0.006166666666666667, | |
| "grad_norm": 0.5660613179206848, | |
| "learning_rate": 0.0002980660387596763, | |
| "loss": 3.2430679321289064, | |
| "step": 4020 | |
| }, | |
| { | |
| "epoch": 0.006333333333333333, | |
| "grad_norm": 0.5177736282348633, | |
| "learning_rate": 0.0002980532334392853, | |
| "loss": 3.178599548339844, | |
| "step": 4030 | |
| }, | |
| { | |
| "epoch": 0.0065, | |
| "grad_norm": 0.5329192280769348, | |
| "learning_rate": 0.0002980403861416806, | |
| "loss": 3.1674598693847655, | |
| "step": 4040 | |
| }, | |
| { | |
| "epoch": 0.006666666666666667, | |
| "grad_norm": 0.6663591265678406, | |
| "learning_rate": 0.0002980274968705048, | |
| "loss": 3.0155174255371096, | |
| "step": 4050 | |
| }, | |
| { | |
| "epoch": 0.006833333333333334, | |
| "grad_norm": 0.4993612766265869, | |
| "learning_rate": 0.00029801456562941227, | |
| "loss": 3.066207695007324, | |
| "step": 4060 | |
| }, | |
| { | |
| "epoch": 0.007, | |
| "grad_norm": 0.5428812503814697, | |
| "learning_rate": 0.00029800159242206935, | |
| "loss": 3.10704345703125, | |
| "step": 4070 | |
| }, | |
| { | |
| "epoch": 0.007166666666666667, | |
| "grad_norm": 0.513583242893219, | |
| "learning_rate": 0.00029798857725215445, | |
| "loss": 3.184256172180176, | |
| "step": 4080 | |
| }, | |
| { | |
| "epoch": 0.007333333333333333, | |
| "grad_norm": 0.5102922320365906, | |
| "learning_rate": 0.0002979755201233576, | |
| "loss": 3.0215587615966797, | |
| "step": 4090 | |
| }, | |
| { | |
| "epoch": 0.0075, | |
| "grad_norm": 0.521461009979248, | |
| "learning_rate": 0.00029796242103938096, | |
| "loss": 3.1003379821777344, | |
| "step": 4100 | |
| }, | |
| { | |
| "epoch": 0.007666666666666666, | |
| "grad_norm": 0.4812868535518646, | |
| "learning_rate": 0.00029794928000393843, | |
| "loss": 3.1397796630859376, | |
| "step": 4110 | |
| }, | |
| { | |
| "epoch": 0.007833333333333333, | |
| "grad_norm": 0.5282142758369446, | |
| "learning_rate": 0.0002979360970207558, | |
| "loss": 3.193585968017578, | |
| "step": 4120 | |
| }, | |
| { | |
| "epoch": 0.008, | |
| "grad_norm": 0.5009388327598572, | |
| "learning_rate": 0.00029792287209357097, | |
| "loss": 3.1340686798095705, | |
| "step": 4130 | |
| }, | |
| { | |
| "epoch": 0.008166666666666666, | |
| "grad_norm": 0.6340370774269104, | |
| "learning_rate": 0.00029790960522613343, | |
| "loss": 3.0806493759155273, | |
| "step": 4140 | |
| }, | |
| { | |
| "epoch": 0.008333333333333333, | |
| "grad_norm": 0.5030133128166199, | |
| "learning_rate": 0.0002978962964222048, | |
| "loss": 3.170300102233887, | |
| "step": 4150 | |
| }, | |
| { | |
| "epoch": 0.0085, | |
| "grad_norm": 0.5144831538200378, | |
| "learning_rate": 0.0002978829456855584, | |
| "loss": 3.3535289764404297, | |
| "step": 4160 | |
| }, | |
| { | |
| "epoch": 0.008666666666666666, | |
| "grad_norm": 0.5370882153511047, | |
| "learning_rate": 0.0002978695530199796, | |
| "loss": 3.2686225891113283, | |
| "step": 4170 | |
| }, | |
| { | |
| "epoch": 0.008833333333333334, | |
| "grad_norm": 0.5093417167663574, | |
| "learning_rate": 0.0002978561184292656, | |
| "loss": 3.142299270629883, | |
| "step": 4180 | |
| }, | |
| { | |
| "epoch": 0.009, | |
| "grad_norm": 0.5327890515327454, | |
| "learning_rate": 0.0002978426419172255, | |
| "loss": 3.1478483200073244, | |
| "step": 4190 | |
| }, | |
| { | |
| "epoch": 0.009166666666666667, | |
| "grad_norm": 0.5170514583587646, | |
| "learning_rate": 0.0002978291234876802, | |
| "loss": 3.2556007385253904, | |
| "step": 4200 | |
| }, | |
| { | |
| "epoch": 0.009333333333333334, | |
| "grad_norm": 0.5124508142471313, | |
| "learning_rate": 0.00029781556314446264, | |
| "loss": 3.3029640197753904, | |
| "step": 4210 | |
| }, | |
| { | |
| "epoch": 0.0095, | |
| "grad_norm": 0.577273428440094, | |
| "learning_rate": 0.0002978019608914175, | |
| "loss": 3.2595043182373047, | |
| "step": 4220 | |
| }, | |
| { | |
| "epoch": 0.009666666666666667, | |
| "grad_norm": 0.5103987455368042, | |
| "learning_rate": 0.00029778831673240127, | |
| "loss": 3.243117904663086, | |
| "step": 4230 | |
| }, | |
| { | |
| "epoch": 0.009833333333333333, | |
| "grad_norm": 0.5025808215141296, | |
| "learning_rate": 0.00029777463067128267, | |
| "loss": 3.060438537597656, | |
| "step": 4240 | |
| }, | |
| { | |
| "epoch": 0.01, | |
| "grad_norm": 0.44690072536468506, | |
| "learning_rate": 0.000297760902711942, | |
| "loss": 3.0471775054931642, | |
| "step": 4250 | |
| }, | |
| { | |
| "epoch": 0.010166666666666666, | |
| "grad_norm": 0.467395544052124, | |
| "learning_rate": 0.00029774713285827143, | |
| "loss": 2.98464298248291, | |
| "step": 4260 | |
| }, | |
| { | |
| "epoch": 0.010333333333333333, | |
| "grad_norm": 0.5547831058502197, | |
| "learning_rate": 0.00029773332111417524, | |
| "loss": 3.1703718185424803, | |
| "step": 4270 | |
| }, | |
| { | |
| "epoch": 0.0105, | |
| "grad_norm": 0.5768072009086609, | |
| "learning_rate": 0.0002977194674835693, | |
| "loss": 3.301234817504883, | |
| "step": 4280 | |
| }, | |
| { | |
| "epoch": 0.010666666666666666, | |
| "grad_norm": 0.45032358169555664, | |
| "learning_rate": 0.00029770557197038164, | |
| "loss": 3.2695812225341796, | |
| "step": 4290 | |
| }, | |
| { | |
| "epoch": 0.010833333333333334, | |
| "grad_norm": 0.46786898374557495, | |
| "learning_rate": 0.0002976916345785519, | |
| "loss": 3.2581401824951173, | |
| "step": 4300 | |
| }, | |
| { | |
| "epoch": 0.011, | |
| "grad_norm": 0.4445962905883789, | |
| "learning_rate": 0.0002976776553120319, | |
| "loss": 3.285322570800781, | |
| "step": 4310 | |
| }, | |
| { | |
| "epoch": 0.011166666666666667, | |
| "grad_norm": 0.47308477759361267, | |
| "learning_rate": 0.00029766363417478494, | |
| "loss": 3.2954906463623046, | |
| "step": 4320 | |
| }, | |
| { | |
| "epoch": 0.011333333333333334, | |
| "grad_norm": 0.48444363474845886, | |
| "learning_rate": 0.0002976495711707865, | |
| "loss": 3.3107620239257813, | |
| "step": 4330 | |
| }, | |
| { | |
| "epoch": 0.0115, | |
| "grad_norm": 0.5089991092681885, | |
| "learning_rate": 0.00029763546630402386, | |
| "loss": 3.2996601104736327, | |
| "step": 4340 | |
| }, | |
| { | |
| "epoch": 0.011666666666666667, | |
| "grad_norm": 0.46392160654067993, | |
| "learning_rate": 0.000297621319578496, | |
| "loss": 3.358951950073242, | |
| "step": 4350 | |
| }, | |
| { | |
| "epoch": 0.011833333333333333, | |
| "grad_norm": 0.47319114208221436, | |
| "learning_rate": 0.00029760713099821415, | |
| "loss": 3.215884780883789, | |
| "step": 4360 | |
| }, | |
| { | |
| "epoch": 0.012, | |
| "grad_norm": 0.4464090168476105, | |
| "learning_rate": 0.00029759290056720095, | |
| "loss": 2.9921100616455076, | |
| "step": 4370 | |
| }, | |
| { | |
| "epoch": 0.012166666666666666, | |
| "grad_norm": 0.4325127601623535, | |
| "learning_rate": 0.00029757862828949124, | |
| "loss": 2.7973331451416015, | |
| "step": 4380 | |
| }, | |
| { | |
| "epoch": 0.012333333333333333, | |
| "grad_norm": 0.46863001585006714, | |
| "learning_rate": 0.00029756431416913157, | |
| "loss": 2.923106384277344, | |
| "step": 4390 | |
| }, | |
| { | |
| "epoch": 0.0125, | |
| "grad_norm": 0.4626036286354065, | |
| "learning_rate": 0.00029754995821018045, | |
| "loss": 3.0310813903808596, | |
| "step": 4400 | |
| }, | |
| { | |
| "epoch": 0.012666666666666666, | |
| "grad_norm": 0.4916419982910156, | |
| "learning_rate": 0.0002975355604167081, | |
| "loss": 3.093164825439453, | |
| "step": 4410 | |
| }, | |
| { | |
| "epoch": 0.012833333333333334, | |
| "grad_norm": 0.4526589810848236, | |
| "learning_rate": 0.0002975211207927967, | |
| "loss": 3.295928955078125, | |
| "step": 4420 | |
| }, | |
| { | |
| "epoch": 0.013, | |
| "grad_norm": 0.4669049084186554, | |
| "learning_rate": 0.00029750663934254034, | |
| "loss": 3.2381587982177735, | |
| "step": 4430 | |
| }, | |
| { | |
| "epoch": 0.013166666666666667, | |
| "grad_norm": 0.46921107172966003, | |
| "learning_rate": 0.0002974921160700449, | |
| "loss": 3.1719486236572267, | |
| "step": 4440 | |
| }, | |
| { | |
| "epoch": 0.013333333333333334, | |
| "grad_norm": 0.5220564007759094, | |
| "learning_rate": 0.0002974775509794282, | |
| "loss": 3.2720565795898438, | |
| "step": 4450 | |
| }, | |
| { | |
| "epoch": 0.0135, | |
| "grad_norm": 0.4780034124851227, | |
| "learning_rate": 0.0002974629440748197, | |
| "loss": 3.291085433959961, | |
| "step": 4460 | |
| }, | |
| { | |
| "epoch": 0.013666666666666667, | |
| "grad_norm": 0.4605162739753723, | |
| "learning_rate": 0.00029744829536036097, | |
| "loss": 3.2416168212890626, | |
| "step": 4470 | |
| }, | |
| { | |
| "epoch": 0.013833333333333333, | |
| "grad_norm": 0.4649753272533417, | |
| "learning_rate": 0.0002974336048402053, | |
| "loss": 3.183604049682617, | |
| "step": 4480 | |
| }, | |
| { | |
| "epoch": 0.014, | |
| "grad_norm": 0.444002240896225, | |
| "learning_rate": 0.00029741887251851786, | |
| "loss": 3.1085399627685546, | |
| "step": 4490 | |
| }, | |
| { | |
| "epoch": 0.014166666666666666, | |
| "grad_norm": 0.4448355436325073, | |
| "learning_rate": 0.00029740409839947566, | |
| "loss": 3.116347885131836, | |
| "step": 4500 | |
| }, | |
| { | |
| "epoch": 0.014333333333333333, | |
| "grad_norm": 0.4390920102596283, | |
| "learning_rate": 0.00029738928248726764, | |
| "loss": 3.1324329376220703, | |
| "step": 4510 | |
| }, | |
| { | |
| "epoch": 0.0145, | |
| "grad_norm": 0.4476589858531952, | |
| "learning_rate": 0.0002973744247860944, | |
| "loss": 3.1119213104248047, | |
| "step": 4520 | |
| }, | |
| { | |
| "epoch": 0.014666666666666666, | |
| "grad_norm": 0.4517284035682678, | |
| "learning_rate": 0.0002973595253001687, | |
| "loss": 3.0000232696533202, | |
| "step": 4530 | |
| }, | |
| { | |
| "epoch": 0.014833333333333334, | |
| "grad_norm": 0.4266926646232605, | |
| "learning_rate": 0.00029734458403371473, | |
| "loss": 3.0543354034423826, | |
| "step": 4540 | |
| }, | |
| { | |
| "epoch": 0.015, | |
| "grad_norm": 0.465181440114975, | |
| "learning_rate": 0.00029732960099096894, | |
| "loss": 3.1297534942626952, | |
| "step": 4550 | |
| }, | |
| { | |
| "epoch": 0.015166666666666667, | |
| "grad_norm": 0.44289475679397583, | |
| "learning_rate": 0.0002973145761761793, | |
| "loss": 3.1308570861816407, | |
| "step": 4560 | |
| }, | |
| { | |
| "epoch": 0.015333333333333332, | |
| "grad_norm": 0.45259231328964233, | |
| "learning_rate": 0.00029729950959360587, | |
| "loss": 3.113242340087891, | |
| "step": 4570 | |
| }, | |
| { | |
| "epoch": 0.0155, | |
| "grad_norm": 0.49212995171546936, | |
| "learning_rate": 0.00029728440124752043, | |
| "loss": 3.1158754348754885, | |
| "step": 4580 | |
| }, | |
| { | |
| "epoch": 0.015666666666666666, | |
| "grad_norm": 0.44125884771347046, | |
| "learning_rate": 0.00029726925114220655, | |
| "loss": 3.074172782897949, | |
| "step": 4590 | |
| }, | |
| { | |
| "epoch": 0.015833333333333335, | |
| "grad_norm": 0.445905864238739, | |
| "learning_rate": 0.0002972540592819598, | |
| "loss": 3.08502140045166, | |
| "step": 4600 | |
| }, | |
| { | |
| "epoch": 0.016, | |
| "grad_norm": 0.4353269934654236, | |
| "learning_rate": 0.00029723882567108745, | |
| "loss": 2.9679975509643555, | |
| "step": 4610 | |
| }, | |
| { | |
| "epoch": 0.016166666666666666, | |
| "grad_norm": 0.4166252315044403, | |
| "learning_rate": 0.0002972235503139086, | |
| "loss": 2.9368864059448243, | |
| "step": 4620 | |
| }, | |
| { | |
| "epoch": 0.01633333333333333, | |
| "grad_norm": 0.4455665946006775, | |
| "learning_rate": 0.0002972082332147543, | |
| "loss": 3.0976829528808594, | |
| "step": 4630 | |
| }, | |
| { | |
| "epoch": 0.0165, | |
| "grad_norm": 0.4223819673061371, | |
| "learning_rate": 0.0002971928743779674, | |
| "loss": 3.026397132873535, | |
| "step": 4640 | |
| }, | |
| { | |
| "epoch": 0.016666666666666666, | |
| "grad_norm": 0.441989541053772, | |
| "learning_rate": 0.0002971774738079025, | |
| "loss": 3.0403167724609377, | |
| "step": 4650 | |
| }, | |
| { | |
| "epoch": 0.016833333333333332, | |
| "grad_norm": 0.435830295085907, | |
| "learning_rate": 0.0002971620315089261, | |
| "loss": 3.1183338165283203, | |
| "step": 4660 | |
| }, | |
| { | |
| "epoch": 0.017, | |
| "grad_norm": 0.4655296802520752, | |
| "learning_rate": 0.00029714654748541657, | |
| "loss": 3.1077341079711913, | |
| "step": 4670 | |
| }, | |
| { | |
| "epoch": 0.017166666666666667, | |
| "grad_norm": 0.4390181601047516, | |
| "learning_rate": 0.000297131021741764, | |
| "loss": 3.0585168838500976, | |
| "step": 4680 | |
| }, | |
| { | |
| "epoch": 0.017333333333333333, | |
| "grad_norm": 0.46241506934165955, | |
| "learning_rate": 0.0002971154542823704, | |
| "loss": 3.0429901123046874, | |
| "step": 4690 | |
| }, | |
| { | |
| "epoch": 0.0175, | |
| "grad_norm": 0.42871007323265076, | |
| "learning_rate": 0.00029709984511164955, | |
| "loss": 3.0659711837768553, | |
| "step": 4700 | |
| }, | |
| { | |
| "epoch": 0.017666666666666667, | |
| "grad_norm": 0.4105594754219055, | |
| "learning_rate": 0.00029708419423402717, | |
| "loss": 3.0605178833007813, | |
| "step": 4710 | |
| }, | |
| { | |
| "epoch": 0.017833333333333333, | |
| "grad_norm": 0.45519882440567017, | |
| "learning_rate": 0.0002970685016539406, | |
| "loss": 3.048724365234375, | |
| "step": 4720 | |
| }, | |
| { | |
| "epoch": 0.018, | |
| "grad_norm": 0.42550894618034363, | |
| "learning_rate": 0.0002970527673758392, | |
| "loss": 2.9582677841186524, | |
| "step": 4730 | |
| }, | |
| { | |
| "epoch": 0.018166666666666668, | |
| "grad_norm": 0.4230113923549652, | |
| "learning_rate": 0.00029703699140418404, | |
| "loss": 3.0614328384399414, | |
| "step": 4740 | |
| }, | |
| { | |
| "epoch": 0.018333333333333333, | |
| "grad_norm": 0.474998414516449, | |
| "learning_rate": 0.0002970211737434481, | |
| "loss": 3.1223560333251954, | |
| "step": 4750 | |
| }, | |
| { | |
| "epoch": 0.0185, | |
| "grad_norm": 0.41748204827308655, | |
| "learning_rate": 0.00029700531439811603, | |
| "loss": 3.1135513305664064, | |
| "step": 4760 | |
| }, | |
| { | |
| "epoch": 0.018666666666666668, | |
| "grad_norm": 0.48395001888275146, | |
| "learning_rate": 0.0002969894133726845, | |
| "loss": 2.9970415115356444, | |
| "step": 4770 | |
| }, | |
| { | |
| "epoch": 0.018833333333333334, | |
| "grad_norm": 0.45481327176094055, | |
| "learning_rate": 0.0002969734706716618, | |
| "loss": 3.071116828918457, | |
| "step": 4780 | |
| }, | |
| { | |
| "epoch": 0.019, | |
| "grad_norm": 0.4932529926300049, | |
| "learning_rate": 0.0002969574862995683, | |
| "loss": 2.951759147644043, | |
| "step": 4790 | |
| }, | |
| { | |
| "epoch": 0.019166666666666665, | |
| "grad_norm": 0.45772960782051086, | |
| "learning_rate": 0.0002969414602609358, | |
| "loss": 2.9374309539794923, | |
| "step": 4800 | |
| }, | |
| { | |
| "epoch": 0.019333333333333334, | |
| "grad_norm": 0.40841713547706604, | |
| "learning_rate": 0.0002969253925603083, | |
| "loss": 2.9139503479003905, | |
| "step": 4810 | |
| }, | |
| { | |
| "epoch": 0.0195, | |
| "grad_norm": 0.422498494386673, | |
| "learning_rate": 0.00029690928320224127, | |
| "loss": 3.0036170959472654, | |
| "step": 4820 | |
| }, | |
| { | |
| "epoch": 0.019666666666666666, | |
| "grad_norm": 0.41859570145606995, | |
| "learning_rate": 0.0002968931321913023, | |
| "loss": 3.030325698852539, | |
| "step": 4830 | |
| }, | |
| { | |
| "epoch": 0.019833333333333335, | |
| "grad_norm": 0.4252321720123291, | |
| "learning_rate": 0.0002968769395320706, | |
| "loss": 2.9996585845947266, | |
| "step": 4840 | |
| }, | |
| { | |
| "epoch": 0.02, | |
| "grad_norm": 0.39273467659950256, | |
| "learning_rate": 0.00029686070522913727, | |
| "loss": 3.0428844451904298, | |
| "step": 4850 | |
| }, | |
| { | |
| "epoch": 0.020166666666666666, | |
| "grad_norm": 0.4008473753929138, | |
| "learning_rate": 0.0002968444292871051, | |
| "loss": 3.038602828979492, | |
| "step": 4860 | |
| }, | |
| { | |
| "epoch": 0.02033333333333333, | |
| "grad_norm": 0.39325961470603943, | |
| "learning_rate": 0.00029682811171058887, | |
| "loss": 3.0508377075195314, | |
| "step": 4870 | |
| }, | |
| { | |
| "epoch": 0.0205, | |
| "grad_norm": 0.42926836013793945, | |
| "learning_rate": 0.0002968117525042151, | |
| "loss": 2.9267642974853514, | |
| "step": 4880 | |
| }, | |
| { | |
| "epoch": 0.020666666666666667, | |
| "grad_norm": 0.3997902572154999, | |
| "learning_rate": 0.00029679535167262194, | |
| "loss": 2.908608627319336, | |
| "step": 4890 | |
| }, | |
| { | |
| "epoch": 0.020833333333333332, | |
| "grad_norm": 0.39283305406570435, | |
| "learning_rate": 0.00029677890922045954, | |
| "loss": 2.8062005996704102, | |
| "step": 4900 | |
| }, | |
| { | |
| "epoch": 0.021, | |
| "grad_norm": 0.5050291419029236, | |
| "learning_rate": 0.00029676242515238986, | |
| "loss": 2.977495574951172, | |
| "step": 4910 | |
| }, | |
| { | |
| "epoch": 0.021166666666666667, | |
| "grad_norm": 0.4664459228515625, | |
| "learning_rate": 0.0002967458994730865, | |
| "loss": 3.0423885345458985, | |
| "step": 4920 | |
| }, | |
| { | |
| "epoch": 0.021333333333333333, | |
| "grad_norm": 0.4809158742427826, | |
| "learning_rate": 0.000296729332187235, | |
| "loss": 2.9984725952148437, | |
| "step": 4930 | |
| }, | |
| { | |
| "epoch": 0.0215, | |
| "grad_norm": 0.4519208073616028, | |
| "learning_rate": 0.00029671272329953266, | |
| "loss": 2.9846240997314455, | |
| "step": 4940 | |
| }, | |
| { | |
| "epoch": 0.021666666666666667, | |
| "grad_norm": 0.4372696578502655, | |
| "learning_rate": 0.0002966960728146885, | |
| "loss": 3.0425092697143556, | |
| "step": 4950 | |
| }, | |
| { | |
| "epoch": 0.021833333333333333, | |
| "grad_norm": 0.42301109433174133, | |
| "learning_rate": 0.00029667938073742346, | |
| "loss": 2.9889686584472654, | |
| "step": 4960 | |
| }, | |
| { | |
| "epoch": 0.022, | |
| "grad_norm": 0.3952590525150299, | |
| "learning_rate": 0.0002966626470724702, | |
| "loss": 2.9601165771484377, | |
| "step": 4970 | |
| }, | |
| { | |
| "epoch": 0.022166666666666668, | |
| "grad_norm": 0.4400894343852997, | |
| "learning_rate": 0.0002966458718245732, | |
| "loss": 2.9297361373901367, | |
| "step": 4980 | |
| }, | |
| { | |
| "epoch": 0.022333333333333334, | |
| "grad_norm": 0.3968198001384735, | |
| "learning_rate": 0.0002966290549984886, | |
| "loss": 2.923467445373535, | |
| "step": 4990 | |
| }, | |
| { | |
| "epoch": 0.0225, | |
| "grad_norm": 0.4230905771255493, | |
| "learning_rate": 0.0002966121965989845, | |
| "loss": 2.8356529235839845, | |
| "step": 5000 | |
| }, | |
| { | |
| "epoch": 0.02266666666666667, | |
| "grad_norm": 0.4638538658618927, | |
| "learning_rate": 0.0002965952966308408, | |
| "loss": 2.751129913330078, | |
| "step": 5010 | |
| }, | |
| { | |
| "epoch": 0.022833333333333334, | |
| "grad_norm": 0.4058930277824402, | |
| "learning_rate": 0.000296578355098849, | |
| "loss": 2.8753490447998047, | |
| "step": 5020 | |
| }, | |
| { | |
| "epoch": 0.023, | |
| "grad_norm": 0.4356415271759033, | |
| "learning_rate": 0.0002965613720078126, | |
| "loss": 2.9448657989501954, | |
| "step": 5030 | |
| }, | |
| { | |
| "epoch": 0.023166666666666665, | |
| "grad_norm": 0.4432661533355713, | |
| "learning_rate": 0.0002965443473625467, | |
| "loss": 3.0600040435791014, | |
| "step": 5040 | |
| }, | |
| { | |
| "epoch": 0.023333333333333334, | |
| "grad_norm": 0.40705952048301697, | |
| "learning_rate": 0.0002965272811678783, | |
| "loss": 3.039891815185547, | |
| "step": 5050 | |
| }, | |
| { | |
| "epoch": 0.0235, | |
| "grad_norm": 0.4108118712902069, | |
| "learning_rate": 0.0002965101734286461, | |
| "loss": 3.0408308029174806, | |
| "step": 5060 | |
| }, | |
| { | |
| "epoch": 0.023666666666666666, | |
| "grad_norm": 0.41265869140625, | |
| "learning_rate": 0.0002964930241497007, | |
| "loss": 3.060531806945801, | |
| "step": 5070 | |
| }, | |
| { | |
| "epoch": 0.023833333333333335, | |
| "grad_norm": 0.3892955780029297, | |
| "learning_rate": 0.0002964758333359043, | |
| "loss": 2.961796188354492, | |
| "step": 5080 | |
| }, | |
| { | |
| "epoch": 0.024, | |
| "grad_norm": 0.38490405678749084, | |
| "learning_rate": 0.000296458600992131, | |
| "loss": 3.079538917541504, | |
| "step": 5090 | |
| }, | |
| { | |
| "epoch": 0.024166666666666666, | |
| "grad_norm": 0.39841511845588684, | |
| "learning_rate": 0.0002964413271232667, | |
| "loss": 2.9802776336669923, | |
| "step": 5100 | |
| }, | |
| { | |
| "epoch": 0.024333333333333332, | |
| "grad_norm": 0.4207797944545746, | |
| "learning_rate": 0.000296424011734209, | |
| "loss": 2.8793426513671876, | |
| "step": 5110 | |
| }, | |
| { | |
| "epoch": 0.0245, | |
| "grad_norm": 0.4052133858203888, | |
| "learning_rate": 0.0002964066548298673, | |
| "loss": 2.856357765197754, | |
| "step": 5120 | |
| }, | |
| { | |
| "epoch": 0.024666666666666667, | |
| "grad_norm": 0.3816324472427368, | |
| "learning_rate": 0.0002963892564151627, | |
| "loss": 2.9858179092407227, | |
| "step": 5130 | |
| }, | |
| { | |
| "epoch": 0.024833333333333332, | |
| "grad_norm": 0.47515869140625, | |
| "learning_rate": 0.0002963718164950282, | |
| "loss": 3.1763587951660157, | |
| "step": 5140 | |
| }, | |
| { | |
| "epoch": 0.025, | |
| "grad_norm": 0.40806320309638977, | |
| "learning_rate": 0.0002963543350744085, | |
| "loss": 3.151714324951172, | |
| "step": 5150 | |
| }, | |
| { | |
| "epoch": 0.025166666666666667, | |
| "grad_norm": 0.5163785219192505, | |
| "learning_rate": 0.00029633681215826004, | |
| "loss": 2.945247459411621, | |
| "step": 5160 | |
| }, | |
| { | |
| "epoch": 0.025333333333333333, | |
| "grad_norm": 0.4207831919193268, | |
| "learning_rate": 0.0002963192477515511, | |
| "loss": 3.0415407180786134, | |
| "step": 5170 | |
| }, | |
| { | |
| "epoch": 0.0255, | |
| "grad_norm": 0.40855222940444946, | |
| "learning_rate": 0.00029630164185926166, | |
| "loss": 3.1059539794921873, | |
| "step": 5180 | |
| }, | |
| { | |
| "epoch": 0.025666666666666667, | |
| "grad_norm": 0.3957916498184204, | |
| "learning_rate": 0.0002962839944863835, | |
| "loss": 3.0001821517944336, | |
| "step": 5190 | |
| }, | |
| { | |
| "epoch": 0.025833333333333333, | |
| "grad_norm": 0.39638176560401917, | |
| "learning_rate": 0.0002962663056379201, | |
| "loss": 3.1186132431030273, | |
| "step": 5200 | |
| }, | |
| { | |
| "epoch": 0.026, | |
| "grad_norm": 0.3970320224761963, | |
| "learning_rate": 0.0002962485753188867, | |
| "loss": 3.1292917251586916, | |
| "step": 5210 | |
| }, | |
| { | |
| "epoch": 0.026166666666666668, | |
| "grad_norm": 0.46836334466934204, | |
| "learning_rate": 0.00029623080353431046, | |
| "loss": 3.1594337463378905, | |
| "step": 5220 | |
| }, | |
| { | |
| "epoch": 0.026333333333333334, | |
| "grad_norm": 0.41316238045692444, | |
| "learning_rate": 0.0002962129902892301, | |
| "loss": 3.108985710144043, | |
| "step": 5230 | |
| }, | |
| { | |
| "epoch": 0.0265, | |
| "grad_norm": 0.38777822256088257, | |
| "learning_rate": 0.0002961951355886961, | |
| "loss": 3.050784873962402, | |
| "step": 5240 | |
| }, | |
| { | |
| "epoch": 0.02666666666666667, | |
| "grad_norm": 0.39757364988327026, | |
| "learning_rate": 0.00029617723943777094, | |
| "loss": 3.0273033142089845, | |
| "step": 5250 | |
| }, | |
| { | |
| "epoch": 0.026833333333333334, | |
| "grad_norm": 0.3906317949295044, | |
| "learning_rate": 0.00029615930184152855, | |
| "loss": 3.077456474304199, | |
| "step": 5260 | |
| }, | |
| { | |
| "epoch": 0.027, | |
| "grad_norm": 0.4051954746246338, | |
| "learning_rate": 0.00029614132280505475, | |
| "loss": 3.0868051528930662, | |
| "step": 5270 | |
| }, | |
| { | |
| "epoch": 0.027166666666666665, | |
| "grad_norm": 0.3984355032444, | |
| "learning_rate": 0.00029612330233344715, | |
| "loss": 3.0292882919311523, | |
| "step": 5280 | |
| }, | |
| { | |
| "epoch": 0.027333333333333334, | |
| "grad_norm": 0.46807315945625305, | |
| "learning_rate": 0.00029610524043181504, | |
| "loss": 3.0543338775634767, | |
| "step": 5290 | |
| }, | |
| { | |
| "epoch": 0.0275, | |
| "grad_norm": 0.4327753782272339, | |
| "learning_rate": 0.00029608713710527944, | |
| "loss": 3.0852005004882814, | |
| "step": 5300 | |
| }, | |
| { | |
| "epoch": 0.027666666666666666, | |
| "grad_norm": 0.4260406792163849, | |
| "learning_rate": 0.0002960689923589732, | |
| "loss": 3.109157180786133, | |
| "step": 5310 | |
| }, | |
| { | |
| "epoch": 0.027833333333333335, | |
| "grad_norm": 0.41041651368141174, | |
| "learning_rate": 0.00029605080619804074, | |
| "loss": 3.025878143310547, | |
| "step": 5320 | |
| }, | |
| { | |
| "epoch": 0.028, | |
| "grad_norm": 0.41694915294647217, | |
| "learning_rate": 0.0002960325786276385, | |
| "loss": 3.0681831359863283, | |
| "step": 5330 | |
| }, | |
| { | |
| "epoch": 0.028166666666666666, | |
| "grad_norm": 0.3778274655342102, | |
| "learning_rate": 0.0002960143096529344, | |
| "loss": 3.064166259765625, | |
| "step": 5340 | |
| }, | |
| { | |
| "epoch": 0.028333333333333332, | |
| "grad_norm": 0.3917562961578369, | |
| "learning_rate": 0.00029599599927910826, | |
| "loss": 3.0182376861572267, | |
| "step": 5350 | |
| }, | |
| { | |
| "epoch": 0.0285, | |
| "grad_norm": 0.42189955711364746, | |
| "learning_rate": 0.0002959776475113515, | |
| "loss": 3.016231155395508, | |
| "step": 5360 | |
| }, | |
| { | |
| "epoch": 0.028666666666666667, | |
| "grad_norm": 0.4121429920196533, | |
| "learning_rate": 0.00029595925435486745, | |
| "loss": 3.0514553070068358, | |
| "step": 5370 | |
| }, | |
| { | |
| "epoch": 0.028833333333333332, | |
| "grad_norm": 0.42146554589271545, | |
| "learning_rate": 0.000295940819814871, | |
| "loss": 3.052465629577637, | |
| "step": 5380 | |
| }, | |
| { | |
| "epoch": 0.029, | |
| "grad_norm": 0.377998948097229, | |
| "learning_rate": 0.000295922343896589, | |
| "loss": 2.8454496383666994, | |
| "step": 5390 | |
| }, | |
| { | |
| "epoch": 0.029166666666666667, | |
| "grad_norm": 0.39422616362571716, | |
| "learning_rate": 0.0002959038266052597, | |
| "loss": 2.6665836334228517, | |
| "step": 5400 | |
| }, | |
| { | |
| "epoch": 0.029333333333333333, | |
| "grad_norm": 0.3714645802974701, | |
| "learning_rate": 0.00029588526794613334, | |
| "loss": 2.6556703567504885, | |
| "step": 5410 | |
| }, | |
| { | |
| "epoch": 0.0295, | |
| "grad_norm": 0.39717552065849304, | |
| "learning_rate": 0.00029586666792447185, | |
| "loss": 2.736180305480957, | |
| "step": 5420 | |
| }, | |
| { | |
| "epoch": 0.029666666666666668, | |
| "grad_norm": 0.4036571979522705, | |
| "learning_rate": 0.0002958480265455489, | |
| "loss": 2.7086135864257814, | |
| "step": 5430 | |
| }, | |
| { | |
| "epoch": 0.029833333333333333, | |
| "grad_norm": 0.3743681013584137, | |
| "learning_rate": 0.0002958293438146497, | |
| "loss": 2.941759490966797, | |
| "step": 5440 | |
| }, | |
| { | |
| "epoch": 0.03, | |
| "grad_norm": 0.40706613659858704, | |
| "learning_rate": 0.0002958106197370714, | |
| "loss": 2.948502540588379, | |
| "step": 5450 | |
| }, | |
| { | |
| "epoch": 0.030166666666666668, | |
| "grad_norm": 0.4117063879966736, | |
| "learning_rate": 0.00029579185431812286, | |
| "loss": 2.9798656463623048, | |
| "step": 5460 | |
| }, | |
| { | |
| "epoch": 0.030333333333333334, | |
| "grad_norm": 0.4454329311847687, | |
| "learning_rate": 0.0002957730475631245, | |
| "loss": 2.9249732971191404, | |
| "step": 5470 | |
| }, | |
| { | |
| "epoch": 0.0305, | |
| "grad_norm": 0.39523670077323914, | |
| "learning_rate": 0.0002957541994774086, | |
| "loss": 2.8878499984741213, | |
| "step": 5480 | |
| }, | |
| { | |
| "epoch": 0.030666666666666665, | |
| "grad_norm": 0.36399638652801514, | |
| "learning_rate": 0.00029573531006631907, | |
| "loss": 2.9448997497558596, | |
| "step": 5490 | |
| }, | |
| { | |
| "epoch": 0.030833333333333334, | |
| "grad_norm": 0.4440824091434479, | |
| "learning_rate": 0.00029571637933521164, | |
| "loss": 2.878627395629883, | |
| "step": 5500 | |
| }, | |
| { | |
| "epoch": 0.031, | |
| "grad_norm": 0.4278319180011749, | |
| "learning_rate": 0.0002956974072894537, | |
| "loss": 2.9515048980712892, | |
| "step": 5510 | |
| }, | |
| { | |
| "epoch": 0.031166666666666665, | |
| "grad_norm": 0.40986528992652893, | |
| "learning_rate": 0.00029567839393442437, | |
| "loss": 2.9613771438598633, | |
| "step": 5520 | |
| }, | |
| { | |
| "epoch": 0.03133333333333333, | |
| "grad_norm": 0.3902529776096344, | |
| "learning_rate": 0.00029565933927551435, | |
| "loss": 2.923776054382324, | |
| "step": 5530 | |
| }, | |
| { | |
| "epoch": 0.0315, | |
| "grad_norm": 0.41012078523635864, | |
| "learning_rate": 0.0002956402433181263, | |
| "loss": 2.975874328613281, | |
| "step": 5540 | |
| }, | |
| { | |
| "epoch": 0.03166666666666667, | |
| "grad_norm": 0.40504106879234314, | |
| "learning_rate": 0.0002956211060676744, | |
| "loss": 2.909282112121582, | |
| "step": 5550 | |
| }, | |
| { | |
| "epoch": 0.03183333333333333, | |
| "grad_norm": 0.4037550091743469, | |
| "learning_rate": 0.0002956019275295846, | |
| "loss": 2.9982988357543947, | |
| "step": 5560 | |
| }, | |
| { | |
| "epoch": 0.032, | |
| "grad_norm": 0.3706510663032532, | |
| "learning_rate": 0.00029558270770929456, | |
| "loss": 2.942987060546875, | |
| "step": 5570 | |
| }, | |
| { | |
| "epoch": 0.03216666666666667, | |
| "grad_norm": 0.3897784650325775, | |
| "learning_rate": 0.00029556344661225357, | |
| "loss": 2.9039384841918947, | |
| "step": 5580 | |
| }, | |
| { | |
| "epoch": 0.03233333333333333, | |
| "grad_norm": 0.4270058870315552, | |
| "learning_rate": 0.0002955441442439228, | |
| "loss": 2.9499792098999023, | |
| "step": 5590 | |
| }, | |
| { | |
| "epoch": 0.0325, | |
| "grad_norm": 0.39148110151290894, | |
| "learning_rate": 0.0002955248006097749, | |
| "loss": 3.0189350128173826, | |
| "step": 5600 | |
| }, | |
| { | |
| "epoch": 0.03266666666666666, | |
| "grad_norm": 0.3739214241504669, | |
| "learning_rate": 0.00029550541571529443, | |
| "loss": 2.86805419921875, | |
| "step": 5610 | |
| }, | |
| { | |
| "epoch": 0.03283333333333333, | |
| "grad_norm": 0.37678641080856323, | |
| "learning_rate": 0.00029548598956597745, | |
| "loss": 2.8048625946044923, | |
| "step": 5620 | |
| }, | |
| { | |
| "epoch": 0.033, | |
| "grad_norm": 0.38853731751441956, | |
| "learning_rate": 0.00029546652216733187, | |
| "loss": 2.921887969970703, | |
| "step": 5630 | |
| }, | |
| { | |
| "epoch": 0.033166666666666664, | |
| "grad_norm": 0.40962421894073486, | |
| "learning_rate": 0.0002954470135248772, | |
| "loss": 2.859710121154785, | |
| "step": 5640 | |
| }, | |
| { | |
| "epoch": 0.03333333333333333, | |
| "grad_norm": 0.4202129542827606, | |
| "learning_rate": 0.0002954274636441448, | |
| "loss": 2.8912075042724608, | |
| "step": 5650 | |
| }, | |
| { | |
| "epoch": 0.0335, | |
| "grad_norm": 0.3784216642379761, | |
| "learning_rate": 0.00029540787253067746, | |
| "loss": 2.8085119247436525, | |
| "step": 5660 | |
| }, | |
| { | |
| "epoch": 0.033666666666666664, | |
| "grad_norm": 0.3924359977245331, | |
| "learning_rate": 0.0002953882401900298, | |
| "loss": 2.913351821899414, | |
| "step": 5670 | |
| }, | |
| { | |
| "epoch": 0.03383333333333333, | |
| "grad_norm": 0.40623074769973755, | |
| "learning_rate": 0.00029536856662776826, | |
| "loss": 2.944149398803711, | |
| "step": 5680 | |
| }, | |
| { | |
| "epoch": 0.034, | |
| "grad_norm": 0.4099932014942169, | |
| "learning_rate": 0.00029534885184947076, | |
| "loss": 2.875970649719238, | |
| "step": 5690 | |
| }, | |
| { | |
| "epoch": 0.034166666666666665, | |
| "grad_norm": 0.36651095747947693, | |
| "learning_rate": 0.00029532909586072706, | |
| "loss": 2.841335105895996, | |
| "step": 5700 | |
| }, | |
| { | |
| "epoch": 0.034333333333333334, | |
| "grad_norm": 0.3954033851623535, | |
| "learning_rate": 0.00029530929866713844, | |
| "loss": 2.87349910736084, | |
| "step": 5710 | |
| }, | |
| { | |
| "epoch": 0.0345, | |
| "grad_norm": 0.3759227395057678, | |
| "learning_rate": 0.00029528946027431797, | |
| "loss": 2.8565431594848634, | |
| "step": 5720 | |
| }, | |
| { | |
| "epoch": 0.034666666666666665, | |
| "grad_norm": 0.35877352952957153, | |
| "learning_rate": 0.0002952695806878905, | |
| "loss": 2.806620407104492, | |
| "step": 5730 | |
| }, | |
| { | |
| "epoch": 0.034833333333333334, | |
| "grad_norm": 0.3754509389400482, | |
| "learning_rate": 0.00029524965991349226, | |
| "loss": 2.7679475784301757, | |
| "step": 5740 | |
| }, | |
| { | |
| "epoch": 0.035, | |
| "grad_norm": 0.34031248092651367, | |
| "learning_rate": 0.00029522969795677147, | |
| "loss": 2.670439910888672, | |
| "step": 5750 | |
| }, | |
| { | |
| "epoch": 0.035166666666666666, | |
| "grad_norm": 0.36299699544906616, | |
| "learning_rate": 0.0002952096948233879, | |
| "loss": 2.76367073059082, | |
| "step": 5760 | |
| }, | |
| { | |
| "epoch": 0.035333333333333335, | |
| "grad_norm": 0.3920454680919647, | |
| "learning_rate": 0.00029518965051901296, | |
| "loss": 2.814274215698242, | |
| "step": 5770 | |
| }, | |
| { | |
| "epoch": 0.0355, | |
| "grad_norm": 0.36294087767601013, | |
| "learning_rate": 0.0002951695650493298, | |
| "loss": 2.7482378005981447, | |
| "step": 5780 | |
| }, | |
| { | |
| "epoch": 0.035666666666666666, | |
| "grad_norm": 0.36339011788368225, | |
| "learning_rate": 0.00029514943842003316, | |
| "loss": 2.7880197525024415, | |
| "step": 5790 | |
| }, | |
| { | |
| "epoch": 0.035833333333333335, | |
| "grad_norm": 0.3664824962615967, | |
| "learning_rate": 0.0002951292706368295, | |
| "loss": 2.74920539855957, | |
| "step": 5800 | |
| }, | |
| { | |
| "epoch": 0.036, | |
| "grad_norm": 0.37298399209976196, | |
| "learning_rate": 0.0002951090617054371, | |
| "loss": 2.7620262145996093, | |
| "step": 5810 | |
| }, | |
| { | |
| "epoch": 0.036166666666666666, | |
| "grad_norm": 0.5309566259384155, | |
| "learning_rate": 0.0002950888116315855, | |
| "loss": 2.880209732055664, | |
| "step": 5820 | |
| }, | |
| { | |
| "epoch": 0.036333333333333336, | |
| "grad_norm": 0.3781473636627197, | |
| "learning_rate": 0.00029506852042101634, | |
| "loss": 2.832257080078125, | |
| "step": 5830 | |
| }, | |
| { | |
| "epoch": 0.0365, | |
| "grad_norm": 0.3755476474761963, | |
| "learning_rate": 0.0002950481880794827, | |
| "loss": 2.72965145111084, | |
| "step": 5840 | |
| }, | |
| { | |
| "epoch": 0.03666666666666667, | |
| "grad_norm": 0.3585830628871918, | |
| "learning_rate": 0.0002950278146127493, | |
| "loss": 2.7756679534912108, | |
| "step": 5850 | |
| }, | |
| { | |
| "epoch": 0.036833333333333336, | |
| "grad_norm": 0.378136545419693, | |
| "learning_rate": 0.0002950074000265927, | |
| "loss": 2.8998336791992188, | |
| "step": 5860 | |
| }, | |
| { | |
| "epoch": 0.037, | |
| "grad_norm": 0.3947715759277344, | |
| "learning_rate": 0.0002949869443268009, | |
| "loss": 2.9380889892578126, | |
| "step": 5870 | |
| }, | |
| { | |
| "epoch": 0.03716666666666667, | |
| "grad_norm": 0.40435487031936646, | |
| "learning_rate": 0.00029496644751917376, | |
| "loss": 2.7399545669555665, | |
| "step": 5880 | |
| }, | |
| { | |
| "epoch": 0.037333333333333336, | |
| "grad_norm": 0.37711283564567566, | |
| "learning_rate": 0.00029494590960952265, | |
| "loss": 2.588311195373535, | |
| "step": 5890 | |
| }, | |
| { | |
| "epoch": 0.0375, | |
| "grad_norm": 0.4344159960746765, | |
| "learning_rate": 0.0002949253306036706, | |
| "loss": 2.574771499633789, | |
| "step": 5900 | |
| }, | |
| { | |
| "epoch": 0.03766666666666667, | |
| "grad_norm": 0.4346453547477722, | |
| "learning_rate": 0.0002949047105074524, | |
| "loss": 2.50732364654541, | |
| "step": 5910 | |
| }, | |
| { | |
| "epoch": 0.03783333333333333, | |
| "grad_norm": 0.37476930022239685, | |
| "learning_rate": 0.00029488404932671435, | |
| "loss": 2.601269340515137, | |
| "step": 5920 | |
| }, | |
| { | |
| "epoch": 0.038, | |
| "grad_norm": 0.41381752490997314, | |
| "learning_rate": 0.0002948633470673145, | |
| "loss": 2.5921453475952148, | |
| "step": 5930 | |
| }, | |
| { | |
| "epoch": 0.03816666666666667, | |
| "grad_norm": 0.39000943303108215, | |
| "learning_rate": 0.0002948426037351225, | |
| "loss": 2.6637712478637696, | |
| "step": 5940 | |
| }, | |
| { | |
| "epoch": 0.03833333333333333, | |
| "grad_norm": 0.37929767370224, | |
| "learning_rate": 0.00029482181933601973, | |
| "loss": 2.811085319519043, | |
| "step": 5950 | |
| }, | |
| { | |
| "epoch": 0.0385, | |
| "grad_norm": 0.3917810618877411, | |
| "learning_rate": 0.00029480099387589907, | |
| "loss": 2.6634618759155275, | |
| "step": 5960 | |
| }, | |
| { | |
| "epoch": 0.03866666666666667, | |
| "grad_norm": 0.3915526866912842, | |
| "learning_rate": 0.00029478012736066517, | |
| "loss": 2.778007698059082, | |
| "step": 5970 | |
| }, | |
| { | |
| "epoch": 0.03883333333333333, | |
| "grad_norm": 0.369268000125885, | |
| "learning_rate": 0.00029475921979623423, | |
| "loss": 2.696705627441406, | |
| "step": 5980 | |
| }, | |
| { | |
| "epoch": 0.039, | |
| "grad_norm": 0.40467938780784607, | |
| "learning_rate": 0.00029473827118853415, | |
| "loss": 2.8099590301513673, | |
| "step": 5990 | |
| }, | |
| { | |
| "epoch": 0.03916666666666667, | |
| "grad_norm": 0.3687494099140167, | |
| "learning_rate": 0.00029471728154350444, | |
| "loss": 2.881623649597168, | |
| "step": 6000 | |
| }, | |
| { | |
| "epoch": 0.03933333333333333, | |
| "grad_norm": 0.3854578137397766, | |
| "learning_rate": 0.00029469625086709625, | |
| "loss": 2.7410490036010744, | |
| "step": 6010 | |
| }, | |
| { | |
| "epoch": 0.0395, | |
| "grad_norm": 0.383655309677124, | |
| "learning_rate": 0.00029467517916527235, | |
| "loss": 2.7792194366455076, | |
| "step": 6020 | |
| }, | |
| { | |
| "epoch": 0.03966666666666667, | |
| "grad_norm": 0.3862553834915161, | |
| "learning_rate": 0.00029465406644400713, | |
| "loss": 2.7575822830200196, | |
| "step": 6030 | |
| }, | |
| { | |
| "epoch": 0.03983333333333333, | |
| "grad_norm": 0.39918553829193115, | |
| "learning_rate": 0.00029463291270928675, | |
| "loss": 2.9260843276977537, | |
| "step": 6040 | |
| }, | |
| { | |
| "epoch": 0.04, | |
| "grad_norm": 0.38666027784347534, | |
| "learning_rate": 0.0002946117179671087, | |
| "loss": 2.838565635681152, | |
| "step": 6050 | |
| }, | |
| { | |
| "epoch": 0.04016666666666667, | |
| "grad_norm": 0.3723886013031006, | |
| "learning_rate": 0.0002945904822234824, | |
| "loss": 2.836383819580078, | |
| "step": 6060 | |
| }, | |
| { | |
| "epoch": 0.04033333333333333, | |
| "grad_norm": 0.4081844985485077, | |
| "learning_rate": 0.0002945692054844288, | |
| "loss": 2.949822425842285, | |
| "step": 6070 | |
| }, | |
| { | |
| "epoch": 0.0405, | |
| "grad_norm": 0.3790690302848816, | |
| "learning_rate": 0.00029454788775598037, | |
| "loss": 3.035497856140137, | |
| "step": 6080 | |
| }, | |
| { | |
| "epoch": 0.04066666666666666, | |
| "grad_norm": 0.37471655011177063, | |
| "learning_rate": 0.00029452652904418127, | |
| "loss": 3.0849964141845705, | |
| "step": 6090 | |
| }, | |
| { | |
| "epoch": 0.04083333333333333, | |
| "grad_norm": 0.39325064420700073, | |
| "learning_rate": 0.0002945051293550874, | |
| "loss": 3.193227767944336, | |
| "step": 6100 | |
| }, | |
| { | |
| "epoch": 0.041, | |
| "grad_norm": 0.42698314785957336, | |
| "learning_rate": 0.00029448368869476604, | |
| "loss": 3.1598060607910154, | |
| "step": 6110 | |
| }, | |
| { | |
| "epoch": 0.041166666666666664, | |
| "grad_norm": 0.40960320830345154, | |
| "learning_rate": 0.0002944622070692963, | |
| "loss": 3.2183509826660157, | |
| "step": 6120 | |
| }, | |
| { | |
| "epoch": 0.04133333333333333, | |
| "grad_norm": 0.3762412965297699, | |
| "learning_rate": 0.0002944406844847688, | |
| "loss": 3.1716684341430663, | |
| "step": 6130 | |
| }, | |
| { | |
| "epoch": 0.0415, | |
| "grad_norm": 0.4189164340496063, | |
| "learning_rate": 0.00029441912094728574, | |
| "loss": 3.1513088226318358, | |
| "step": 6140 | |
| }, | |
| { | |
| "epoch": 0.041666666666666664, | |
| "grad_norm": 0.4057857394218445, | |
| "learning_rate": 0.00029439751646296106, | |
| "loss": 3.0799839019775392, | |
| "step": 6150 | |
| }, | |
| { | |
| "epoch": 0.041833333333333333, | |
| "grad_norm": 0.4074974060058594, | |
| "learning_rate": 0.00029437587103792016, | |
| "loss": 2.9888477325439453, | |
| "step": 6160 | |
| }, | |
| { | |
| "epoch": 0.042, | |
| "grad_norm": 0.371817409992218, | |
| "learning_rate": 0.0002943541846783002, | |
| "loss": 2.948713684082031, | |
| "step": 6170 | |
| }, | |
| { | |
| "epoch": 0.042166666666666665, | |
| "grad_norm": 0.37995588779449463, | |
| "learning_rate": 0.0002943324573902498, | |
| "loss": 2.8891929626464843, | |
| "step": 6180 | |
| }, | |
| { | |
| "epoch": 0.042333333333333334, | |
| "grad_norm": 0.3674244284629822, | |
| "learning_rate": 0.0002943106891799293, | |
| "loss": 2.796030807495117, | |
| "step": 6190 | |
| }, | |
| { | |
| "epoch": 0.0425, | |
| "grad_norm": 0.36154231429100037, | |
| "learning_rate": 0.0002942888800535105, | |
| "loss": 2.850292778015137, | |
| "step": 6200 | |
| }, | |
| { | |
| "epoch": 0.042666666666666665, | |
| "grad_norm": 0.38896098732948303, | |
| "learning_rate": 0.0002942670300171771, | |
| "loss": 2.7989007949829103, | |
| "step": 6210 | |
| }, | |
| { | |
| "epoch": 0.042833333333333334, | |
| "grad_norm": 0.3838213384151459, | |
| "learning_rate": 0.00029424513907712395, | |
| "loss": 2.896153450012207, | |
| "step": 6220 | |
| }, | |
| { | |
| "epoch": 0.043, | |
| "grad_norm": 0.40118804574012756, | |
| "learning_rate": 0.0002942232072395579, | |
| "loss": 3.0006587982177733, | |
| "step": 6230 | |
| }, | |
| { | |
| "epoch": 0.043166666666666666, | |
| "grad_norm": 0.38531655073165894, | |
| "learning_rate": 0.0002942012345106971, | |
| "loss": 2.9570644378662108, | |
| "step": 6240 | |
| }, | |
| { | |
| "epoch": 0.043333333333333335, | |
| "grad_norm": 0.38946714997291565, | |
| "learning_rate": 0.0002941792208967716, | |
| "loss": 2.946304702758789, | |
| "step": 6250 | |
| }, | |
| { | |
| "epoch": 0.0435, | |
| "grad_norm": 0.39669328927993774, | |
| "learning_rate": 0.00029415716640402275, | |
| "loss": 2.962474822998047, | |
| "step": 6260 | |
| }, | |
| { | |
| "epoch": 0.043666666666666666, | |
| "grad_norm": 0.3736763298511505, | |
| "learning_rate": 0.0002941350710387037, | |
| "loss": 3.041091728210449, | |
| "step": 6270 | |
| }, | |
| { | |
| "epoch": 0.043833333333333335, | |
| "grad_norm": 0.37087109684944153, | |
| "learning_rate": 0.000294112934807079, | |
| "loss": 2.9812034606933593, | |
| "step": 6280 | |
| }, | |
| { | |
| "epoch": 0.044, | |
| "grad_norm": 0.3676629066467285, | |
| "learning_rate": 0.00029409075771542496, | |
| "loss": 2.827647590637207, | |
| "step": 6290 | |
| }, | |
| { | |
| "epoch": 0.04416666666666667, | |
| "grad_norm": 0.3785516619682312, | |
| "learning_rate": 0.0002940685397700294, | |
| "loss": 2.8037031173706053, | |
| "step": 6300 | |
| }, | |
| { | |
| "epoch": 0.044333333333333336, | |
| "grad_norm": 0.3679490089416504, | |
| "learning_rate": 0.00029404628097719166, | |
| "loss": 2.806118965148926, | |
| "step": 6310 | |
| }, | |
| { | |
| "epoch": 0.0445, | |
| "grad_norm": 0.37308770418167114, | |
| "learning_rate": 0.0002940239813432228, | |
| "loss": 2.797303581237793, | |
| "step": 6320 | |
| }, | |
| { | |
| "epoch": 0.04466666666666667, | |
| "grad_norm": 0.3598901033401489, | |
| "learning_rate": 0.00029400164087444537, | |
| "loss": 2.756656455993652, | |
| "step": 6330 | |
| }, | |
| { | |
| "epoch": 0.044833333333333336, | |
| "grad_norm": 0.3724973797798157, | |
| "learning_rate": 0.0002939792595771935, | |
| "loss": 2.9482675552368165, | |
| "step": 6340 | |
| }, | |
| { | |
| "epoch": 0.045, | |
| "grad_norm": 0.4032357931137085, | |
| "learning_rate": 0.0002939568374578129, | |
| "loss": 2.929281997680664, | |
| "step": 6350 | |
| }, | |
| { | |
| "epoch": 0.04516666666666667, | |
| "grad_norm": 0.3482721447944641, | |
| "learning_rate": 0.00029393437452266097, | |
| "loss": 2.8269603729248045, | |
| "step": 6360 | |
| }, | |
| { | |
| "epoch": 0.04533333333333334, | |
| "grad_norm": 0.36250752210617065, | |
| "learning_rate": 0.0002939118707781064, | |
| "loss": 2.826327323913574, | |
| "step": 6370 | |
| }, | |
| { | |
| "epoch": 0.0455, | |
| "grad_norm": 0.38788485527038574, | |
| "learning_rate": 0.00029388932623052976, | |
| "loss": 2.940120315551758, | |
| "step": 6380 | |
| }, | |
| { | |
| "epoch": 0.04566666666666667, | |
| "grad_norm": 0.34600749611854553, | |
| "learning_rate": 0.000293866740886323, | |
| "loss": 2.942264747619629, | |
| "step": 6390 | |
| }, | |
| { | |
| "epoch": 0.04583333333333333, | |
| "grad_norm": 0.4335802495479584, | |
| "learning_rate": 0.0002938441147518897, | |
| "loss": 2.9643169403076173, | |
| "step": 6400 | |
| }, | |
| { | |
| "epoch": 0.046, | |
| "grad_norm": 0.38085460662841797, | |
| "learning_rate": 0.00029382144783364505, | |
| "loss": 2.8335092544555662, | |
| "step": 6410 | |
| }, | |
| { | |
| "epoch": 0.04616666666666667, | |
| "grad_norm": 0.3866496682167053, | |
| "learning_rate": 0.0002937987401380157, | |
| "loss": 2.8184886932373048, | |
| "step": 6420 | |
| }, | |
| { | |
| "epoch": 0.04633333333333333, | |
| "grad_norm": 0.3690461814403534, | |
| "learning_rate": 0.0002937759916714399, | |
| "loss": 2.7712963104248045, | |
| "step": 6430 | |
| }, | |
| { | |
| "epoch": 0.0465, | |
| "grad_norm": 0.3848920464515686, | |
| "learning_rate": 0.00029375320244036753, | |
| "loss": 2.613561248779297, | |
| "step": 6440 | |
| }, | |
| { | |
| "epoch": 0.04666666666666667, | |
| "grad_norm": 0.3725181221961975, | |
| "learning_rate": 0.00029373037245125996, | |
| "loss": 2.7794801712036135, | |
| "step": 6450 | |
| }, | |
| { | |
| "epoch": 0.04683333333333333, | |
| "grad_norm": 0.38816165924072266, | |
| "learning_rate": 0.00029370750171059005, | |
| "loss": 2.70468692779541, | |
| "step": 6460 | |
| }, | |
| { | |
| "epoch": 0.047, | |
| "grad_norm": 0.36018455028533936, | |
| "learning_rate": 0.0002936845902248424, | |
| "loss": 2.8430145263671873, | |
| "step": 6470 | |
| }, | |
| { | |
| "epoch": 0.04716666666666667, | |
| "grad_norm": 0.3817792236804962, | |
| "learning_rate": 0.00029366163800051295, | |
| "loss": 2.9502981185913084, | |
| "step": 6480 | |
| }, | |
| { | |
| "epoch": 0.04733333333333333, | |
| "grad_norm": 0.3806685209274292, | |
| "learning_rate": 0.0002936386450441094, | |
| "loss": 3.0032901763916016, | |
| "step": 6490 | |
| }, | |
| { | |
| "epoch": 0.0475, | |
| "grad_norm": 0.3631237745285034, | |
| "learning_rate": 0.00029361561136215085, | |
| "loss": 3.043329429626465, | |
| "step": 6500 | |
| }, | |
| { | |
| "epoch": 0.04766666666666667, | |
| "grad_norm": 0.34963342547416687, | |
| "learning_rate": 0.00029359253696116793, | |
| "loss": 2.730146026611328, | |
| "step": 6510 | |
| }, | |
| { | |
| "epoch": 0.04783333333333333, | |
| "grad_norm": 0.3734063506126404, | |
| "learning_rate": 0.00029356942184770296, | |
| "loss": 2.919230079650879, | |
| "step": 6520 | |
| }, | |
| { | |
| "epoch": 0.048, | |
| "grad_norm": 0.3652487099170685, | |
| "learning_rate": 0.00029354626602830973, | |
| "loss": 2.7738105773925783, | |
| "step": 6530 | |
| }, | |
| { | |
| "epoch": 0.04816666666666667, | |
| "grad_norm": 0.3984633684158325, | |
| "learning_rate": 0.00029352306950955346, | |
| "loss": 2.832376480102539, | |
| "step": 6540 | |
| }, | |
| { | |
| "epoch": 0.04833333333333333, | |
| "grad_norm": 0.40588605403900146, | |
| "learning_rate": 0.00029349983229801107, | |
| "loss": 3.0197357177734374, | |
| "step": 6550 | |
| }, | |
| { | |
| "epoch": 0.0485, | |
| "grad_norm": 0.37554314732551575, | |
| "learning_rate": 0.00029347655440027095, | |
| "loss": 2.992153549194336, | |
| "step": 6560 | |
| }, | |
| { | |
| "epoch": 0.048666666666666664, | |
| "grad_norm": 0.36801284551620483, | |
| "learning_rate": 0.00029345323582293306, | |
| "loss": 2.919198989868164, | |
| "step": 6570 | |
| }, | |
| { | |
| "epoch": 0.04883333333333333, | |
| "grad_norm": 0.3883112072944641, | |
| "learning_rate": 0.0002934298765726088, | |
| "loss": 2.9609262466430666, | |
| "step": 6580 | |
| }, | |
| { | |
| "epoch": 0.049, | |
| "grad_norm": 0.42965978384017944, | |
| "learning_rate": 0.00029340647665592124, | |
| "loss": 3.070623779296875, | |
| "step": 6590 | |
| }, | |
| { | |
| "epoch": 0.049166666666666664, | |
| "grad_norm": 0.3925585448741913, | |
| "learning_rate": 0.00029338303607950487, | |
| "loss": 3.0677051544189453, | |
| "step": 6600 | |
| }, | |
| { | |
| "epoch": 0.04933333333333333, | |
| "grad_norm": 0.4007953107357025, | |
| "learning_rate": 0.00029335955485000577, | |
| "loss": 3.0510555267333985, | |
| "step": 6610 | |
| }, | |
| { | |
| "epoch": 0.0495, | |
| "grad_norm": 0.38611555099487305, | |
| "learning_rate": 0.00029333603297408147, | |
| "loss": 2.9069192886352537, | |
| "step": 6620 | |
| }, | |
| { | |
| "epoch": 0.049666666666666665, | |
| "grad_norm": 0.5704911351203918, | |
| "learning_rate": 0.0002933124704584011, | |
| "loss": 3.010939598083496, | |
| "step": 6630 | |
| }, | |
| { | |
| "epoch": 0.049833333333333334, | |
| "grad_norm": 0.5911468863487244, | |
| "learning_rate": 0.00029328886730964533, | |
| "loss": 2.9140695571899413, | |
| "step": 6640 | |
| }, | |
| { | |
| "epoch": 0.05, | |
| "grad_norm": 0.387665331363678, | |
| "learning_rate": 0.00029326522353450625, | |
| "loss": 2.7545188903808593, | |
| "step": 6650 | |
| }, | |
| { | |
| "epoch": 0.050166666666666665, | |
| "grad_norm": 0.398221492767334, | |
| "learning_rate": 0.00029324153913968756, | |
| "loss": 2.9847917556762695, | |
| "step": 6660 | |
| }, | |
| { | |
| "epoch": 0.050333333333333334, | |
| "grad_norm": 0.38730916380882263, | |
| "learning_rate": 0.00029321781413190444, | |
| "loss": 3.0818609237670898, | |
| "step": 6670 | |
| }, | |
| { | |
| "epoch": 0.0505, | |
| "grad_norm": 0.39305347204208374, | |
| "learning_rate": 0.00029319404851788365, | |
| "loss": 3.169163703918457, | |
| "step": 6680 | |
| }, | |
| { | |
| "epoch": 0.050666666666666665, | |
| "grad_norm": 0.40305784344673157, | |
| "learning_rate": 0.0002931702423043633, | |
| "loss": 3.0836387634277345, | |
| "step": 6690 | |
| }, | |
| { | |
| "epoch": 0.050833333333333335, | |
| "grad_norm": 0.4043393135070801, | |
| "learning_rate": 0.00029314639549809314, | |
| "loss": 3.086305046081543, | |
| "step": 6700 | |
| }, | |
| { | |
| "epoch": 0.051, | |
| "grad_norm": 0.40028905868530273, | |
| "learning_rate": 0.00029312250810583447, | |
| "loss": 3.1011959075927735, | |
| "step": 6710 | |
| }, | |
| { | |
| "epoch": 0.051166666666666666, | |
| "grad_norm": 0.3988712728023529, | |
| "learning_rate": 0.0002930985801343599, | |
| "loss": 3.0316585540771483, | |
| "step": 6720 | |
| }, | |
| { | |
| "epoch": 0.051333333333333335, | |
| "grad_norm": 0.3803875744342804, | |
| "learning_rate": 0.0002930746115904539, | |
| "loss": 2.7931013107299805, | |
| "step": 6730 | |
| }, | |
| { | |
| "epoch": 0.0515, | |
| "grad_norm": 0.3882600963115692, | |
| "learning_rate": 0.00029305060248091194, | |
| "loss": 2.8900781631469727, | |
| "step": 6740 | |
| }, | |
| { | |
| "epoch": 0.051666666666666666, | |
| "grad_norm": 0.3673243820667267, | |
| "learning_rate": 0.0002930265528125415, | |
| "loss": 2.9202960968017577, | |
| "step": 6750 | |
| }, | |
| { | |
| "epoch": 0.051833333333333335, | |
| "grad_norm": 0.3509467542171478, | |
| "learning_rate": 0.00029300246259216124, | |
| "loss": 2.9142375946044923, | |
| "step": 6760 | |
| }, | |
| { | |
| "epoch": 0.052, | |
| "grad_norm": 0.37516164779663086, | |
| "learning_rate": 0.0002929783318266014, | |
| "loss": 2.9687660217285154, | |
| "step": 6770 | |
| }, | |
| { | |
| "epoch": 0.05216666666666667, | |
| "grad_norm": 0.3723934590816498, | |
| "learning_rate": 0.0002929541605227037, | |
| "loss": 2.9943012237548827, | |
| "step": 6780 | |
| }, | |
| { | |
| "epoch": 0.052333333333333336, | |
| "grad_norm": 0.4237174093723297, | |
| "learning_rate": 0.00029292994868732145, | |
| "loss": 3.1001874923706056, | |
| "step": 6790 | |
| }, | |
| { | |
| "epoch": 0.0525, | |
| "grad_norm": 0.4308694303035736, | |
| "learning_rate": 0.0002929056963273193, | |
| "loss": 3.090090751647949, | |
| "step": 6800 | |
| }, | |
| { | |
| "epoch": 0.05266666666666667, | |
| "grad_norm": 0.3867776095867157, | |
| "learning_rate": 0.0002928814034495736, | |
| "loss": 3.0016979217529296, | |
| "step": 6810 | |
| }, | |
| { | |
| "epoch": 0.052833333333333336, | |
| "grad_norm": 0.39471495151519775, | |
| "learning_rate": 0.0002928570700609719, | |
| "loss": 3.146613883972168, | |
| "step": 6820 | |
| }, | |
| { | |
| "epoch": 0.053, | |
| "grad_norm": 0.3749244213104248, | |
| "learning_rate": 0.0002928326961684134, | |
| "loss": 3.1620513916015627, | |
| "step": 6830 | |
| }, | |
| { | |
| "epoch": 0.05316666666666667, | |
| "grad_norm": 0.39891645312309265, | |
| "learning_rate": 0.000292808281778809, | |
| "loss": 3.103597640991211, | |
| "step": 6840 | |
| }, | |
| { | |
| "epoch": 0.05333333333333334, | |
| "grad_norm": 0.3882020115852356, | |
| "learning_rate": 0.00029278382689908053, | |
| "loss": 3.1575523376464845, | |
| "step": 6850 | |
| }, | |
| { | |
| "epoch": 0.0535, | |
| "grad_norm": 0.405156672000885, | |
| "learning_rate": 0.0002927593315361619, | |
| "loss": 3.105808067321777, | |
| "step": 6860 | |
| }, | |
| { | |
| "epoch": 0.05366666666666667, | |
| "grad_norm": 0.3829409182071686, | |
| "learning_rate": 0.0002927347956969981, | |
| "loss": 3.0567110061645506, | |
| "step": 6870 | |
| }, | |
| { | |
| "epoch": 0.05383333333333333, | |
| "grad_norm": 0.38465431332588196, | |
| "learning_rate": 0.0002927102193885457, | |
| "loss": 3.0914487838745117, | |
| "step": 6880 | |
| }, | |
| { | |
| "epoch": 0.054, | |
| "grad_norm": 0.401638925075531, | |
| "learning_rate": 0.0002926856026177729, | |
| "loss": 3.0777496337890624, | |
| "step": 6890 | |
| }, | |
| { | |
| "epoch": 0.05416666666666667, | |
| "grad_norm": 0.3893527388572693, | |
| "learning_rate": 0.0002926609453916591, | |
| "loss": 3.020836067199707, | |
| "step": 6900 | |
| }, | |
| { | |
| "epoch": 0.05433333333333333, | |
| "grad_norm": 0.3911438286304474, | |
| "learning_rate": 0.00029263624771719537, | |
| "loss": 2.996641731262207, | |
| "step": 6910 | |
| }, | |
| { | |
| "epoch": 0.0545, | |
| "grad_norm": 0.40074771642684937, | |
| "learning_rate": 0.00029261150960138417, | |
| "loss": 3.094496726989746, | |
| "step": 6920 | |
| }, | |
| { | |
| "epoch": 0.05466666666666667, | |
| "grad_norm": 0.3768022954463959, | |
| "learning_rate": 0.0002925867310512395, | |
| "loss": 3.0974607467651367, | |
| "step": 6930 | |
| }, | |
| { | |
| "epoch": 0.05483333333333333, | |
| "grad_norm": 1.0672612190246582, | |
| "learning_rate": 0.0002925619120737867, | |
| "loss": 2.986092758178711, | |
| "step": 6940 | |
| }, | |
| { | |
| "epoch": 0.055, | |
| "grad_norm": 0.39106905460357666, | |
| "learning_rate": 0.00029253705267606267, | |
| "loss": 3.122268867492676, | |
| "step": 6950 | |
| }, | |
| { | |
| "epoch": 0.05516666666666667, | |
| "grad_norm": 0.3796605169773102, | |
| "learning_rate": 0.00029251215286511573, | |
| "loss": 3.091052436828613, | |
| "step": 6960 | |
| }, | |
| { | |
| "epoch": 0.05533333333333333, | |
| "grad_norm": 0.3792901337146759, | |
| "learning_rate": 0.00029248721264800567, | |
| "loss": 3.083469200134277, | |
| "step": 6970 | |
| }, | |
| { | |
| "epoch": 0.0555, | |
| "grad_norm": 0.40256309509277344, | |
| "learning_rate": 0.00029246223203180377, | |
| "loss": 3.1180984497070314, | |
| "step": 6980 | |
| }, | |
| { | |
| "epoch": 0.05566666666666667, | |
| "grad_norm": 0.4001685082912445, | |
| "learning_rate": 0.00029243721102359274, | |
| "loss": 3.1026607513427735, | |
| "step": 6990 | |
| }, | |
| { | |
| "epoch": 0.05583333333333333, | |
| "grad_norm": 0.40601831674575806, | |
| "learning_rate": 0.00029241214963046663, | |
| "loss": 3.1589757919311525, | |
| "step": 7000 | |
| }, | |
| { | |
| "epoch": 0.056, | |
| "grad_norm": 0.3928051292896271, | |
| "learning_rate": 0.00029238704785953113, | |
| "loss": 3.149326705932617, | |
| "step": 7010 | |
| }, | |
| { | |
| "epoch": 0.05616666666666666, | |
| "grad_norm": 0.4036010205745697, | |
| "learning_rate": 0.0002923619057179033, | |
| "loss": 3.137180137634277, | |
| "step": 7020 | |
| }, | |
| { | |
| "epoch": 0.05633333333333333, | |
| "grad_norm": 0.41541367769241333, | |
| "learning_rate": 0.0002923367232127116, | |
| "loss": 3.155481147766113, | |
| "step": 7030 | |
| }, | |
| { | |
| "epoch": 0.0565, | |
| "grad_norm": 0.3809373378753662, | |
| "learning_rate": 0.00029231150035109596, | |
| "loss": 3.114410400390625, | |
| "step": 7040 | |
| }, | |
| { | |
| "epoch": 0.056666666666666664, | |
| "grad_norm": 0.3731016218662262, | |
| "learning_rate": 0.0002922862371402078, | |
| "loss": 3.105120849609375, | |
| "step": 7050 | |
| }, | |
| { | |
| "epoch": 0.05683333333333333, | |
| "grad_norm": 0.38785654306411743, | |
| "learning_rate": 0.0002922609335872099, | |
| "loss": 3.043816566467285, | |
| "step": 7060 | |
| }, | |
| { | |
| "epoch": 0.057, | |
| "grad_norm": 0.4262470602989197, | |
| "learning_rate": 0.00029223558969927656, | |
| "loss": 3.1006845474243163, | |
| "step": 7070 | |
| }, | |
| { | |
| "epoch": 0.057166666666666664, | |
| "grad_norm": 0.38110196590423584, | |
| "learning_rate": 0.00029221020548359346, | |
| "loss": 3.0751932144165037, | |
| "step": 7080 | |
| }, | |
| { | |
| "epoch": 0.05733333333333333, | |
| "grad_norm": 0.3852882385253906, | |
| "learning_rate": 0.0002921847809473578, | |
| "loss": 3.1745590209960937, | |
| "step": 7090 | |
| }, | |
| { | |
| "epoch": 0.0575, | |
| "grad_norm": 0.3707679212093353, | |
| "learning_rate": 0.000292159316097778, | |
| "loss": 3.1158437728881836, | |
| "step": 7100 | |
| }, | |
| { | |
| "epoch": 0.057666666666666665, | |
| "grad_norm": 0.3930973410606384, | |
| "learning_rate": 0.00029213381094207416, | |
| "loss": 3.1524255752563475, | |
| "step": 7110 | |
| }, | |
| { | |
| "epoch": 0.057833333333333334, | |
| "grad_norm": 0.3957115113735199, | |
| "learning_rate": 0.0002921082654874777, | |
| "loss": 3.17779541015625, | |
| "step": 7120 | |
| }, | |
| { | |
| "epoch": 0.058, | |
| "grad_norm": 0.3818974792957306, | |
| "learning_rate": 0.00029208267974123144, | |
| "loss": 3.180965614318848, | |
| "step": 7130 | |
| }, | |
| { | |
| "epoch": 0.058166666666666665, | |
| "grad_norm": 0.4084106981754303, | |
| "learning_rate": 0.00029205705371058966, | |
| "loss": 3.189291763305664, | |
| "step": 7140 | |
| }, | |
| { | |
| "epoch": 0.058333333333333334, | |
| "grad_norm": 0.37610405683517456, | |
| "learning_rate": 0.000292031387402818, | |
| "loss": 2.9906883239746094, | |
| "step": 7150 | |
| }, | |
| { | |
| "epoch": 0.0585, | |
| "grad_norm": 0.36395132541656494, | |
| "learning_rate": 0.00029200568082519366, | |
| "loss": 2.816435432434082, | |
| "step": 7160 | |
| }, | |
| { | |
| "epoch": 0.058666666666666666, | |
| "grad_norm": 0.3990066349506378, | |
| "learning_rate": 0.00029197993398500516, | |
| "loss": 2.733071136474609, | |
| "step": 7170 | |
| }, | |
| { | |
| "epoch": 0.058833333333333335, | |
| "grad_norm": 0.37727782130241394, | |
| "learning_rate": 0.0002919541468895524, | |
| "loss": 2.7273191452026366, | |
| "step": 7180 | |
| }, | |
| { | |
| "epoch": 0.059, | |
| "grad_norm": 0.40415671467781067, | |
| "learning_rate": 0.0002919283195461467, | |
| "loss": 2.8836151123046876, | |
| "step": 7190 | |
| }, | |
| { | |
| "epoch": 0.059166666666666666, | |
| "grad_norm": 0.37808772921562195, | |
| "learning_rate": 0.000291902451962111, | |
| "loss": 2.766579246520996, | |
| "step": 7200 | |
| }, | |
| { | |
| "epoch": 0.059333333333333335, | |
| "grad_norm": 0.3718058168888092, | |
| "learning_rate": 0.0002918765441447793, | |
| "loss": 2.7563850402832033, | |
| "step": 7210 | |
| }, | |
| { | |
| "epoch": 0.0595, | |
| "grad_norm": 0.365247517824173, | |
| "learning_rate": 0.0002918505961014973, | |
| "loss": 2.736806869506836, | |
| "step": 7220 | |
| }, | |
| { | |
| "epoch": 0.059666666666666666, | |
| "grad_norm": 0.34523555636405945, | |
| "learning_rate": 0.0002918246078396219, | |
| "loss": 2.7504671096801756, | |
| "step": 7230 | |
| }, | |
| { | |
| "epoch": 0.059833333333333336, | |
| "grad_norm": 0.37109723687171936, | |
| "learning_rate": 0.00029179857936652157, | |
| "loss": 2.695194625854492, | |
| "step": 7240 | |
| }, | |
| { | |
| "epoch": 0.06, | |
| "grad_norm": 0.3737955391407013, | |
| "learning_rate": 0.00029177251068957606, | |
| "loss": 2.621052932739258, | |
| "step": 7250 | |
| }, | |
| { | |
| "epoch": 0.06016666666666667, | |
| "grad_norm": 0.3929753303527832, | |
| "learning_rate": 0.00029174640181617664, | |
| "loss": 2.6446352005004883, | |
| "step": 7260 | |
| }, | |
| { | |
| "epoch": 0.060333333333333336, | |
| "grad_norm": 0.3471451699733734, | |
| "learning_rate": 0.0002917202527537258, | |
| "loss": 2.620621109008789, | |
| "step": 7270 | |
| }, | |
| { | |
| "epoch": 0.0605, | |
| "grad_norm": 0.42746540904045105, | |
| "learning_rate": 0.0002916940635096376, | |
| "loss": 2.6797019958496096, | |
| "step": 7280 | |
| }, | |
| { | |
| "epoch": 0.06066666666666667, | |
| "grad_norm": 0.35947850346565247, | |
| "learning_rate": 0.0002916678340913374, | |
| "loss": 2.633715057373047, | |
| "step": 7290 | |
| }, | |
| { | |
| "epoch": 0.060833333333333336, | |
| "grad_norm": 0.36535149812698364, | |
| "learning_rate": 0.000291641564506262, | |
| "loss": 2.5058975219726562, | |
| "step": 7300 | |
| }, | |
| { | |
| "epoch": 0.061, | |
| "grad_norm": 0.38358670473098755, | |
| "learning_rate": 0.00029161525476185945, | |
| "loss": 2.5962581634521484, | |
| "step": 7310 | |
| }, | |
| { | |
| "epoch": 0.06116666666666667, | |
| "grad_norm": 0.3580729365348816, | |
| "learning_rate": 0.0002915889048655894, | |
| "loss": 2.473897171020508, | |
| "step": 7320 | |
| }, | |
| { | |
| "epoch": 0.06133333333333333, | |
| "grad_norm": 0.363400936126709, | |
| "learning_rate": 0.0002915625148249228, | |
| "loss": 2.6062271118164064, | |
| "step": 7330 | |
| }, | |
| { | |
| "epoch": 0.0615, | |
| "grad_norm": 0.3609282672405243, | |
| "learning_rate": 0.0002915360846473419, | |
| "loss": 2.629804229736328, | |
| "step": 7340 | |
| }, | |
| { | |
| "epoch": 0.06166666666666667, | |
| "grad_norm": 0.3657326102256775, | |
| "learning_rate": 0.0002915096143403404, | |
| "loss": 2.5113271713256835, | |
| "step": 7350 | |
| }, | |
| { | |
| "epoch": 0.06183333333333333, | |
| "grad_norm": 0.358372300863266, | |
| "learning_rate": 0.00029148310391142334, | |
| "loss": 2.599112892150879, | |
| "step": 7360 | |
| }, | |
| { | |
| "epoch": 0.062, | |
| "grad_norm": 0.35465332865715027, | |
| "learning_rate": 0.0002914565533681072, | |
| "loss": 2.658061408996582, | |
| "step": 7370 | |
| }, | |
| { | |
| "epoch": 0.06216666666666667, | |
| "grad_norm": 0.3702649474143982, | |
| "learning_rate": 0.0002914299627179198, | |
| "loss": 2.5538434982299805, | |
| "step": 7380 | |
| }, | |
| { | |
| "epoch": 0.06233333333333333, | |
| "grad_norm": 0.3724445700645447, | |
| "learning_rate": 0.00029140333196840033, | |
| "loss": 2.6205028533935546, | |
| "step": 7390 | |
| }, | |
| { | |
| "epoch": 0.0625, | |
| "grad_norm": 0.3595244586467743, | |
| "learning_rate": 0.00029137666112709934, | |
| "loss": 2.5793956756591796, | |
| "step": 7400 | |
| }, | |
| { | |
| "epoch": 0.06266666666666666, | |
| "grad_norm": 0.34365132451057434, | |
| "learning_rate": 0.0002913499502015788, | |
| "loss": 2.4857330322265625, | |
| "step": 7410 | |
| }, | |
| { | |
| "epoch": 0.06283333333333334, | |
| "grad_norm": 0.3451862335205078, | |
| "learning_rate": 0.0002913231991994119, | |
| "loss": 2.47800235748291, | |
| "step": 7420 | |
| }, | |
| { | |
| "epoch": 0.063, | |
| "grad_norm": 0.3589513301849365, | |
| "learning_rate": 0.0002912964081281834, | |
| "loss": 2.502494239807129, | |
| "step": 7430 | |
| }, | |
| { | |
| "epoch": 0.06316666666666666, | |
| "grad_norm": 0.36998748779296875, | |
| "learning_rate": 0.0002912695769954893, | |
| "loss": 2.4787002563476563, | |
| "step": 7440 | |
| }, | |
| { | |
| "epoch": 0.06333333333333334, | |
| "grad_norm": 0.32939860224723816, | |
| "learning_rate": 0.0002912427058089369, | |
| "loss": 2.658931922912598, | |
| "step": 7450 | |
| }, | |
| { | |
| "epoch": 0.0635, | |
| "grad_norm": 0.38151815533638, | |
| "learning_rate": 0.00029121579457614495, | |
| "loss": 2.903098297119141, | |
| "step": 7460 | |
| }, | |
| { | |
| "epoch": 0.06366666666666666, | |
| "grad_norm": 0.4199788570404053, | |
| "learning_rate": 0.0002911888433047436, | |
| "loss": 2.873810958862305, | |
| "step": 7470 | |
| }, | |
| { | |
| "epoch": 0.06383333333333334, | |
| "grad_norm": 0.3544920086860657, | |
| "learning_rate": 0.0002911618520023742, | |
| "loss": 2.917632293701172, | |
| "step": 7480 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 0.39268478751182556, | |
| "learning_rate": 0.0002911348206766896, | |
| "loss": 2.9814647674560546, | |
| "step": 7490 | |
| }, | |
| { | |
| "epoch": 0.06416666666666666, | |
| "grad_norm": 0.3877812325954437, | |
| "learning_rate": 0.00029110774933535394, | |
| "loss": 2.9182886123657226, | |
| "step": 7500 | |
| }, | |
| { | |
| "epoch": 0.06433333333333334, | |
| "grad_norm": 0.39261719584465027, | |
| "learning_rate": 0.0002910806379860426, | |
| "loss": 2.9275138854980467, | |
| "step": 7510 | |
| }, | |
| { | |
| "epoch": 0.0645, | |
| "grad_norm": 0.3577132821083069, | |
| "learning_rate": 0.00029105348663644256, | |
| "loss": 2.992527198791504, | |
| "step": 7520 | |
| }, | |
| { | |
| "epoch": 0.06466666666666666, | |
| "grad_norm": 0.3782998025417328, | |
| "learning_rate": 0.00029102629529425183, | |
| "loss": 2.9435182571411134, | |
| "step": 7530 | |
| }, | |
| { | |
| "epoch": 0.06483333333333334, | |
| "grad_norm": 0.36852407455444336, | |
| "learning_rate": 0.00029099906396718003, | |
| "loss": 2.949845886230469, | |
| "step": 7540 | |
| }, | |
| { | |
| "epoch": 0.065, | |
| "grad_norm": 0.3805658519268036, | |
| "learning_rate": 0.0002909717926629479, | |
| "loss": 2.9669191360473635, | |
| "step": 7550 | |
| }, | |
| { | |
| "epoch": 0.06516666666666666, | |
| "grad_norm": 0.3757810592651367, | |
| "learning_rate": 0.0002909444813892877, | |
| "loss": 2.9397300720214843, | |
| "step": 7560 | |
| }, | |
| { | |
| "epoch": 0.06533333333333333, | |
| "grad_norm": 0.3829989433288574, | |
| "learning_rate": 0.00029091713015394293, | |
| "loss": 2.986714553833008, | |
| "step": 7570 | |
| }, | |
| { | |
| "epoch": 0.0655, | |
| "grad_norm": 0.36800798773765564, | |
| "learning_rate": 0.0002908897389646683, | |
| "loss": 2.959121513366699, | |
| "step": 7580 | |
| }, | |
| { | |
| "epoch": 0.06566666666666666, | |
| "grad_norm": 0.38914063572883606, | |
| "learning_rate": 0.0002908623078292301, | |
| "loss": 2.9379350662231447, | |
| "step": 7590 | |
| }, | |
| { | |
| "epoch": 0.06583333333333333, | |
| "grad_norm": 0.3821718990802765, | |
| "learning_rate": 0.00029083483675540586, | |
| "loss": 2.9452192306518556, | |
| "step": 7600 | |
| }, | |
| { | |
| "epoch": 0.066, | |
| "grad_norm": 0.3927645981311798, | |
| "learning_rate": 0.00029080732575098426, | |
| "loss": 2.966671371459961, | |
| "step": 7610 | |
| }, | |
| { | |
| "epoch": 0.06616666666666667, | |
| "grad_norm": 0.38456544280052185, | |
| "learning_rate": 0.00029077977482376555, | |
| "loss": 2.9977581024169924, | |
| "step": 7620 | |
| }, | |
| { | |
| "epoch": 0.06633333333333333, | |
| "grad_norm": 0.40700915455818176, | |
| "learning_rate": 0.0002907521839815611, | |
| "loss": 3.005060005187988, | |
| "step": 7630 | |
| }, | |
| { | |
| "epoch": 0.0665, | |
| "grad_norm": 0.4053742289543152, | |
| "learning_rate": 0.0002907245532321937, | |
| "loss": 2.953268623352051, | |
| "step": 7640 | |
| }, | |
| { | |
| "epoch": 0.06666666666666667, | |
| "grad_norm": 0.3769732713699341, | |
| "learning_rate": 0.00029069688258349745, | |
| "loss": 2.970975875854492, | |
| "step": 7650 | |
| }, | |
| { | |
| "epoch": 0.06683333333333333, | |
| "grad_norm": 0.37044721841812134, | |
| "learning_rate": 0.00029066917204331776, | |
| "loss": 2.976058006286621, | |
| "step": 7660 | |
| }, | |
| { | |
| "epoch": 0.067, | |
| "grad_norm": 0.42825615406036377, | |
| "learning_rate": 0.0002906414216195114, | |
| "loss": 2.9494274139404295, | |
| "step": 7670 | |
| }, | |
| { | |
| "epoch": 0.06716666666666667, | |
| "grad_norm": 1.7334225177764893, | |
| "learning_rate": 0.0002906136313199463, | |
| "loss": 3.01751766204834, | |
| "step": 7680 | |
| }, | |
| { | |
| "epoch": 0.06733333333333333, | |
| "grad_norm": 0.3732779622077942, | |
| "learning_rate": 0.00029058580115250176, | |
| "loss": 2.976676368713379, | |
| "step": 7690 | |
| }, | |
| { | |
| "epoch": 0.0675, | |
| "grad_norm": 0.40125882625579834, | |
| "learning_rate": 0.0002905579311250685, | |
| "loss": 3.057603454589844, | |
| "step": 7700 | |
| }, | |
| { | |
| "epoch": 0.06766666666666667, | |
| "grad_norm": 0.38171663880348206, | |
| "learning_rate": 0.00029053002124554834, | |
| "loss": 2.762685012817383, | |
| "step": 7710 | |
| }, | |
| { | |
| "epoch": 0.06783333333333333, | |
| "grad_norm": 0.391777366399765, | |
| "learning_rate": 0.0002905020715218546, | |
| "loss": 2.91061954498291, | |
| "step": 7720 | |
| }, | |
| { | |
| "epoch": 0.068, | |
| "grad_norm": 0.3986228108406067, | |
| "learning_rate": 0.0002904740819619118, | |
| "loss": 2.997187042236328, | |
| "step": 7730 | |
| }, | |
| { | |
| "epoch": 0.06816666666666667, | |
| "grad_norm": 0.36958804726600647, | |
| "learning_rate": 0.0002904460525736557, | |
| "loss": 2.9954734802246095, | |
| "step": 7740 | |
| }, | |
| { | |
| "epoch": 0.06833333333333333, | |
| "grad_norm": 0.3979329466819763, | |
| "learning_rate": 0.00029041798336503345, | |
| "loss": 2.985688018798828, | |
| "step": 7750 | |
| }, | |
| { | |
| "epoch": 0.0685, | |
| "grad_norm": 0.39086639881134033, | |
| "learning_rate": 0.00029038987434400345, | |
| "loss": 3.0486474990844727, | |
| "step": 7760 | |
| }, | |
| { | |
| "epoch": 0.06866666666666667, | |
| "grad_norm": 0.37941011786460876, | |
| "learning_rate": 0.0002903617255185354, | |
| "loss": 3.009590721130371, | |
| "step": 7770 | |
| }, | |
| { | |
| "epoch": 0.06883333333333333, | |
| "grad_norm": 0.3874540627002716, | |
| "learning_rate": 0.0002903335368966102, | |
| "loss": 3.0302640914916994, | |
| "step": 7780 | |
| }, | |
| { | |
| "epoch": 0.069, | |
| "grad_norm": 0.3942844867706299, | |
| "learning_rate": 0.00029030530848622027, | |
| "loss": 3.0470159530639647, | |
| "step": 7790 | |
| }, | |
| { | |
| "epoch": 0.06916666666666667, | |
| "grad_norm": 0.372801274061203, | |
| "learning_rate": 0.000290277040295369, | |
| "loss": 3.06998348236084, | |
| "step": 7800 | |
| }, | |
| { | |
| "epoch": 0.06933333333333333, | |
| "grad_norm": 0.3805873990058899, | |
| "learning_rate": 0.0002902487323320713, | |
| "loss": 3.0450016021728517, | |
| "step": 7810 | |
| }, | |
| { | |
| "epoch": 0.0695, | |
| "grad_norm": 0.373600035905838, | |
| "learning_rate": 0.0002902203846043532, | |
| "loss": 3.0399938583374024, | |
| "step": 7820 | |
| }, | |
| { | |
| "epoch": 0.06966666666666667, | |
| "grad_norm": 0.3881121873855591, | |
| "learning_rate": 0.0002901919971202521, | |
| "loss": 2.9438343048095703, | |
| "step": 7830 | |
| }, | |
| { | |
| "epoch": 0.06983333333333333, | |
| "grad_norm": 0.384845495223999, | |
| "learning_rate": 0.0002901635698878166, | |
| "loss": 3.0112476348876953, | |
| "step": 7840 | |
| }, | |
| { | |
| "epoch": 0.07, | |
| "grad_norm": 0.374401718378067, | |
| "learning_rate": 0.0002901351029151067, | |
| "loss": 3.082077407836914, | |
| "step": 7850 | |
| }, | |
| { | |
| "epoch": 0.07016666666666667, | |
| "grad_norm": 0.3732111155986786, | |
| "learning_rate": 0.0002901065962101935, | |
| "loss": 2.8397762298583986, | |
| "step": 7860 | |
| }, | |
| { | |
| "epoch": 0.07033333333333333, | |
| "grad_norm": 0.4078359603881836, | |
| "learning_rate": 0.00029007804978115954, | |
| "loss": 2.6799802780151367, | |
| "step": 7870 | |
| }, | |
| { | |
| "epoch": 0.0705, | |
| "grad_norm": 0.36895552277565, | |
| "learning_rate": 0.0002900494636360984, | |
| "loss": 2.631447601318359, | |
| "step": 7880 | |
| }, | |
| { | |
| "epoch": 0.07066666666666667, | |
| "grad_norm": 0.3986772298812866, | |
| "learning_rate": 0.0002900208377831151, | |
| "loss": 2.9338111877441406, | |
| "step": 7890 | |
| }, | |
| { | |
| "epoch": 0.07083333333333333, | |
| "grad_norm": 0.39151084423065186, | |
| "learning_rate": 0.0002899921722303259, | |
| "loss": 3.042695236206055, | |
| "step": 7900 | |
| }, | |
| { | |
| "epoch": 0.071, | |
| "grad_norm": 0.43503689765930176, | |
| "learning_rate": 0.0002899634669858583, | |
| "loss": 3.0772659301757814, | |
| "step": 7910 | |
| }, | |
| { | |
| "epoch": 0.07116666666666667, | |
| "grad_norm": 0.3629150092601776, | |
| "learning_rate": 0.00028993472205785095, | |
| "loss": 3.0347219467163087, | |
| "step": 7920 | |
| }, | |
| { | |
| "epoch": 0.07133333333333333, | |
| "grad_norm": 0.3640083372592926, | |
| "learning_rate": 0.0002899059374544539, | |
| "loss": 2.899766540527344, | |
| "step": 7930 | |
| }, | |
| { | |
| "epoch": 0.0715, | |
| "grad_norm": 0.3656698763370514, | |
| "learning_rate": 0.0002898771131838283, | |
| "loss": 2.696305847167969, | |
| "step": 7940 | |
| }, | |
| { | |
| "epoch": 0.07166666666666667, | |
| "grad_norm": 0.37310102581977844, | |
| "learning_rate": 0.0002898482492541468, | |
| "loss": 2.769809341430664, | |
| "step": 7950 | |
| }, | |
| { | |
| "epoch": 0.07183333333333333, | |
| "grad_norm": 0.39096155762672424, | |
| "learning_rate": 0.000289819345673593, | |
| "loss": 2.7517889022827147, | |
| "step": 7960 | |
| }, | |
| { | |
| "epoch": 0.072, | |
| "grad_norm": 0.34597668051719666, | |
| "learning_rate": 0.0002897904024503619, | |
| "loss": 2.7326591491699217, | |
| "step": 7970 | |
| }, | |
| { | |
| "epoch": 0.07216666666666667, | |
| "grad_norm": 0.38390180468559265, | |
| "learning_rate": 0.0002897614195926597, | |
| "loss": 2.694135284423828, | |
| "step": 7980 | |
| }, | |
| { | |
| "epoch": 0.07233333333333333, | |
| "grad_norm": 0.37960708141326904, | |
| "learning_rate": 0.00028973239710870384, | |
| "loss": 2.812735176086426, | |
| "step": 7990 | |
| }, | |
| { | |
| "epoch": 0.0725, | |
| "grad_norm": 0.36439424753189087, | |
| "learning_rate": 0.00028970333500672303, | |
| "loss": 2.8109577178955076, | |
| "step": 8000 | |
| }, | |
| { | |
| "epoch": 0.07266666666666667, | |
| "grad_norm": 0.3453996777534485, | |
| "learning_rate": 0.0002896742332949572, | |
| "loss": 2.7494396209716796, | |
| "step": 8010 | |
| }, | |
| { | |
| "epoch": 0.07283333333333333, | |
| "grad_norm": 0.3709613084793091, | |
| "learning_rate": 0.0002896450919816574, | |
| "loss": 2.832318115234375, | |
| "step": 8020 | |
| }, | |
| { | |
| "epoch": 0.073, | |
| "grad_norm": 0.38604649901390076, | |
| "learning_rate": 0.0002896159110750862, | |
| "loss": 2.8173288345336913, | |
| "step": 8030 | |
| }, | |
| { | |
| "epoch": 0.07316666666666667, | |
| "grad_norm": 0.37968260049819946, | |
| "learning_rate": 0.000289586690583517, | |
| "loss": 2.829819107055664, | |
| "step": 8040 | |
| }, | |
| { | |
| "epoch": 0.07333333333333333, | |
| "grad_norm": 0.35359862446784973, | |
| "learning_rate": 0.00028955743051523465, | |
| "loss": 2.7823715209960938, | |
| "step": 8050 | |
| }, | |
| { | |
| "epoch": 0.0735, | |
| "grad_norm": 0.3639524579048157, | |
| "learning_rate": 0.00028952813087853533, | |
| "loss": 2.760794258117676, | |
| "step": 8060 | |
| }, | |
| { | |
| "epoch": 0.07366666666666667, | |
| "grad_norm": 0.3654758930206299, | |
| "learning_rate": 0.00028949879168172616, | |
| "loss": 2.736991310119629, | |
| "step": 8070 | |
| }, | |
| { | |
| "epoch": 0.07383333333333333, | |
| "grad_norm": 0.36181625723838806, | |
| "learning_rate": 0.00028946941293312567, | |
| "loss": 2.816946792602539, | |
| "step": 8080 | |
| }, | |
| { | |
| "epoch": 0.074, | |
| "grad_norm": 0.3788537085056305, | |
| "learning_rate": 0.0002894399946410636, | |
| "loss": 2.811870002746582, | |
| "step": 8090 | |
| }, | |
| { | |
| "epoch": 0.07416666666666667, | |
| "grad_norm": 0.3393183946609497, | |
| "learning_rate": 0.0002894105368138807, | |
| "loss": 2.723903274536133, | |
| "step": 8100 | |
| }, | |
| { | |
| "epoch": 0.07433333333333333, | |
| "grad_norm": 0.3352717161178589, | |
| "learning_rate": 0.00028938103945992926, | |
| "loss": 2.6978361129760744, | |
| "step": 8110 | |
| }, | |
| { | |
| "epoch": 0.0745, | |
| "grad_norm": 0.38219866156578064, | |
| "learning_rate": 0.0002893515025875726, | |
| "loss": 2.7439762115478517, | |
| "step": 8120 | |
| }, | |
| { | |
| "epoch": 0.07466666666666667, | |
| "grad_norm": 0.35783448815345764, | |
| "learning_rate": 0.00028932192620518513, | |
| "loss": 2.7886289596557616, | |
| "step": 8130 | |
| }, | |
| { | |
| "epoch": 0.07483333333333334, | |
| "grad_norm": 0.3538830578327179, | |
| "learning_rate": 0.0002892923103211526, | |
| "loss": 2.8963045120239257, | |
| "step": 8140 | |
| }, | |
| { | |
| "epoch": 0.075, | |
| "grad_norm": 0.37107858061790466, | |
| "learning_rate": 0.00028926265494387196, | |
| "loss": 2.8870670318603517, | |
| "step": 8150 | |
| }, | |
| { | |
| "epoch": 0.07516666666666667, | |
| "grad_norm": 0.36251598596572876, | |
| "learning_rate": 0.00028923296008175135, | |
| "loss": 2.8525896072387695, | |
| "step": 8160 | |
| }, | |
| { | |
| "epoch": 0.07533333333333334, | |
| "grad_norm": 0.3944455087184906, | |
| "learning_rate": 0.0002892032257432101, | |
| "loss": 2.865979766845703, | |
| "step": 8170 | |
| }, | |
| { | |
| "epoch": 0.0755, | |
| "grad_norm": 0.3710351288318634, | |
| "learning_rate": 0.0002891734519366787, | |
| "loss": 2.8153043746948243, | |
| "step": 8180 | |
| }, | |
| { | |
| "epoch": 0.07566666666666666, | |
| "grad_norm": 0.36971551179885864, | |
| "learning_rate": 0.0002891436386705989, | |
| "loss": 2.8204229354858397, | |
| "step": 8190 | |
| }, | |
| { | |
| "epoch": 0.07583333333333334, | |
| "grad_norm": 0.3832435607910156, | |
| "learning_rate": 0.00028911378595342346, | |
| "loss": 2.8466213226318358, | |
| "step": 8200 | |
| }, | |
| { | |
| "epoch": 0.076, | |
| "grad_norm": 0.35473373532295227, | |
| "learning_rate": 0.0002890838937936166, | |
| "loss": 2.8302003860473635, | |
| "step": 8210 | |
| }, | |
| { | |
| "epoch": 0.07616666666666666, | |
| "grad_norm": 0.36936044692993164, | |
| "learning_rate": 0.0002890539621996535, | |
| "loss": 2.7736061096191404, | |
| "step": 8220 | |
| }, | |
| { | |
| "epoch": 0.07633333333333334, | |
| "grad_norm": 0.3513256013393402, | |
| "learning_rate": 0.00028902399118002067, | |
| "loss": 2.5801765441894533, | |
| "step": 8230 | |
| }, | |
| { | |
| "epoch": 0.0765, | |
| "grad_norm": 0.35978972911834717, | |
| "learning_rate": 0.0002889939807432157, | |
| "loss": 2.6658184051513674, | |
| "step": 8240 | |
| }, | |
| { | |
| "epoch": 0.07666666666666666, | |
| "grad_norm": 0.38274580240249634, | |
| "learning_rate": 0.0002889639308977473, | |
| "loss": 2.744871711730957, | |
| "step": 8250 | |
| }, | |
| { | |
| "epoch": 0.07683333333333334, | |
| "grad_norm": 0.38770100474357605, | |
| "learning_rate": 0.00028893384165213547, | |
| "loss": 2.7592889785766603, | |
| "step": 8260 | |
| }, | |
| { | |
| "epoch": 0.077, | |
| "grad_norm": 0.3790663182735443, | |
| "learning_rate": 0.00028890371301491146, | |
| "loss": 2.889255905151367, | |
| "step": 8270 | |
| }, | |
| { | |
| "epoch": 0.07716666666666666, | |
| "grad_norm": 0.36016857624053955, | |
| "learning_rate": 0.00028887354499461745, | |
| "loss": 2.8479888916015623, | |
| "step": 8280 | |
| }, | |
| { | |
| "epoch": 0.07733333333333334, | |
| "grad_norm": 0.380307137966156, | |
| "learning_rate": 0.000288843337599807, | |
| "loss": 2.846491813659668, | |
| "step": 8290 | |
| }, | |
| { | |
| "epoch": 0.0775, | |
| "grad_norm": 0.36424508690834045, | |
| "learning_rate": 0.0002888130908390447, | |
| "loss": 2.878053665161133, | |
| "step": 8300 | |
| }, | |
| { | |
| "epoch": 0.07766666666666666, | |
| "grad_norm": 0.38090968132019043, | |
| "learning_rate": 0.0002887828047209064, | |
| "loss": 2.855295944213867, | |
| "step": 8310 | |
| }, | |
| { | |
| "epoch": 0.07783333333333334, | |
| "grad_norm": 0.35746878385543823, | |
| "learning_rate": 0.000288752479253979, | |
| "loss": 2.8940433502197265, | |
| "step": 8320 | |
| }, | |
| { | |
| "epoch": 0.078, | |
| "grad_norm": 0.35671961307525635, | |
| "learning_rate": 0.0002887221144468606, | |
| "loss": 2.9748987197875976, | |
| "step": 8330 | |
| }, | |
| { | |
| "epoch": 0.07816666666666666, | |
| "grad_norm": 0.37154173851013184, | |
| "learning_rate": 0.00028869171030816053, | |
| "loss": 2.998274040222168, | |
| "step": 8340 | |
| }, | |
| { | |
| "epoch": 0.07833333333333334, | |
| "grad_norm": 0.3724062740802765, | |
| "learning_rate": 0.00028866126684649917, | |
| "loss": 2.8773033142089846, | |
| "step": 8350 | |
| }, | |
| { | |
| "epoch": 0.0785, | |
| "grad_norm": 0.35358142852783203, | |
| "learning_rate": 0.00028863078407050807, | |
| "loss": 2.927072525024414, | |
| "step": 8360 | |
| }, | |
| { | |
| "epoch": 0.07866666666666666, | |
| "grad_norm": 0.36544308066368103, | |
| "learning_rate": 0.00028860026198883007, | |
| "loss": 2.9056814193725584, | |
| "step": 8370 | |
| }, | |
| { | |
| "epoch": 0.07883333333333334, | |
| "grad_norm": 0.37079834938049316, | |
| "learning_rate": 0.0002885697006101188, | |
| "loss": 2.8973163604736327, | |
| "step": 8380 | |
| }, | |
| { | |
| "epoch": 0.079, | |
| "grad_norm": 0.35769256949424744, | |
| "learning_rate": 0.0002885390999430395, | |
| "loss": 2.81085147857666, | |
| "step": 8390 | |
| }, | |
| { | |
| "epoch": 0.07916666666666666, | |
| "grad_norm": 0.3707377314567566, | |
| "learning_rate": 0.0002885084599962682, | |
| "loss": 2.793642044067383, | |
| "step": 8400 | |
| }, | |
| { | |
| "epoch": 0.07933333333333334, | |
| "grad_norm": 0.40529802441596985, | |
| "learning_rate": 0.00028847778077849214, | |
| "loss": 2.9512815475463867, | |
| "step": 8410 | |
| }, | |
| { | |
| "epoch": 0.0795, | |
| "grad_norm": 0.3493574857711792, | |
| "learning_rate": 0.00028844706229840986, | |
| "loss": 2.918813133239746, | |
| "step": 8420 | |
| }, | |
| { | |
| "epoch": 0.07966666666666666, | |
| "grad_norm": 0.3552611768245697, | |
| "learning_rate": 0.00028841630456473075, | |
| "loss": 2.780997085571289, | |
| "step": 8430 | |
| }, | |
| { | |
| "epoch": 0.07983333333333334, | |
| "grad_norm": 0.3614233434200287, | |
| "learning_rate": 0.00028838550758617556, | |
| "loss": 2.8519285202026365, | |
| "step": 8440 | |
| }, | |
| { | |
| "epoch": 0.08, | |
| "grad_norm": 0.39881542325019836, | |
| "learning_rate": 0.00028835467137147615, | |
| "loss": 2.8958999633789064, | |
| "step": 8450 | |
| }, | |
| { | |
| "epoch": 0.08016666666666666, | |
| "grad_norm": 0.3612383008003235, | |
| "learning_rate": 0.0002883237959293753, | |
| "loss": 2.8186050415039063, | |
| "step": 8460 | |
| }, | |
| { | |
| "epoch": 0.08033333333333334, | |
| "grad_norm": 0.3497442901134491, | |
| "learning_rate": 0.00028829288126862724, | |
| "loss": 2.739505386352539, | |
| "step": 8470 | |
| }, | |
| { | |
| "epoch": 0.0805, | |
| "grad_norm": 0.3586975336074829, | |
| "learning_rate": 0.00028826192739799694, | |
| "loss": 2.7719682693481444, | |
| "step": 8480 | |
| }, | |
| { | |
| "epoch": 0.08066666666666666, | |
| "grad_norm": 0.3747289478778839, | |
| "learning_rate": 0.00028823093432626083, | |
| "loss": 2.873129463195801, | |
| "step": 8490 | |
| }, | |
| { | |
| "epoch": 0.08083333333333333, | |
| "grad_norm": 0.34539350867271423, | |
| "learning_rate": 0.0002881999020622063, | |
| "loss": 2.7382030487060547, | |
| "step": 8500 | |
| }, | |
| { | |
| "epoch": 0.081, | |
| "grad_norm": 0.4155365824699402, | |
| "learning_rate": 0.00028816883061463176, | |
| "loss": 2.7552820205688477, | |
| "step": 8510 | |
| }, | |
| { | |
| "epoch": 0.08116666666666666, | |
| "grad_norm": 0.40032505989074707, | |
| "learning_rate": 0.0002881377199923469, | |
| "loss": 2.8610322952270506, | |
| "step": 8520 | |
| }, | |
| { | |
| "epoch": 0.08133333333333333, | |
| "grad_norm": 0.3721928894519806, | |
| "learning_rate": 0.0002881065702041724, | |
| "loss": 2.8690778732299806, | |
| "step": 8530 | |
| }, | |
| { | |
| "epoch": 0.0815, | |
| "grad_norm": 0.3590529263019562, | |
| "learning_rate": 0.0002880753812589402, | |
| "loss": 2.8733280181884764, | |
| "step": 8540 | |
| }, | |
| { | |
| "epoch": 0.08166666666666667, | |
| "grad_norm": 0.3880694508552551, | |
| "learning_rate": 0.00028804415316549314, | |
| "loss": 2.819232940673828, | |
| "step": 8550 | |
| }, | |
| { | |
| "epoch": 0.08183333333333333, | |
| "grad_norm": 0.361520379781723, | |
| "learning_rate": 0.00028801288593268527, | |
| "loss": 2.919606590270996, | |
| "step": 8560 | |
| }, | |
| { | |
| "epoch": 0.082, | |
| "grad_norm": 0.3785449266433716, | |
| "learning_rate": 0.0002879815795693818, | |
| "loss": 3.00650691986084, | |
| "step": 8570 | |
| }, | |
| { | |
| "epoch": 0.08216666666666667, | |
| "grad_norm": 0.3418520390987396, | |
| "learning_rate": 0.00028795023408445877, | |
| "loss": 2.9630847930908204, | |
| "step": 8580 | |
| }, | |
| { | |
| "epoch": 0.08233333333333333, | |
| "grad_norm": 0.35394683480262756, | |
| "learning_rate": 0.0002879188494868037, | |
| "loss": 2.8360586166381836, | |
| "step": 8590 | |
| }, | |
| { | |
| "epoch": 0.0825, | |
| "grad_norm": 0.38963237404823303, | |
| "learning_rate": 0.0002878874257853149, | |
| "loss": 2.954873275756836, | |
| "step": 8600 | |
| }, | |
| { | |
| "epoch": 0.08266666666666667, | |
| "grad_norm": 0.37688371539115906, | |
| "learning_rate": 0.0002878559629889019, | |
| "loss": 3.0085628509521483, | |
| "step": 8610 | |
| }, | |
| { | |
| "epoch": 0.08283333333333333, | |
| "grad_norm": 0.37673714756965637, | |
| "learning_rate": 0.0002878244611064852, | |
| "loss": 3.001415824890137, | |
| "step": 8620 | |
| }, | |
| { | |
| "epoch": 0.083, | |
| "grad_norm": 0.3783765733242035, | |
| "learning_rate": 0.0002877929201469965, | |
| "loss": 2.924319839477539, | |
| "step": 8630 | |
| }, | |
| { | |
| "epoch": 0.08316666666666667, | |
| "grad_norm": 0.3794272541999817, | |
| "learning_rate": 0.0002877613401193786, | |
| "loss": 2.8281463623046874, | |
| "step": 8640 | |
| }, | |
| { | |
| "epoch": 0.08333333333333333, | |
| "grad_norm": 0.3879368007183075, | |
| "learning_rate": 0.0002877297210325853, | |
| "loss": 2.8229066848754885, | |
| "step": 8650 | |
| }, | |
| { | |
| "epoch": 0.0835, | |
| "grad_norm": 0.3800705373287201, | |
| "learning_rate": 0.00028769806289558145, | |
| "loss": 2.8100061416625977, | |
| "step": 8660 | |
| }, | |
| { | |
| "epoch": 0.08366666666666667, | |
| "grad_norm": 0.3919481039047241, | |
| "learning_rate": 0.00028766636571734297, | |
| "loss": 2.933970069885254, | |
| "step": 8670 | |
| }, | |
| { | |
| "epoch": 0.08383333333333333, | |
| "grad_norm": 0.3753172755241394, | |
| "learning_rate": 0.000287634629506857, | |
| "loss": 2.963550567626953, | |
| "step": 8680 | |
| }, | |
| { | |
| "epoch": 0.084, | |
| "grad_norm": 0.374881386756897, | |
| "learning_rate": 0.0002876028542731216, | |
| "loss": 3.0050731658935548, | |
| "step": 8690 | |
| }, | |
| { | |
| "epoch": 0.08416666666666667, | |
| "grad_norm": 0.3827640414237976, | |
| "learning_rate": 0.0002875710400251459, | |
| "loss": 2.993809127807617, | |
| "step": 8700 | |
| }, | |
| { | |
| "epoch": 0.08433333333333333, | |
| "grad_norm": 0.38827770948410034, | |
| "learning_rate": 0.00028753918677195013, | |
| "loss": 2.966595458984375, | |
| "step": 8710 | |
| }, | |
| { | |
| "epoch": 0.0845, | |
| "grad_norm": 0.3805679380893707, | |
| "learning_rate": 0.0002875072945225656, | |
| "loss": 2.9449575424194334, | |
| "step": 8720 | |
| }, | |
| { | |
| "epoch": 0.08466666666666667, | |
| "grad_norm": 0.401265949010849, | |
| "learning_rate": 0.0002874753632860347, | |
| "loss": 3.0216648101806642, | |
| "step": 8730 | |
| }, | |
| { | |
| "epoch": 0.08483333333333333, | |
| "grad_norm": 0.4089195728302002, | |
| "learning_rate": 0.00028744339307141067, | |
| "loss": 2.949349021911621, | |
| "step": 8740 | |
| }, | |
| { | |
| "epoch": 0.085, | |
| "grad_norm": 0.3903751075267792, | |
| "learning_rate": 0.0002874113838877581, | |
| "loss": 2.9601430892944336, | |
| "step": 8750 | |
| }, | |
| { | |
| "epoch": 0.08516666666666667, | |
| "grad_norm": 0.3800072968006134, | |
| "learning_rate": 0.00028737933574415246, | |
| "loss": 2.9771102905273437, | |
| "step": 8760 | |
| }, | |
| { | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 0.35385075211524963, | |
| "learning_rate": 0.00028734724864968024, | |
| "loss": 2.8619287490844725, | |
| "step": 8770 | |
| }, | |
| { | |
| "epoch": 0.0855, | |
| "grad_norm": 0.3094714879989624, | |
| "learning_rate": 0.00028731512261343905, | |
| "loss": 2.551932716369629, | |
| "step": 8780 | |
| }, | |
| { | |
| "epoch": 0.08566666666666667, | |
| "grad_norm": 0.3456581234931946, | |
| "learning_rate": 0.0002872829576445376, | |
| "loss": 2.550779914855957, | |
| "step": 8790 | |
| }, | |
| { | |
| "epoch": 0.08583333333333333, | |
| "grad_norm": 0.33465033769607544, | |
| "learning_rate": 0.00028725075375209537, | |
| "loss": 2.7116863250732424, | |
| "step": 8800 | |
| }, | |
| { | |
| "epoch": 0.086, | |
| "grad_norm": 0.3668154180049896, | |
| "learning_rate": 0.0002872185109452432, | |
| "loss": 2.7546573638916017, | |
| "step": 8810 | |
| }, | |
| { | |
| "epoch": 0.08616666666666667, | |
| "grad_norm": 0.40015819668769836, | |
| "learning_rate": 0.00028718622923312276, | |
| "loss": 2.815192985534668, | |
| "step": 8820 | |
| }, | |
| { | |
| "epoch": 0.08633333333333333, | |
| "grad_norm": 0.4568469226360321, | |
| "learning_rate": 0.0002871539086248869, | |
| "loss": 2.9397647857666014, | |
| "step": 8830 | |
| }, | |
| { | |
| "epoch": 0.0865, | |
| "grad_norm": 0.3752466142177582, | |
| "learning_rate": 0.00028712154912969933, | |
| "loss": 2.997811126708984, | |
| "step": 8840 | |
| }, | |
| { | |
| "epoch": 0.08666666666666667, | |
| "grad_norm": 0.3966951072216034, | |
| "learning_rate": 0.00028708915075673487, | |
| "loss": 2.9600738525390624, | |
| "step": 8850 | |
| }, | |
| { | |
| "epoch": 0.08683333333333333, | |
| "grad_norm": 0.385616660118103, | |
| "learning_rate": 0.0002870567135151794, | |
| "loss": 2.995475959777832, | |
| "step": 8860 | |
| }, | |
| { | |
| "epoch": 0.087, | |
| "grad_norm": 0.41171568632125854, | |
| "learning_rate": 0.00028702423741422975, | |
| "loss": 2.9510320663452148, | |
| "step": 8870 | |
| }, | |
| { | |
| "epoch": 0.08716666666666667, | |
| "grad_norm": 0.37604814767837524, | |
| "learning_rate": 0.00028699172246309386, | |
| "loss": 2.942887878417969, | |
| "step": 8880 | |
| }, | |
| { | |
| "epoch": 0.08733333333333333, | |
| "grad_norm": 0.359893262386322, | |
| "learning_rate": 0.0002869591686709905, | |
| "loss": 2.897919845581055, | |
| "step": 8890 | |
| }, | |
| { | |
| "epoch": 0.0875, | |
| "grad_norm": 0.3566887676715851, | |
| "learning_rate": 0.0002869265760471497, | |
| "loss": 2.8465831756591795, | |
| "step": 8900 | |
| }, | |
| { | |
| "epoch": 0.08766666666666667, | |
| "grad_norm": 0.365549236536026, | |
| "learning_rate": 0.0002868939446008123, | |
| "loss": 2.8258132934570312, | |
| "step": 8910 | |
| }, | |
| { | |
| "epoch": 0.08783333333333333, | |
| "grad_norm": 0.38654187321662903, | |
| "learning_rate": 0.0002868612743412303, | |
| "loss": 2.869220161437988, | |
| "step": 8920 | |
| }, | |
| { | |
| "epoch": 0.088, | |
| "grad_norm": 0.34111154079437256, | |
| "learning_rate": 0.00028682856527766657, | |
| "loss": 2.8037746429443358, | |
| "step": 8930 | |
| }, | |
| { | |
| "epoch": 0.08816666666666667, | |
| "grad_norm": 0.35901686549186707, | |
| "learning_rate": 0.000286795817419395, | |
| "loss": 2.9024696350097656, | |
| "step": 8940 | |
| }, | |
| { | |
| "epoch": 0.08833333333333333, | |
| "grad_norm": 0.3486897945404053, | |
| "learning_rate": 0.0002867630307757006, | |
| "loss": 2.8580015182495115, | |
| "step": 8950 | |
| }, | |
| { | |
| "epoch": 0.0885, | |
| "grad_norm": 0.3644869923591614, | |
| "learning_rate": 0.0002867302053558793, | |
| "loss": 2.7919416427612305, | |
| "step": 8960 | |
| }, | |
| { | |
| "epoch": 0.08866666666666667, | |
| "grad_norm": 0.36419951915740967, | |
| "learning_rate": 0.0002866973411692379, | |
| "loss": 2.818129539489746, | |
| "step": 8970 | |
| }, | |
| { | |
| "epoch": 0.08883333333333333, | |
| "grad_norm": 0.37151747941970825, | |
| "learning_rate": 0.0002866644382250945, | |
| "loss": 2.8000688552856445, | |
| "step": 8980 | |
| }, | |
| { | |
| "epoch": 0.089, | |
| "grad_norm": 0.41001400351524353, | |
| "learning_rate": 0.0002866314965327778, | |
| "loss": 2.8964866638183593, | |
| "step": 8990 | |
| }, | |
| { | |
| "epoch": 0.08916666666666667, | |
| "grad_norm": 0.3449036777019501, | |
| "learning_rate": 0.00028659851610162785, | |
| "loss": 2.769412803649902, | |
| "step": 9000 | |
| }, | |
| { | |
| "epoch": 0.08933333333333333, | |
| "grad_norm": 0.3284320533275604, | |
| "learning_rate": 0.0002865654969409954, | |
| "loss": 2.8089309692382813, | |
| "step": 9010 | |
| }, | |
| { | |
| "epoch": 0.0895, | |
| "grad_norm": 0.3335931599140167, | |
| "learning_rate": 0.00028653243906024247, | |
| "loss": 2.808209228515625, | |
| "step": 9020 | |
| }, | |
| { | |
| "epoch": 0.08966666666666667, | |
| "grad_norm": 0.3487749993801117, | |
| "learning_rate": 0.0002864993424687417, | |
| "loss": 2.732996940612793, | |
| "step": 9030 | |
| }, | |
| { | |
| "epoch": 0.08983333333333333, | |
| "grad_norm": 0.3709432780742645, | |
| "learning_rate": 0.000286466207175877, | |
| "loss": 2.707015609741211, | |
| "step": 9040 | |
| }, | |
| { | |
| "epoch": 0.09, | |
| "grad_norm": 0.3400644063949585, | |
| "learning_rate": 0.0002864330331910431, | |
| "loss": 2.7739015579223634, | |
| "step": 9050 | |
| }, | |
| { | |
| "epoch": 0.09016666666666667, | |
| "grad_norm": 0.3754271864891052, | |
| "learning_rate": 0.0002863998205236458, | |
| "loss": 2.756894111633301, | |
| "step": 9060 | |
| }, | |
| { | |
| "epoch": 0.09033333333333333, | |
| "grad_norm": 0.36973458528518677, | |
| "learning_rate": 0.0002863665691831017, | |
| "loss": 2.7984287261962892, | |
| "step": 9070 | |
| }, | |
| { | |
| "epoch": 0.0905, | |
| "grad_norm": 0.34491243958473206, | |
| "learning_rate": 0.0002863332791788387, | |
| "loss": 2.8282186508178713, | |
| "step": 9080 | |
| }, | |
| { | |
| "epoch": 0.09066666666666667, | |
| "grad_norm": 0.36020711064338684, | |
| "learning_rate": 0.00028629995052029524, | |
| "loss": 2.831917953491211, | |
| "step": 9090 | |
| }, | |
| { | |
| "epoch": 0.09083333333333334, | |
| "grad_norm": 0.37985268235206604, | |
| "learning_rate": 0.00028626658321692096, | |
| "loss": 2.8649354934692384, | |
| "step": 9100 | |
| }, | |
| { | |
| "epoch": 0.091, | |
| "grad_norm": 0.39229467511177063, | |
| "learning_rate": 0.00028623317727817645, | |
| "loss": 2.8219844818115236, | |
| "step": 9110 | |
| }, | |
| { | |
| "epoch": 0.09116666666666666, | |
| "grad_norm": 0.3532887399196625, | |
| "learning_rate": 0.0002861997327135333, | |
| "loss": 2.7614973068237303, | |
| "step": 9120 | |
| }, | |
| { | |
| "epoch": 0.09133333333333334, | |
| "grad_norm": 0.3597084581851959, | |
| "learning_rate": 0.0002861662495324738, | |
| "loss": 2.870098686218262, | |
| "step": 9130 | |
| }, | |
| { | |
| "epoch": 0.0915, | |
| "grad_norm": 0.3700224459171295, | |
| "learning_rate": 0.00028613272774449154, | |
| "loss": 2.8357120513916017, | |
| "step": 9140 | |
| }, | |
| { | |
| "epoch": 0.09166666666666666, | |
| "grad_norm": 0.3505774438381195, | |
| "learning_rate": 0.0002860991673590908, | |
| "loss": 2.754099464416504, | |
| "step": 9150 | |
| }, | |
| { | |
| "epoch": 0.09183333333333334, | |
| "grad_norm": 0.34579479694366455, | |
| "learning_rate": 0.00028606556838578685, | |
| "loss": 2.7998725891113283, | |
| "step": 9160 | |
| }, | |
| { | |
| "epoch": 0.092, | |
| "grad_norm": 0.36511072516441345, | |
| "learning_rate": 0.000286031930834106, | |
| "loss": 2.835207939147949, | |
| "step": 9170 | |
| }, | |
| { | |
| "epoch": 0.09216666666666666, | |
| "grad_norm": 0.3592240810394287, | |
| "learning_rate": 0.0002859982547135854, | |
| "loss": 2.8685771942138674, | |
| "step": 9180 | |
| }, | |
| { | |
| "epoch": 0.09233333333333334, | |
| "grad_norm": 0.3856920897960663, | |
| "learning_rate": 0.00028596454003377317, | |
| "loss": 2.8370105743408205, | |
| "step": 9190 | |
| }, | |
| { | |
| "epoch": 0.0925, | |
| "grad_norm": 0.35312730073928833, | |
| "learning_rate": 0.00028593078680422837, | |
| "loss": 2.8010177612304688, | |
| "step": 9200 | |
| }, | |
| { | |
| "epoch": 0.09266666666666666, | |
| "grad_norm": 0.3775421679019928, | |
| "learning_rate": 0.0002858969950345209, | |
| "loss": 2.7878562927246096, | |
| "step": 9210 | |
| }, | |
| { | |
| "epoch": 0.09283333333333334, | |
| "grad_norm": 0.38095957040786743, | |
| "learning_rate": 0.00028586316473423187, | |
| "loss": 2.8107866287231444, | |
| "step": 9220 | |
| }, | |
| { | |
| "epoch": 0.093, | |
| "grad_norm": 0.3698684573173523, | |
| "learning_rate": 0.0002858292959129529, | |
| "loss": 2.7675500869750977, | |
| "step": 9230 | |
| }, | |
| { | |
| "epoch": 0.09316666666666666, | |
| "grad_norm": 0.36145222187042236, | |
| "learning_rate": 0.00028579538858028685, | |
| "loss": 2.8425624847412108, | |
| "step": 9240 | |
| }, | |
| { | |
| "epoch": 0.09333333333333334, | |
| "grad_norm": 0.3630043864250183, | |
| "learning_rate": 0.00028576144274584735, | |
| "loss": 2.744532585144043, | |
| "step": 9250 | |
| }, | |
| { | |
| "epoch": 0.0935, | |
| "grad_norm": 0.35888129472732544, | |
| "learning_rate": 0.00028572745841925904, | |
| "loss": 2.755132865905762, | |
| "step": 9260 | |
| }, | |
| { | |
| "epoch": 0.09366666666666666, | |
| "grad_norm": 0.3507837653160095, | |
| "learning_rate": 0.0002856934356101574, | |
| "loss": 2.8252931594848634, | |
| "step": 9270 | |
| }, | |
| { | |
| "epoch": 0.09383333333333334, | |
| "grad_norm": 0.3669086694717407, | |
| "learning_rate": 0.0002856593743281888, | |
| "loss": 2.8739065170288085, | |
| "step": 9280 | |
| }, | |
| { | |
| "epoch": 0.094, | |
| "grad_norm": 0.3655420243740082, | |
| "learning_rate": 0.0002856252745830106, | |
| "loss": 2.866586112976074, | |
| "step": 9290 | |
| }, | |
| { | |
| "epoch": 0.09416666666666666, | |
| "grad_norm": 0.35320961475372314, | |
| "learning_rate": 0.00028559113638429104, | |
| "loss": 2.806113433837891, | |
| "step": 9300 | |
| }, | |
| { | |
| "epoch": 0.09433333333333334, | |
| "grad_norm": 0.3701521158218384, | |
| "learning_rate": 0.00028555695974170924, | |
| "loss": 2.7944141387939454, | |
| "step": 9310 | |
| }, | |
| { | |
| "epoch": 0.0945, | |
| "grad_norm": 0.3411415219306946, | |
| "learning_rate": 0.0002855227446649552, | |
| "loss": 2.693042755126953, | |
| "step": 9320 | |
| }, | |
| { | |
| "epoch": 0.09466666666666666, | |
| "grad_norm": 0.34341827034950256, | |
| "learning_rate": 0.0002854884911637299, | |
| "loss": 2.6667823791503906, | |
| "step": 9330 | |
| }, | |
| { | |
| "epoch": 0.09483333333333334, | |
| "grad_norm": 0.3616132140159607, | |
| "learning_rate": 0.00028545419924774513, | |
| "loss": 2.6700407028198243, | |
| "step": 9340 | |
| }, | |
| { | |
| "epoch": 0.095, | |
| "grad_norm": 0.3750063180923462, | |
| "learning_rate": 0.00028541986892672357, | |
| "loss": 2.753375244140625, | |
| "step": 9350 | |
| }, | |
| { | |
| "epoch": 0.09516666666666666, | |
| "grad_norm": 0.36249396204948425, | |
| "learning_rate": 0.00028538550021039885, | |
| "loss": 2.8885286331176756, | |
| "step": 9360 | |
| }, | |
| { | |
| "epoch": 0.09533333333333334, | |
| "grad_norm": 0.3946261405944824, | |
| "learning_rate": 0.0002853510931085155, | |
| "loss": 2.873586082458496, | |
| "step": 9370 | |
| }, | |
| { | |
| "epoch": 0.0955, | |
| "grad_norm": 0.3485543131828308, | |
| "learning_rate": 0.0002853166476308288, | |
| "loss": 2.8844079971313477, | |
| "step": 9380 | |
| }, | |
| { | |
| "epoch": 0.09566666666666666, | |
| "grad_norm": 0.36728721857070923, | |
| "learning_rate": 0.00028528216378710517, | |
| "loss": 2.9377586364746096, | |
| "step": 9390 | |
| }, | |
| { | |
| "epoch": 0.09583333333333334, | |
| "grad_norm": 0.3543992340564728, | |
| "learning_rate": 0.00028524764158712157, | |
| "loss": 2.8414134979248047, | |
| "step": 9400 | |
| }, | |
| { | |
| "epoch": 0.096, | |
| "grad_norm": 0.35999006032943726, | |
| "learning_rate": 0.000285213081040666, | |
| "loss": 2.8607666015625, | |
| "step": 9410 | |
| }, | |
| { | |
| "epoch": 0.09616666666666666, | |
| "grad_norm": 0.354253351688385, | |
| "learning_rate": 0.0002851784821575375, | |
| "loss": 2.9069902420043947, | |
| "step": 9420 | |
| }, | |
| { | |
| "epoch": 0.09633333333333334, | |
| "grad_norm": 0.35411810874938965, | |
| "learning_rate": 0.00028514384494754565, | |
| "loss": 2.7570217132568358, | |
| "step": 9430 | |
| }, | |
| { | |
| "epoch": 0.0965, | |
| "grad_norm": 0.3394506871700287, | |
| "learning_rate": 0.0002851091694205111, | |
| "loss": 2.7525148391723633, | |
| "step": 9440 | |
| }, | |
| { | |
| "epoch": 0.09666666666666666, | |
| "grad_norm": 0.3472767770290375, | |
| "learning_rate": 0.00028507445558626545, | |
| "loss": 2.5929914474487306, | |
| "step": 9450 | |
| }, | |
| { | |
| "epoch": 0.09683333333333333, | |
| "grad_norm": 0.3445834517478943, | |
| "learning_rate": 0.0002850397034546509, | |
| "loss": 2.6706295013427734, | |
| "step": 9460 | |
| }, | |
| { | |
| "epoch": 0.097, | |
| "grad_norm": 0.3816157281398773, | |
| "learning_rate": 0.00028500491303552067, | |
| "loss": 2.8304374694824217, | |
| "step": 9470 | |
| }, | |
| { | |
| "epoch": 0.09716666666666667, | |
| "grad_norm": 0.3813958168029785, | |
| "learning_rate": 0.00028497008433873885, | |
| "loss": 2.9113664627075195, | |
| "step": 9480 | |
| }, | |
| { | |
| "epoch": 0.09733333333333333, | |
| "grad_norm": 0.3773977756500244, | |
| "learning_rate": 0.00028493521737418034, | |
| "loss": 2.907037544250488, | |
| "step": 9490 | |
| }, | |
| { | |
| "epoch": 0.0975, | |
| "grad_norm": 0.3632221519947052, | |
| "learning_rate": 0.0002849003121517309, | |
| "loss": 2.8818357467651365, | |
| "step": 9500 | |
| }, | |
| { | |
| "epoch": 0.09766666666666667, | |
| "grad_norm": 0.3970240652561188, | |
| "learning_rate": 0.0002848653686812871, | |
| "loss": 2.9164527893066405, | |
| "step": 9510 | |
| }, | |
| { | |
| "epoch": 0.09783333333333333, | |
| "grad_norm": 0.3500790297985077, | |
| "learning_rate": 0.0002848303869727564, | |
| "loss": 2.8345727920532227, | |
| "step": 9520 | |
| }, | |
| { | |
| "epoch": 0.098, | |
| "grad_norm": 0.3632773160934448, | |
| "learning_rate": 0.0002847953670360571, | |
| "loss": 2.873233604431152, | |
| "step": 9530 | |
| }, | |
| { | |
| "epoch": 0.09816666666666667, | |
| "grad_norm": 0.376605749130249, | |
| "learning_rate": 0.0002847603088811183, | |
| "loss": 2.85976619720459, | |
| "step": 9540 | |
| }, | |
| { | |
| "epoch": 0.09833333333333333, | |
| "grad_norm": 0.3669801950454712, | |
| "learning_rate": 0.00028472521251787997, | |
| "loss": 2.720789337158203, | |
| "step": 9550 | |
| }, | |
| { | |
| "epoch": 0.0985, | |
| "grad_norm": 0.36518895626068115, | |
| "learning_rate": 0.00028469007795629294, | |
| "loss": 2.7442270278930665, | |
| "step": 9560 | |
| }, | |
| { | |
| "epoch": 0.09866666666666667, | |
| "grad_norm": 0.3775388300418854, | |
| "learning_rate": 0.0002846549052063189, | |
| "loss": 2.7367034912109376, | |
| "step": 9570 | |
| }, | |
| { | |
| "epoch": 0.09883333333333333, | |
| "grad_norm": 0.406002402305603, | |
| "learning_rate": 0.0002846196942779301, | |
| "loss": 2.8679609298706055, | |
| "step": 9580 | |
| }, | |
| { | |
| "epoch": 0.099, | |
| "grad_norm": 0.39087504148483276, | |
| "learning_rate": 0.00028458444518110996, | |
| "loss": 2.963069725036621, | |
| "step": 9590 | |
| }, | |
| { | |
| "epoch": 0.09916666666666667, | |
| "grad_norm": 0.3501756191253662, | |
| "learning_rate": 0.0002845491579258526, | |
| "loss": 2.8137041091918946, | |
| "step": 9600 | |
| }, | |
| { | |
| "epoch": 0.09933333333333333, | |
| "grad_norm": 0.34010085463523865, | |
| "learning_rate": 0.0002845138325221628, | |
| "loss": 2.802777862548828, | |
| "step": 9610 | |
| }, | |
| { | |
| "epoch": 0.0995, | |
| "grad_norm": 0.35873836278915405, | |
| "learning_rate": 0.0002844784689800565, | |
| "loss": 2.8310117721557617, | |
| "step": 9620 | |
| }, | |
| { | |
| "epoch": 0.09966666666666667, | |
| "grad_norm": 0.3960883319377899, | |
| "learning_rate": 0.00028444306730956016, | |
| "loss": 2.8962934494018553, | |
| "step": 9630 | |
| }, | |
| { | |
| "epoch": 0.09983333333333333, | |
| "grad_norm": 0.3697907626628876, | |
| "learning_rate": 0.00028440762752071104, | |
| "loss": 2.8383338928222654, | |
| "step": 9640 | |
| }, | |
| { | |
| "epoch": 0.1, | |
| "grad_norm": 0.38671207427978516, | |
| "learning_rate": 0.0002843721496235574, | |
| "loss": 2.874836540222168, | |
| "step": 9650 | |
| } | |
| ], | |
| "logging_steps": 10, | |
| "max_steps": 60000, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 9223372036854775807, | |
| "save_steps": 50, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": false | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 3.363846410289021e+18, | |
| "train_batch_size": 4, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |