Text Generation
Transformers
Safetensors
qwen2
llama-factory
full
Generated from Trainer
conversational
text-generation-inference
Instructions to use apoorva2311/Limopro-model with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use apoorva2311/Limopro-model with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="apoorva2311/Limopro-model") messages = [ {"role": "user", "content": "Who are you?"}, ] pipe(messages)# Load model directly from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("apoorva2311/Limopro-model") model = AutoModelForCausalLM.from_pretrained("apoorva2311/Limopro-model") messages = [ {"role": "user", "content": "Who are you?"}, ] inputs = tokenizer.apply_chat_template( messages, add_generation_prompt=True, tokenize=True, return_dict=True, return_tensors="pt", ).to(model.device) outputs = model.generate(**inputs, max_new_tokens=40) print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:])) - Notebooks
- Google Colab
- Kaggle
- Local Apps Settings
- vLLM
How to use apoorva2311/Limopro-model with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "apoorva2311/Limopro-model" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "apoorva2311/Limopro-model", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker
docker model run hf.co/apoorva2311/Limopro-model
- SGLang
How to use apoorva2311/Limopro-model with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "apoorva2311/Limopro-model" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "apoorva2311/Limopro-model", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "apoorva2311/Limopro-model" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/chat/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "apoorva2311/Limopro-model", "messages": [ { "role": "user", "content": "What is the capital of France?" } ] }' - Docker Model Runner
How to use apoorva2311/Limopro-model with Docker Model Runner:
docker model run hf.co/apoorva2311/Limopro-model
| { | |
| "best_global_step": null, | |
| "best_metric": null, | |
| "best_model_checkpoint": null, | |
| "epoch": 3.0, | |
| "eval_steps": 500, | |
| "global_step": 705, | |
| "is_hyper_param_search": false, | |
| "is_local_process_zero": true, | |
| "is_world_process_zero": true, | |
| "log_history": [ | |
| { | |
| "epoch": 0.004266666666666667, | |
| "grad_norm": 4.362146377563477, | |
| "learning_rate": 0.0, | |
| "loss": 0.9789, | |
| "step": 1 | |
| }, | |
| { | |
| "epoch": 0.008533333333333334, | |
| "grad_norm": 4.282586574554443, | |
| "learning_rate": 1.3888888888888888e-07, | |
| "loss": 0.9679, | |
| "step": 2 | |
| }, | |
| { | |
| "epoch": 0.0128, | |
| "grad_norm": 4.4176812171936035, | |
| "learning_rate": 2.7777777777777776e-07, | |
| "loss": 0.9775, | |
| "step": 3 | |
| }, | |
| { | |
| "epoch": 0.017066666666666667, | |
| "grad_norm": 4.650586128234863, | |
| "learning_rate": 4.1666666666666667e-07, | |
| "loss": 0.9649, | |
| "step": 4 | |
| }, | |
| { | |
| "epoch": 0.021333333333333333, | |
| "grad_norm": 4.638489723205566, | |
| "learning_rate": 5.555555555555555e-07, | |
| "loss": 1.014, | |
| "step": 5 | |
| }, | |
| { | |
| "epoch": 0.0256, | |
| "grad_norm": 4.192325592041016, | |
| "learning_rate": 6.944444444444446e-07, | |
| "loss": 0.956, | |
| "step": 6 | |
| }, | |
| { | |
| "epoch": 0.029866666666666666, | |
| "grad_norm": 4.542601585388184, | |
| "learning_rate": 8.333333333333333e-07, | |
| "loss": 0.9553, | |
| "step": 7 | |
| }, | |
| { | |
| "epoch": 0.034133333333333335, | |
| "grad_norm": 4.178647518157959, | |
| "learning_rate": 9.722222222222224e-07, | |
| "loss": 0.942, | |
| "step": 8 | |
| }, | |
| { | |
| "epoch": 0.0384, | |
| "grad_norm": 3.826584815979004, | |
| "learning_rate": 1.111111111111111e-06, | |
| "loss": 0.9361, | |
| "step": 9 | |
| }, | |
| { | |
| "epoch": 0.042666666666666665, | |
| "grad_norm": 3.841879367828369, | |
| "learning_rate": 1.25e-06, | |
| "loss": 0.956, | |
| "step": 10 | |
| }, | |
| { | |
| "epoch": 0.046933333333333334, | |
| "grad_norm": 3.7646379470825195, | |
| "learning_rate": 1.3888888888888892e-06, | |
| "loss": 0.9161, | |
| "step": 11 | |
| }, | |
| { | |
| "epoch": 0.0512, | |
| "grad_norm": 3.145012855529785, | |
| "learning_rate": 1.527777777777778e-06, | |
| "loss": 0.9237, | |
| "step": 12 | |
| }, | |
| { | |
| "epoch": 0.055466666666666664, | |
| "grad_norm": 2.0433948040008545, | |
| "learning_rate": 1.6666666666666667e-06, | |
| "loss": 0.9213, | |
| "step": 13 | |
| }, | |
| { | |
| "epoch": 0.05973333333333333, | |
| "grad_norm": 1.9841437339782715, | |
| "learning_rate": 1.8055555555555557e-06, | |
| "loss": 0.8836, | |
| "step": 14 | |
| }, | |
| { | |
| "epoch": 0.064, | |
| "grad_norm": 1.850753903388977, | |
| "learning_rate": 1.944444444444445e-06, | |
| "loss": 0.927, | |
| "step": 15 | |
| }, | |
| { | |
| "epoch": 0.06826666666666667, | |
| "grad_norm": 1.7173751592636108, | |
| "learning_rate": 2.0833333333333334e-06, | |
| "loss": 0.8718, | |
| "step": 16 | |
| }, | |
| { | |
| "epoch": 0.07253333333333334, | |
| "grad_norm": 2.0940911769866943, | |
| "learning_rate": 2.222222222222222e-06, | |
| "loss": 0.9329, | |
| "step": 17 | |
| }, | |
| { | |
| "epoch": 0.0768, | |
| "grad_norm": 2.0196115970611572, | |
| "learning_rate": 2.361111111111111e-06, | |
| "loss": 0.8768, | |
| "step": 18 | |
| }, | |
| { | |
| "epoch": 0.08106666666666666, | |
| "grad_norm": 2.069068431854248, | |
| "learning_rate": 2.5e-06, | |
| "loss": 0.8899, | |
| "step": 19 | |
| }, | |
| { | |
| "epoch": 0.08533333333333333, | |
| "grad_norm": 1.9134008884429932, | |
| "learning_rate": 2.6388888888888893e-06, | |
| "loss": 0.906, | |
| "step": 20 | |
| }, | |
| { | |
| "epoch": 0.0896, | |
| "grad_norm": 1.7790288925170898, | |
| "learning_rate": 2.7777777777777783e-06, | |
| "loss": 0.8698, | |
| "step": 21 | |
| }, | |
| { | |
| "epoch": 0.09386666666666667, | |
| "grad_norm": 1.5685698986053467, | |
| "learning_rate": 2.916666666666667e-06, | |
| "loss": 0.8693, | |
| "step": 22 | |
| }, | |
| { | |
| "epoch": 0.09813333333333334, | |
| "grad_norm": 1.2142629623413086, | |
| "learning_rate": 3.055555555555556e-06, | |
| "loss": 0.85, | |
| "step": 23 | |
| }, | |
| { | |
| "epoch": 0.1024, | |
| "grad_norm": 1.2168952226638794, | |
| "learning_rate": 3.1944444444444443e-06, | |
| "loss": 0.8585, | |
| "step": 24 | |
| }, | |
| { | |
| "epoch": 0.10666666666666667, | |
| "grad_norm": 1.0702353715896606, | |
| "learning_rate": 3.3333333333333333e-06, | |
| "loss": 0.849, | |
| "step": 25 | |
| }, | |
| { | |
| "epoch": 0.11093333333333333, | |
| "grad_norm": 1.049211025238037, | |
| "learning_rate": 3.4722222222222224e-06, | |
| "loss": 0.8689, | |
| "step": 26 | |
| }, | |
| { | |
| "epoch": 0.1152, | |
| "grad_norm": 0.8866307139396667, | |
| "learning_rate": 3.6111111111111115e-06, | |
| "loss": 0.818, | |
| "step": 27 | |
| }, | |
| { | |
| "epoch": 0.11946666666666667, | |
| "grad_norm": 0.7809798717498779, | |
| "learning_rate": 3.7500000000000005e-06, | |
| "loss": 0.8354, | |
| "step": 28 | |
| }, | |
| { | |
| "epoch": 0.12373333333333333, | |
| "grad_norm": 0.6708624958992004, | |
| "learning_rate": 3.88888888888889e-06, | |
| "loss": 0.7881, | |
| "step": 29 | |
| }, | |
| { | |
| "epoch": 0.128, | |
| "grad_norm": 0.6296146512031555, | |
| "learning_rate": 4.027777777777779e-06, | |
| "loss": 0.8044, | |
| "step": 30 | |
| }, | |
| { | |
| "epoch": 0.13226666666666667, | |
| "grad_norm": 0.6943596601486206, | |
| "learning_rate": 4.166666666666667e-06, | |
| "loss": 0.7343, | |
| "step": 31 | |
| }, | |
| { | |
| "epoch": 0.13653333333333334, | |
| "grad_norm": 0.7787662744522095, | |
| "learning_rate": 4.305555555555556e-06, | |
| "loss": 0.8084, | |
| "step": 32 | |
| }, | |
| { | |
| "epoch": 0.1408, | |
| "grad_norm": 0.7602130174636841, | |
| "learning_rate": 4.444444444444444e-06, | |
| "loss": 0.8048, | |
| "step": 33 | |
| }, | |
| { | |
| "epoch": 0.14506666666666668, | |
| "grad_norm": 0.6979145407676697, | |
| "learning_rate": 4.583333333333333e-06, | |
| "loss": 0.7773, | |
| "step": 34 | |
| }, | |
| { | |
| "epoch": 0.14933333333333335, | |
| "grad_norm": 0.6033741235733032, | |
| "learning_rate": 4.722222222222222e-06, | |
| "loss": 0.7654, | |
| "step": 35 | |
| }, | |
| { | |
| "epoch": 0.1536, | |
| "grad_norm": 0.5684896111488342, | |
| "learning_rate": 4.861111111111111e-06, | |
| "loss": 0.769, | |
| "step": 36 | |
| }, | |
| { | |
| "epoch": 0.15786666666666666, | |
| "grad_norm": 0.5608508586883545, | |
| "learning_rate": 5e-06, | |
| "loss": 0.7525, | |
| "step": 37 | |
| }, | |
| { | |
| "epoch": 0.16213333333333332, | |
| "grad_norm": 0.567663848400116, | |
| "learning_rate": 4.999972435080738e-06, | |
| "loss": 0.7425, | |
| "step": 38 | |
| }, | |
| { | |
| "epoch": 0.1664, | |
| "grad_norm": 0.627487063407898, | |
| "learning_rate": 4.99988974093081e-06, | |
| "loss": 0.7469, | |
| "step": 39 | |
| }, | |
| { | |
| "epoch": 0.17066666666666666, | |
| "grad_norm": 0.5669575929641724, | |
| "learning_rate": 4.999751919373782e-06, | |
| "loss": 0.7667, | |
| "step": 40 | |
| }, | |
| { | |
| "epoch": 0.17493333333333333, | |
| "grad_norm": 0.5957594513893127, | |
| "learning_rate": 4.999558973448887e-06, | |
| "loss": 0.7762, | |
| "step": 41 | |
| }, | |
| { | |
| "epoch": 0.1792, | |
| "grad_norm": 0.4995954632759094, | |
| "learning_rate": 4.999310907410957e-06, | |
| "loss": 0.7593, | |
| "step": 42 | |
| }, | |
| { | |
| "epoch": 0.18346666666666667, | |
| "grad_norm": 0.47803279757499695, | |
| "learning_rate": 4.9990077267303256e-06, | |
| "loss": 0.6961, | |
| "step": 43 | |
| }, | |
| { | |
| "epoch": 0.18773333333333334, | |
| "grad_norm": 0.43306031823158264, | |
| "learning_rate": 4.998649438092715e-06, | |
| "loss": 0.703, | |
| "step": 44 | |
| }, | |
| { | |
| "epoch": 0.192, | |
| "grad_norm": 0.46962299942970276, | |
| "learning_rate": 4.998236049399084e-06, | |
| "loss": 0.7681, | |
| "step": 45 | |
| }, | |
| { | |
| "epoch": 0.19626666666666667, | |
| "grad_norm": 0.47601673007011414, | |
| "learning_rate": 4.997767569765452e-06, | |
| "loss": 0.7059, | |
| "step": 46 | |
| }, | |
| { | |
| "epoch": 0.20053333333333334, | |
| "grad_norm": 0.508930504322052, | |
| "learning_rate": 4.997244009522702e-06, | |
| "loss": 0.7048, | |
| "step": 47 | |
| }, | |
| { | |
| "epoch": 0.2048, | |
| "grad_norm": 0.4726659059524536, | |
| "learning_rate": 4.996665380216351e-06, | |
| "loss": 0.7263, | |
| "step": 48 | |
| }, | |
| { | |
| "epoch": 0.20906666666666668, | |
| "grad_norm": 0.4572336971759796, | |
| "learning_rate": 4.996031694606294e-06, | |
| "loss": 0.7386, | |
| "step": 49 | |
| }, | |
| { | |
| "epoch": 0.21333333333333335, | |
| "grad_norm": 0.4237333834171295, | |
| "learning_rate": 4.995342966666527e-06, | |
| "loss": 0.7183, | |
| "step": 50 | |
| }, | |
| { | |
| "epoch": 0.2176, | |
| "grad_norm": 0.388201504945755, | |
| "learning_rate": 4.994599211584833e-06, | |
| "loss": 0.7179, | |
| "step": 51 | |
| }, | |
| { | |
| "epoch": 0.22186666666666666, | |
| "grad_norm": 0.39760446548461914, | |
| "learning_rate": 4.993800445762451e-06, | |
| "loss": 0.7079, | |
| "step": 52 | |
| }, | |
| { | |
| "epoch": 0.22613333333333333, | |
| "grad_norm": 0.4210253953933716, | |
| "learning_rate": 4.9929466868137135e-06, | |
| "loss": 0.7296, | |
| "step": 53 | |
| }, | |
| { | |
| "epoch": 0.2304, | |
| "grad_norm": 0.40208855271339417, | |
| "learning_rate": 4.992037953565657e-06, | |
| "loss": 0.7173, | |
| "step": 54 | |
| }, | |
| { | |
| "epoch": 0.23466666666666666, | |
| "grad_norm": 0.38060909509658813, | |
| "learning_rate": 4.991074266057609e-06, | |
| "loss": 0.7283, | |
| "step": 55 | |
| }, | |
| { | |
| "epoch": 0.23893333333333333, | |
| "grad_norm": 0.43215471506118774, | |
| "learning_rate": 4.990055645540745e-06, | |
| "loss": 0.7748, | |
| "step": 56 | |
| }, | |
| { | |
| "epoch": 0.2432, | |
| "grad_norm": 0.38835158944129944, | |
| "learning_rate": 4.988982114477617e-06, | |
| "loss": 0.7106, | |
| "step": 57 | |
| }, | |
| { | |
| "epoch": 0.24746666666666667, | |
| "grad_norm": 0.3765578866004944, | |
| "learning_rate": 4.987853696541664e-06, | |
| "loss": 0.7278, | |
| "step": 58 | |
| }, | |
| { | |
| "epoch": 0.2517333333333333, | |
| "grad_norm": 0.42565688490867615, | |
| "learning_rate": 4.986670416616684e-06, | |
| "loss": 0.7233, | |
| "step": 59 | |
| }, | |
| { | |
| "epoch": 0.256, | |
| "grad_norm": 0.4181171655654907, | |
| "learning_rate": 4.985432300796292e-06, | |
| "loss": 0.7318, | |
| "step": 60 | |
| }, | |
| { | |
| "epoch": 0.26026666666666665, | |
| "grad_norm": 0.3972390294075012, | |
| "learning_rate": 4.984139376383337e-06, | |
| "loss": 0.7145, | |
| "step": 61 | |
| }, | |
| { | |
| "epoch": 0.26453333333333334, | |
| "grad_norm": 0.3961975872516632, | |
| "learning_rate": 4.982791671889302e-06, | |
| "loss": 0.7363, | |
| "step": 62 | |
| }, | |
| { | |
| "epoch": 0.2688, | |
| "grad_norm": 0.3924165666103363, | |
| "learning_rate": 4.981389217033684e-06, | |
| "loss": 0.7304, | |
| "step": 63 | |
| }, | |
| { | |
| "epoch": 0.2730666666666667, | |
| "grad_norm": 0.38246816396713257, | |
| "learning_rate": 4.979932042743324e-06, | |
| "loss": 0.6888, | |
| "step": 64 | |
| }, | |
| { | |
| "epoch": 0.2773333333333333, | |
| "grad_norm": 0.3791496753692627, | |
| "learning_rate": 4.9784201811517365e-06, | |
| "loss": 0.6999, | |
| "step": 65 | |
| }, | |
| { | |
| "epoch": 0.2816, | |
| "grad_norm": 0.3851902484893799, | |
| "learning_rate": 4.976853665598394e-06, | |
| "loss": 0.7891, | |
| "step": 66 | |
| }, | |
| { | |
| "epoch": 0.28586666666666666, | |
| "grad_norm": 0.35090020298957825, | |
| "learning_rate": 4.975232530627998e-06, | |
| "loss": 0.6972, | |
| "step": 67 | |
| }, | |
| { | |
| "epoch": 0.29013333333333335, | |
| "grad_norm": 0.44051802158355713, | |
| "learning_rate": 4.973556811989712e-06, | |
| "loss": 0.6897, | |
| "step": 68 | |
| }, | |
| { | |
| "epoch": 0.2944, | |
| "grad_norm": 0.35761162638664246, | |
| "learning_rate": 4.971826546636374e-06, | |
| "loss": 0.6779, | |
| "step": 69 | |
| }, | |
| { | |
| "epoch": 0.2986666666666667, | |
| "grad_norm": 0.3964172601699829, | |
| "learning_rate": 4.970041772723685e-06, | |
| "loss": 0.7144, | |
| "step": 70 | |
| }, | |
| { | |
| "epoch": 0.30293333333333333, | |
| "grad_norm": 0.38685816526412964, | |
| "learning_rate": 4.968202529609364e-06, | |
| "loss": 0.7446, | |
| "step": 71 | |
| }, | |
| { | |
| "epoch": 0.3072, | |
| "grad_norm": 0.41402679681777954, | |
| "learning_rate": 4.966308857852281e-06, | |
| "loss": 0.6844, | |
| "step": 72 | |
| }, | |
| { | |
| "epoch": 0.31146666666666667, | |
| "grad_norm": 0.39126983284950256, | |
| "learning_rate": 4.964360799211563e-06, | |
| "loss": 0.7103, | |
| "step": 73 | |
| }, | |
| { | |
| "epoch": 0.3157333333333333, | |
| "grad_norm": 0.3830004632472992, | |
| "learning_rate": 4.962358396645673e-06, | |
| "loss": 0.7091, | |
| "step": 74 | |
| }, | |
| { | |
| "epoch": 0.32, | |
| "grad_norm": 0.37684130668640137, | |
| "learning_rate": 4.960301694311464e-06, | |
| "loss": 0.6844, | |
| "step": 75 | |
| }, | |
| { | |
| "epoch": 0.32426666666666665, | |
| "grad_norm": 0.3762841820716858, | |
| "learning_rate": 4.958190737563203e-06, | |
| "loss": 0.6978, | |
| "step": 76 | |
| }, | |
| { | |
| "epoch": 0.32853333333333334, | |
| "grad_norm": 0.3554311990737915, | |
| "learning_rate": 4.9560255729515726e-06, | |
| "loss": 0.6813, | |
| "step": 77 | |
| }, | |
| { | |
| "epoch": 0.3328, | |
| "grad_norm": 0.3811330497264862, | |
| "learning_rate": 4.95380624822264e-06, | |
| "loss": 0.6942, | |
| "step": 78 | |
| }, | |
| { | |
| "epoch": 0.3370666666666667, | |
| "grad_norm": 0.3794249892234802, | |
| "learning_rate": 4.951532812316814e-06, | |
| "loss": 0.6822, | |
| "step": 79 | |
| }, | |
| { | |
| "epoch": 0.3413333333333333, | |
| "grad_norm": 0.3942255675792694, | |
| "learning_rate": 4.9492053153677545e-06, | |
| "loss": 0.6943, | |
| "step": 80 | |
| }, | |
| { | |
| "epoch": 0.3456, | |
| "grad_norm": 0.36585119366645813, | |
| "learning_rate": 4.9468238087012744e-06, | |
| "loss": 0.7032, | |
| "step": 81 | |
| }, | |
| { | |
| "epoch": 0.34986666666666666, | |
| "grad_norm": 0.3868674635887146, | |
| "learning_rate": 4.944388344834205e-06, | |
| "loss": 0.7056, | |
| "step": 82 | |
| }, | |
| { | |
| "epoch": 0.35413333333333336, | |
| "grad_norm": 0.3917011618614197, | |
| "learning_rate": 4.941898977473238e-06, | |
| "loss": 0.6837, | |
| "step": 83 | |
| }, | |
| { | |
| "epoch": 0.3584, | |
| "grad_norm": 0.38477852940559387, | |
| "learning_rate": 4.939355761513742e-06, | |
| "loss": 0.6794, | |
| "step": 84 | |
| }, | |
| { | |
| "epoch": 0.3626666666666667, | |
| "grad_norm": 0.3847743272781372, | |
| "learning_rate": 4.936758753038551e-06, | |
| "loss": 0.7318, | |
| "step": 85 | |
| }, | |
| { | |
| "epoch": 0.36693333333333333, | |
| "grad_norm": 0.37328410148620605, | |
| "learning_rate": 4.934108009316728e-06, | |
| "loss": 0.6933, | |
| "step": 86 | |
| }, | |
| { | |
| "epoch": 0.3712, | |
| "grad_norm": 0.40673941373825073, | |
| "learning_rate": 4.931403588802302e-06, | |
| "loss": 0.7338, | |
| "step": 87 | |
| }, | |
| { | |
| "epoch": 0.37546666666666667, | |
| "grad_norm": 0.3592469394207001, | |
| "learning_rate": 4.92864555113298e-06, | |
| "loss": 0.6865, | |
| "step": 88 | |
| }, | |
| { | |
| "epoch": 0.3797333333333333, | |
| "grad_norm": 0.36004796624183655, | |
| "learning_rate": 4.925833957128831e-06, | |
| "loss": 0.6748, | |
| "step": 89 | |
| }, | |
| { | |
| "epoch": 0.384, | |
| "grad_norm": 0.37560826539993286, | |
| "learning_rate": 4.922968868790943e-06, | |
| "loss": 0.6512, | |
| "step": 90 | |
| }, | |
| { | |
| "epoch": 0.38826666666666665, | |
| "grad_norm": 0.37589576840400696, | |
| "learning_rate": 4.92005034930006e-06, | |
| "loss": 0.686, | |
| "step": 91 | |
| }, | |
| { | |
| "epoch": 0.39253333333333335, | |
| "grad_norm": 0.39273473620414734, | |
| "learning_rate": 4.917078463015184e-06, | |
| "loss": 0.6901, | |
| "step": 92 | |
| }, | |
| { | |
| "epoch": 0.3968, | |
| "grad_norm": 0.3746315836906433, | |
| "learning_rate": 4.914053275472162e-06, | |
| "loss": 0.7052, | |
| "step": 93 | |
| }, | |
| { | |
| "epoch": 0.4010666666666667, | |
| "grad_norm": 0.34910982847213745, | |
| "learning_rate": 4.9109748533822315e-06, | |
| "loss": 0.6893, | |
| "step": 94 | |
| }, | |
| { | |
| "epoch": 0.4053333333333333, | |
| "grad_norm": 0.3954693078994751, | |
| "learning_rate": 4.907843264630559e-06, | |
| "loss": 0.7373, | |
| "step": 95 | |
| }, | |
| { | |
| "epoch": 0.4096, | |
| "grad_norm": 0.3721007704734802, | |
| "learning_rate": 4.904658578274738e-06, | |
| "loss": 0.6679, | |
| "step": 96 | |
| }, | |
| { | |
| "epoch": 0.41386666666666666, | |
| "grad_norm": 0.3675512373447418, | |
| "learning_rate": 4.901420864543265e-06, | |
| "loss": 0.6379, | |
| "step": 97 | |
| }, | |
| { | |
| "epoch": 0.41813333333333336, | |
| "grad_norm": 0.3632946014404297, | |
| "learning_rate": 4.898130194833995e-06, | |
| "loss": 0.6712, | |
| "step": 98 | |
| }, | |
| { | |
| "epoch": 0.4224, | |
| "grad_norm": 0.3786664307117462, | |
| "learning_rate": 4.894786641712563e-06, | |
| "loss": 0.6835, | |
| "step": 99 | |
| }, | |
| { | |
| "epoch": 0.4266666666666667, | |
| "grad_norm": 0.3775879740715027, | |
| "learning_rate": 4.891390278910788e-06, | |
| "loss": 0.6935, | |
| "step": 100 | |
| }, | |
| { | |
| "epoch": 0.43093333333333333, | |
| "grad_norm": 0.38075289130210876, | |
| "learning_rate": 4.887941181325042e-06, | |
| "loss": 0.7171, | |
| "step": 101 | |
| }, | |
| { | |
| "epoch": 0.4352, | |
| "grad_norm": 0.34902146458625793, | |
| "learning_rate": 4.884439425014601e-06, | |
| "loss": 0.6797, | |
| "step": 102 | |
| }, | |
| { | |
| "epoch": 0.43946666666666667, | |
| "grad_norm": 0.3705016076564789, | |
| "learning_rate": 4.880885087199972e-06, | |
| "loss": 0.6755, | |
| "step": 103 | |
| }, | |
| { | |
| "epoch": 0.4437333333333333, | |
| "grad_norm": 0.40034019947052, | |
| "learning_rate": 4.877278246261179e-06, | |
| "loss": 0.665, | |
| "step": 104 | |
| }, | |
| { | |
| "epoch": 0.448, | |
| "grad_norm": 0.3905963599681854, | |
| "learning_rate": 4.873618981736049e-06, | |
| "loss": 0.6693, | |
| "step": 105 | |
| }, | |
| { | |
| "epoch": 0.45226666666666665, | |
| "grad_norm": 0.342978298664093, | |
| "learning_rate": 4.869907374318446e-06, | |
| "loss": 0.6694, | |
| "step": 106 | |
| }, | |
| { | |
| "epoch": 0.45653333333333335, | |
| "grad_norm": 0.3976461887359619, | |
| "learning_rate": 4.866143505856496e-06, | |
| "loss": 0.6652, | |
| "step": 107 | |
| }, | |
| { | |
| "epoch": 0.4608, | |
| "grad_norm": 0.40244609117507935, | |
| "learning_rate": 4.862327459350784e-06, | |
| "loss": 0.7008, | |
| "step": 108 | |
| }, | |
| { | |
| "epoch": 0.4650666666666667, | |
| "grad_norm": 0.36506327986717224, | |
| "learning_rate": 4.858459318952521e-06, | |
| "loss": 0.7103, | |
| "step": 109 | |
| }, | |
| { | |
| "epoch": 0.4693333333333333, | |
| "grad_norm": 0.3845788836479187, | |
| "learning_rate": 4.854539169961688e-06, | |
| "loss": 0.6873, | |
| "step": 110 | |
| }, | |
| { | |
| "epoch": 0.4736, | |
| "grad_norm": 0.3704811632633209, | |
| "learning_rate": 4.85056709882516e-06, | |
| "loss": 0.7118, | |
| "step": 111 | |
| }, | |
| { | |
| "epoch": 0.47786666666666666, | |
| "grad_norm": 0.3637083172798157, | |
| "learning_rate": 4.8465431931347904e-06, | |
| "loss": 0.6857, | |
| "step": 112 | |
| }, | |
| { | |
| "epoch": 0.48213333333333336, | |
| "grad_norm": 0.4030190706253052, | |
| "learning_rate": 4.8424675416254895e-06, | |
| "loss": 0.6575, | |
| "step": 113 | |
| }, | |
| { | |
| "epoch": 0.4864, | |
| "grad_norm": 0.39205852150917053, | |
| "learning_rate": 4.8383402341732605e-06, | |
| "loss": 0.6864, | |
| "step": 114 | |
| }, | |
| { | |
| "epoch": 0.49066666666666664, | |
| "grad_norm": 0.3978751003742218, | |
| "learning_rate": 4.83416136179322e-06, | |
| "loss": 0.6958, | |
| "step": 115 | |
| }, | |
| { | |
| "epoch": 0.49493333333333334, | |
| "grad_norm": 0.35517552495002747, | |
| "learning_rate": 4.829931016637594e-06, | |
| "loss": 0.6565, | |
| "step": 116 | |
| }, | |
| { | |
| "epoch": 0.4992, | |
| "grad_norm": 0.3978227972984314, | |
| "learning_rate": 4.825649291993677e-06, | |
| "loss": 0.6888, | |
| "step": 117 | |
| }, | |
| { | |
| "epoch": 0.5034666666666666, | |
| "grad_norm": 0.3767167329788208, | |
| "learning_rate": 4.821316282281788e-06, | |
| "loss": 0.6617, | |
| "step": 118 | |
| }, | |
| { | |
| "epoch": 0.5077333333333334, | |
| "grad_norm": 0.3927992582321167, | |
| "learning_rate": 4.816932083053175e-06, | |
| "loss": 0.6328, | |
| "step": 119 | |
| }, | |
| { | |
| "epoch": 0.512, | |
| "grad_norm": 0.38048994541168213, | |
| "learning_rate": 4.812496790987917e-06, | |
| "loss": 0.6838, | |
| "step": 120 | |
| }, | |
| { | |
| "epoch": 0.5162666666666667, | |
| "grad_norm": 0.3565223515033722, | |
| "learning_rate": 4.808010503892788e-06, | |
| "loss": 0.6674, | |
| "step": 121 | |
| }, | |
| { | |
| "epoch": 0.5205333333333333, | |
| "grad_norm": 0.37428316473960876, | |
| "learning_rate": 4.803473320699102e-06, | |
| "loss": 0.665, | |
| "step": 122 | |
| }, | |
| { | |
| "epoch": 0.5248, | |
| "grad_norm": 0.39371275901794434, | |
| "learning_rate": 4.7988853414605276e-06, | |
| "loss": 0.7722, | |
| "step": 123 | |
| }, | |
| { | |
| "epoch": 0.5290666666666667, | |
| "grad_norm": 0.37246188521385193, | |
| "learning_rate": 4.794246667350889e-06, | |
| "loss": 0.666, | |
| "step": 124 | |
| }, | |
| { | |
| "epoch": 0.5333333333333333, | |
| "grad_norm": 0.36160096526145935, | |
| "learning_rate": 4.789557400661927e-06, | |
| "loss": 0.6518, | |
| "step": 125 | |
| }, | |
| { | |
| "epoch": 0.5376, | |
| "grad_norm": 0.3860783576965332, | |
| "learning_rate": 4.784817644801049e-06, | |
| "loss": 0.6837, | |
| "step": 126 | |
| }, | |
| { | |
| "epoch": 0.5418666666666667, | |
| "grad_norm": 0.37812525033950806, | |
| "learning_rate": 4.780027504289043e-06, | |
| "loss": 0.6526, | |
| "step": 127 | |
| }, | |
| { | |
| "epoch": 0.5461333333333334, | |
| "grad_norm": 0.3702966570854187, | |
| "learning_rate": 4.775187084757778e-06, | |
| "loss": 0.6913, | |
| "step": 128 | |
| }, | |
| { | |
| "epoch": 0.5504, | |
| "grad_norm": 0.39008045196533203, | |
| "learning_rate": 4.770296492947876e-06, | |
| "loss": 0.6669, | |
| "step": 129 | |
| }, | |
| { | |
| "epoch": 0.5546666666666666, | |
| "grad_norm": 0.3917200565338135, | |
| "learning_rate": 4.765355836706349e-06, | |
| "loss": 0.6431, | |
| "step": 130 | |
| }, | |
| { | |
| "epoch": 0.5589333333333333, | |
| "grad_norm": 0.3988916873931885, | |
| "learning_rate": 4.7603652249842305e-06, | |
| "loss": 0.6682, | |
| "step": 131 | |
| }, | |
| { | |
| "epoch": 0.5632, | |
| "grad_norm": 0.3633989095687866, | |
| "learning_rate": 4.755324767834166e-06, | |
| "loss": 0.6717, | |
| "step": 132 | |
| }, | |
| { | |
| "epoch": 0.5674666666666667, | |
| "grad_norm": 0.3956949710845947, | |
| "learning_rate": 4.750234576407994e-06, | |
| "loss": 0.6764, | |
| "step": 133 | |
| }, | |
| { | |
| "epoch": 0.5717333333333333, | |
| "grad_norm": 0.3971360921859741, | |
| "learning_rate": 4.745094762954285e-06, | |
| "loss": 0.6843, | |
| "step": 134 | |
| }, | |
| { | |
| "epoch": 0.576, | |
| "grad_norm": 0.3699060082435608, | |
| "learning_rate": 4.7399054408158735e-06, | |
| "loss": 0.6826, | |
| "step": 135 | |
| }, | |
| { | |
| "epoch": 0.5802666666666667, | |
| "grad_norm": 0.3734731674194336, | |
| "learning_rate": 4.734666724427357e-06, | |
| "loss": 0.636, | |
| "step": 136 | |
| }, | |
| { | |
| "epoch": 0.5845333333333333, | |
| "grad_norm": 0.37412676215171814, | |
| "learning_rate": 4.729378729312569e-06, | |
| "loss": 0.6573, | |
| "step": 137 | |
| }, | |
| { | |
| "epoch": 0.5888, | |
| "grad_norm": 0.43301528692245483, | |
| "learning_rate": 4.724041572082039e-06, | |
| "loss": 0.696, | |
| "step": 138 | |
| }, | |
| { | |
| "epoch": 0.5930666666666666, | |
| "grad_norm": 0.38765257596969604, | |
| "learning_rate": 4.718655370430411e-06, | |
| "loss": 0.6704, | |
| "step": 139 | |
| }, | |
| { | |
| "epoch": 0.5973333333333334, | |
| "grad_norm": 0.3996504843235016, | |
| "learning_rate": 4.713220243133858e-06, | |
| "loss": 0.6618, | |
| "step": 140 | |
| }, | |
| { | |
| "epoch": 0.6016, | |
| "grad_norm": 0.37452489137649536, | |
| "learning_rate": 4.707736310047455e-06, | |
| "loss": 0.689, | |
| "step": 141 | |
| }, | |
| { | |
| "epoch": 0.6058666666666667, | |
| "grad_norm": 0.34926989674568176, | |
| "learning_rate": 4.702203692102539e-06, | |
| "loss": 0.6527, | |
| "step": 142 | |
| }, | |
| { | |
| "epoch": 0.6101333333333333, | |
| "grad_norm": 0.3961327373981476, | |
| "learning_rate": 4.696622511304046e-06, | |
| "loss": 0.6381, | |
| "step": 143 | |
| }, | |
| { | |
| "epoch": 0.6144, | |
| "grad_norm": 0.3921031951904297, | |
| "learning_rate": 4.690992890727813e-06, | |
| "loss": 0.6767, | |
| "step": 144 | |
| }, | |
| { | |
| "epoch": 0.6186666666666667, | |
| "grad_norm": 0.4456472098827362, | |
| "learning_rate": 4.68531495451787e-06, | |
| "loss": 0.6715, | |
| "step": 145 | |
| }, | |
| { | |
| "epoch": 0.6229333333333333, | |
| "grad_norm": 0.38145363330841064, | |
| "learning_rate": 4.679588827883699e-06, | |
| "loss": 0.6509, | |
| "step": 146 | |
| }, | |
| { | |
| "epoch": 0.6272, | |
| "grad_norm": 0.3857404887676239, | |
| "learning_rate": 4.6738146370974745e-06, | |
| "loss": 0.6786, | |
| "step": 147 | |
| }, | |
| { | |
| "epoch": 0.6314666666666666, | |
| "grad_norm": 0.36696499586105347, | |
| "learning_rate": 4.66799250949128e-06, | |
| "loss": 0.6503, | |
| "step": 148 | |
| }, | |
| { | |
| "epoch": 0.6357333333333334, | |
| "grad_norm": 0.36986419558525085, | |
| "learning_rate": 4.662122573454296e-06, | |
| "loss": 0.6577, | |
| "step": 149 | |
| }, | |
| { | |
| "epoch": 0.64, | |
| "grad_norm": 0.39298486709594727, | |
| "learning_rate": 4.656204958429974e-06, | |
| "loss": 0.6491, | |
| "step": 150 | |
| }, | |
| { | |
| "epoch": 0.6442666666666667, | |
| "grad_norm": 0.43070754408836365, | |
| "learning_rate": 4.650239794913177e-06, | |
| "loss": 0.687, | |
| "step": 151 | |
| }, | |
| { | |
| "epoch": 0.6485333333333333, | |
| "grad_norm": 0.3805888295173645, | |
| "learning_rate": 4.644227214447308e-06, | |
| "loss": 0.6269, | |
| "step": 152 | |
| }, | |
| { | |
| "epoch": 0.6528, | |
| "grad_norm": 0.39261743426322937, | |
| "learning_rate": 4.638167349621399e-06, | |
| "loss": 0.6504, | |
| "step": 153 | |
| }, | |
| { | |
| "epoch": 0.6570666666666667, | |
| "grad_norm": 0.378801167011261, | |
| "learning_rate": 4.632060334067202e-06, | |
| "loss": 0.676, | |
| "step": 154 | |
| }, | |
| { | |
| "epoch": 0.6613333333333333, | |
| "grad_norm": 0.41917920112609863, | |
| "learning_rate": 4.625906302456227e-06, | |
| "loss": 0.688, | |
| "step": 155 | |
| }, | |
| { | |
| "epoch": 0.6656, | |
| "grad_norm": 0.41115954518318176, | |
| "learning_rate": 4.6197053904967826e-06, | |
| "loss": 0.6729, | |
| "step": 156 | |
| }, | |
| { | |
| "epoch": 0.6698666666666667, | |
| "grad_norm": 0.3718389570713043, | |
| "learning_rate": 4.613457734930978e-06, | |
| "loss": 0.6531, | |
| "step": 157 | |
| }, | |
| { | |
| "epoch": 0.6741333333333334, | |
| "grad_norm": 0.3660692274570465, | |
| "learning_rate": 4.607163473531712e-06, | |
| "loss": 0.6544, | |
| "step": 158 | |
| }, | |
| { | |
| "epoch": 0.6784, | |
| "grad_norm": 0.3884277045726776, | |
| "learning_rate": 4.600822745099628e-06, | |
| "loss": 0.6614, | |
| "step": 159 | |
| }, | |
| { | |
| "epoch": 0.6826666666666666, | |
| "grad_norm": 0.37769001722335815, | |
| "learning_rate": 4.5944356894600615e-06, | |
| "loss": 0.6787, | |
| "step": 160 | |
| }, | |
| { | |
| "epoch": 0.6869333333333333, | |
| "grad_norm": 0.3687920570373535, | |
| "learning_rate": 4.58800244745995e-06, | |
| "loss": 0.6471, | |
| "step": 161 | |
| }, | |
| { | |
| "epoch": 0.6912, | |
| "grad_norm": 0.3945862650871277, | |
| "learning_rate": 4.581523160964731e-06, | |
| "loss": 0.681, | |
| "step": 162 | |
| }, | |
| { | |
| "epoch": 0.6954666666666667, | |
| "grad_norm": 0.355354905128479, | |
| "learning_rate": 4.574997972855212e-06, | |
| "loss": 0.6548, | |
| "step": 163 | |
| }, | |
| { | |
| "epoch": 0.6997333333333333, | |
| "grad_norm": 0.3718619644641876, | |
| "learning_rate": 4.568427027024419e-06, | |
| "loss": 0.6948, | |
| "step": 164 | |
| }, | |
| { | |
| "epoch": 0.704, | |
| "grad_norm": 0.37492382526397705, | |
| "learning_rate": 4.561810468374427e-06, | |
| "loss": 0.6459, | |
| "step": 165 | |
| }, | |
| { | |
| "epoch": 0.7082666666666667, | |
| "grad_norm": 0.3851492404937744, | |
| "learning_rate": 4.5551484428131575e-06, | |
| "loss": 0.662, | |
| "step": 166 | |
| }, | |
| { | |
| "epoch": 0.7125333333333334, | |
| "grad_norm": 0.3845251202583313, | |
| "learning_rate": 4.548441097251168e-06, | |
| "loss": 0.6353, | |
| "step": 167 | |
| }, | |
| { | |
| "epoch": 0.7168, | |
| "grad_norm": 0.34392473101615906, | |
| "learning_rate": 4.541688579598412e-06, | |
| "loss": 0.6474, | |
| "step": 168 | |
| }, | |
| { | |
| "epoch": 0.7210666666666666, | |
| "grad_norm": 0.3728064000606537, | |
| "learning_rate": 4.534891038760971e-06, | |
| "loss": 0.6745, | |
| "step": 169 | |
| }, | |
| { | |
| "epoch": 0.7253333333333334, | |
| "grad_norm": 0.39107459783554077, | |
| "learning_rate": 4.528048624637777e-06, | |
| "loss": 0.6655, | |
| "step": 170 | |
| }, | |
| { | |
| "epoch": 0.7296, | |
| "grad_norm": 0.3549425005912781, | |
| "learning_rate": 4.521161488117303e-06, | |
| "loss": 0.658, | |
| "step": 171 | |
| }, | |
| { | |
| "epoch": 0.7338666666666667, | |
| "grad_norm": 0.3642064929008484, | |
| "learning_rate": 4.514229781074239e-06, | |
| "loss": 0.6767, | |
| "step": 172 | |
| }, | |
| { | |
| "epoch": 0.7381333333333333, | |
| "grad_norm": 0.40543392300605774, | |
| "learning_rate": 4.507253656366143e-06, | |
| "loss": 0.67, | |
| "step": 173 | |
| }, | |
| { | |
| "epoch": 0.7424, | |
| "grad_norm": 0.36321622133255005, | |
| "learning_rate": 4.5002332678300645e-06, | |
| "loss": 0.6385, | |
| "step": 174 | |
| }, | |
| { | |
| "epoch": 0.7466666666666667, | |
| "grad_norm": 0.34730178117752075, | |
| "learning_rate": 4.49316877027916e-06, | |
| "loss": 0.6533, | |
| "step": 175 | |
| }, | |
| { | |
| "epoch": 0.7509333333333333, | |
| "grad_norm": 0.3694966733455658, | |
| "learning_rate": 4.48606031949927e-06, | |
| "loss": 0.6599, | |
| "step": 176 | |
| }, | |
| { | |
| "epoch": 0.7552, | |
| "grad_norm": 0.3944104313850403, | |
| "learning_rate": 4.478908072245495e-06, | |
| "loss": 0.6508, | |
| "step": 177 | |
| }, | |
| { | |
| "epoch": 0.7594666666666666, | |
| "grad_norm": 0.3709719479084015, | |
| "learning_rate": 4.471712186238728e-06, | |
| "loss": 0.6851, | |
| "step": 178 | |
| }, | |
| { | |
| "epoch": 0.7637333333333334, | |
| "grad_norm": 0.3659399151802063, | |
| "learning_rate": 4.4644728201621825e-06, | |
| "loss": 0.7066, | |
| "step": 179 | |
| }, | |
| { | |
| "epoch": 0.768, | |
| "grad_norm": 0.3750763535499573, | |
| "learning_rate": 4.457190133657891e-06, | |
| "loss": 0.6541, | |
| "step": 180 | |
| }, | |
| { | |
| "epoch": 0.7722666666666667, | |
| "grad_norm": 0.39184752106666565, | |
| "learning_rate": 4.449864287323188e-06, | |
| "loss": 0.6534, | |
| "step": 181 | |
| }, | |
| { | |
| "epoch": 0.7765333333333333, | |
| "grad_norm": 0.3683447539806366, | |
| "learning_rate": 4.442495442707163e-06, | |
| "loss": 0.652, | |
| "step": 182 | |
| }, | |
| { | |
| "epoch": 0.7808, | |
| "grad_norm": 0.3437025547027588, | |
| "learning_rate": 4.4350837623071006e-06, | |
| "loss": 0.643, | |
| "step": 183 | |
| }, | |
| { | |
| "epoch": 0.7850666666666667, | |
| "grad_norm": 0.37833109498023987, | |
| "learning_rate": 4.427629409564898e-06, | |
| "loss": 0.6409, | |
| "step": 184 | |
| }, | |
| { | |
| "epoch": 0.7893333333333333, | |
| "grad_norm": 0.36276975274086, | |
| "learning_rate": 4.420132548863461e-06, | |
| "loss": 0.6427, | |
| "step": 185 | |
| }, | |
| { | |
| "epoch": 0.7936, | |
| "grad_norm": 0.37990450859069824, | |
| "learning_rate": 4.412593345523078e-06, | |
| "loss": 0.6786, | |
| "step": 186 | |
| }, | |
| { | |
| "epoch": 0.7978666666666666, | |
| "grad_norm": 0.3818235695362091, | |
| "learning_rate": 4.405011965797775e-06, | |
| "loss": 0.712, | |
| "step": 187 | |
| }, | |
| { | |
| "epoch": 0.8021333333333334, | |
| "grad_norm": 0.3498851954936981, | |
| "learning_rate": 4.397388576871645e-06, | |
| "loss": 0.6168, | |
| "step": 188 | |
| }, | |
| { | |
| "epoch": 0.8064, | |
| "grad_norm": 0.3553500473499298, | |
| "learning_rate": 4.389723346855171e-06, | |
| "loss": 0.6641, | |
| "step": 189 | |
| }, | |
| { | |
| "epoch": 0.8106666666666666, | |
| "grad_norm": 0.37713390588760376, | |
| "learning_rate": 4.382016444781509e-06, | |
| "loss": 0.6767, | |
| "step": 190 | |
| }, | |
| { | |
| "epoch": 0.8149333333333333, | |
| "grad_norm": 0.3694016933441162, | |
| "learning_rate": 4.3742680406027655e-06, | |
| "loss": 0.6749, | |
| "step": 191 | |
| }, | |
| { | |
| "epoch": 0.8192, | |
| "grad_norm": 0.3673281967639923, | |
| "learning_rate": 4.36647830518625e-06, | |
| "loss": 0.6099, | |
| "step": 192 | |
| }, | |
| { | |
| "epoch": 0.8234666666666667, | |
| "grad_norm": 0.3572637736797333, | |
| "learning_rate": 4.3586474103107034e-06, | |
| "loss": 0.6097, | |
| "step": 193 | |
| }, | |
| { | |
| "epoch": 0.8277333333333333, | |
| "grad_norm": 0.3356681168079376, | |
| "learning_rate": 4.350775528662515e-06, | |
| "loss": 0.6665, | |
| "step": 194 | |
| }, | |
| { | |
| "epoch": 0.832, | |
| "grad_norm": 0.3750758171081543, | |
| "learning_rate": 4.34286283383191e-06, | |
| "loss": 0.6755, | |
| "step": 195 | |
| }, | |
| { | |
| "epoch": 0.8362666666666667, | |
| "grad_norm": 0.38012009859085083, | |
| "learning_rate": 4.334909500309124e-06, | |
| "loss": 0.618, | |
| "step": 196 | |
| }, | |
| { | |
| "epoch": 0.8405333333333334, | |
| "grad_norm": 0.3598080277442932, | |
| "learning_rate": 4.326915703480552e-06, | |
| "loss": 0.6504, | |
| "step": 197 | |
| }, | |
| { | |
| "epoch": 0.8448, | |
| "grad_norm": 0.36224260926246643, | |
| "learning_rate": 4.318881619624889e-06, | |
| "loss": 0.6395, | |
| "step": 198 | |
| }, | |
| { | |
| "epoch": 0.8490666666666666, | |
| "grad_norm": 0.3769308626651764, | |
| "learning_rate": 4.310807425909231e-06, | |
| "loss": 0.6375, | |
| "step": 199 | |
| }, | |
| { | |
| "epoch": 0.8533333333333334, | |
| "grad_norm": 0.37255364656448364, | |
| "learning_rate": 4.3026933003851765e-06, | |
| "loss": 0.6274, | |
| "step": 200 | |
| }, | |
| { | |
| "epoch": 0.8576, | |
| "grad_norm": 0.3720489740371704, | |
| "learning_rate": 4.294539421984898e-06, | |
| "loss": 0.6391, | |
| "step": 201 | |
| }, | |
| { | |
| "epoch": 0.8618666666666667, | |
| "grad_norm": 0.36343514919281006, | |
| "learning_rate": 4.286345970517195e-06, | |
| "loss": 0.6234, | |
| "step": 202 | |
| }, | |
| { | |
| "epoch": 0.8661333333333333, | |
| "grad_norm": 0.373117059469223, | |
| "learning_rate": 4.278113126663529e-06, | |
| "loss": 0.6824, | |
| "step": 203 | |
| }, | |
| { | |
| "epoch": 0.8704, | |
| "grad_norm": 0.3645020127296448, | |
| "learning_rate": 4.269841071974044e-06, | |
| "loss": 0.6088, | |
| "step": 204 | |
| }, | |
| { | |
| "epoch": 0.8746666666666667, | |
| "grad_norm": 0.3923603892326355, | |
| "learning_rate": 4.261529988863552e-06, | |
| "loss": 0.6868, | |
| "step": 205 | |
| }, | |
| { | |
| "epoch": 0.8789333333333333, | |
| "grad_norm": 0.36643365025520325, | |
| "learning_rate": 4.253180060607523e-06, | |
| "loss": 0.6371, | |
| "step": 206 | |
| }, | |
| { | |
| "epoch": 0.8832, | |
| "grad_norm": 0.388554185628891, | |
| "learning_rate": 4.244791471338035e-06, | |
| "loss": 0.6544, | |
| "step": 207 | |
| }, | |
| { | |
| "epoch": 0.8874666666666666, | |
| "grad_norm": 0.39180922508239746, | |
| "learning_rate": 4.236364406039718e-06, | |
| "loss": 0.7012, | |
| "step": 208 | |
| }, | |
| { | |
| "epoch": 0.8917333333333334, | |
| "grad_norm": 0.3649655878543854, | |
| "learning_rate": 4.22789905054567e-06, | |
| "loss": 0.6327, | |
| "step": 209 | |
| }, | |
| { | |
| "epoch": 0.896, | |
| "grad_norm": 0.3761747479438782, | |
| "learning_rate": 4.219395591533364e-06, | |
| "loss": 0.6746, | |
| "step": 210 | |
| }, | |
| { | |
| "epoch": 0.9002666666666667, | |
| "grad_norm": 0.3713630437850952, | |
| "learning_rate": 4.210854216520529e-06, | |
| "loss": 0.642, | |
| "step": 211 | |
| }, | |
| { | |
| "epoch": 0.9045333333333333, | |
| "grad_norm": 0.3751310408115387, | |
| "learning_rate": 4.202275113861015e-06, | |
| "loss": 0.6649, | |
| "step": 212 | |
| }, | |
| { | |
| "epoch": 0.9088, | |
| "grad_norm": 0.35876309871673584, | |
| "learning_rate": 4.193658472740641e-06, | |
| "loss": 0.6464, | |
| "step": 213 | |
| }, | |
| { | |
| "epoch": 0.9130666666666667, | |
| "grad_norm": 0.3813459873199463, | |
| "learning_rate": 4.185004483173018e-06, | |
| "loss": 0.6887, | |
| "step": 214 | |
| }, | |
| { | |
| "epoch": 0.9173333333333333, | |
| "grad_norm": 0.40369632840156555, | |
| "learning_rate": 4.176313335995368e-06, | |
| "loss": 0.6606, | |
| "step": 215 | |
| }, | |
| { | |
| "epoch": 0.9216, | |
| "grad_norm": 0.41807031631469727, | |
| "learning_rate": 4.1675852228643045e-06, | |
| "loss": 0.6546, | |
| "step": 216 | |
| }, | |
| { | |
| "epoch": 0.9258666666666666, | |
| "grad_norm": 0.3831678628921509, | |
| "learning_rate": 4.158820336251615e-06, | |
| "loss": 0.6822, | |
| "step": 217 | |
| }, | |
| { | |
| "epoch": 0.9301333333333334, | |
| "grad_norm": 0.38871535658836365, | |
| "learning_rate": 4.150018869440015e-06, | |
| "loss": 0.6188, | |
| "step": 218 | |
| }, | |
| { | |
| "epoch": 0.9344, | |
| "grad_norm": 0.39522799849510193, | |
| "learning_rate": 4.14118101651888e-06, | |
| "loss": 0.6384, | |
| "step": 219 | |
| }, | |
| { | |
| "epoch": 0.9386666666666666, | |
| "grad_norm": 0.38515716791152954, | |
| "learning_rate": 4.132306972379971e-06, | |
| "loss": 0.6556, | |
| "step": 220 | |
| }, | |
| { | |
| "epoch": 0.9429333333333333, | |
| "grad_norm": 0.4171655476093292, | |
| "learning_rate": 4.1233969327131396e-06, | |
| "loss": 0.6408, | |
| "step": 221 | |
| }, | |
| { | |
| "epoch": 0.9472, | |
| "grad_norm": 0.3901931941509247, | |
| "learning_rate": 4.114451094002002e-06, | |
| "loss": 0.667, | |
| "step": 222 | |
| }, | |
| { | |
| "epoch": 0.9514666666666667, | |
| "grad_norm": 0.39424633979797363, | |
| "learning_rate": 4.105469653519617e-06, | |
| "loss": 0.6607, | |
| "step": 223 | |
| }, | |
| { | |
| "epoch": 0.9557333333333333, | |
| "grad_norm": 0.37425708770751953, | |
| "learning_rate": 4.09645280932413e-06, | |
| "loss": 0.639, | |
| "step": 224 | |
| }, | |
| { | |
| "epoch": 0.96, | |
| "grad_norm": 0.3967532813549042, | |
| "learning_rate": 4.087400760254407e-06, | |
| "loss": 0.6662, | |
| "step": 225 | |
| }, | |
| { | |
| "epoch": 0.9642666666666667, | |
| "grad_norm": 0.3847205340862274, | |
| "learning_rate": 4.078313705925647e-06, | |
| "loss": 0.6457, | |
| "step": 226 | |
| }, | |
| { | |
| "epoch": 0.9685333333333334, | |
| "grad_norm": 0.3996621370315552, | |
| "learning_rate": 4.069191846724989e-06, | |
| "loss": 0.6503, | |
| "step": 227 | |
| }, | |
| { | |
| "epoch": 0.9728, | |
| "grad_norm": 0.36623647809028625, | |
| "learning_rate": 4.06003538380708e-06, | |
| "loss": 0.6525, | |
| "step": 228 | |
| }, | |
| { | |
| "epoch": 0.9770666666666666, | |
| "grad_norm": 0.38129106163978577, | |
| "learning_rate": 4.0508445190896505e-06, | |
| "loss": 0.6671, | |
| "step": 229 | |
| }, | |
| { | |
| "epoch": 0.9813333333333333, | |
| "grad_norm": 0.4016317129135132, | |
| "learning_rate": 4.041619455249054e-06, | |
| "loss": 0.676, | |
| "step": 230 | |
| }, | |
| { | |
| "epoch": 0.9856, | |
| "grad_norm": 0.3796759247779846, | |
| "learning_rate": 4.032360395715804e-06, | |
| "loss": 0.6497, | |
| "step": 231 | |
| }, | |
| { | |
| "epoch": 0.9898666666666667, | |
| "grad_norm": 0.37460625171661377, | |
| "learning_rate": 4.023067544670082e-06, | |
| "loss": 0.6318, | |
| "step": 232 | |
| }, | |
| { | |
| "epoch": 0.9941333333333333, | |
| "grad_norm": 0.36790499091148376, | |
| "learning_rate": 4.013741107037241e-06, | |
| "loss": 0.6176, | |
| "step": 233 | |
| }, | |
| { | |
| "epoch": 0.9984, | |
| "grad_norm": 0.3725135326385498, | |
| "learning_rate": 4.004381288483279e-06, | |
| "loss": 0.6173, | |
| "step": 234 | |
| }, | |
| { | |
| "epoch": 1.0, | |
| "grad_norm": 0.5435260534286499, | |
| "learning_rate": 3.9949882954103115e-06, | |
| "loss": 0.6306, | |
| "step": 235 | |
| }, | |
| { | |
| "epoch": 1.0042666666666666, | |
| "grad_norm": 0.36948561668395996, | |
| "learning_rate": 3.985562334952015e-06, | |
| "loss": 0.6645, | |
| "step": 236 | |
| }, | |
| { | |
| "epoch": 1.0085333333333333, | |
| "grad_norm": 0.410770446062088, | |
| "learning_rate": 3.97610361496906e-06, | |
| "loss": 0.6288, | |
| "step": 237 | |
| }, | |
| { | |
| "epoch": 1.0128, | |
| "grad_norm": 0.3914359211921692, | |
| "learning_rate": 3.9666123440445295e-06, | |
| "loss": 0.6418, | |
| "step": 238 | |
| }, | |
| { | |
| "epoch": 1.0170666666666666, | |
| "grad_norm": 0.3786895275115967, | |
| "learning_rate": 3.957088731479316e-06, | |
| "loss": 0.6244, | |
| "step": 239 | |
| }, | |
| { | |
| "epoch": 1.0213333333333334, | |
| "grad_norm": 0.3769228458404541, | |
| "learning_rate": 3.947532987287509e-06, | |
| "loss": 0.6288, | |
| "step": 240 | |
| }, | |
| { | |
| "epoch": 1.0256, | |
| "grad_norm": 0.4023935794830322, | |
| "learning_rate": 3.937945322191763e-06, | |
| "loss": 0.6277, | |
| "step": 241 | |
| }, | |
| { | |
| "epoch": 1.0298666666666667, | |
| "grad_norm": 0.38678252696990967, | |
| "learning_rate": 3.928325947618649e-06, | |
| "loss": 0.6202, | |
| "step": 242 | |
| }, | |
| { | |
| "epoch": 1.0341333333333333, | |
| "grad_norm": 0.38373494148254395, | |
| "learning_rate": 3.9186750756939925e-06, | |
| "loss": 0.6458, | |
| "step": 243 | |
| }, | |
| { | |
| "epoch": 1.0384, | |
| "grad_norm": 0.411771684885025, | |
| "learning_rate": 3.9089929192382e-06, | |
| "loss": 0.6443, | |
| "step": 244 | |
| }, | |
| { | |
| "epoch": 1.0426666666666666, | |
| "grad_norm": 0.3979637920856476, | |
| "learning_rate": 3.899279691761558e-06, | |
| "loss": 0.6271, | |
| "step": 245 | |
| }, | |
| { | |
| "epoch": 1.0469333333333333, | |
| "grad_norm": 0.37983348965644836, | |
| "learning_rate": 3.889535607459534e-06, | |
| "loss": 0.6626, | |
| "step": 246 | |
| }, | |
| { | |
| "epoch": 1.0512, | |
| "grad_norm": 0.4087248742580414, | |
| "learning_rate": 3.879760881208043e-06, | |
| "loss": 0.6602, | |
| "step": 247 | |
| }, | |
| { | |
| "epoch": 1.0554666666666668, | |
| "grad_norm": 0.3652113378047943, | |
| "learning_rate": 3.869955728558719e-06, | |
| "loss": 0.6425, | |
| "step": 248 | |
| }, | |
| { | |
| "epoch": 1.0597333333333334, | |
| "grad_norm": 0.3603936433792114, | |
| "learning_rate": 3.860120365734154e-06, | |
| "loss": 0.6331, | |
| "step": 249 | |
| }, | |
| { | |
| "epoch": 1.064, | |
| "grad_norm": 0.4053269624710083, | |
| "learning_rate": 3.8502550096231325e-06, | |
| "loss": 0.6956, | |
| "step": 250 | |
| }, | |
| { | |
| "epoch": 1.0682666666666667, | |
| "grad_norm": 0.4000628888607025, | |
| "learning_rate": 3.840359877775853e-06, | |
| "loss": 0.6321, | |
| "step": 251 | |
| }, | |
| { | |
| "epoch": 1.0725333333333333, | |
| "grad_norm": 0.3704379200935364, | |
| "learning_rate": 3.830435188399123e-06, | |
| "loss": 0.6227, | |
| "step": 252 | |
| }, | |
| { | |
| "epoch": 1.0768, | |
| "grad_norm": 0.3613002300262451, | |
| "learning_rate": 3.82048116035155e-06, | |
| "loss": 0.6464, | |
| "step": 253 | |
| }, | |
| { | |
| "epoch": 1.0810666666666666, | |
| "grad_norm": 0.37688636779785156, | |
| "learning_rate": 3.810498013138719e-06, | |
| "loss": 0.6121, | |
| "step": 254 | |
| }, | |
| { | |
| "epoch": 1.0853333333333333, | |
| "grad_norm": 0.41339555382728577, | |
| "learning_rate": 3.8004859669083475e-06, | |
| "loss": 0.6386, | |
| "step": 255 | |
| }, | |
| { | |
| "epoch": 1.0896, | |
| "grad_norm": 0.3702141344547272, | |
| "learning_rate": 3.790445242445432e-06, | |
| "loss": 0.6094, | |
| "step": 256 | |
| }, | |
| { | |
| "epoch": 1.0938666666666668, | |
| "grad_norm": 0.37923765182495117, | |
| "learning_rate": 3.780376061167379e-06, | |
| "loss": 0.6252, | |
| "step": 257 | |
| }, | |
| { | |
| "epoch": 1.0981333333333334, | |
| "grad_norm": 0.38305890560150146, | |
| "learning_rate": 3.7702786451191255e-06, | |
| "loss": 0.6404, | |
| "step": 258 | |
| }, | |
| { | |
| "epoch": 1.1024, | |
| "grad_norm": 0.3678419589996338, | |
| "learning_rate": 3.7601532169682363e-06, | |
| "loss": 0.6251, | |
| "step": 259 | |
| }, | |
| { | |
| "epoch": 1.1066666666666667, | |
| "grad_norm": 0.38134104013442993, | |
| "learning_rate": 3.7500000000000005e-06, | |
| "loss": 0.6412, | |
| "step": 260 | |
| }, | |
| { | |
| "epoch": 1.1109333333333333, | |
| "grad_norm": 0.37436601519584656, | |
| "learning_rate": 3.7398192181125014e-06, | |
| "loss": 0.6244, | |
| "step": 261 | |
| }, | |
| { | |
| "epoch": 1.1152, | |
| "grad_norm": 0.3732365667819977, | |
| "learning_rate": 3.7296110958116845e-06, | |
| "loss": 0.5944, | |
| "step": 262 | |
| }, | |
| { | |
| "epoch": 1.1194666666666666, | |
| "grad_norm": 0.38658225536346436, | |
| "learning_rate": 3.719375858206403e-06, | |
| "loss": 0.6135, | |
| "step": 263 | |
| }, | |
| { | |
| "epoch": 1.1237333333333333, | |
| "grad_norm": 0.38506805896759033, | |
| "learning_rate": 3.7091137310034565e-06, | |
| "loss": 0.6318, | |
| "step": 264 | |
| }, | |
| { | |
| "epoch": 1.1280000000000001, | |
| "grad_norm": 0.36155635118484497, | |
| "learning_rate": 3.69882494050261e-06, | |
| "loss": 0.6097, | |
| "step": 265 | |
| }, | |
| { | |
| "epoch": 1.1322666666666668, | |
| "grad_norm": 0.366577684879303, | |
| "learning_rate": 3.6885097135916067e-06, | |
| "loss": 0.6103, | |
| "step": 266 | |
| }, | |
| { | |
| "epoch": 1.1365333333333334, | |
| "grad_norm": 0.37110307812690735, | |
| "learning_rate": 3.6781682777411663e-06, | |
| "loss": 0.6421, | |
| "step": 267 | |
| }, | |
| { | |
| "epoch": 1.1408, | |
| "grad_norm": 0.38045334815979004, | |
| "learning_rate": 3.6678008609999618e-06, | |
| "loss": 0.6392, | |
| "step": 268 | |
| }, | |
| { | |
| "epoch": 1.1450666666666667, | |
| "grad_norm": 0.38193008303642273, | |
| "learning_rate": 3.657407691989599e-06, | |
| "loss": 0.636, | |
| "step": 269 | |
| }, | |
| { | |
| "epoch": 1.1493333333333333, | |
| "grad_norm": 0.3796103000640869, | |
| "learning_rate": 3.64698899989957e-06, | |
| "loss": 0.6597, | |
| "step": 270 | |
| }, | |
| { | |
| "epoch": 1.1536, | |
| "grad_norm": 0.38126182556152344, | |
| "learning_rate": 3.636545014482198e-06, | |
| "loss": 0.6194, | |
| "step": 271 | |
| }, | |
| { | |
| "epoch": 1.1578666666666666, | |
| "grad_norm": 0.37700942158699036, | |
| "learning_rate": 3.6260759660475767e-06, | |
| "loss": 0.6472, | |
| "step": 272 | |
| }, | |
| { | |
| "epoch": 1.1621333333333332, | |
| "grad_norm": 0.3943956196308136, | |
| "learning_rate": 3.615582085458485e-06, | |
| "loss": 0.6142, | |
| "step": 273 | |
| }, | |
| { | |
| "epoch": 1.1663999999999999, | |
| "grad_norm": 0.37596529722213745, | |
| "learning_rate": 3.6050636041252996e-06, | |
| "loss": 0.6617, | |
| "step": 274 | |
| }, | |
| { | |
| "epoch": 1.1706666666666667, | |
| "grad_norm": 0.38903918862342834, | |
| "learning_rate": 3.594520754000893e-06, | |
| "loss": 0.6215, | |
| "step": 275 | |
| }, | |
| { | |
| "epoch": 1.1749333333333334, | |
| "grad_norm": 0.3797720670700073, | |
| "learning_rate": 3.5839537675755136e-06, | |
| "loss": 0.6393, | |
| "step": 276 | |
| }, | |
| { | |
| "epoch": 1.1792, | |
| "grad_norm": 0.33679234981536865, | |
| "learning_rate": 3.5733628778716645e-06, | |
| "loss": 0.6029, | |
| "step": 277 | |
| }, | |
| { | |
| "epoch": 1.1834666666666667, | |
| "grad_norm": 0.3872799277305603, | |
| "learning_rate": 3.562748318438961e-06, | |
| "loss": 0.6323, | |
| "step": 278 | |
| }, | |
| { | |
| "epoch": 1.1877333333333333, | |
| "grad_norm": 0.38341936469078064, | |
| "learning_rate": 3.552110323348981e-06, | |
| "loss": 0.6964, | |
| "step": 279 | |
| }, | |
| { | |
| "epoch": 1.192, | |
| "grad_norm": 0.3867659568786621, | |
| "learning_rate": 3.5414491271901073e-06, | |
| "loss": 0.6376, | |
| "step": 280 | |
| }, | |
| { | |
| "epoch": 1.1962666666666666, | |
| "grad_norm": 0.3914010226726532, | |
| "learning_rate": 3.5307649650623476e-06, | |
| "loss": 0.6143, | |
| "step": 281 | |
| }, | |
| { | |
| "epoch": 1.2005333333333335, | |
| "grad_norm": 0.36839964985847473, | |
| "learning_rate": 3.5200580725721554e-06, | |
| "loss": 0.6702, | |
| "step": 282 | |
| }, | |
| { | |
| "epoch": 1.2048, | |
| "grad_norm": 0.37717902660369873, | |
| "learning_rate": 3.5093286858272325e-06, | |
| "loss": 0.6148, | |
| "step": 283 | |
| }, | |
| { | |
| "epoch": 1.2090666666666667, | |
| "grad_norm": 0.3799995183944702, | |
| "learning_rate": 3.4985770414313218e-06, | |
| "loss": 0.6284, | |
| "step": 284 | |
| }, | |
| { | |
| "epoch": 1.2133333333333334, | |
| "grad_norm": 0.3792381286621094, | |
| "learning_rate": 3.487803376478992e-06, | |
| "loss": 0.5911, | |
| "step": 285 | |
| }, | |
| { | |
| "epoch": 1.2176, | |
| "grad_norm": 0.3653464615345001, | |
| "learning_rate": 3.4770079285504053e-06, | |
| "loss": 0.6178, | |
| "step": 286 | |
| }, | |
| { | |
| "epoch": 1.2218666666666667, | |
| "grad_norm": 0.3645116090774536, | |
| "learning_rate": 3.4661909357060835e-06, | |
| "loss": 0.644, | |
| "step": 287 | |
| }, | |
| { | |
| "epoch": 1.2261333333333333, | |
| "grad_norm": 0.37026965618133545, | |
| "learning_rate": 3.4553526364816535e-06, | |
| "loss": 0.6191, | |
| "step": 288 | |
| }, | |
| { | |
| "epoch": 1.2304, | |
| "grad_norm": 0.40830501914024353, | |
| "learning_rate": 3.4444932698825904e-06, | |
| "loss": 0.6319, | |
| "step": 289 | |
| }, | |
| { | |
| "epoch": 1.2346666666666666, | |
| "grad_norm": 0.35780298709869385, | |
| "learning_rate": 3.4336130753789445e-06, | |
| "loss": 0.66, | |
| "step": 290 | |
| }, | |
| { | |
| "epoch": 1.2389333333333332, | |
| "grad_norm": 0.39104047417640686, | |
| "learning_rate": 3.422712292900062e-06, | |
| "loss": 0.6276, | |
| "step": 291 | |
| }, | |
| { | |
| "epoch": 1.2432, | |
| "grad_norm": 0.38032180070877075, | |
| "learning_rate": 3.4117911628292944e-06, | |
| "loss": 0.6201, | |
| "step": 292 | |
| }, | |
| { | |
| "epoch": 1.2474666666666667, | |
| "grad_norm": 0.3887733817100525, | |
| "learning_rate": 3.400849925998697e-06, | |
| "loss": 0.6148, | |
| "step": 293 | |
| }, | |
| { | |
| "epoch": 1.2517333333333334, | |
| "grad_norm": 0.37434589862823486, | |
| "learning_rate": 3.3898888236837167e-06, | |
| "loss": 0.649, | |
| "step": 294 | |
| }, | |
| { | |
| "epoch": 1.256, | |
| "grad_norm": 0.36425620317459106, | |
| "learning_rate": 3.378908097597875e-06, | |
| "loss": 0.6313, | |
| "step": 295 | |
| }, | |
| { | |
| "epoch": 1.2602666666666666, | |
| "grad_norm": 0.3721037805080414, | |
| "learning_rate": 3.3679079898874327e-06, | |
| "loss": 0.6699, | |
| "step": 296 | |
| }, | |
| { | |
| "epoch": 1.2645333333333333, | |
| "grad_norm": 0.35984450578689575, | |
| "learning_rate": 3.3568887431260566e-06, | |
| "loss": 0.6005, | |
| "step": 297 | |
| }, | |
| { | |
| "epoch": 1.2688, | |
| "grad_norm": 0.3606344759464264, | |
| "learning_rate": 3.3458506003094626e-06, | |
| "loss": 0.6569, | |
| "step": 298 | |
| }, | |
| { | |
| "epoch": 1.2730666666666668, | |
| "grad_norm": 0.3679051697254181, | |
| "learning_rate": 3.3347938048500643e-06, | |
| "loss": 0.5853, | |
| "step": 299 | |
| }, | |
| { | |
| "epoch": 1.2773333333333334, | |
| "grad_norm": 0.35892370343208313, | |
| "learning_rate": 3.3237186005716005e-06, | |
| "loss": 0.613, | |
| "step": 300 | |
| }, | |
| { | |
| "epoch": 1.2816, | |
| "grad_norm": 0.3816829323768616, | |
| "learning_rate": 3.3126252317037616e-06, | |
| "loss": 0.6021, | |
| "step": 301 | |
| }, | |
| { | |
| "epoch": 1.2858666666666667, | |
| "grad_norm": 0.3961769938468933, | |
| "learning_rate": 3.3015139428767994e-06, | |
| "loss": 0.667, | |
| "step": 302 | |
| }, | |
| { | |
| "epoch": 1.2901333333333334, | |
| "grad_norm": 0.34190869331359863, | |
| "learning_rate": 3.2903849791161398e-06, | |
| "loss": 0.6147, | |
| "step": 303 | |
| }, | |
| { | |
| "epoch": 1.2944, | |
| "grad_norm": 0.3746764659881592, | |
| "learning_rate": 3.2792385858369706e-06, | |
| "loss": 0.609, | |
| "step": 304 | |
| }, | |
| { | |
| "epoch": 1.2986666666666666, | |
| "grad_norm": 0.3749980628490448, | |
| "learning_rate": 3.2680750088388376e-06, | |
| "loss": 0.6378, | |
| "step": 305 | |
| }, | |
| { | |
| "epoch": 1.3029333333333333, | |
| "grad_norm": 0.35247915983200073, | |
| "learning_rate": 3.2568944943002205e-06, | |
| "loss": 0.6476, | |
| "step": 306 | |
| }, | |
| { | |
| "epoch": 1.3072, | |
| "grad_norm": 0.366487979888916, | |
| "learning_rate": 3.245697288773102e-06, | |
| "loss": 0.6239, | |
| "step": 307 | |
| }, | |
| { | |
| "epoch": 1.3114666666666666, | |
| "grad_norm": 0.37208351492881775, | |
| "learning_rate": 3.2344836391775357e-06, | |
| "loss": 0.6621, | |
| "step": 308 | |
| }, | |
| { | |
| "epoch": 1.3157333333333332, | |
| "grad_norm": 0.38878902792930603, | |
| "learning_rate": 3.2232537927961993e-06, | |
| "loss": 0.6533, | |
| "step": 309 | |
| }, | |
| { | |
| "epoch": 1.32, | |
| "grad_norm": 0.3752239942550659, | |
| "learning_rate": 3.2120079972689385e-06, | |
| "loss": 0.6528, | |
| "step": 310 | |
| }, | |
| { | |
| "epoch": 1.3242666666666667, | |
| "grad_norm": 0.33627378940582275, | |
| "learning_rate": 3.2007465005873104e-06, | |
| "loss": 0.6337, | |
| "step": 311 | |
| }, | |
| { | |
| "epoch": 1.3285333333333333, | |
| "grad_norm": 0.36405107378959656, | |
| "learning_rate": 3.189469551089113e-06, | |
| "loss": 0.646, | |
| "step": 312 | |
| }, | |
| { | |
| "epoch": 1.3328, | |
| "grad_norm": 0.34430474042892456, | |
| "learning_rate": 3.1781773974529072e-06, | |
| "loss": 0.6324, | |
| "step": 313 | |
| }, | |
| { | |
| "epoch": 1.3370666666666666, | |
| "grad_norm": 0.370339572429657, | |
| "learning_rate": 3.1668702886925366e-06, | |
| "loss": 0.6594, | |
| "step": 314 | |
| }, | |
| { | |
| "epoch": 1.3413333333333333, | |
| "grad_norm": 0.3622921109199524, | |
| "learning_rate": 3.1555484741516324e-06, | |
| "loss": 0.6463, | |
| "step": 315 | |
| }, | |
| { | |
| "epoch": 1.3456000000000001, | |
| "grad_norm": 0.37744611501693726, | |
| "learning_rate": 3.1442122034981187e-06, | |
| "loss": 0.6284, | |
| "step": 316 | |
| }, | |
| { | |
| "epoch": 1.3498666666666668, | |
| "grad_norm": 0.36469364166259766, | |
| "learning_rate": 3.1328617267187023e-06, | |
| "loss": 0.6014, | |
| "step": 317 | |
| }, | |
| { | |
| "epoch": 1.3541333333333334, | |
| "grad_norm": 0.36354753375053406, | |
| "learning_rate": 3.1214972941133654e-06, | |
| "loss": 0.621, | |
| "step": 318 | |
| }, | |
| { | |
| "epoch": 1.3584, | |
| "grad_norm": 0.35719966888427734, | |
| "learning_rate": 3.110119156289841e-06, | |
| "loss": 0.6319, | |
| "step": 319 | |
| }, | |
| { | |
| "epoch": 1.3626666666666667, | |
| "grad_norm": 0.37629184126853943, | |
| "learning_rate": 3.0987275641580887e-06, | |
| "loss": 0.6248, | |
| "step": 320 | |
| }, | |
| { | |
| "epoch": 1.3669333333333333, | |
| "grad_norm": 0.39341020584106445, | |
| "learning_rate": 3.087322768924765e-06, | |
| "loss": 0.6678, | |
| "step": 321 | |
| }, | |
| { | |
| "epoch": 1.3712, | |
| "grad_norm": 0.39847707748413086, | |
| "learning_rate": 3.075905022087675e-06, | |
| "loss": 0.6345, | |
| "step": 322 | |
| }, | |
| { | |
| "epoch": 1.3754666666666666, | |
| "grad_norm": 0.3695352375507355, | |
| "learning_rate": 3.064474575430236e-06, | |
| "loss": 0.6254, | |
| "step": 323 | |
| }, | |
| { | |
| "epoch": 1.3797333333333333, | |
| "grad_norm": 0.3770747482776642, | |
| "learning_rate": 3.053031681015919e-06, | |
| "loss": 0.6331, | |
| "step": 324 | |
| }, | |
| { | |
| "epoch": 1.384, | |
| "grad_norm": 0.35522177815437317, | |
| "learning_rate": 3.0415765911826916e-06, | |
| "loss": 0.6243, | |
| "step": 325 | |
| }, | |
| { | |
| "epoch": 1.3882666666666665, | |
| "grad_norm": 0.3473767936229706, | |
| "learning_rate": 3.030109558537457e-06, | |
| "loss": 0.6546, | |
| "step": 326 | |
| }, | |
| { | |
| "epoch": 1.3925333333333334, | |
| "grad_norm": 0.3723127841949463, | |
| "learning_rate": 3.0186308359504768e-06, | |
| "loss": 0.6376, | |
| "step": 327 | |
| }, | |
| { | |
| "epoch": 1.3968, | |
| "grad_norm": 0.34262001514434814, | |
| "learning_rate": 3.0071406765498003e-06, | |
| "loss": 0.5835, | |
| "step": 328 | |
| }, | |
| { | |
| "epoch": 1.4010666666666667, | |
| "grad_norm": 0.40056103467941284, | |
| "learning_rate": 2.995639333715681e-06, | |
| "loss": 0.6558, | |
| "step": 329 | |
| }, | |
| { | |
| "epoch": 1.4053333333333333, | |
| "grad_norm": 0.3862249255180359, | |
| "learning_rate": 2.984127061074987e-06, | |
| "loss": 0.6368, | |
| "step": 330 | |
| }, | |
| { | |
| "epoch": 1.4096, | |
| "grad_norm": 0.3410535156726837, | |
| "learning_rate": 2.9726041124956128e-06, | |
| "loss": 0.5971, | |
| "step": 331 | |
| }, | |
| { | |
| "epoch": 1.4138666666666666, | |
| "grad_norm": 0.36755862832069397, | |
| "learning_rate": 2.9610707420808754e-06, | |
| "loss": 0.6154, | |
| "step": 332 | |
| }, | |
| { | |
| "epoch": 1.4181333333333335, | |
| "grad_norm": 0.36731356382369995, | |
| "learning_rate": 2.9495272041639143e-06, | |
| "loss": 0.6269, | |
| "step": 333 | |
| }, | |
| { | |
| "epoch": 1.4224, | |
| "grad_norm": 0.35700151324272156, | |
| "learning_rate": 2.9379737533020812e-06, | |
| "loss": 0.6226, | |
| "step": 334 | |
| }, | |
| { | |
| "epoch": 1.4266666666666667, | |
| "grad_norm": 0.3792375922203064, | |
| "learning_rate": 2.9264106442713293e-06, | |
| "loss": 0.6546, | |
| "step": 335 | |
| }, | |
| { | |
| "epoch": 1.4309333333333334, | |
| "grad_norm": 0.37135738134384155, | |
| "learning_rate": 2.914838132060592e-06, | |
| "loss": 0.6582, | |
| "step": 336 | |
| }, | |
| { | |
| "epoch": 1.4352, | |
| "grad_norm": 0.3696453869342804, | |
| "learning_rate": 2.9032564718661606e-06, | |
| "loss": 0.6349, | |
| "step": 337 | |
| }, | |
| { | |
| "epoch": 1.4394666666666667, | |
| "grad_norm": 0.3558184802532196, | |
| "learning_rate": 2.891665919086058e-06, | |
| "loss": 0.636, | |
| "step": 338 | |
| }, | |
| { | |
| "epoch": 1.4437333333333333, | |
| "grad_norm": 0.36788755655288696, | |
| "learning_rate": 2.8800667293144047e-06, | |
| "loss": 0.6256, | |
| "step": 339 | |
| }, | |
| { | |
| "epoch": 1.448, | |
| "grad_norm": 0.3636646568775177, | |
| "learning_rate": 2.8684591583357863e-06, | |
| "loss": 0.6737, | |
| "step": 340 | |
| }, | |
| { | |
| "epoch": 1.4522666666666666, | |
| "grad_norm": 0.35329827666282654, | |
| "learning_rate": 2.8568434621196055e-06, | |
| "loss": 0.6449, | |
| "step": 341 | |
| }, | |
| { | |
| "epoch": 1.4565333333333332, | |
| "grad_norm": 0.3763044476509094, | |
| "learning_rate": 2.845219896814448e-06, | |
| "loss": 0.6034, | |
| "step": 342 | |
| }, | |
| { | |
| "epoch": 1.4607999999999999, | |
| "grad_norm": 0.3717707097530365, | |
| "learning_rate": 2.8335887187424225e-06, | |
| "loss": 0.6195, | |
| "step": 343 | |
| }, | |
| { | |
| "epoch": 1.4650666666666667, | |
| "grad_norm": 0.3806118965148926, | |
| "learning_rate": 2.8219501843935183e-06, | |
| "loss": 0.6065, | |
| "step": 344 | |
| }, | |
| { | |
| "epoch": 1.4693333333333334, | |
| "grad_norm": 0.35683637857437134, | |
| "learning_rate": 2.8103045504199435e-06, | |
| "loss": 0.6336, | |
| "step": 345 | |
| }, | |
| { | |
| "epoch": 1.4736, | |
| "grad_norm": 0.3510432243347168, | |
| "learning_rate": 2.7986520736304632e-06, | |
| "loss": 0.656, | |
| "step": 346 | |
| }, | |
| { | |
| "epoch": 1.4778666666666667, | |
| "grad_norm": 0.3614979386329651, | |
| "learning_rate": 2.786993010984747e-06, | |
| "loss": 0.5899, | |
| "step": 347 | |
| }, | |
| { | |
| "epoch": 1.4821333333333333, | |
| "grad_norm": 0.34515616297721863, | |
| "learning_rate": 2.7753276195876887e-06, | |
| "loss": 0.6528, | |
| "step": 348 | |
| }, | |
| { | |
| "epoch": 1.4864, | |
| "grad_norm": 0.35917502641677856, | |
| "learning_rate": 2.7636561566837463e-06, | |
| "loss": 0.6501, | |
| "step": 349 | |
| }, | |
| { | |
| "epoch": 1.4906666666666666, | |
| "grad_norm": 0.3679303228855133, | |
| "learning_rate": 2.751978879651267e-06, | |
| "loss": 0.6186, | |
| "step": 350 | |
| }, | |
| { | |
| "epoch": 1.4949333333333334, | |
| "grad_norm": 0.341778963804245, | |
| "learning_rate": 2.740296045996808e-06, | |
| "loss": 0.6206, | |
| "step": 351 | |
| }, | |
| { | |
| "epoch": 1.4992, | |
| "grad_norm": 0.3657280206680298, | |
| "learning_rate": 2.728607913349464e-06, | |
| "loss": 0.6201, | |
| "step": 352 | |
| }, | |
| { | |
| "epoch": 1.5034666666666667, | |
| "grad_norm": 0.37184861302375793, | |
| "learning_rate": 2.716914739455181e-06, | |
| "loss": 0.6382, | |
| "step": 353 | |
| }, | |
| { | |
| "epoch": 1.5077333333333334, | |
| "grad_norm": 0.35181599855422974, | |
| "learning_rate": 2.7052167821710728e-06, | |
| "loss": 0.6181, | |
| "step": 354 | |
| }, | |
| { | |
| "epoch": 1.512, | |
| "grad_norm": 0.33952847123146057, | |
| "learning_rate": 2.6935142994597407e-06, | |
| "loss": 0.582, | |
| "step": 355 | |
| }, | |
| { | |
| "epoch": 1.5162666666666667, | |
| "grad_norm": 0.3619312047958374, | |
| "learning_rate": 2.6818075493835747e-06, | |
| "loss": 0.6453, | |
| "step": 356 | |
| }, | |
| { | |
| "epoch": 1.5205333333333333, | |
| "grad_norm": 0.353040486574173, | |
| "learning_rate": 2.6700967900990733e-06, | |
| "loss": 0.6468, | |
| "step": 357 | |
| }, | |
| { | |
| "epoch": 1.5248, | |
| "grad_norm": 0.3691389262676239, | |
| "learning_rate": 2.6583822798511428e-06, | |
| "loss": 0.6226, | |
| "step": 358 | |
| }, | |
| { | |
| "epoch": 1.5290666666666666, | |
| "grad_norm": 0.3559889793395996, | |
| "learning_rate": 2.6466642769674065e-06, | |
| "loss": 0.6407, | |
| "step": 359 | |
| }, | |
| { | |
| "epoch": 1.5333333333333332, | |
| "grad_norm": 0.3588290810585022, | |
| "learning_rate": 2.634943039852509e-06, | |
| "loss": 0.6327, | |
| "step": 360 | |
| }, | |
| { | |
| "epoch": 1.5375999999999999, | |
| "grad_norm": 0.35324448347091675, | |
| "learning_rate": 2.623218826982411e-06, | |
| "loss": 0.6525, | |
| "step": 361 | |
| }, | |
| { | |
| "epoch": 1.5418666666666667, | |
| "grad_norm": 0.3669818043708801, | |
| "learning_rate": 2.6114918968987e-06, | |
| "loss": 0.6379, | |
| "step": 362 | |
| }, | |
| { | |
| "epoch": 1.5461333333333334, | |
| "grad_norm": 0.3631032407283783, | |
| "learning_rate": 2.59976250820288e-06, | |
| "loss": 0.6324, | |
| "step": 363 | |
| }, | |
| { | |
| "epoch": 1.5504, | |
| "grad_norm": 0.3435375988483429, | |
| "learning_rate": 2.5880309195506714e-06, | |
| "loss": 0.638, | |
| "step": 364 | |
| }, | |
| { | |
| "epoch": 1.5546666666666666, | |
| "grad_norm": 0.3883386552333832, | |
| "learning_rate": 2.5762973896463124e-06, | |
| "loss": 0.662, | |
| "step": 365 | |
| }, | |
| { | |
| "epoch": 1.5589333333333333, | |
| "grad_norm": 0.3442463278770447, | |
| "learning_rate": 2.564562177236844e-06, | |
| "loss": 0.5799, | |
| "step": 366 | |
| }, | |
| { | |
| "epoch": 1.5632000000000001, | |
| "grad_norm": 0.3552541434764862, | |
| "learning_rate": 2.552825541106414e-06, | |
| "loss": 0.5965, | |
| "step": 367 | |
| }, | |
| { | |
| "epoch": 1.5674666666666668, | |
| "grad_norm": 0.364967405796051, | |
| "learning_rate": 2.541087740070563e-06, | |
| "loss": 0.6378, | |
| "step": 368 | |
| }, | |
| { | |
| "epoch": 1.5717333333333334, | |
| "grad_norm": 0.37892046570777893, | |
| "learning_rate": 2.5293490329705215e-06, | |
| "loss": 0.6359, | |
| "step": 369 | |
| }, | |
| { | |
| "epoch": 1.576, | |
| "grad_norm": 0.36757996678352356, | |
| "learning_rate": 2.517609678667501e-06, | |
| "loss": 0.643, | |
| "step": 370 | |
| }, | |
| { | |
| "epoch": 1.5802666666666667, | |
| "grad_norm": 0.349754273891449, | |
| "learning_rate": 2.5058699360369842e-06, | |
| "loss": 0.6362, | |
| "step": 371 | |
| }, | |
| { | |
| "epoch": 1.5845333333333333, | |
| "grad_norm": 0.3402039706707001, | |
| "learning_rate": 2.494130063963016e-06, | |
| "loss": 0.623, | |
| "step": 372 | |
| }, | |
| { | |
| "epoch": 1.5888, | |
| "grad_norm": 0.3724100887775421, | |
| "learning_rate": 2.4823903213324995e-06, | |
| "loss": 0.6774, | |
| "step": 373 | |
| }, | |
| { | |
| "epoch": 1.5930666666666666, | |
| "grad_norm": 0.35909926891326904, | |
| "learning_rate": 2.4706509670294793e-06, | |
| "loss": 0.6353, | |
| "step": 374 | |
| }, | |
| { | |
| "epoch": 1.5973333333333333, | |
| "grad_norm": 0.3708135783672333, | |
| "learning_rate": 2.458912259929438e-06, | |
| "loss": 0.6386, | |
| "step": 375 | |
| }, | |
| { | |
| "epoch": 1.6016, | |
| "grad_norm": 0.3670898377895355, | |
| "learning_rate": 2.447174458893587e-06, | |
| "loss": 0.6226, | |
| "step": 376 | |
| }, | |
| { | |
| "epoch": 1.6058666666666666, | |
| "grad_norm": 0.3384304344654083, | |
| "learning_rate": 2.4354378227631566e-06, | |
| "loss": 0.6095, | |
| "step": 377 | |
| }, | |
| { | |
| "epoch": 1.6101333333333332, | |
| "grad_norm": 0.3360144793987274, | |
| "learning_rate": 2.423702610353689e-06, | |
| "loss": 0.5713, | |
| "step": 378 | |
| }, | |
| { | |
| "epoch": 1.6143999999999998, | |
| "grad_norm": 0.36030176281929016, | |
| "learning_rate": 2.4119690804493285e-06, | |
| "loss": 0.6171, | |
| "step": 379 | |
| }, | |
| { | |
| "epoch": 1.6186666666666667, | |
| "grad_norm": 0.3754883110523224, | |
| "learning_rate": 2.400237491797121e-06, | |
| "loss": 0.6334, | |
| "step": 380 | |
| }, | |
| { | |
| "epoch": 1.6229333333333333, | |
| "grad_norm": 0.37145912647247314, | |
| "learning_rate": 2.3885081031013013e-06, | |
| "loss": 0.6313, | |
| "step": 381 | |
| }, | |
| { | |
| "epoch": 1.6272, | |
| "grad_norm": 0.3442709743976593, | |
| "learning_rate": 2.376781173017589e-06, | |
| "loss": 0.616, | |
| "step": 382 | |
| }, | |
| { | |
| "epoch": 1.6314666666666666, | |
| "grad_norm": 0.36108705401420593, | |
| "learning_rate": 2.365056960147492e-06, | |
| "loss": 0.6034, | |
| "step": 383 | |
| }, | |
| { | |
| "epoch": 1.6357333333333335, | |
| "grad_norm": 0.3905346989631653, | |
| "learning_rate": 2.353335723032594e-06, | |
| "loss": 0.6408, | |
| "step": 384 | |
| }, | |
| { | |
| "epoch": 1.6400000000000001, | |
| "grad_norm": 0.3625428378582001, | |
| "learning_rate": 2.3416177201488585e-06, | |
| "loss": 0.6241, | |
| "step": 385 | |
| }, | |
| { | |
| "epoch": 1.6442666666666668, | |
| "grad_norm": 0.3429667353630066, | |
| "learning_rate": 2.3299032099009276e-06, | |
| "loss": 0.6253, | |
| "step": 386 | |
| }, | |
| { | |
| "epoch": 1.6485333333333334, | |
| "grad_norm": 0.3611001968383789, | |
| "learning_rate": 2.318192450616426e-06, | |
| "loss": 0.596, | |
| "step": 387 | |
| }, | |
| { | |
| "epoch": 1.6528, | |
| "grad_norm": 0.3439117968082428, | |
| "learning_rate": 2.3064857005402606e-06, | |
| "loss": 0.615, | |
| "step": 388 | |
| }, | |
| { | |
| "epoch": 1.6570666666666667, | |
| "grad_norm": 0.3314322829246521, | |
| "learning_rate": 2.294783217828927e-06, | |
| "loss": 0.5785, | |
| "step": 389 | |
| }, | |
| { | |
| "epoch": 1.6613333333333333, | |
| "grad_norm": 0.3500496745109558, | |
| "learning_rate": 2.2830852605448197e-06, | |
| "loss": 0.6063, | |
| "step": 390 | |
| }, | |
| { | |
| "epoch": 1.6656, | |
| "grad_norm": 0.34801536798477173, | |
| "learning_rate": 2.2713920866505364e-06, | |
| "loss": 0.6257, | |
| "step": 391 | |
| }, | |
| { | |
| "epoch": 1.6698666666666666, | |
| "grad_norm": 0.36531272530555725, | |
| "learning_rate": 2.259703954003192e-06, | |
| "loss": 0.5923, | |
| "step": 392 | |
| }, | |
| { | |
| "epoch": 1.6741333333333333, | |
| "grad_norm": 0.3721877634525299, | |
| "learning_rate": 2.2480211203487335e-06, | |
| "loss": 0.6449, | |
| "step": 393 | |
| }, | |
| { | |
| "epoch": 1.6784, | |
| "grad_norm": 0.3649953305721283, | |
| "learning_rate": 2.236343843316254e-06, | |
| "loss": 0.6161, | |
| "step": 394 | |
| }, | |
| { | |
| "epoch": 1.6826666666666665, | |
| "grad_norm": 0.36439573764801025, | |
| "learning_rate": 2.2246723804123126e-06, | |
| "loss": 0.6068, | |
| "step": 395 | |
| }, | |
| { | |
| "epoch": 1.6869333333333332, | |
| "grad_norm": 0.3658572733402252, | |
| "learning_rate": 2.213006989015254e-06, | |
| "loss": 0.5915, | |
| "step": 396 | |
| }, | |
| { | |
| "epoch": 1.6912, | |
| "grad_norm": 0.3674871027469635, | |
| "learning_rate": 2.201347926369537e-06, | |
| "loss": 0.6394, | |
| "step": 397 | |
| }, | |
| { | |
| "epoch": 1.6954666666666667, | |
| "grad_norm": 0.3523310124874115, | |
| "learning_rate": 2.189695449580058e-06, | |
| "loss": 0.6258, | |
| "step": 398 | |
| }, | |
| { | |
| "epoch": 1.6997333333333333, | |
| "grad_norm": 0.35189226269721985, | |
| "learning_rate": 2.178049815606482e-06, | |
| "loss": 0.6281, | |
| "step": 399 | |
| }, | |
| { | |
| "epoch": 1.704, | |
| "grad_norm": 0.36279675364494324, | |
| "learning_rate": 2.166411281257578e-06, | |
| "loss": 0.6225, | |
| "step": 400 | |
| }, | |
| { | |
| "epoch": 1.7082666666666668, | |
| "grad_norm": 0.3660772442817688, | |
| "learning_rate": 2.154780103185553e-06, | |
| "loss": 0.5899, | |
| "step": 401 | |
| }, | |
| { | |
| "epoch": 1.7125333333333335, | |
| "grad_norm": 0.3713538944721222, | |
| "learning_rate": 2.1431565378803953e-06, | |
| "loss": 0.6673, | |
| "step": 402 | |
| }, | |
| { | |
| "epoch": 1.7168, | |
| "grad_norm": 0.34312623739242554, | |
| "learning_rate": 2.1315408416642145e-06, | |
| "loss": 0.6076, | |
| "step": 403 | |
| }, | |
| { | |
| "epoch": 1.7210666666666667, | |
| "grad_norm": 0.361995667219162, | |
| "learning_rate": 2.119933270685596e-06, | |
| "loss": 0.6847, | |
| "step": 404 | |
| }, | |
| { | |
| "epoch": 1.7253333333333334, | |
| "grad_norm": 0.3452853262424469, | |
| "learning_rate": 2.1083340809139436e-06, | |
| "loss": 0.622, | |
| "step": 405 | |
| }, | |
| { | |
| "epoch": 1.7296, | |
| "grad_norm": 0.3667498826980591, | |
| "learning_rate": 2.09674352813384e-06, | |
| "loss": 0.626, | |
| "step": 406 | |
| }, | |
| { | |
| "epoch": 1.7338666666666667, | |
| "grad_norm": 0.3574604392051697, | |
| "learning_rate": 2.085161867939409e-06, | |
| "loss": 0.643, | |
| "step": 407 | |
| }, | |
| { | |
| "epoch": 1.7381333333333333, | |
| "grad_norm": 0.34958869218826294, | |
| "learning_rate": 2.0735893557286715e-06, | |
| "loss": 0.6257, | |
| "step": 408 | |
| }, | |
| { | |
| "epoch": 1.7424, | |
| "grad_norm": 0.34016844630241394, | |
| "learning_rate": 2.062026246697919e-06, | |
| "loss": 0.6227, | |
| "step": 409 | |
| }, | |
| { | |
| "epoch": 1.7466666666666666, | |
| "grad_norm": 0.333670973777771, | |
| "learning_rate": 2.0504727958360865e-06, | |
| "loss": 0.6102, | |
| "step": 410 | |
| }, | |
| { | |
| "epoch": 1.7509333333333332, | |
| "grad_norm": 0.33881455659866333, | |
| "learning_rate": 2.038929257919125e-06, | |
| "loss": 0.6216, | |
| "step": 411 | |
| }, | |
| { | |
| "epoch": 1.7551999999999999, | |
| "grad_norm": 0.3591978847980499, | |
| "learning_rate": 2.0273958875043877e-06, | |
| "loss": 0.5926, | |
| "step": 412 | |
| }, | |
| { | |
| "epoch": 1.7594666666666665, | |
| "grad_norm": 0.3602572977542877, | |
| "learning_rate": 2.015872938925013e-06, | |
| "loss": 0.65, | |
| "step": 413 | |
| }, | |
| { | |
| "epoch": 1.7637333333333334, | |
| "grad_norm": 0.35508790612220764, | |
| "learning_rate": 2.0043606662843194e-06, | |
| "loss": 0.6307, | |
| "step": 414 | |
| }, | |
| { | |
| "epoch": 1.768, | |
| "grad_norm": 0.3617687225341797, | |
| "learning_rate": 1.992859323450201e-06, | |
| "loss": 0.5987, | |
| "step": 415 | |
| }, | |
| { | |
| "epoch": 1.7722666666666667, | |
| "grad_norm": 0.37263643741607666, | |
| "learning_rate": 1.9813691640495236e-06, | |
| "loss": 0.6138, | |
| "step": 416 | |
| }, | |
| { | |
| "epoch": 1.7765333333333333, | |
| "grad_norm": 0.373625248670578, | |
| "learning_rate": 1.9698904414625443e-06, | |
| "loss": 0.6368, | |
| "step": 417 | |
| }, | |
| { | |
| "epoch": 1.7808000000000002, | |
| "grad_norm": 0.3303409814834595, | |
| "learning_rate": 1.958423408817309e-06, | |
| "loss": 0.6153, | |
| "step": 418 | |
| }, | |
| { | |
| "epoch": 1.7850666666666668, | |
| "grad_norm": 0.3457784056663513, | |
| "learning_rate": 1.9469683189840823e-06, | |
| "loss": 0.6036, | |
| "step": 419 | |
| }, | |
| { | |
| "epoch": 1.7893333333333334, | |
| "grad_norm": 0.36308011412620544, | |
| "learning_rate": 1.935525424569765e-06, | |
| "loss": 0.615, | |
| "step": 420 | |
| }, | |
| { | |
| "epoch": 1.7936, | |
| "grad_norm": 0.34869521856307983, | |
| "learning_rate": 1.924094977912326e-06, | |
| "loss": 0.6337, | |
| "step": 421 | |
| }, | |
| { | |
| "epoch": 1.7978666666666667, | |
| "grad_norm": 0.3418169915676117, | |
| "learning_rate": 1.912677231075236e-06, | |
| "loss": 0.6089, | |
| "step": 422 | |
| }, | |
| { | |
| "epoch": 1.8021333333333334, | |
| "grad_norm": 0.37303951382637024, | |
| "learning_rate": 1.901272435841911e-06, | |
| "loss": 0.6467, | |
| "step": 423 | |
| }, | |
| { | |
| "epoch": 1.8064, | |
| "grad_norm": 0.33986544609069824, | |
| "learning_rate": 1.8898808437101598e-06, | |
| "loss": 0.6276, | |
| "step": 424 | |
| }, | |
| { | |
| "epoch": 1.8106666666666666, | |
| "grad_norm": 0.36087459325790405, | |
| "learning_rate": 1.8785027058866358e-06, | |
| "loss": 0.6157, | |
| "step": 425 | |
| }, | |
| { | |
| "epoch": 1.8149333333333333, | |
| "grad_norm": 0.3607085943222046, | |
| "learning_rate": 1.8671382732812976e-06, | |
| "loss": 0.6463, | |
| "step": 426 | |
| }, | |
| { | |
| "epoch": 1.8192, | |
| "grad_norm": 0.3519996702671051, | |
| "learning_rate": 1.8557877965018817e-06, | |
| "loss": 0.5965, | |
| "step": 427 | |
| }, | |
| { | |
| "epoch": 1.8234666666666666, | |
| "grad_norm": 0.3577191233634949, | |
| "learning_rate": 1.8444515258483684e-06, | |
| "loss": 0.6493, | |
| "step": 428 | |
| }, | |
| { | |
| "epoch": 1.8277333333333332, | |
| "grad_norm": 0.34583061933517456, | |
| "learning_rate": 1.8331297113074647e-06, | |
| "loss": 0.6166, | |
| "step": 429 | |
| }, | |
| { | |
| "epoch": 1.8319999999999999, | |
| "grad_norm": 0.3553761839866638, | |
| "learning_rate": 1.8218226025470934e-06, | |
| "loss": 0.6197, | |
| "step": 430 | |
| }, | |
| { | |
| "epoch": 1.8362666666666667, | |
| "grad_norm": 0.36136338114738464, | |
| "learning_rate": 1.810530448910888e-06, | |
| "loss": 0.6486, | |
| "step": 431 | |
| }, | |
| { | |
| "epoch": 1.8405333333333334, | |
| "grad_norm": 0.3319532871246338, | |
| "learning_rate": 1.7992534994126904e-06, | |
| "loss": 0.5983, | |
| "step": 432 | |
| }, | |
| { | |
| "epoch": 1.8448, | |
| "grad_norm": 0.3669814169406891, | |
| "learning_rate": 1.7879920027310621e-06, | |
| "loss": 0.6314, | |
| "step": 433 | |
| }, | |
| { | |
| "epoch": 1.8490666666666666, | |
| "grad_norm": 0.34887489676475525, | |
| "learning_rate": 1.7767462072038017e-06, | |
| "loss": 0.5914, | |
| "step": 434 | |
| }, | |
| { | |
| "epoch": 1.8533333333333335, | |
| "grad_norm": 0.3559891879558563, | |
| "learning_rate": 1.7655163608224649e-06, | |
| "loss": 0.6388, | |
| "step": 435 | |
| }, | |
| { | |
| "epoch": 1.8576000000000001, | |
| "grad_norm": 0.3565674126148224, | |
| "learning_rate": 1.7543027112268994e-06, | |
| "loss": 0.654, | |
| "step": 436 | |
| }, | |
| { | |
| "epoch": 1.8618666666666668, | |
| "grad_norm": 0.34790274500846863, | |
| "learning_rate": 1.7431055056997803e-06, | |
| "loss": 0.6008, | |
| "step": 437 | |
| }, | |
| { | |
| "epoch": 1.8661333333333334, | |
| "grad_norm": 0.3522760272026062, | |
| "learning_rate": 1.731924991161163e-06, | |
| "loss": 0.6389, | |
| "step": 438 | |
| }, | |
| { | |
| "epoch": 1.8704, | |
| "grad_norm": 0.3217763602733612, | |
| "learning_rate": 1.7207614141630304e-06, | |
| "loss": 0.6068, | |
| "step": 439 | |
| }, | |
| { | |
| "epoch": 1.8746666666666667, | |
| "grad_norm": 0.3468863070011139, | |
| "learning_rate": 1.7096150208838613e-06, | |
| "loss": 0.6374, | |
| "step": 440 | |
| }, | |
| { | |
| "epoch": 1.8789333333333333, | |
| "grad_norm": 0.343654066324234, | |
| "learning_rate": 1.698486057123201e-06, | |
| "loss": 0.6164, | |
| "step": 441 | |
| }, | |
| { | |
| "epoch": 1.8832, | |
| "grad_norm": 0.35105621814727783, | |
| "learning_rate": 1.6873747682962393e-06, | |
| "loss": 0.6569, | |
| "step": 442 | |
| }, | |
| { | |
| "epoch": 1.8874666666666666, | |
| "grad_norm": 0.3443906307220459, | |
| "learning_rate": 1.6762813994283993e-06, | |
| "loss": 0.6269, | |
| "step": 443 | |
| }, | |
| { | |
| "epoch": 1.8917333333333333, | |
| "grad_norm": 0.33432722091674805, | |
| "learning_rate": 1.665206195149936e-06, | |
| "loss": 0.6265, | |
| "step": 444 | |
| }, | |
| { | |
| "epoch": 1.896, | |
| "grad_norm": 0.33422231674194336, | |
| "learning_rate": 1.6541493996905378e-06, | |
| "loss": 0.6022, | |
| "step": 445 | |
| }, | |
| { | |
| "epoch": 1.9002666666666665, | |
| "grad_norm": 0.32642269134521484, | |
| "learning_rate": 1.6431112568739448e-06, | |
| "loss": 0.5939, | |
| "step": 446 | |
| }, | |
| { | |
| "epoch": 1.9045333333333332, | |
| "grad_norm": 0.3520292639732361, | |
| "learning_rate": 1.6320920101125673e-06, | |
| "loss": 0.6236, | |
| "step": 447 | |
| }, | |
| { | |
| "epoch": 1.9088, | |
| "grad_norm": 0.3316883146762848, | |
| "learning_rate": 1.6210919024021258e-06, | |
| "loss": 0.6398, | |
| "step": 448 | |
| }, | |
| { | |
| "epoch": 1.9130666666666667, | |
| "grad_norm": 0.34300458431243896, | |
| "learning_rate": 1.6101111763162842e-06, | |
| "loss": 0.6361, | |
| "step": 449 | |
| }, | |
| { | |
| "epoch": 1.9173333333333333, | |
| "grad_norm": 0.3536739945411682, | |
| "learning_rate": 1.5991500740013032e-06, | |
| "loss": 0.6325, | |
| "step": 450 | |
| }, | |
| { | |
| "epoch": 1.9216, | |
| "grad_norm": 0.3418213427066803, | |
| "learning_rate": 1.588208837170706e-06, | |
| "loss": 0.6248, | |
| "step": 451 | |
| }, | |
| { | |
| "epoch": 1.9258666666666666, | |
| "grad_norm": 0.35811057686805725, | |
| "learning_rate": 1.5772877070999388e-06, | |
| "loss": 0.66, | |
| "step": 452 | |
| }, | |
| { | |
| "epoch": 1.9301333333333335, | |
| "grad_norm": 0.3446464538574219, | |
| "learning_rate": 1.5663869246210568e-06, | |
| "loss": 0.6601, | |
| "step": 453 | |
| }, | |
| { | |
| "epoch": 1.9344000000000001, | |
| "grad_norm": 0.352630078792572, | |
| "learning_rate": 1.55550673011741e-06, | |
| "loss": 0.6057, | |
| "step": 454 | |
| }, | |
| { | |
| "epoch": 1.9386666666666668, | |
| "grad_norm": 0.3361312747001648, | |
| "learning_rate": 1.5446473635183469e-06, | |
| "loss": 0.6151, | |
| "step": 455 | |
| }, | |
| { | |
| "epoch": 1.9429333333333334, | |
| "grad_norm": 0.34577980637550354, | |
| "learning_rate": 1.5338090642939171e-06, | |
| "loss": 0.5807, | |
| "step": 456 | |
| }, | |
| { | |
| "epoch": 1.9472, | |
| "grad_norm": 0.3399719297885895, | |
| "learning_rate": 1.522992071449595e-06, | |
| "loss": 0.646, | |
| "step": 457 | |
| }, | |
| { | |
| "epoch": 1.9514666666666667, | |
| "grad_norm": 0.33490023016929626, | |
| "learning_rate": 1.512196623521009e-06, | |
| "loss": 0.618, | |
| "step": 458 | |
| }, | |
| { | |
| "epoch": 1.9557333333333333, | |
| "grad_norm": 0.36129286885261536, | |
| "learning_rate": 1.501422958568679e-06, | |
| "loss": 0.6313, | |
| "step": 459 | |
| }, | |
| { | |
| "epoch": 1.96, | |
| "grad_norm": 0.3402632176876068, | |
| "learning_rate": 1.4906713141727677e-06, | |
| "loss": 0.5889, | |
| "step": 460 | |
| }, | |
| { | |
| "epoch": 1.9642666666666666, | |
| "grad_norm": 0.36346685886383057, | |
| "learning_rate": 1.4799419274278454e-06, | |
| "loss": 0.6268, | |
| "step": 461 | |
| }, | |
| { | |
| "epoch": 1.9685333333333332, | |
| "grad_norm": 0.36655858159065247, | |
| "learning_rate": 1.469235034937653e-06, | |
| "loss": 0.6135, | |
| "step": 462 | |
| }, | |
| { | |
| "epoch": 1.9727999999999999, | |
| "grad_norm": 0.3634871542453766, | |
| "learning_rate": 1.4585508728098935e-06, | |
| "loss": 0.6415, | |
| "step": 463 | |
| }, | |
| { | |
| "epoch": 1.9770666666666665, | |
| "grad_norm": 0.3393765091896057, | |
| "learning_rate": 1.4478896766510187e-06, | |
| "loss": 0.5915, | |
| "step": 464 | |
| }, | |
| { | |
| "epoch": 1.9813333333333332, | |
| "grad_norm": 0.35128340125083923, | |
| "learning_rate": 1.4372516815610405e-06, | |
| "loss": 0.6186, | |
| "step": 465 | |
| }, | |
| { | |
| "epoch": 1.9856, | |
| "grad_norm": 0.33152270317077637, | |
| "learning_rate": 1.4266371221283367e-06, | |
| "loss": 0.5733, | |
| "step": 466 | |
| }, | |
| { | |
| "epoch": 1.9898666666666667, | |
| "grad_norm": 0.36451447010040283, | |
| "learning_rate": 1.4160462324244864e-06, | |
| "loss": 0.6342, | |
| "step": 467 | |
| }, | |
| { | |
| "epoch": 1.9941333333333333, | |
| "grad_norm": 0.34968507289886475, | |
| "learning_rate": 1.4054792459991073e-06, | |
| "loss": 0.6182, | |
| "step": 468 | |
| }, | |
| { | |
| "epoch": 1.9984, | |
| "grad_norm": 0.33991050720214844, | |
| "learning_rate": 1.3949363958747004e-06, | |
| "loss": 0.612, | |
| "step": 469 | |
| }, | |
| { | |
| "epoch": 2.0, | |
| "grad_norm": 0.5291548371315002, | |
| "learning_rate": 1.3844179145415158e-06, | |
| "loss": 0.6129, | |
| "step": 470 | |
| }, | |
| { | |
| "epoch": 2.0042666666666666, | |
| "grad_norm": 0.3454642593860626, | |
| "learning_rate": 1.373924033952424e-06, | |
| "loss": 0.6203, | |
| "step": 471 | |
| }, | |
| { | |
| "epoch": 2.0085333333333333, | |
| "grad_norm": 0.3359213173389435, | |
| "learning_rate": 1.363454985517803e-06, | |
| "loss": 0.5775, | |
| "step": 472 | |
| }, | |
| { | |
| "epoch": 2.0128, | |
| "grad_norm": 0.3395461142063141, | |
| "learning_rate": 1.3530110001004315e-06, | |
| "loss": 0.6245, | |
| "step": 473 | |
| }, | |
| { | |
| "epoch": 2.0170666666666666, | |
| "grad_norm": 0.33210253715515137, | |
| "learning_rate": 1.3425923080104008e-06, | |
| "loss": 0.655, | |
| "step": 474 | |
| }, | |
| { | |
| "epoch": 2.021333333333333, | |
| "grad_norm": 0.3711182773113251, | |
| "learning_rate": 1.3321991390000382e-06, | |
| "loss": 0.6177, | |
| "step": 475 | |
| }, | |
| { | |
| "epoch": 2.0256, | |
| "grad_norm": 0.37890559434890747, | |
| "learning_rate": 1.3218317222588356e-06, | |
| "loss": 0.5875, | |
| "step": 476 | |
| }, | |
| { | |
| "epoch": 2.0298666666666665, | |
| "grad_norm": 0.34380125999450684, | |
| "learning_rate": 1.3114902864083937e-06, | |
| "loss": 0.5857, | |
| "step": 477 | |
| }, | |
| { | |
| "epoch": 2.034133333333333, | |
| "grad_norm": 0.34623777866363525, | |
| "learning_rate": 1.301175059497391e-06, | |
| "loss": 0.6143, | |
| "step": 478 | |
| }, | |
| { | |
| "epoch": 2.0384, | |
| "grad_norm": 0.3658795952796936, | |
| "learning_rate": 1.2908862689965446e-06, | |
| "loss": 0.6113, | |
| "step": 479 | |
| }, | |
| { | |
| "epoch": 2.042666666666667, | |
| "grad_norm": 0.35803937911987305, | |
| "learning_rate": 1.2806241417935975e-06, | |
| "loss": 0.6164, | |
| "step": 480 | |
| }, | |
| { | |
| "epoch": 2.0469333333333335, | |
| "grad_norm": 0.3726085126399994, | |
| "learning_rate": 1.270388904188316e-06, | |
| "loss": 0.6031, | |
| "step": 481 | |
| }, | |
| { | |
| "epoch": 2.0512, | |
| "grad_norm": 0.3445771634578705, | |
| "learning_rate": 1.2601807818874994e-06, | |
| "loss": 0.6445, | |
| "step": 482 | |
| }, | |
| { | |
| "epoch": 2.0554666666666668, | |
| "grad_norm": 0.3538333475589752, | |
| "learning_rate": 1.2500000000000007e-06, | |
| "loss": 0.6456, | |
| "step": 483 | |
| }, | |
| { | |
| "epoch": 2.0597333333333334, | |
| "grad_norm": 0.3596368134021759, | |
| "learning_rate": 1.2398467830317635e-06, | |
| "loss": 0.628, | |
| "step": 484 | |
| }, | |
| { | |
| "epoch": 2.064, | |
| "grad_norm": 0.3321940004825592, | |
| "learning_rate": 1.229721354880875e-06, | |
| "loss": 0.6237, | |
| "step": 485 | |
| }, | |
| { | |
| "epoch": 2.0682666666666667, | |
| "grad_norm": 0.3428746163845062, | |
| "learning_rate": 1.219623938832622e-06, | |
| "loss": 0.6196, | |
| "step": 486 | |
| }, | |
| { | |
| "epoch": 2.0725333333333333, | |
| "grad_norm": 0.34215423464775085, | |
| "learning_rate": 1.2095547575545685e-06, | |
| "loss": 0.5942, | |
| "step": 487 | |
| }, | |
| { | |
| "epoch": 2.0768, | |
| "grad_norm": 0.35768529772758484, | |
| "learning_rate": 1.199514033091653e-06, | |
| "loss": 0.6276, | |
| "step": 488 | |
| }, | |
| { | |
| "epoch": 2.0810666666666666, | |
| "grad_norm": 0.3465723991394043, | |
| "learning_rate": 1.1895019868612815e-06, | |
| "loss": 0.6087, | |
| "step": 489 | |
| }, | |
| { | |
| "epoch": 2.0853333333333333, | |
| "grad_norm": 0.3426065146923065, | |
| "learning_rate": 1.1795188396484505e-06, | |
| "loss": 0.5751, | |
| "step": 490 | |
| }, | |
| { | |
| "epoch": 2.0896, | |
| "grad_norm": 0.3264654278755188, | |
| "learning_rate": 1.1695648116008781e-06, | |
| "loss": 0.5953, | |
| "step": 491 | |
| }, | |
| { | |
| "epoch": 2.0938666666666665, | |
| "grad_norm": 0.33921313285827637, | |
| "learning_rate": 1.1596401222241473e-06, | |
| "loss": 0.6169, | |
| "step": 492 | |
| }, | |
| { | |
| "epoch": 2.098133333333333, | |
| "grad_norm": 0.3380139470100403, | |
| "learning_rate": 1.149744990376868e-06, | |
| "loss": 0.5793, | |
| "step": 493 | |
| }, | |
| { | |
| "epoch": 2.1024, | |
| "grad_norm": 0.33891841769218445, | |
| "learning_rate": 1.139879634265847e-06, | |
| "loss": 0.6119, | |
| "step": 494 | |
| }, | |
| { | |
| "epoch": 2.1066666666666665, | |
| "grad_norm": 0.33831652998924255, | |
| "learning_rate": 1.1300442714412819e-06, | |
| "loss": 0.6114, | |
| "step": 495 | |
| }, | |
| { | |
| "epoch": 2.1109333333333336, | |
| "grad_norm": 0.3383654057979584, | |
| "learning_rate": 1.1202391187919575e-06, | |
| "loss": 0.61, | |
| "step": 496 | |
| }, | |
| { | |
| "epoch": 2.1152, | |
| "grad_norm": 0.32236188650131226, | |
| "learning_rate": 1.1104643925404678e-06, | |
| "loss": 0.5775, | |
| "step": 497 | |
| }, | |
| { | |
| "epoch": 2.119466666666667, | |
| "grad_norm": 0.359540194272995, | |
| "learning_rate": 1.1007203082384424e-06, | |
| "loss": 0.5865, | |
| "step": 498 | |
| }, | |
| { | |
| "epoch": 2.1237333333333335, | |
| "grad_norm": 0.3443056344985962, | |
| "learning_rate": 1.0910070807618012e-06, | |
| "loss": 0.5759, | |
| "step": 499 | |
| }, | |
| { | |
| "epoch": 2.128, | |
| "grad_norm": 0.35354653000831604, | |
| "learning_rate": 1.0813249243060081e-06, | |
| "loss": 0.5905, | |
| "step": 500 | |
| }, | |
| { | |
| "epoch": 2.1322666666666668, | |
| "grad_norm": 0.3386101722717285, | |
| "learning_rate": 1.0716740523813524e-06, | |
| "loss": 0.6143, | |
| "step": 501 | |
| }, | |
| { | |
| "epoch": 2.1365333333333334, | |
| "grad_norm": 0.3504805564880371, | |
| "learning_rate": 1.062054677808238e-06, | |
| "loss": 0.6194, | |
| "step": 502 | |
| }, | |
| { | |
| "epoch": 2.1408, | |
| "grad_norm": 0.35748982429504395, | |
| "learning_rate": 1.0524670127124918e-06, | |
| "loss": 0.6312, | |
| "step": 503 | |
| }, | |
| { | |
| "epoch": 2.1450666666666667, | |
| "grad_norm": 0.3584182560443878, | |
| "learning_rate": 1.0429112685206843e-06, | |
| "loss": 0.622, | |
| "step": 504 | |
| }, | |
| { | |
| "epoch": 2.1493333333333333, | |
| "grad_norm": 0.34925296902656555, | |
| "learning_rate": 1.033387655955471e-06, | |
| "loss": 0.6289, | |
| "step": 505 | |
| }, | |
| { | |
| "epoch": 2.1536, | |
| "grad_norm": 0.3288041353225708, | |
| "learning_rate": 1.0238963850309406e-06, | |
| "loss": 0.5748, | |
| "step": 506 | |
| }, | |
| { | |
| "epoch": 2.1578666666666666, | |
| "grad_norm": 0.355558305978775, | |
| "learning_rate": 1.0144376650479867e-06, | |
| "loss": 0.6296, | |
| "step": 507 | |
| }, | |
| { | |
| "epoch": 2.1621333333333332, | |
| "grad_norm": 0.36249178647994995, | |
| "learning_rate": 1.0050117045896889e-06, | |
| "loss": 0.6366, | |
| "step": 508 | |
| }, | |
| { | |
| "epoch": 2.1664, | |
| "grad_norm": 0.3458845615386963, | |
| "learning_rate": 9.956187115167215e-07, | |
| "loss": 0.6318, | |
| "step": 509 | |
| }, | |
| { | |
| "epoch": 2.1706666666666665, | |
| "grad_norm": 0.34122511744499207, | |
| "learning_rate": 9.8625889296276e-07, | |
| "loss": 0.5991, | |
| "step": 510 | |
| }, | |
| { | |
| "epoch": 2.174933333333333, | |
| "grad_norm": 0.3294980525970459, | |
| "learning_rate": 9.769324553299174e-07, | |
| "loss": 0.6074, | |
| "step": 511 | |
| }, | |
| { | |
| "epoch": 2.1792, | |
| "grad_norm": 0.35011374950408936, | |
| "learning_rate": 9.67639604284197e-07, | |
| "loss": 0.6041, | |
| "step": 512 | |
| }, | |
| { | |
| "epoch": 2.183466666666667, | |
| "grad_norm": 0.3691865801811218, | |
| "learning_rate": 9.58380544750947e-07, | |
| "loss": 0.6238, | |
| "step": 513 | |
| }, | |
| { | |
| "epoch": 2.1877333333333335, | |
| "grad_norm": 0.35375744104385376, | |
| "learning_rate": 9.491554809103509e-07, | |
| "loss": 0.6299, | |
| "step": 514 | |
| }, | |
| { | |
| "epoch": 2.192, | |
| "grad_norm": 0.34152060747146606, | |
| "learning_rate": 9.399646161929202e-07, | |
| "loss": 0.6286, | |
| "step": 515 | |
| }, | |
| { | |
| "epoch": 2.196266666666667, | |
| "grad_norm": 0.36606308817863464, | |
| "learning_rate": 9.308081532750116e-07, | |
| "loss": 0.612, | |
| "step": 516 | |
| }, | |
| { | |
| "epoch": 2.2005333333333335, | |
| "grad_norm": 0.34242525696754456, | |
| "learning_rate": 9.216862940743529e-07, | |
| "loss": 0.641, | |
| "step": 517 | |
| }, | |
| { | |
| "epoch": 2.2048, | |
| "grad_norm": 0.33378395438194275, | |
| "learning_rate": 9.125992397455943e-07, | |
| "loss": 0.5533, | |
| "step": 518 | |
| }, | |
| { | |
| "epoch": 2.2090666666666667, | |
| "grad_norm": 0.3290783166885376, | |
| "learning_rate": 9.035471906758705e-07, | |
| "loss": 0.5853, | |
| "step": 519 | |
| }, | |
| { | |
| "epoch": 2.2133333333333334, | |
| "grad_norm": 0.35453036427497864, | |
| "learning_rate": 8.945303464803833e-07, | |
| "loss": 0.645, | |
| "step": 520 | |
| }, | |
| { | |
| "epoch": 2.2176, | |
| "grad_norm": 0.35501500964164734, | |
| "learning_rate": 8.855489059979977e-07, | |
| "loss": 0.6475, | |
| "step": 521 | |
| }, | |
| { | |
| "epoch": 2.2218666666666667, | |
| "grad_norm": 0.33805051445961, | |
| "learning_rate": 8.766030672868614e-07, | |
| "loss": 0.595, | |
| "step": 522 | |
| }, | |
| { | |
| "epoch": 2.2261333333333333, | |
| "grad_norm": 0.3185022175312042, | |
| "learning_rate": 8.676930276200294e-07, | |
| "loss": 0.5749, | |
| "step": 523 | |
| }, | |
| { | |
| "epoch": 2.2304, | |
| "grad_norm": 0.35385066270828247, | |
| "learning_rate": 8.588189834811217e-07, | |
| "loss": 0.6604, | |
| "step": 524 | |
| }, | |
| { | |
| "epoch": 2.2346666666666666, | |
| "grad_norm": 0.34080225229263306, | |
| "learning_rate": 8.499811305599858e-07, | |
| "loss": 0.6281, | |
| "step": 525 | |
| }, | |
| { | |
| "epoch": 2.238933333333333, | |
| "grad_norm": 0.32432180643081665, | |
| "learning_rate": 8.411796637483852e-07, | |
| "loss": 0.6241, | |
| "step": 526 | |
| }, | |
| { | |
| "epoch": 2.2432, | |
| "grad_norm": 0.3203832507133484, | |
| "learning_rate": 8.324147771356964e-07, | |
| "loss": 0.6222, | |
| "step": 527 | |
| }, | |
| { | |
| "epoch": 2.2474666666666665, | |
| "grad_norm": 0.32758456468582153, | |
| "learning_rate": 8.236866640046329e-07, | |
| "loss": 0.6351, | |
| "step": 528 | |
| }, | |
| { | |
| "epoch": 2.251733333333333, | |
| "grad_norm": 0.3457350730895996, | |
| "learning_rate": 8.149955168269822e-07, | |
| "loss": 0.6175, | |
| "step": 529 | |
| }, | |
| { | |
| "epoch": 2.2560000000000002, | |
| "grad_norm": 0.34189313650131226, | |
| "learning_rate": 8.0634152725936e-07, | |
| "loss": 0.6246, | |
| "step": 530 | |
| }, | |
| { | |
| "epoch": 2.2602666666666664, | |
| "grad_norm": 0.35133737325668335, | |
| "learning_rate": 7.977248861389853e-07, | |
| "loss": 0.6176, | |
| "step": 531 | |
| }, | |
| { | |
| "epoch": 2.2645333333333335, | |
| "grad_norm": 0.3272813856601715, | |
| "learning_rate": 7.891457834794711e-07, | |
| "loss": 0.5574, | |
| "step": 532 | |
| }, | |
| { | |
| "epoch": 2.2688, | |
| "grad_norm": 0.3326052725315094, | |
| "learning_rate": 7.80604408466637e-07, | |
| "loss": 0.5754, | |
| "step": 533 | |
| }, | |
| { | |
| "epoch": 2.273066666666667, | |
| "grad_norm": 0.3340674340724945, | |
| "learning_rate": 7.721009494543314e-07, | |
| "loss": 0.603, | |
| "step": 534 | |
| }, | |
| { | |
| "epoch": 2.2773333333333334, | |
| "grad_norm": 0.3468780517578125, | |
| "learning_rate": 7.636355939602824e-07, | |
| "loss": 0.6316, | |
| "step": 535 | |
| }, | |
| { | |
| "epoch": 2.2816, | |
| "grad_norm": 0.3622860312461853, | |
| "learning_rate": 7.55208528661965e-07, | |
| "loss": 0.5903, | |
| "step": 536 | |
| }, | |
| { | |
| "epoch": 2.2858666666666667, | |
| "grad_norm": 0.33696678280830383, | |
| "learning_rate": 7.468199393924775e-07, | |
| "loss": 0.6157, | |
| "step": 537 | |
| }, | |
| { | |
| "epoch": 2.2901333333333334, | |
| "grad_norm": 0.34255290031433105, | |
| "learning_rate": 7.384700111364487e-07, | |
| "loss": 0.6159, | |
| "step": 538 | |
| }, | |
| { | |
| "epoch": 2.2944, | |
| "grad_norm": 0.34535640478134155, | |
| "learning_rate": 7.301589280259572e-07, | |
| "loss": 0.6059, | |
| "step": 539 | |
| }, | |
| { | |
| "epoch": 2.2986666666666666, | |
| "grad_norm": 0.3281169533729553, | |
| "learning_rate": 7.218868733364712e-07, | |
| "loss": 0.5943, | |
| "step": 540 | |
| }, | |
| { | |
| "epoch": 2.3029333333333333, | |
| "grad_norm": 0.34532874822616577, | |
| "learning_rate": 7.136540294828062e-07, | |
| "loss": 0.5923, | |
| "step": 541 | |
| }, | |
| { | |
| "epoch": 2.3072, | |
| "grad_norm": 0.3486146926879883, | |
| "learning_rate": 7.054605780151022e-07, | |
| "loss": 0.6401, | |
| "step": 542 | |
| }, | |
| { | |
| "epoch": 2.3114666666666666, | |
| "grad_norm": 0.33802080154418945, | |
| "learning_rate": 6.973066996148245e-07, | |
| "loss": 0.5979, | |
| "step": 543 | |
| }, | |
| { | |
| "epoch": 2.315733333333333, | |
| "grad_norm": 0.33193105459213257, | |
| "learning_rate": 6.891925740907701e-07, | |
| "loss": 0.6044, | |
| "step": 544 | |
| }, | |
| { | |
| "epoch": 2.32, | |
| "grad_norm": 0.3354455828666687, | |
| "learning_rate": 6.811183803751112e-07, | |
| "loss": 0.5764, | |
| "step": 545 | |
| }, | |
| { | |
| "epoch": 2.3242666666666665, | |
| "grad_norm": 0.32878172397613525, | |
| "learning_rate": 6.730842965194479e-07, | |
| "loss": 0.5584, | |
| "step": 546 | |
| }, | |
| { | |
| "epoch": 2.3285333333333336, | |
| "grad_norm": 0.33991891145706177, | |
| "learning_rate": 6.650904996908772e-07, | |
| "loss": 0.6111, | |
| "step": 547 | |
| }, | |
| { | |
| "epoch": 2.3327999999999998, | |
| "grad_norm": 0.32996976375579834, | |
| "learning_rate": 6.571371661680909e-07, | |
| "loss": 0.5858, | |
| "step": 548 | |
| }, | |
| { | |
| "epoch": 2.337066666666667, | |
| "grad_norm": 0.3353066146373749, | |
| "learning_rate": 6.492244713374857e-07, | |
| "loss": 0.6115, | |
| "step": 549 | |
| }, | |
| { | |
| "epoch": 2.3413333333333335, | |
| "grad_norm": 0.31983545422554016, | |
| "learning_rate": 6.413525896892972e-07, | |
| "loss": 0.6009, | |
| "step": 550 | |
| }, | |
| { | |
| "epoch": 2.3456, | |
| "grad_norm": 0.33389580249786377, | |
| "learning_rate": 6.335216948137513e-07, | |
| "loss": 0.5975, | |
| "step": 551 | |
| }, | |
| { | |
| "epoch": 2.3498666666666668, | |
| "grad_norm": 0.34626585245132446, | |
| "learning_rate": 6.257319593972347e-07, | |
| "loss": 0.5625, | |
| "step": 552 | |
| }, | |
| { | |
| "epoch": 2.3541333333333334, | |
| "grad_norm": 0.3237454891204834, | |
| "learning_rate": 6.179835552184924e-07, | |
| "loss": 0.6048, | |
| "step": 553 | |
| }, | |
| { | |
| "epoch": 2.3584, | |
| "grad_norm": 0.3444509208202362, | |
| "learning_rate": 6.1027665314483e-07, | |
| "loss": 0.5843, | |
| "step": 554 | |
| }, | |
| { | |
| "epoch": 2.3626666666666667, | |
| "grad_norm": 0.3375681936740875, | |
| "learning_rate": 6.02611423128355e-07, | |
| "loss": 0.6234, | |
| "step": 555 | |
| }, | |
| { | |
| "epoch": 2.3669333333333333, | |
| "grad_norm": 0.35530391335487366, | |
| "learning_rate": 5.949880342022258e-07, | |
| "loss": 0.6244, | |
| "step": 556 | |
| }, | |
| { | |
| "epoch": 2.3712, | |
| "grad_norm": 0.35115307569503784, | |
| "learning_rate": 5.874066544769217e-07, | |
| "loss": 0.616, | |
| "step": 557 | |
| }, | |
| { | |
| "epoch": 2.3754666666666666, | |
| "grad_norm": 0.31733638048171997, | |
| "learning_rate": 5.79867451136539e-07, | |
| "loss": 0.6113, | |
| "step": 558 | |
| }, | |
| { | |
| "epoch": 2.3797333333333333, | |
| "grad_norm": 0.3279070556163788, | |
| "learning_rate": 5.723705904351027e-07, | |
| "loss": 0.6109, | |
| "step": 559 | |
| }, | |
| { | |
| "epoch": 2.384, | |
| "grad_norm": 0.3417271673679352, | |
| "learning_rate": 5.649162376929004e-07, | |
| "loss": 0.5966, | |
| "step": 560 | |
| }, | |
| { | |
| "epoch": 2.3882666666666665, | |
| "grad_norm": 0.3424253463745117, | |
| "learning_rate": 5.575045572928378e-07, | |
| "loss": 0.583, | |
| "step": 561 | |
| }, | |
| { | |
| "epoch": 2.392533333333333, | |
| "grad_norm": 0.3309208154678345, | |
| "learning_rate": 5.501357126768117e-07, | |
| "loss": 0.6015, | |
| "step": 562 | |
| }, | |
| { | |
| "epoch": 2.3968, | |
| "grad_norm": 0.34883973002433777, | |
| "learning_rate": 5.428098663421086e-07, | |
| "loss": 0.6008, | |
| "step": 563 | |
| }, | |
| { | |
| "epoch": 2.401066666666667, | |
| "grad_norm": 0.34529733657836914, | |
| "learning_rate": 5.355271798378189e-07, | |
| "loss": 0.6182, | |
| "step": 564 | |
| }, | |
| { | |
| "epoch": 2.405333333333333, | |
| "grad_norm": 0.34527671337127686, | |
| "learning_rate": 5.282878137612738e-07, | |
| "loss": 0.6188, | |
| "step": 565 | |
| }, | |
| { | |
| "epoch": 2.4096, | |
| "grad_norm": 0.3241617977619171, | |
| "learning_rate": 5.210919277545059e-07, | |
| "loss": 0.6145, | |
| "step": 566 | |
| }, | |
| { | |
| "epoch": 2.413866666666667, | |
| "grad_norm": 0.3428850769996643, | |
| "learning_rate": 5.139396805007307e-07, | |
| "loss": 0.6524, | |
| "step": 567 | |
| }, | |
| { | |
| "epoch": 2.4181333333333335, | |
| "grad_norm": 0.3443160653114319, | |
| "learning_rate": 5.068312297208414e-07, | |
| "loss": 0.618, | |
| "step": 568 | |
| }, | |
| { | |
| "epoch": 2.4224, | |
| "grad_norm": 0.34759387373924255, | |
| "learning_rate": 4.99766732169936e-07, | |
| "loss": 0.6638, | |
| "step": 569 | |
| }, | |
| { | |
| "epoch": 2.4266666666666667, | |
| "grad_norm": 0.3494528830051422, | |
| "learning_rate": 4.927463436338578e-07, | |
| "loss": 0.6362, | |
| "step": 570 | |
| }, | |
| { | |
| "epoch": 2.4309333333333334, | |
| "grad_norm": 0.33158278465270996, | |
| "learning_rate": 4.857702189257613e-07, | |
| "loss": 0.6511, | |
| "step": 571 | |
| }, | |
| { | |
| "epoch": 2.4352, | |
| "grad_norm": 0.33719706535339355, | |
| "learning_rate": 4.788385118826977e-07, | |
| "loss": 0.6401, | |
| "step": 572 | |
| }, | |
| { | |
| "epoch": 2.4394666666666667, | |
| "grad_norm": 0.34365832805633545, | |
| "learning_rate": 4.71951375362224e-07, | |
| "loss": 0.5674, | |
| "step": 573 | |
| }, | |
| { | |
| "epoch": 2.4437333333333333, | |
| "grad_norm": 0.36191850900650024, | |
| "learning_rate": 4.6510896123903027e-07, | |
| "loss": 0.6556, | |
| "step": 574 | |
| }, | |
| { | |
| "epoch": 2.448, | |
| "grad_norm": 0.32959699630737305, | |
| "learning_rate": 4.58311420401589e-07, | |
| "loss": 0.6102, | |
| "step": 575 | |
| }, | |
| { | |
| "epoch": 2.4522666666666666, | |
| "grad_norm": 0.3538116216659546, | |
| "learning_rate": 4.515589027488318e-07, | |
| "loss": 0.6435, | |
| "step": 576 | |
| }, | |
| { | |
| "epoch": 2.4565333333333332, | |
| "grad_norm": 0.32300877571105957, | |
| "learning_rate": 4.4485155718684334e-07, | |
| "loss": 0.5984, | |
| "step": 577 | |
| }, | |
| { | |
| "epoch": 2.4608, | |
| "grad_norm": 0.3273656666278839, | |
| "learning_rate": 4.381895316255741e-07, | |
| "loss": 0.5789, | |
| "step": 578 | |
| }, | |
| { | |
| "epoch": 2.4650666666666665, | |
| "grad_norm": 0.34395623207092285, | |
| "learning_rate": 4.31572972975581e-07, | |
| "loss": 0.6221, | |
| "step": 579 | |
| }, | |
| { | |
| "epoch": 2.469333333333333, | |
| "grad_norm": 0.3349197208881378, | |
| "learning_rate": 4.2500202714478853e-07, | |
| "loss": 0.6468, | |
| "step": 580 | |
| }, | |
| { | |
| "epoch": 2.4736000000000002, | |
| "grad_norm": 0.34170135855674744, | |
| "learning_rate": 4.1847683903526976e-07, | |
| "loss": 0.6236, | |
| "step": 581 | |
| }, | |
| { | |
| "epoch": 2.4778666666666664, | |
| "grad_norm": 0.34563860297203064, | |
| "learning_rate": 4.1199755254005105e-07, | |
| "loss": 0.644, | |
| "step": 582 | |
| }, | |
| { | |
| "epoch": 2.4821333333333335, | |
| "grad_norm": 0.3555491268634796, | |
| "learning_rate": 4.05564310539939e-07, | |
| "loss": 0.6249, | |
| "step": 583 | |
| }, | |
| { | |
| "epoch": 2.4864, | |
| "grad_norm": 0.36919161677360535, | |
| "learning_rate": 3.991772549003725e-07, | |
| "loss": 0.6316, | |
| "step": 584 | |
| }, | |
| { | |
| "epoch": 2.490666666666667, | |
| "grad_norm": 0.3386523723602295, | |
| "learning_rate": 3.9283652646828927e-07, | |
| "loss": 0.6206, | |
| "step": 585 | |
| }, | |
| { | |
| "epoch": 2.4949333333333334, | |
| "grad_norm": 0.3346911370754242, | |
| "learning_rate": 3.8654226506902204e-07, | |
| "loss": 0.5803, | |
| "step": 586 | |
| }, | |
| { | |
| "epoch": 2.4992, | |
| "grad_norm": 0.3344287872314453, | |
| "learning_rate": 3.8029460950321784e-07, | |
| "loss": 0.6229, | |
| "step": 587 | |
| }, | |
| { | |
| "epoch": 2.5034666666666667, | |
| "grad_norm": 0.3264784812927246, | |
| "learning_rate": 3.740936975437734e-07, | |
| "loss": 0.6047, | |
| "step": 588 | |
| }, | |
| { | |
| "epoch": 2.5077333333333334, | |
| "grad_norm": 0.33765143156051636, | |
| "learning_rate": 3.679396659327986e-07, | |
| "loss": 0.6114, | |
| "step": 589 | |
| }, | |
| { | |
| "epoch": 2.512, | |
| "grad_norm": 0.3362836539745331, | |
| "learning_rate": 3.6183265037860126e-07, | |
| "loss": 0.6251, | |
| "step": 590 | |
| }, | |
| { | |
| "epoch": 2.5162666666666667, | |
| "grad_norm": 0.3675728738307953, | |
| "learning_rate": 3.557727855526935e-07, | |
| "loss": 0.6128, | |
| "step": 591 | |
| }, | |
| { | |
| "epoch": 2.5205333333333333, | |
| "grad_norm": 0.3262024223804474, | |
| "learning_rate": 3.4976020508682345e-07, | |
| "loss": 0.6194, | |
| "step": 592 | |
| }, | |
| { | |
| "epoch": 2.5248, | |
| "grad_norm": 0.3431658148765564, | |
| "learning_rate": 3.437950415700264e-07, | |
| "loss": 0.6542, | |
| "step": 593 | |
| }, | |
| { | |
| "epoch": 2.5290666666666666, | |
| "grad_norm": 0.3347388207912445, | |
| "learning_rate": 3.378774265457041e-07, | |
| "loss": 0.6032, | |
| "step": 594 | |
| }, | |
| { | |
| "epoch": 2.533333333333333, | |
| "grad_norm": 0.33215099573135376, | |
| "learning_rate": 3.320074905087212e-07, | |
| "loss": 0.6248, | |
| "step": 595 | |
| }, | |
| { | |
| "epoch": 2.5376, | |
| "grad_norm": 0.3271443247795105, | |
| "learning_rate": 3.261853629025258e-07, | |
| "loss": 0.5753, | |
| "step": 596 | |
| }, | |
| { | |
| "epoch": 2.5418666666666665, | |
| "grad_norm": 0.3376429080963135, | |
| "learning_rate": 3.2041117211630166e-07, | |
| "loss": 0.6269, | |
| "step": 597 | |
| }, | |
| { | |
| "epoch": 2.5461333333333336, | |
| "grad_norm": 0.35204386711120605, | |
| "learning_rate": 3.14685045482131e-07, | |
| "loss": 0.6039, | |
| "step": 598 | |
| }, | |
| { | |
| "epoch": 2.5504, | |
| "grad_norm": 0.32474127411842346, | |
| "learning_rate": 3.090071092721877e-07, | |
| "loss": 0.5955, | |
| "step": 599 | |
| }, | |
| { | |
| "epoch": 2.554666666666667, | |
| "grad_norm": 0.3389427065849304, | |
| "learning_rate": 3.033774886959548e-07, | |
| "loss": 0.6076, | |
| "step": 600 | |
| }, | |
| { | |
| "epoch": 2.558933333333333, | |
| "grad_norm": 0.3408302664756775, | |
| "learning_rate": 2.977963078974616e-07, | |
| "loss": 0.6078, | |
| "step": 601 | |
| }, | |
| { | |
| "epoch": 2.5632, | |
| "grad_norm": 0.3243234157562256, | |
| "learning_rate": 2.922636899525466e-07, | |
| "loss": 0.6008, | |
| "step": 602 | |
| }, | |
| { | |
| "epoch": 2.567466666666667, | |
| "grad_norm": 0.3424961566925049, | |
| "learning_rate": 2.8677975686614264e-07, | |
| "loss": 0.6593, | |
| "step": 603 | |
| }, | |
| { | |
| "epoch": 2.5717333333333334, | |
| "grad_norm": 0.3413273096084595, | |
| "learning_rate": 2.813446295695893e-07, | |
| "loss": 0.5957, | |
| "step": 604 | |
| }, | |
| { | |
| "epoch": 2.576, | |
| "grad_norm": 0.34058678150177, | |
| "learning_rate": 2.759584279179617e-07, | |
| "loss": 0.6134, | |
| "step": 605 | |
| }, | |
| { | |
| "epoch": 2.5802666666666667, | |
| "grad_norm": 0.3428144156932831, | |
| "learning_rate": 2.7062127068743116e-07, | |
| "loss": 0.6109, | |
| "step": 606 | |
| }, | |
| { | |
| "epoch": 2.5845333333333333, | |
| "grad_norm": 0.33080190420150757, | |
| "learning_rate": 2.65333275572644e-07, | |
| "loss": 0.5882, | |
| "step": 607 | |
| }, | |
| { | |
| "epoch": 2.5888, | |
| "grad_norm": 0.35210663080215454, | |
| "learning_rate": 2.6009455918412724e-07, | |
| "loss": 0.6054, | |
| "step": 608 | |
| }, | |
| { | |
| "epoch": 2.5930666666666666, | |
| "grad_norm": 0.3406427800655365, | |
| "learning_rate": 2.5490523704571583e-07, | |
| "loss": 0.6164, | |
| "step": 609 | |
| }, | |
| { | |
| "epoch": 2.5973333333333333, | |
| "grad_norm": 0.3491783142089844, | |
| "learning_rate": 2.4976542359200664e-07, | |
| "loss": 0.5984, | |
| "step": 610 | |
| }, | |
| { | |
| "epoch": 2.6016, | |
| "grad_norm": 0.33281442523002625, | |
| "learning_rate": 2.4467523216583413e-07, | |
| "loss": 0.6001, | |
| "step": 611 | |
| }, | |
| { | |
| "epoch": 2.6058666666666666, | |
| "grad_norm": 0.35289639234542847, | |
| "learning_rate": 2.396347750157707e-07, | |
| "loss": 0.6258, | |
| "step": 612 | |
| }, | |
| { | |
| "epoch": 2.610133333333333, | |
| "grad_norm": 0.3332329988479614, | |
| "learning_rate": 2.3464416329365137e-07, | |
| "loss": 0.6031, | |
| "step": 613 | |
| }, | |
| { | |
| "epoch": 2.6144, | |
| "grad_norm": 0.34444907307624817, | |
| "learning_rate": 2.297035070521242e-07, | |
| "loss": 0.598, | |
| "step": 614 | |
| }, | |
| { | |
| "epoch": 2.618666666666667, | |
| "grad_norm": 0.35094860196113586, | |
| "learning_rate": 2.2481291524222154e-07, | |
| "loss": 0.6277, | |
| "step": 615 | |
| }, | |
| { | |
| "epoch": 2.622933333333333, | |
| "grad_norm": 0.34441515803337097, | |
| "learning_rate": 2.1997249571095835e-07, | |
| "loss": 0.5922, | |
| "step": 616 | |
| }, | |
| { | |
| "epoch": 2.6272, | |
| "grad_norm": 0.3234129846096039, | |
| "learning_rate": 2.151823551989518e-07, | |
| "loss": 0.6095, | |
| "step": 617 | |
| }, | |
| { | |
| "epoch": 2.6314666666666664, | |
| "grad_norm": 0.3194693326950073, | |
| "learning_rate": 2.1044259933807293e-07, | |
| "loss": 0.576, | |
| "step": 618 | |
| }, | |
| { | |
| "epoch": 2.6357333333333335, | |
| "grad_norm": 0.3412642776966095, | |
| "learning_rate": 2.0575333264911125e-07, | |
| "loss": 0.6096, | |
| "step": 619 | |
| }, | |
| { | |
| "epoch": 2.64, | |
| "grad_norm": 0.3499319851398468, | |
| "learning_rate": 2.0111465853947215e-07, | |
| "loss": 0.6403, | |
| "step": 620 | |
| }, | |
| { | |
| "epoch": 2.6442666666666668, | |
| "grad_norm": 0.33573850989341736, | |
| "learning_rate": 1.9652667930089908e-07, | |
| "loss": 0.5974, | |
| "step": 621 | |
| }, | |
| { | |
| "epoch": 2.6485333333333334, | |
| "grad_norm": 0.34437811374664307, | |
| "learning_rate": 1.9198949610721273e-07, | |
| "loss": 0.6193, | |
| "step": 622 | |
| }, | |
| { | |
| "epoch": 2.6528, | |
| "grad_norm": 0.3286372125148773, | |
| "learning_rate": 1.8750320901208345e-07, | |
| "loss": 0.6061, | |
| "step": 623 | |
| }, | |
| { | |
| "epoch": 2.6570666666666667, | |
| "grad_norm": 0.3341968357563019, | |
| "learning_rate": 1.8306791694682552e-07, | |
| "loss": 0.6014, | |
| "step": 624 | |
| }, | |
| { | |
| "epoch": 2.6613333333333333, | |
| "grad_norm": 0.34197428822517395, | |
| "learning_rate": 1.786837177182127e-07, | |
| "loss": 0.5892, | |
| "step": 625 | |
| }, | |
| { | |
| "epoch": 2.6656, | |
| "grad_norm": 0.35125383734703064, | |
| "learning_rate": 1.7435070800632336e-07, | |
| "loss": 0.6188, | |
| "step": 626 | |
| }, | |
| { | |
| "epoch": 2.6698666666666666, | |
| "grad_norm": 0.3228970766067505, | |
| "learning_rate": 1.7006898336240723e-07, | |
| "loss": 0.5889, | |
| "step": 627 | |
| }, | |
| { | |
| "epoch": 2.6741333333333333, | |
| "grad_norm": 0.32253357768058777, | |
| "learning_rate": 1.6583863820678032e-07, | |
| "loss": 0.6036, | |
| "step": 628 | |
| }, | |
| { | |
| "epoch": 2.6784, | |
| "grad_norm": 0.3427412211894989, | |
| "learning_rate": 1.616597658267402e-07, | |
| "loss": 0.6298, | |
| "step": 629 | |
| }, | |
| { | |
| "epoch": 2.6826666666666665, | |
| "grad_norm": 0.34148457646369934, | |
| "learning_rate": 1.5753245837451054e-07, | |
| "loss": 0.5882, | |
| "step": 630 | |
| }, | |
| { | |
| "epoch": 2.686933333333333, | |
| "grad_norm": 0.33803874254226685, | |
| "learning_rate": 1.534568068652101e-07, | |
| "loss": 0.6303, | |
| "step": 631 | |
| }, | |
| { | |
| "epoch": 2.6912000000000003, | |
| "grad_norm": 0.3265403211116791, | |
| "learning_rate": 1.4943290117484104e-07, | |
| "loss": 0.5489, | |
| "step": 632 | |
| }, | |
| { | |
| "epoch": 2.6954666666666665, | |
| "grad_norm": 0.33894577622413635, | |
| "learning_rate": 1.4546083003831201e-07, | |
| "loss": 0.6069, | |
| "step": 633 | |
| }, | |
| { | |
| "epoch": 2.6997333333333335, | |
| "grad_norm": 0.33138516545295715, | |
| "learning_rate": 1.4154068104747981e-07, | |
| "loss": 0.6033, | |
| "step": 634 | |
| }, | |
| { | |
| "epoch": 2.7039999999999997, | |
| "grad_norm": 0.32515788078308105, | |
| "learning_rate": 1.376725406492166e-07, | |
| "loss": 0.5931, | |
| "step": 635 | |
| }, | |
| { | |
| "epoch": 2.708266666666667, | |
| "grad_norm": 0.340743750333786, | |
| "learning_rate": 1.3385649414350442e-07, | |
| "loss": 0.6482, | |
| "step": 636 | |
| }, | |
| { | |
| "epoch": 2.7125333333333335, | |
| "grad_norm": 0.348867267370224, | |
| "learning_rate": 1.3009262568155462e-07, | |
| "loss": 0.5972, | |
| "step": 637 | |
| }, | |
| { | |
| "epoch": 2.7168, | |
| "grad_norm": 0.32340556383132935, | |
| "learning_rate": 1.2638101826395104e-07, | |
| "loss": 0.584, | |
| "step": 638 | |
| }, | |
| { | |
| "epoch": 2.7210666666666667, | |
| "grad_norm": 0.3204813003540039, | |
| "learning_rate": 1.227217537388209e-07, | |
| "loss": 0.6476, | |
| "step": 639 | |
| }, | |
| { | |
| "epoch": 2.7253333333333334, | |
| "grad_norm": 0.3281926214694977, | |
| "learning_rate": 1.1911491280002907e-07, | |
| "loss": 0.5966, | |
| "step": 640 | |
| }, | |
| { | |
| "epoch": 2.7296, | |
| "grad_norm": 0.3434792757034302, | |
| "learning_rate": 1.1556057498539913e-07, | |
| "loss": 0.5946, | |
| "step": 641 | |
| }, | |
| { | |
| "epoch": 2.7338666666666667, | |
| "grad_norm": 0.3499756455421448, | |
| "learning_rate": 1.120588186749591e-07, | |
| "loss": 0.6589, | |
| "step": 642 | |
| }, | |
| { | |
| "epoch": 2.7381333333333333, | |
| "grad_norm": 0.32970553636550903, | |
| "learning_rate": 1.0860972108921258e-07, | |
| "loss": 0.6073, | |
| "step": 643 | |
| }, | |
| { | |
| "epoch": 2.7424, | |
| "grad_norm": 0.3311205506324768, | |
| "learning_rate": 1.0521335828743678e-07, | |
| "loss": 0.5906, | |
| "step": 644 | |
| }, | |
| { | |
| "epoch": 2.7466666666666666, | |
| "grad_norm": 0.34418705105781555, | |
| "learning_rate": 1.0186980516600525e-07, | |
| "loss": 0.6233, | |
| "step": 645 | |
| }, | |
| { | |
| "epoch": 2.7509333333333332, | |
| "grad_norm": 0.32787424325942993, | |
| "learning_rate": 9.857913545673503e-08, | |
| "loss": 0.6237, | |
| "step": 646 | |
| }, | |
| { | |
| "epoch": 2.7552, | |
| "grad_norm": 0.31942757964134216, | |
| "learning_rate": 9.534142172526239e-08, | |
| "loss": 0.6018, | |
| "step": 647 | |
| }, | |
| { | |
| "epoch": 2.7594666666666665, | |
| "grad_norm": 0.3224412500858307, | |
| "learning_rate": 9.215673536944108e-08, | |
| "loss": 0.6439, | |
| "step": 648 | |
| }, | |
| { | |
| "epoch": 2.7637333333333336, | |
| "grad_norm": 0.331991583108902, | |
| "learning_rate": 8.902514661776885e-08, | |
| "loss": 0.5759, | |
| "step": 649 | |
| }, | |
| { | |
| "epoch": 2.768, | |
| "grad_norm": 0.32098379731178284, | |
| "learning_rate": 8.594672452783892e-08, | |
| "loss": 0.6009, | |
| "step": 650 | |
| }, | |
| { | |
| "epoch": 2.772266666666667, | |
| "grad_norm": 0.33318814635276794, | |
| "learning_rate": 8.292153698481631e-08, | |
| "loss": 0.6401, | |
| "step": 651 | |
| }, | |
| { | |
| "epoch": 2.776533333333333, | |
| "grad_norm": 0.3261711895465851, | |
| "learning_rate": 7.994965069994143e-08, | |
| "loss": 0.6193, | |
| "step": 652 | |
| }, | |
| { | |
| "epoch": 2.7808, | |
| "grad_norm": 0.32475578784942627, | |
| "learning_rate": 7.703113120905825e-08, | |
| "loss": 0.6092, | |
| "step": 653 | |
| }, | |
| { | |
| "epoch": 2.785066666666667, | |
| "grad_norm": 0.3446325957775116, | |
| "learning_rate": 7.416604287117018e-08, | |
| "loss": 0.5965, | |
| "step": 654 | |
| }, | |
| { | |
| "epoch": 2.7893333333333334, | |
| "grad_norm": 0.3262110948562622, | |
| "learning_rate": 7.135444886702064e-08, | |
| "loss": 0.5995, | |
| "step": 655 | |
| }, | |
| { | |
| "epoch": 2.7936, | |
| "grad_norm": 0.3156624734401703, | |
| "learning_rate": 6.859641119769861e-08, | |
| "loss": 0.6088, | |
| "step": 656 | |
| }, | |
| { | |
| "epoch": 2.7978666666666667, | |
| "grad_norm": 0.33477863669395447, | |
| "learning_rate": 6.58919906832728e-08, | |
| "loss": 0.6326, | |
| "step": 657 | |
| }, | |
| { | |
| "epoch": 2.8021333333333334, | |
| "grad_norm": 0.32477566599845886, | |
| "learning_rate": 6.324124696144962e-08, | |
| "loss": 0.5886, | |
| "step": 658 | |
| }, | |
| { | |
| "epoch": 2.8064, | |
| "grad_norm": 0.31346455216407776, | |
| "learning_rate": 6.064423848625822e-08, | |
| "loss": 0.6223, | |
| "step": 659 | |
| }, | |
| { | |
| "epoch": 2.8106666666666666, | |
| "grad_norm": 0.3541554808616638, | |
| "learning_rate": 5.810102252676225e-08, | |
| "loss": 0.6283, | |
| "step": 660 | |
| }, | |
| { | |
| "epoch": 2.8149333333333333, | |
| "grad_norm": 0.31597334146499634, | |
| "learning_rate": 5.5611655165795365e-08, | |
| "loss": 0.6229, | |
| "step": 661 | |
| }, | |
| { | |
| "epoch": 2.8192, | |
| "grad_norm": 0.325488418340683, | |
| "learning_rate": 5.3176191298726085e-08, | |
| "loss": 0.611, | |
| "step": 662 | |
| }, | |
| { | |
| "epoch": 2.8234666666666666, | |
| "grad_norm": 0.34377193450927734, | |
| "learning_rate": 5.0794684632246294e-08, | |
| "loss": 0.6153, | |
| "step": 663 | |
| }, | |
| { | |
| "epoch": 2.827733333333333, | |
| "grad_norm": 0.3318426311016083, | |
| "learning_rate": 4.846718768318659e-08, | |
| "loss": 0.5911, | |
| "step": 664 | |
| }, | |
| { | |
| "epoch": 2.832, | |
| "grad_norm": 0.33121493458747864, | |
| "learning_rate": 4.619375177736002e-08, | |
| "loss": 0.5897, | |
| "step": 665 | |
| }, | |
| { | |
| "epoch": 2.836266666666667, | |
| "grad_norm": 0.3531855642795563, | |
| "learning_rate": 4.397442704842825e-08, | |
| "loss": 0.6235, | |
| "step": 666 | |
| }, | |
| { | |
| "epoch": 2.840533333333333, | |
| "grad_norm": 0.33835938572883606, | |
| "learning_rate": 4.1809262436796896e-08, | |
| "loss": 0.6011, | |
| "step": 667 | |
| }, | |
| { | |
| "epoch": 2.8448, | |
| "grad_norm": 0.33475086092948914, | |
| "learning_rate": 3.9698305688535835e-08, | |
| "loss": 0.6189, | |
| "step": 668 | |
| }, | |
| { | |
| "epoch": 2.8490666666666664, | |
| "grad_norm": 0.341691792011261, | |
| "learning_rate": 3.764160335432726e-08, | |
| "loss": 0.6417, | |
| "step": 669 | |
| }, | |
| { | |
| "epoch": 2.8533333333333335, | |
| "grad_norm": 0.3405057489871979, | |
| "learning_rate": 3.563920078843791e-08, | |
| "loss": 0.6067, | |
| "step": 670 | |
| }, | |
| { | |
| "epoch": 2.8576, | |
| "grad_norm": 0.3475085198879242, | |
| "learning_rate": 3.369114214771957e-08, | |
| "loss": 0.634, | |
| "step": 671 | |
| }, | |
| { | |
| "epoch": 2.861866666666667, | |
| "grad_norm": 0.3283518850803375, | |
| "learning_rate": 3.179747039063652e-08, | |
| "loss": 0.5701, | |
| "step": 672 | |
| }, | |
| { | |
| "epoch": 2.8661333333333334, | |
| "grad_norm": 0.31825271248817444, | |
| "learning_rate": 2.99582272763152e-08, | |
| "loss": 0.5646, | |
| "step": 673 | |
| }, | |
| { | |
| "epoch": 2.8704, | |
| "grad_norm": 0.32577526569366455, | |
| "learning_rate": 2.8173453363626313e-08, | |
| "loss": 0.6118, | |
| "step": 674 | |
| }, | |
| { | |
| "epoch": 2.8746666666666667, | |
| "grad_norm": 0.32733026146888733, | |
| "learning_rate": 2.6443188010288612e-08, | |
| "loss": 0.6049, | |
| "step": 675 | |
| }, | |
| { | |
| "epoch": 2.8789333333333333, | |
| "grad_norm": 0.30781808495521545, | |
| "learning_rate": 2.4767469372002362e-08, | |
| "loss": 0.5807, | |
| "step": 676 | |
| }, | |
| { | |
| "epoch": 2.8832, | |
| "grad_norm": 0.33830124139785767, | |
| "learning_rate": 2.3146334401606406e-08, | |
| "loss": 0.6324, | |
| "step": 677 | |
| }, | |
| { | |
| "epoch": 2.8874666666666666, | |
| "grad_norm": 0.3217734694480896, | |
| "learning_rate": 2.1579818848264656e-08, | |
| "loss": 0.622, | |
| "step": 678 | |
| }, | |
| { | |
| "epoch": 2.8917333333333333, | |
| "grad_norm": 0.3331310749053955, | |
| "learning_rate": 2.0067957256676428e-08, | |
| "loss": 0.6071, | |
| "step": 679 | |
| }, | |
| { | |
| "epoch": 2.896, | |
| "grad_norm": 0.3501247465610504, | |
| "learning_rate": 1.861078296631652e-08, | |
| "loss": 0.6558, | |
| "step": 680 | |
| }, | |
| { | |
| "epoch": 2.9002666666666665, | |
| "grad_norm": 0.3323565423488617, | |
| "learning_rate": 1.7208328110697726e-08, | |
| "loss": 0.6192, | |
| "step": 681 | |
| }, | |
| { | |
| "epoch": 2.904533333333333, | |
| "grad_norm": 0.34517747163772583, | |
| "learning_rate": 1.5860623616664183e-08, | |
| "loss": 0.5974, | |
| "step": 682 | |
| }, | |
| { | |
| "epoch": 2.9088000000000003, | |
| "grad_norm": 0.33607083559036255, | |
| "learning_rate": 1.4567699203708597e-08, | |
| "loss": 0.6046, | |
| "step": 683 | |
| }, | |
| { | |
| "epoch": 2.9130666666666665, | |
| "grad_norm": 0.3128437101840973, | |
| "learning_rate": 1.332958338331608e-08, | |
| "loss": 0.585, | |
| "step": 684 | |
| }, | |
| { | |
| "epoch": 2.9173333333333336, | |
| "grad_norm": 0.31413301825523376, | |
| "learning_rate": 1.2146303458337172e-08, | |
| "loss": 0.5879, | |
| "step": 685 | |
| }, | |
| { | |
| "epoch": 2.9215999999999998, | |
| "grad_norm": 0.33694204688072205, | |
| "learning_rate": 1.1017885522383864e-08, | |
| "loss": 0.5916, | |
| "step": 686 | |
| }, | |
| { | |
| "epoch": 2.925866666666667, | |
| "grad_norm": 0.3271304666996002, | |
| "learning_rate": 9.944354459256178e-09, | |
| "loss": 0.5807, | |
| "step": 687 | |
| }, | |
| { | |
| "epoch": 2.9301333333333335, | |
| "grad_norm": 0.32571712136268616, | |
| "learning_rate": 8.92573394239149e-09, | |
| "loss": 0.5992, | |
| "step": 688 | |
| }, | |
| { | |
| "epoch": 2.9344, | |
| "grad_norm": 0.32543250918388367, | |
| "learning_rate": 7.962046434343562e-09, | |
| "loss": 0.6143, | |
| "step": 689 | |
| }, | |
| { | |
| "epoch": 2.9386666666666668, | |
| "grad_norm": 0.338191419839859, | |
| "learning_rate": 7.0533131862873804e-09, | |
| "loss": 0.6197, | |
| "step": 690 | |
| }, | |
| { | |
| "epoch": 2.9429333333333334, | |
| "grad_norm": 0.32142868638038635, | |
| "learning_rate": 6.1995542375495325e-09, | |
| "loss": 0.5715, | |
| "step": 691 | |
| }, | |
| { | |
| "epoch": 2.9472, | |
| "grad_norm": 0.31995338201522827, | |
| "learning_rate": 5.400788415167168e-09, | |
| "loss": 0.6164, | |
| "step": 692 | |
| }, | |
| { | |
| "epoch": 2.9514666666666667, | |
| "grad_norm": 0.32262685894966125, | |
| "learning_rate": 4.657033333472782e-09, | |
| "loss": 0.5794, | |
| "step": 693 | |
| }, | |
| { | |
| "epoch": 2.9557333333333333, | |
| "grad_norm": 0.3404903709888458, | |
| "learning_rate": 3.96830539370563e-09, | |
| "loss": 0.6333, | |
| "step": 694 | |
| }, | |
| { | |
| "epoch": 2.96, | |
| "grad_norm": 0.330427348613739, | |
| "learning_rate": 3.33461978364924e-09, | |
| "loss": 0.6157, | |
| "step": 695 | |
| }, | |
| { | |
| "epoch": 2.9642666666666666, | |
| "grad_norm": 0.32176586985588074, | |
| "learning_rate": 2.755990477298076e-09, | |
| "loss": 0.6469, | |
| "step": 696 | |
| }, | |
| { | |
| "epoch": 2.9685333333333332, | |
| "grad_norm": 0.3283085823059082, | |
| "learning_rate": 2.2324302345483327e-09, | |
| "loss": 0.6124, | |
| "step": 697 | |
| }, | |
| { | |
| "epoch": 2.9728, | |
| "grad_norm": 0.3386090397834778, | |
| "learning_rate": 1.7639506009162199e-09, | |
| "loss": 0.5898, | |
| "step": 698 | |
| }, | |
| { | |
| "epoch": 2.9770666666666665, | |
| "grad_norm": 0.3304394781589508, | |
| "learning_rate": 1.3505619072848309e-09, | |
| "loss": 0.6167, | |
| "step": 699 | |
| }, | |
| { | |
| "epoch": 2.981333333333333, | |
| "grad_norm": 0.3292512893676758, | |
| "learning_rate": 9.922732696748816e-10, | |
| "loss": 0.6138, | |
| "step": 700 | |
| }, | |
| { | |
| "epoch": 2.9856, | |
| "grad_norm": 0.32595470547676086, | |
| "learning_rate": 6.890925890437605e-10, | |
| "loss": 0.6257, | |
| "step": 701 | |
| }, | |
| { | |
| "epoch": 2.989866666666667, | |
| "grad_norm": 0.32718536257743835, | |
| "learning_rate": 4.410265511128886e-10, | |
| "loss": 0.6169, | |
| "step": 702 | |
| }, | |
| { | |
| "epoch": 2.994133333333333, | |
| "grad_norm": 0.3314308822154999, | |
| "learning_rate": 2.480806262181168e-10, | |
| "loss": 0.6169, | |
| "step": 703 | |
| }, | |
| { | |
| "epoch": 2.9984, | |
| "grad_norm": 0.3245869576931, | |
| "learning_rate": 1.1025906919065465e-10, | |
| "loss": 0.5867, | |
| "step": 704 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "grad_norm": 0.579947292804718, | |
| "learning_rate": 2.756491926270144e-11, | |
| "loss": 0.6911, | |
| "step": 705 | |
| }, | |
| { | |
| "epoch": 3.0, | |
| "step": 705, | |
| "total_flos": 385665514733568.0, | |
| "train_loss": 0.6493097235970463, | |
| "train_runtime": 29533.3855, | |
| "train_samples_per_second": 1.524, | |
| "train_steps_per_second": 0.024 | |
| } | |
| ], | |
| "logging_steps": 1, | |
| "max_steps": 705, | |
| "num_input_tokens_seen": 0, | |
| "num_train_epochs": 3, | |
| "save_steps": 1000, | |
| "stateful_callbacks": { | |
| "TrainerControl": { | |
| "args": { | |
| "should_epoch_stop": false, | |
| "should_evaluate": false, | |
| "should_log": false, | |
| "should_save": true, | |
| "should_training_stop": true | |
| }, | |
| "attributes": {} | |
| } | |
| }, | |
| "total_flos": 385665514733568.0, | |
| "train_batch_size": 1, | |
| "trial_name": null, | |
| "trial_params": null | |
| } | |