Instructions to use apoorva2311/Limopro-model with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use apoorva2311/Limopro-model with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="apoorva2311/Limopro-model")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("apoorva2311/Limopro-model")
model = AutoModelForCausalLM.from_pretrained("apoorva2311/Limopro-model")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use apoorva2311/Limopro-model with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "apoorva2311/Limopro-model"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "apoorva2311/Limopro-model",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/apoorva2311/Limopro-model

SGLang

How to use apoorva2311/Limopro-model with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "apoorva2311/Limopro-model" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "apoorva2311/Limopro-model",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "apoorva2311/Limopro-model" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "apoorva2311/Limopro-model",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use apoorva2311/Limopro-model with Docker Model Runner:
```
docker model run hf.co/apoorva2311/Limopro-model
```

Limopro-model / trainer_state.json

apoorva2311

Upload fine-tuned TML LIMOPro model (checkpoint 705)

0c1e147 verified 8 months ago

raw

history blame contribute delete

121 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 705,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.004266666666666667,
	"grad_norm": 4.362146377563477,
	"learning_rate": 0.0,
	"loss": 0.9789,
	"step": 1
	},
	{
	"epoch": 0.008533333333333334,
	"grad_norm": 4.282586574554443,
	"learning_rate": 1.3888888888888888e-07,
	"loss": 0.9679,
	"step": 2
	},
	{
	"epoch": 0.0128,
	"grad_norm": 4.4176812171936035,
	"learning_rate": 2.7777777777777776e-07,
	"loss": 0.9775,
	"step": 3
	},
	{
	"epoch": 0.017066666666666667,
	"grad_norm": 4.650586128234863,
	"learning_rate": 4.1666666666666667e-07,
	"loss": 0.9649,
	"step": 4
	},
	{
	"epoch": 0.021333333333333333,
	"grad_norm": 4.638489723205566,
	"learning_rate": 5.555555555555555e-07,
	"loss": 1.014,
	"step": 5
	},
	{
	"epoch": 0.0256,
	"grad_norm": 4.192325592041016,
	"learning_rate": 6.944444444444446e-07,
	"loss": 0.956,
	"step": 6
	},
	{
	"epoch": 0.029866666666666666,
	"grad_norm": 4.542601585388184,
	"learning_rate": 8.333333333333333e-07,
	"loss": 0.9553,
	"step": 7
	},
	{
	"epoch": 0.034133333333333335,
	"grad_norm": 4.178647518157959,
	"learning_rate": 9.722222222222224e-07,
	"loss": 0.942,
	"step": 8
	},
	{
	"epoch": 0.0384,
	"grad_norm": 3.826584815979004,
	"learning_rate": 1.111111111111111e-06,
	"loss": 0.9361,
	"step": 9
	},
	{
	"epoch": 0.042666666666666665,
	"grad_norm": 3.841879367828369,
	"learning_rate": 1.25e-06,
	"loss": 0.956,
	"step": 10
	},
	{
	"epoch": 0.046933333333333334,
	"grad_norm": 3.7646379470825195,
	"learning_rate": 1.3888888888888892e-06,
	"loss": 0.9161,
	"step": 11
	},
	{
	"epoch": 0.0512,
	"grad_norm": 3.145012855529785,
	"learning_rate": 1.527777777777778e-06,
	"loss": 0.9237,
	"step": 12
	},
	{
	"epoch": 0.055466666666666664,
	"grad_norm": 2.0433948040008545,
	"learning_rate": 1.6666666666666667e-06,
	"loss": 0.9213,
	"step": 13
	},
	{
	"epoch": 0.05973333333333333,
	"grad_norm": 1.9841437339782715,
	"learning_rate": 1.8055555555555557e-06,
	"loss": 0.8836,
	"step": 14
	},
	{
	"epoch": 0.064,
	"grad_norm": 1.850753903388977,
	"learning_rate": 1.944444444444445e-06,
	"loss": 0.927,
	"step": 15
	},
	{
	"epoch": 0.06826666666666667,
	"grad_norm": 1.7173751592636108,
	"learning_rate": 2.0833333333333334e-06,
	"loss": 0.8718,
	"step": 16
	},
	{
	"epoch": 0.07253333333333334,
	"grad_norm": 2.0940911769866943,
	"learning_rate": 2.222222222222222e-06,
	"loss": 0.9329,
	"step": 17
	},
	{
	"epoch": 0.0768,
	"grad_norm": 2.0196115970611572,
	"learning_rate": 2.361111111111111e-06,
	"loss": 0.8768,
	"step": 18
	},
	{
	"epoch": 0.08106666666666666,
	"grad_norm": 2.069068431854248,
	"learning_rate": 2.5e-06,
	"loss": 0.8899,
	"step": 19
	},
	{
	"epoch": 0.08533333333333333,
	"grad_norm": 1.9134008884429932,
	"learning_rate": 2.6388888888888893e-06,
	"loss": 0.906,
	"step": 20
	},
	{
	"epoch": 0.0896,
	"grad_norm": 1.7790288925170898,
	"learning_rate": 2.7777777777777783e-06,
	"loss": 0.8698,
	"step": 21
	},
	{
	"epoch": 0.09386666666666667,
	"grad_norm": 1.5685698986053467,
	"learning_rate": 2.916666666666667e-06,
	"loss": 0.8693,
	"step": 22
	},
	{
	"epoch": 0.09813333333333334,
	"grad_norm": 1.2142629623413086,
	"learning_rate": 3.055555555555556e-06,
	"loss": 0.85,
	"step": 23
	},
	{
	"epoch": 0.1024,
	"grad_norm": 1.2168952226638794,
	"learning_rate": 3.1944444444444443e-06,
	"loss": 0.8585,
	"step": 24
	},
	{
	"epoch": 0.10666666666666667,
	"grad_norm": 1.0702353715896606,
	"learning_rate": 3.3333333333333333e-06,
	"loss": 0.849,
	"step": 25
	},
	{
	"epoch": 0.11093333333333333,
	"grad_norm": 1.049211025238037,
	"learning_rate": 3.4722222222222224e-06,
	"loss": 0.8689,
	"step": 26
	},
	{
	"epoch": 0.1152,
	"grad_norm": 0.8866307139396667,
	"learning_rate": 3.6111111111111115e-06,
	"loss": 0.818,
	"step": 27
	},
	{
	"epoch": 0.11946666666666667,
	"grad_norm": 0.7809798717498779,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.8354,
	"step": 28
	},
	{
	"epoch": 0.12373333333333333,
	"grad_norm": 0.6708624958992004,
	"learning_rate": 3.88888888888889e-06,
	"loss": 0.7881,
	"step": 29
	},
	{
	"epoch": 0.128,
	"grad_norm": 0.6296146512031555,
	"learning_rate": 4.027777777777779e-06,
	"loss": 0.8044,
	"step": 30
	},
	{
	"epoch": 0.13226666666666667,
	"grad_norm": 0.6943596601486206,
	"learning_rate": 4.166666666666667e-06,
	"loss": 0.7343,
	"step": 31
	},
	{
	"epoch": 0.13653333333333334,
	"grad_norm": 0.7787662744522095,
	"learning_rate": 4.305555555555556e-06,
	"loss": 0.8084,
	"step": 32
	},
	{
	"epoch": 0.1408,
	"grad_norm": 0.7602130174636841,
	"learning_rate": 4.444444444444444e-06,
	"loss": 0.8048,
	"step": 33
	},
	{
	"epoch": 0.14506666666666668,
	"grad_norm": 0.6979145407676697,
	"learning_rate": 4.583333333333333e-06,
	"loss": 0.7773,
	"step": 34
	},
	{
	"epoch": 0.14933333333333335,
	"grad_norm": 0.6033741235733032,
	"learning_rate": 4.722222222222222e-06,
	"loss": 0.7654,
	"step": 35
	},
	{
	"epoch": 0.1536,
	"grad_norm": 0.5684896111488342,
	"learning_rate": 4.861111111111111e-06,
	"loss": 0.769,
	"step": 36
	},
	{
	"epoch": 0.15786666666666666,
	"grad_norm": 0.5608508586883545,
	"learning_rate": 5e-06,
	"loss": 0.7525,
	"step": 37
	},
	{
	"epoch": 0.16213333333333332,
	"grad_norm": 0.567663848400116,
	"learning_rate": 4.999972435080738e-06,
	"loss": 0.7425,
	"step": 38
	},
	{
	"epoch": 0.1664,
	"grad_norm": 0.627487063407898,
	"learning_rate": 4.99988974093081e-06,
	"loss": 0.7469,
	"step": 39
	},
	{
	"epoch": 0.17066666666666666,
	"grad_norm": 0.5669575929641724,
	"learning_rate": 4.999751919373782e-06,
	"loss": 0.7667,
	"step": 40
	},
	{
	"epoch": 0.17493333333333333,
	"grad_norm": 0.5957594513893127,
	"learning_rate": 4.999558973448887e-06,
	"loss": 0.7762,
	"step": 41
	},
	{
	"epoch": 0.1792,
	"grad_norm": 0.4995954632759094,
	"learning_rate": 4.999310907410957e-06,
	"loss": 0.7593,
	"step": 42
	},
	{
	"epoch": 0.18346666666666667,
	"grad_norm": 0.47803279757499695,
	"learning_rate": 4.9990077267303256e-06,
	"loss": 0.6961,
	"step": 43
	},
	{
	"epoch": 0.18773333333333334,
	"grad_norm": 0.43306031823158264,
	"learning_rate": 4.998649438092715e-06,
	"loss": 0.703,
	"step": 44
	},
	{
	"epoch": 0.192,
	"grad_norm": 0.46962299942970276,
	"learning_rate": 4.998236049399084e-06,
	"loss": 0.7681,
	"step": 45
	},
	{
	"epoch": 0.19626666666666667,
	"grad_norm": 0.47601673007011414,
	"learning_rate": 4.997767569765452e-06,
	"loss": 0.7059,
	"step": 46
	},
	{
	"epoch": 0.20053333333333334,
	"grad_norm": 0.508930504322052,
	"learning_rate": 4.997244009522702e-06,
	"loss": 0.7048,
	"step": 47
	},
	{
	"epoch": 0.2048,
	"grad_norm": 0.4726659059524536,
	"learning_rate": 4.996665380216351e-06,
	"loss": 0.7263,
	"step": 48
	},
	{
	"epoch": 0.20906666666666668,
	"grad_norm": 0.4572336971759796,
	"learning_rate": 4.996031694606294e-06,
	"loss": 0.7386,
	"step": 49
	},
	{
	"epoch": 0.21333333333333335,
	"grad_norm": 0.4237333834171295,
	"learning_rate": 4.995342966666527e-06,
	"loss": 0.7183,
	"step": 50
	},
	{
	"epoch": 0.2176,
	"grad_norm": 0.388201504945755,
	"learning_rate": 4.994599211584833e-06,
	"loss": 0.7179,
	"step": 51
	},
	{
	"epoch": 0.22186666666666666,
	"grad_norm": 0.39760446548461914,
	"learning_rate": 4.993800445762451e-06,
	"loss": 0.7079,
	"step": 52
	},
	{
	"epoch": 0.22613333333333333,
	"grad_norm": 0.4210253953933716,
	"learning_rate": 4.9929466868137135e-06,
	"loss": 0.7296,
	"step": 53
	},
	{
	"epoch": 0.2304,
	"grad_norm": 0.40208855271339417,
	"learning_rate": 4.992037953565657e-06,
	"loss": 0.7173,
	"step": 54
	},
	{
	"epoch": 0.23466666666666666,
	"grad_norm": 0.38060909509658813,
	"learning_rate": 4.991074266057609e-06,
	"loss": 0.7283,
	"step": 55
	},
	{
	"epoch": 0.23893333333333333,
	"grad_norm": 0.43215471506118774,
	"learning_rate": 4.990055645540745e-06,
	"loss": 0.7748,
	"step": 56
	},
	{
	"epoch": 0.2432,
	"grad_norm": 0.38835158944129944,
	"learning_rate": 4.988982114477617e-06,
	"loss": 0.7106,
	"step": 57
	},
	{
	"epoch": 0.24746666666666667,
	"grad_norm": 0.3765578866004944,
	"learning_rate": 4.987853696541664e-06,
	"loss": 0.7278,
	"step": 58
	},
	{
	"epoch": 0.2517333333333333,
	"grad_norm": 0.42565688490867615,
	"learning_rate": 4.986670416616684e-06,
	"loss": 0.7233,
	"step": 59
	},
	{
	"epoch": 0.256,
	"grad_norm": 0.4181171655654907,
	"learning_rate": 4.985432300796292e-06,
	"loss": 0.7318,
	"step": 60
	},
	{
	"epoch": 0.26026666666666665,
	"grad_norm": 0.3972390294075012,
	"learning_rate": 4.984139376383337e-06,
	"loss": 0.7145,
	"step": 61
	},
	{
	"epoch": 0.26453333333333334,
	"grad_norm": 0.3961975872516632,
	"learning_rate": 4.982791671889302e-06,
	"loss": 0.7363,
	"step": 62
	},
	{
	"epoch": 0.2688,
	"grad_norm": 0.3924165666103363,
	"learning_rate": 4.981389217033684e-06,
	"loss": 0.7304,
	"step": 63
	},
	{
	"epoch": 0.2730666666666667,
	"grad_norm": 0.38246816396713257,
	"learning_rate": 4.979932042743324e-06,
	"loss": 0.6888,
	"step": 64
	},
	{
	"epoch": 0.2773333333333333,
	"grad_norm": 0.3791496753692627,
	"learning_rate": 4.9784201811517365e-06,
	"loss": 0.6999,
	"step": 65
	},
	{
	"epoch": 0.2816,
	"grad_norm": 0.3851902484893799,
	"learning_rate": 4.976853665598394e-06,
	"loss": 0.7891,
	"step": 66
	},
	{
	"epoch": 0.28586666666666666,
	"grad_norm": 0.35090020298957825,
	"learning_rate": 4.975232530627998e-06,
	"loss": 0.6972,
	"step": 67
	},
	{
	"epoch": 0.29013333333333335,
	"grad_norm": 0.44051802158355713,
	"learning_rate": 4.973556811989712e-06,
	"loss": 0.6897,
	"step": 68
	},
	{
	"epoch": 0.2944,
	"grad_norm": 0.35761162638664246,
	"learning_rate": 4.971826546636374e-06,
	"loss": 0.6779,
	"step": 69
	},
	{
	"epoch": 0.2986666666666667,
	"grad_norm": 0.3964172601699829,
	"learning_rate": 4.970041772723685e-06,
	"loss": 0.7144,
	"step": 70
	},
	{
	"epoch": 0.30293333333333333,
	"grad_norm": 0.38685816526412964,
	"learning_rate": 4.968202529609364e-06,
	"loss": 0.7446,
	"step": 71
	},
	{
	"epoch": 0.3072,
	"grad_norm": 0.41402679681777954,
	"learning_rate": 4.966308857852281e-06,
	"loss": 0.6844,
	"step": 72
	},
	{
	"epoch": 0.31146666666666667,
	"grad_norm": 0.39126983284950256,
	"learning_rate": 4.964360799211563e-06,
	"loss": 0.7103,
	"step": 73
	},
	{
	"epoch": 0.3157333333333333,
	"grad_norm": 0.3830004632472992,
	"learning_rate": 4.962358396645673e-06,
	"loss": 0.7091,
	"step": 74
	},
	{
	"epoch": 0.32,
	"grad_norm": 0.37684130668640137,
	"learning_rate": 4.960301694311464e-06,
	"loss": 0.6844,
	"step": 75
	},
	{
	"epoch": 0.32426666666666665,
	"grad_norm": 0.3762841820716858,
	"learning_rate": 4.958190737563203e-06,
	"loss": 0.6978,
	"step": 76
	},
	{
	"epoch": 0.32853333333333334,
	"grad_norm": 0.3554311990737915,
	"learning_rate": 4.9560255729515726e-06,
	"loss": 0.6813,
	"step": 77
	},
	{
	"epoch": 0.3328,
	"grad_norm": 0.3811330497264862,
	"learning_rate": 4.95380624822264e-06,
	"loss": 0.6942,
	"step": 78
	},
	{
	"epoch": 0.3370666666666667,
	"grad_norm": 0.3794249892234802,
	"learning_rate": 4.951532812316814e-06,
	"loss": 0.6822,
	"step": 79
	},
	{
	"epoch": 0.3413333333333333,
	"grad_norm": 0.3942255675792694,
	"learning_rate": 4.9492053153677545e-06,
	"loss": 0.6943,
	"step": 80
	},
	{
	"epoch": 0.3456,
	"grad_norm": 0.36585119366645813,
	"learning_rate": 4.9468238087012744e-06,
	"loss": 0.7032,
	"step": 81
	},
	{
	"epoch": 0.34986666666666666,
	"grad_norm": 0.3868674635887146,
	"learning_rate": 4.944388344834205e-06,
	"loss": 0.7056,
	"step": 82
	},
	{
	"epoch": 0.35413333333333336,
	"grad_norm": 0.3917011618614197,
	"learning_rate": 4.941898977473238e-06,
	"loss": 0.6837,
	"step": 83
	},
	{
	"epoch": 0.3584,
	"grad_norm": 0.38477852940559387,
	"learning_rate": 4.939355761513742e-06,
	"loss": 0.6794,
	"step": 84
	},
	{
	"epoch": 0.3626666666666667,
	"grad_norm": 0.3847743272781372,
	"learning_rate": 4.936758753038551e-06,
	"loss": 0.7318,
	"step": 85
	},
	{
	"epoch": 0.36693333333333333,
	"grad_norm": 0.37328410148620605,
	"learning_rate": 4.934108009316728e-06,
	"loss": 0.6933,
	"step": 86
	},
	{
	"epoch": 0.3712,
	"grad_norm": 0.40673941373825073,
	"learning_rate": 4.931403588802302e-06,
	"loss": 0.7338,
	"step": 87
	},
	{
	"epoch": 0.37546666666666667,
	"grad_norm": 0.3592469394207001,
	"learning_rate": 4.92864555113298e-06,
	"loss": 0.6865,
	"step": 88
	},
	{
	"epoch": 0.3797333333333333,
	"grad_norm": 0.36004796624183655,
	"learning_rate": 4.925833957128831e-06,
	"loss": 0.6748,
	"step": 89
	},
	{
	"epoch": 0.384,
	"grad_norm": 0.37560826539993286,
	"learning_rate": 4.922968868790943e-06,
	"loss": 0.6512,
	"step": 90
	},
	{
	"epoch": 0.38826666666666665,
	"grad_norm": 0.37589576840400696,
	"learning_rate": 4.92005034930006e-06,
	"loss": 0.686,
	"step": 91
	},
	{
	"epoch": 0.39253333333333335,
	"grad_norm": 0.39273473620414734,
	"learning_rate": 4.917078463015184e-06,
	"loss": 0.6901,
	"step": 92
	},
	{
	"epoch": 0.3968,
	"grad_norm": 0.3746315836906433,
	"learning_rate": 4.914053275472162e-06,
	"loss": 0.7052,
	"step": 93
	},
	{
	"epoch": 0.4010666666666667,
	"grad_norm": 0.34910982847213745,
	"learning_rate": 4.9109748533822315e-06,
	"loss": 0.6893,
	"step": 94
	},
	{
	"epoch": 0.4053333333333333,
	"grad_norm": 0.3954693078994751,
	"learning_rate": 4.907843264630559e-06,
	"loss": 0.7373,
	"step": 95
	},
	{
	"epoch": 0.4096,
	"grad_norm": 0.3721007704734802,
	"learning_rate": 4.904658578274738e-06,
	"loss": 0.6679,
	"step": 96
	},
	{
	"epoch": 0.41386666666666666,
	"grad_norm": 0.3675512373447418,
	"learning_rate": 4.901420864543265e-06,
	"loss": 0.6379,
	"step": 97
	},
	{
	"epoch": 0.41813333333333336,
	"grad_norm": 0.3632946014404297,
	"learning_rate": 4.898130194833995e-06,
	"loss": 0.6712,
	"step": 98
	},
	{
	"epoch": 0.4224,
	"grad_norm": 0.3786664307117462,
	"learning_rate": 4.894786641712563e-06,
	"loss": 0.6835,
	"step": 99
	},
	{
	"epoch": 0.4266666666666667,
	"grad_norm": 0.3775879740715027,
	"learning_rate": 4.891390278910788e-06,
	"loss": 0.6935,
	"step": 100
	},
	{
	"epoch": 0.43093333333333333,
	"grad_norm": 0.38075289130210876,
	"learning_rate": 4.887941181325042e-06,
	"loss": 0.7171,
	"step": 101
	},
	{
	"epoch": 0.4352,
	"grad_norm": 0.34902146458625793,
	"learning_rate": 4.884439425014601e-06,
	"loss": 0.6797,
	"step": 102
	},
	{
	"epoch": 0.43946666666666667,
	"grad_norm": 0.3705016076564789,
	"learning_rate": 4.880885087199972e-06,
	"loss": 0.6755,
	"step": 103
	},
	{
	"epoch": 0.4437333333333333,
	"grad_norm": 0.40034019947052,
	"learning_rate": 4.877278246261179e-06,
	"loss": 0.665,
	"step": 104
	},
	{
	"epoch": 0.448,
	"grad_norm": 0.3905963599681854,
	"learning_rate": 4.873618981736049e-06,
	"loss": 0.6693,
	"step": 105
	},
	{
	"epoch": 0.45226666666666665,
	"grad_norm": 0.342978298664093,
	"learning_rate": 4.869907374318446e-06,
	"loss": 0.6694,
	"step": 106
	},
	{
	"epoch": 0.45653333333333335,
	"grad_norm": 0.3976461887359619,
	"learning_rate": 4.866143505856496e-06,
	"loss": 0.6652,
	"step": 107
	},
	{
	"epoch": 0.4608,
	"grad_norm": 0.40244609117507935,
	"learning_rate": 4.862327459350784e-06,
	"loss": 0.7008,
	"step": 108
	},
	{
	"epoch": 0.4650666666666667,
	"grad_norm": 0.36506327986717224,
	"learning_rate": 4.858459318952521e-06,
	"loss": 0.7103,
	"step": 109
	},
	{
	"epoch": 0.4693333333333333,
	"grad_norm": 0.3845788836479187,
	"learning_rate": 4.854539169961688e-06,
	"loss": 0.6873,
	"step": 110
	},
	{
	"epoch": 0.4736,
	"grad_norm": 0.3704811632633209,
	"learning_rate": 4.85056709882516e-06,
	"loss": 0.7118,
	"step": 111
	},
	{
	"epoch": 0.47786666666666666,
	"grad_norm": 0.3637083172798157,
	"learning_rate": 4.8465431931347904e-06,
	"loss": 0.6857,
	"step": 112
	},
	{
	"epoch": 0.48213333333333336,
	"grad_norm": 0.4030190706253052,
	"learning_rate": 4.8424675416254895e-06,
	"loss": 0.6575,
	"step": 113
	},
	{
	"epoch": 0.4864,
	"grad_norm": 0.39205852150917053,
	"learning_rate": 4.8383402341732605e-06,
	"loss": 0.6864,
	"step": 114
	},
	{
	"epoch": 0.49066666666666664,
	"grad_norm": 0.3978751003742218,
	"learning_rate": 4.83416136179322e-06,
	"loss": 0.6958,
	"step": 115
	},
	{
	"epoch": 0.49493333333333334,
	"grad_norm": 0.35517552495002747,
	"learning_rate": 4.829931016637594e-06,
	"loss": 0.6565,
	"step": 116
	},
	{
	"epoch": 0.4992,
	"grad_norm": 0.3978227972984314,
	"learning_rate": 4.825649291993677e-06,
	"loss": 0.6888,
	"step": 117
	},
	{
	"epoch": 0.5034666666666666,
	"grad_norm": 0.3767167329788208,
	"learning_rate": 4.821316282281788e-06,
	"loss": 0.6617,
	"step": 118
	},
	{
	"epoch": 0.5077333333333334,
	"grad_norm": 0.3927992582321167,
	"learning_rate": 4.816932083053175e-06,
	"loss": 0.6328,
	"step": 119
	},
	{
	"epoch": 0.512,
	"grad_norm": 0.38048994541168213,
	"learning_rate": 4.812496790987917e-06,
	"loss": 0.6838,
	"step": 120
	},
	{
	"epoch": 0.5162666666666667,
	"grad_norm": 0.3565223515033722,
	"learning_rate": 4.808010503892788e-06,
	"loss": 0.6674,
	"step": 121
	},
	{
	"epoch": 0.5205333333333333,
	"grad_norm": 0.37428316473960876,
	"learning_rate": 4.803473320699102e-06,
	"loss": 0.665,
	"step": 122
	},
	{
	"epoch": 0.5248,
	"grad_norm": 0.39371275901794434,
	"learning_rate": 4.7988853414605276e-06,
	"loss": 0.7722,
	"step": 123
	},
	{
	"epoch": 0.5290666666666667,
	"grad_norm": 0.37246188521385193,
	"learning_rate": 4.794246667350889e-06,
	"loss": 0.666,
	"step": 124
	},
	{
	"epoch": 0.5333333333333333,
	"grad_norm": 0.36160096526145935,
	"learning_rate": 4.789557400661927e-06,
	"loss": 0.6518,
	"step": 125
	},
	{
	"epoch": 0.5376,
	"grad_norm": 0.3860783576965332,
	"learning_rate": 4.784817644801049e-06,
	"loss": 0.6837,
	"step": 126
	},
	{
	"epoch": 0.5418666666666667,
	"grad_norm": 0.37812525033950806,
	"learning_rate": 4.780027504289043e-06,
	"loss": 0.6526,
	"step": 127
	},
	{
	"epoch": 0.5461333333333334,
	"grad_norm": 0.3702966570854187,
	"learning_rate": 4.775187084757778e-06,
	"loss": 0.6913,
	"step": 128
	},
	{
	"epoch": 0.5504,
	"grad_norm": 0.39008045196533203,
	"learning_rate": 4.770296492947876e-06,
	"loss": 0.6669,
	"step": 129
	},
	{
	"epoch": 0.5546666666666666,
	"grad_norm": 0.3917200565338135,
	"learning_rate": 4.765355836706349e-06,
	"loss": 0.6431,
	"step": 130
	},
	{
	"epoch": 0.5589333333333333,
	"grad_norm": 0.3988916873931885,
	"learning_rate": 4.7603652249842305e-06,
	"loss": 0.6682,
	"step": 131
	},
	{
	"epoch": 0.5632,
	"grad_norm": 0.3633989095687866,
	"learning_rate": 4.755324767834166e-06,
	"loss": 0.6717,
	"step": 132
	},
	{
	"epoch": 0.5674666666666667,
	"grad_norm": 0.3956949710845947,
	"learning_rate": 4.750234576407994e-06,
	"loss": 0.6764,
	"step": 133
	},
	{
	"epoch": 0.5717333333333333,
	"grad_norm": 0.3971360921859741,
	"learning_rate": 4.745094762954285e-06,
	"loss": 0.6843,
	"step": 134
	},
	{
	"epoch": 0.576,
	"grad_norm": 0.3699060082435608,
	"learning_rate": 4.7399054408158735e-06,
	"loss": 0.6826,
	"step": 135
	},
	{
	"epoch": 0.5802666666666667,
	"grad_norm": 0.3734731674194336,
	"learning_rate": 4.734666724427357e-06,
	"loss": 0.636,
	"step": 136
	},
	{
	"epoch": 0.5845333333333333,
	"grad_norm": 0.37412676215171814,
	"learning_rate": 4.729378729312569e-06,
	"loss": 0.6573,
	"step": 137
	},
	{
	"epoch": 0.5888,
	"grad_norm": 0.43301528692245483,
	"learning_rate": 4.724041572082039e-06,
	"loss": 0.696,
	"step": 138
	},
	{
	"epoch": 0.5930666666666666,
	"grad_norm": 0.38765257596969604,
	"learning_rate": 4.718655370430411e-06,
	"loss": 0.6704,
	"step": 139
	},
	{
	"epoch": 0.5973333333333334,
	"grad_norm": 0.3996504843235016,
	"learning_rate": 4.713220243133858e-06,
	"loss": 0.6618,
	"step": 140
	},
	{
	"epoch": 0.6016,
	"grad_norm": 0.37452489137649536,
	"learning_rate": 4.707736310047455e-06,
	"loss": 0.689,
	"step": 141
	},
	{
	"epoch": 0.6058666666666667,
	"grad_norm": 0.34926989674568176,
	"learning_rate": 4.702203692102539e-06,
	"loss": 0.6527,
	"step": 142
	},
	{
	"epoch": 0.6101333333333333,
	"grad_norm": 0.3961327373981476,
	"learning_rate": 4.696622511304046e-06,
	"loss": 0.6381,
	"step": 143
	},
	{
	"epoch": 0.6144,
	"grad_norm": 0.3921031951904297,
	"learning_rate": 4.690992890727813e-06,
	"loss": 0.6767,
	"step": 144
	},
	{
	"epoch": 0.6186666666666667,
	"grad_norm": 0.4456472098827362,
	"learning_rate": 4.68531495451787e-06,
	"loss": 0.6715,
	"step": 145
	},
	{
	"epoch": 0.6229333333333333,
	"grad_norm": 0.38145363330841064,
	"learning_rate": 4.679588827883699e-06,
	"loss": 0.6509,
	"step": 146
	},
	{
	"epoch": 0.6272,
	"grad_norm": 0.3857404887676239,
	"learning_rate": 4.6738146370974745e-06,
	"loss": 0.6786,
	"step": 147
	},
	{
	"epoch": 0.6314666666666666,
	"grad_norm": 0.36696499586105347,
	"learning_rate": 4.66799250949128e-06,
	"loss": 0.6503,
	"step": 148
	},
	{
	"epoch": 0.6357333333333334,
	"grad_norm": 0.36986419558525085,
	"learning_rate": 4.662122573454296e-06,
	"loss": 0.6577,
	"step": 149
	},
	{
	"epoch": 0.64,
	"grad_norm": 0.39298486709594727,
	"learning_rate": 4.656204958429974e-06,
	"loss": 0.6491,
	"step": 150
	},
	{
	"epoch": 0.6442666666666667,
	"grad_norm": 0.43070754408836365,
	"learning_rate": 4.650239794913177e-06,
	"loss": 0.687,
	"step": 151
	},
	{
	"epoch": 0.6485333333333333,
	"grad_norm": 0.3805888295173645,
	"learning_rate": 4.644227214447308e-06,
	"loss": 0.6269,
	"step": 152
	},
	{
	"epoch": 0.6528,
	"grad_norm": 0.39261743426322937,
	"learning_rate": 4.638167349621399e-06,
	"loss": 0.6504,
	"step": 153
	},
	{
	"epoch": 0.6570666666666667,
	"grad_norm": 0.378801167011261,
	"learning_rate": 4.632060334067202e-06,
	"loss": 0.676,
	"step": 154
	},
	{
	"epoch": 0.6613333333333333,
	"grad_norm": 0.41917920112609863,
	"learning_rate": 4.625906302456227e-06,
	"loss": 0.688,
	"step": 155
	},
	{
	"epoch": 0.6656,
	"grad_norm": 0.41115954518318176,
	"learning_rate": 4.6197053904967826e-06,
	"loss": 0.6729,
	"step": 156
	},
	{
	"epoch": 0.6698666666666667,
	"grad_norm": 0.3718389570713043,
	"learning_rate": 4.613457734930978e-06,
	"loss": 0.6531,
	"step": 157
	},
	{
	"epoch": 0.6741333333333334,
	"grad_norm": 0.3660692274570465,
	"learning_rate": 4.607163473531712e-06,
	"loss": 0.6544,
	"step": 158
	},
	{
	"epoch": 0.6784,
	"grad_norm": 0.3884277045726776,
	"learning_rate": 4.600822745099628e-06,
	"loss": 0.6614,
	"step": 159
	},
	{
	"epoch": 0.6826666666666666,
	"grad_norm": 0.37769001722335815,
	"learning_rate": 4.5944356894600615e-06,
	"loss": 0.6787,
	"step": 160
	},
	{
	"epoch": 0.6869333333333333,
	"grad_norm": 0.3687920570373535,
	"learning_rate": 4.58800244745995e-06,
	"loss": 0.6471,
	"step": 161
	},
	{
	"epoch": 0.6912,
	"grad_norm": 0.3945862650871277,
	"learning_rate": 4.581523160964731e-06,
	"loss": 0.681,
	"step": 162
	},
	{
	"epoch": 0.6954666666666667,
	"grad_norm": 0.355354905128479,
	"learning_rate": 4.574997972855212e-06,
	"loss": 0.6548,
	"step": 163
	},
	{
	"epoch": 0.6997333333333333,
	"grad_norm": 0.3718619644641876,
	"learning_rate": 4.568427027024419e-06,
	"loss": 0.6948,
	"step": 164
	},
	{
	"epoch": 0.704,
	"grad_norm": 0.37492382526397705,
	"learning_rate": 4.561810468374427e-06,
	"loss": 0.6459,
	"step": 165
	},
	{
	"epoch": 0.7082666666666667,
	"grad_norm": 0.3851492404937744,
	"learning_rate": 4.5551484428131575e-06,
	"loss": 0.662,
	"step": 166
	},
	{
	"epoch": 0.7125333333333334,
	"grad_norm": 0.3845251202583313,
	"learning_rate": 4.548441097251168e-06,
	"loss": 0.6353,
	"step": 167
	},
	{
	"epoch": 0.7168,
	"grad_norm": 0.34392473101615906,
	"learning_rate": 4.541688579598412e-06,
	"loss": 0.6474,
	"step": 168
	},
	{
	"epoch": 0.7210666666666666,
	"grad_norm": 0.3728064000606537,
	"learning_rate": 4.534891038760971e-06,
	"loss": 0.6745,
	"step": 169
	},
	{
	"epoch": 0.7253333333333334,
	"grad_norm": 0.39107459783554077,
	"learning_rate": 4.528048624637777e-06,
	"loss": 0.6655,
	"step": 170
	},
	{
	"epoch": 0.7296,
	"grad_norm": 0.3549425005912781,
	"learning_rate": 4.521161488117303e-06,
	"loss": 0.658,
	"step": 171
	},
	{
	"epoch": 0.7338666666666667,
	"grad_norm": 0.3642064929008484,
	"learning_rate": 4.514229781074239e-06,
	"loss": 0.6767,
	"step": 172
	},
	{
	"epoch": 0.7381333333333333,
	"grad_norm": 0.40543392300605774,
	"learning_rate": 4.507253656366143e-06,
	"loss": 0.67,
	"step": 173
	},
	{
	"epoch": 0.7424,
	"grad_norm": 0.36321622133255005,
	"learning_rate": 4.5002332678300645e-06,
	"loss": 0.6385,
	"step": 174
	},
	{
	"epoch": 0.7466666666666667,
	"grad_norm": 0.34730178117752075,
	"learning_rate": 4.49316877027916e-06,
	"loss": 0.6533,
	"step": 175
	},
	{
	"epoch": 0.7509333333333333,
	"grad_norm": 0.3694966733455658,
	"learning_rate": 4.48606031949927e-06,
	"loss": 0.6599,
	"step": 176
	},
	{
	"epoch": 0.7552,
	"grad_norm": 0.3944104313850403,
	"learning_rate": 4.478908072245495e-06,
	"loss": 0.6508,
	"step": 177
	},
	{
	"epoch": 0.7594666666666666,
	"grad_norm": 0.3709719479084015,
	"learning_rate": 4.471712186238728e-06,
	"loss": 0.6851,
	"step": 178
	},
	{
	"epoch": 0.7637333333333334,
	"grad_norm": 0.3659399151802063,
	"learning_rate": 4.4644728201621825e-06,
	"loss": 0.7066,
	"step": 179
	},
	{
	"epoch": 0.768,
	"grad_norm": 0.3750763535499573,
	"learning_rate": 4.457190133657891e-06,
	"loss": 0.6541,
	"step": 180
	},
	{
	"epoch": 0.7722666666666667,
	"grad_norm": 0.39184752106666565,
	"learning_rate": 4.449864287323188e-06,
	"loss": 0.6534,
	"step": 181
	},
	{
	"epoch": 0.7765333333333333,
	"grad_norm": 0.3683447539806366,
	"learning_rate": 4.442495442707163e-06,
	"loss": 0.652,
	"step": 182
	},
	{
	"epoch": 0.7808,
	"grad_norm": 0.3437025547027588,
	"learning_rate": 4.4350837623071006e-06,
	"loss": 0.643,
	"step": 183
	},
	{
	"epoch": 0.7850666666666667,
	"grad_norm": 0.37833109498023987,
	"learning_rate": 4.427629409564898e-06,
	"loss": 0.6409,
	"step": 184
	},
	{
	"epoch": 0.7893333333333333,
	"grad_norm": 0.36276975274086,
	"learning_rate": 4.420132548863461e-06,
	"loss": 0.6427,
	"step": 185
	},
	{
	"epoch": 0.7936,
	"grad_norm": 0.37990450859069824,
	"learning_rate": 4.412593345523078e-06,
	"loss": 0.6786,
	"step": 186
	},
	{
	"epoch": 0.7978666666666666,
	"grad_norm": 0.3818235695362091,
	"learning_rate": 4.405011965797775e-06,
	"loss": 0.712,
	"step": 187
	},
	{
	"epoch": 0.8021333333333334,
	"grad_norm": 0.3498851954936981,
	"learning_rate": 4.397388576871645e-06,
	"loss": 0.6168,
	"step": 188
	},
	{
	"epoch": 0.8064,
	"grad_norm": 0.3553500473499298,
	"learning_rate": 4.389723346855171e-06,
	"loss": 0.6641,
	"step": 189
	},
	{
	"epoch": 0.8106666666666666,
	"grad_norm": 0.37713390588760376,
	"learning_rate": 4.382016444781509e-06,
	"loss": 0.6767,
	"step": 190
	},
	{
	"epoch": 0.8149333333333333,
	"grad_norm": 0.3694016933441162,
	"learning_rate": 4.3742680406027655e-06,
	"loss": 0.6749,
	"step": 191
	},
	{
	"epoch": 0.8192,
	"grad_norm": 0.3673281967639923,
	"learning_rate": 4.36647830518625e-06,
	"loss": 0.6099,
	"step": 192
	},
	{
	"epoch": 0.8234666666666667,
	"grad_norm": 0.3572637736797333,
	"learning_rate": 4.3586474103107034e-06,
	"loss": 0.6097,
	"step": 193
	},
	{
	"epoch": 0.8277333333333333,
	"grad_norm": 0.3356681168079376,
	"learning_rate": 4.350775528662515e-06,
	"loss": 0.6665,
	"step": 194
	},
	{
	"epoch": 0.832,
	"grad_norm": 0.3750758171081543,
	"learning_rate": 4.34286283383191e-06,
	"loss": 0.6755,
	"step": 195
	},
	{
	"epoch": 0.8362666666666667,
	"grad_norm": 0.38012009859085083,
	"learning_rate": 4.334909500309124e-06,
	"loss": 0.618,
	"step": 196
	},
	{
	"epoch": 0.8405333333333334,
	"grad_norm": 0.3598080277442932,
	"learning_rate": 4.326915703480552e-06,
	"loss": 0.6504,
	"step": 197
	},
	{
	"epoch": 0.8448,
	"grad_norm": 0.36224260926246643,
	"learning_rate": 4.318881619624889e-06,
	"loss": 0.6395,
	"step": 198
	},
	{
	"epoch": 0.8490666666666666,
	"grad_norm": 0.3769308626651764,
	"learning_rate": 4.310807425909231e-06,
	"loss": 0.6375,
	"step": 199
	},
	{
	"epoch": 0.8533333333333334,
	"grad_norm": 0.37255364656448364,
	"learning_rate": 4.3026933003851765e-06,
	"loss": 0.6274,
	"step": 200
	},
	{
	"epoch": 0.8576,
	"grad_norm": 0.3720489740371704,
	"learning_rate": 4.294539421984898e-06,
	"loss": 0.6391,
	"step": 201
	},
	{
	"epoch": 0.8618666666666667,
	"grad_norm": 0.36343514919281006,
	"learning_rate": 4.286345970517195e-06,
	"loss": 0.6234,
	"step": 202
	},
	{
	"epoch": 0.8661333333333333,
	"grad_norm": 0.373117059469223,
	"learning_rate": 4.278113126663529e-06,
	"loss": 0.6824,
	"step": 203
	},
	{
	"epoch": 0.8704,
	"grad_norm": 0.3645020127296448,
	"learning_rate": 4.269841071974044e-06,
	"loss": 0.6088,
	"step": 204
	},
	{
	"epoch": 0.8746666666666667,
	"grad_norm": 0.3923603892326355,
	"learning_rate": 4.261529988863552e-06,
	"loss": 0.6868,
	"step": 205
	},
	{
	"epoch": 0.8789333333333333,
	"grad_norm": 0.36643365025520325,
	"learning_rate": 4.253180060607523e-06,
	"loss": 0.6371,
	"step": 206
	},
	{
	"epoch": 0.8832,
	"grad_norm": 0.388554185628891,
	"learning_rate": 4.244791471338035e-06,
	"loss": 0.6544,
	"step": 207
	},
	{
	"epoch": 0.8874666666666666,
	"grad_norm": 0.39180922508239746,
	"learning_rate": 4.236364406039718e-06,
	"loss": 0.7012,
	"step": 208
	},
	{
	"epoch": 0.8917333333333334,
	"grad_norm": 0.3649655878543854,
	"learning_rate": 4.22789905054567e-06,
	"loss": 0.6327,
	"step": 209
	},
	{
	"epoch": 0.896,
	"grad_norm": 0.3761747479438782,
	"learning_rate": 4.219395591533364e-06,
	"loss": 0.6746,
	"step": 210
	},
	{
	"epoch": 0.9002666666666667,
	"grad_norm": 0.3713630437850952,
	"learning_rate": 4.210854216520529e-06,
	"loss": 0.642,
	"step": 211
	},
	{
	"epoch": 0.9045333333333333,
	"grad_norm": 0.3751310408115387,
	"learning_rate": 4.202275113861015e-06,
	"loss": 0.6649,
	"step": 212
	},
	{
	"epoch": 0.9088,
	"grad_norm": 0.35876309871673584,
	"learning_rate": 4.193658472740641e-06,
	"loss": 0.6464,
	"step": 213
	},
	{
	"epoch": 0.9130666666666667,
	"grad_norm": 0.3813459873199463,
	"learning_rate": 4.185004483173018e-06,
	"loss": 0.6887,
	"step": 214
	},
	{
	"epoch": 0.9173333333333333,
	"grad_norm": 0.40369632840156555,
	"learning_rate": 4.176313335995368e-06,
	"loss": 0.6606,
	"step": 215
	},
	{
	"epoch": 0.9216,
	"grad_norm": 0.41807031631469727,
	"learning_rate": 4.1675852228643045e-06,
	"loss": 0.6546,
	"step": 216
	},
	{
	"epoch": 0.9258666666666666,
	"grad_norm": 0.3831678628921509,
	"learning_rate": 4.158820336251615e-06,
	"loss": 0.6822,
	"step": 217
	},
	{
	"epoch": 0.9301333333333334,
	"grad_norm": 0.38871535658836365,
	"learning_rate": 4.150018869440015e-06,
	"loss": 0.6188,
	"step": 218
	},
	{
	"epoch": 0.9344,
	"grad_norm": 0.39522799849510193,
	"learning_rate": 4.14118101651888e-06,
	"loss": 0.6384,
	"step": 219
	},
	{
	"epoch": 0.9386666666666666,
	"grad_norm": 0.38515716791152954,
	"learning_rate": 4.132306972379971e-06,
	"loss": 0.6556,
	"step": 220
	},
	{
	"epoch": 0.9429333333333333,
	"grad_norm": 0.4171655476093292,
	"learning_rate": 4.1233969327131396e-06,
	"loss": 0.6408,
	"step": 221
	},
	{
	"epoch": 0.9472,
	"grad_norm": 0.3901931941509247,
	"learning_rate": 4.114451094002002e-06,
	"loss": 0.667,
	"step": 222
	},
	{
	"epoch": 0.9514666666666667,
	"grad_norm": 0.39424633979797363,
	"learning_rate": 4.105469653519617e-06,
	"loss": 0.6607,
	"step": 223
	},
	{
	"epoch": 0.9557333333333333,
	"grad_norm": 0.37425708770751953,
	"learning_rate": 4.09645280932413e-06,
	"loss": 0.639,
	"step": 224
	},
	{
	"epoch": 0.96,
	"grad_norm": 0.3967532813549042,
	"learning_rate": 4.087400760254407e-06,
	"loss": 0.6662,
	"step": 225
	},
	{
	"epoch": 0.9642666666666667,
	"grad_norm": 0.3847205340862274,
	"learning_rate": 4.078313705925647e-06,
	"loss": 0.6457,
	"step": 226
	},
	{
	"epoch": 0.9685333333333334,
	"grad_norm": 0.3996621370315552,
	"learning_rate": 4.069191846724989e-06,
	"loss": 0.6503,
	"step": 227
	},
	{
	"epoch": 0.9728,
	"grad_norm": 0.36623647809028625,
	"learning_rate": 4.06003538380708e-06,
	"loss": 0.6525,
	"step": 228
	},
	{
	"epoch": 0.9770666666666666,
	"grad_norm": 0.38129106163978577,
	"learning_rate": 4.0508445190896505e-06,
	"loss": 0.6671,
	"step": 229
	},
	{
	"epoch": 0.9813333333333333,
	"grad_norm": 0.4016317129135132,
	"learning_rate": 4.041619455249054e-06,
	"loss": 0.676,
	"step": 230
	},
	{
	"epoch": 0.9856,
	"grad_norm": 0.3796759247779846,
	"learning_rate": 4.032360395715804e-06,
	"loss": 0.6497,
	"step": 231
	},
	{
	"epoch": 0.9898666666666667,
	"grad_norm": 0.37460625171661377,
	"learning_rate": 4.023067544670082e-06,
	"loss": 0.6318,
	"step": 232
	},
	{
	"epoch": 0.9941333333333333,
	"grad_norm": 0.36790499091148376,
	"learning_rate": 4.013741107037241e-06,
	"loss": 0.6176,
	"step": 233
	},
	{
	"epoch": 0.9984,
	"grad_norm": 0.3725135326385498,
	"learning_rate": 4.004381288483279e-06,
	"loss": 0.6173,
	"step": 234
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.5435260534286499,
	"learning_rate": 3.9949882954103115e-06,
	"loss": 0.6306,
	"step": 235
	},
	{
	"epoch": 1.0042666666666666,
	"grad_norm": 0.36948561668395996,
	"learning_rate": 3.985562334952015e-06,
	"loss": 0.6645,
	"step": 236
	},
	{
	"epoch": 1.0085333333333333,
	"grad_norm": 0.410770446062088,
	"learning_rate": 3.97610361496906e-06,
	"loss": 0.6288,
	"step": 237
	},
	{
	"epoch": 1.0128,
	"grad_norm": 0.3914359211921692,
	"learning_rate": 3.9666123440445295e-06,
	"loss": 0.6418,
	"step": 238
	},
	{
	"epoch": 1.0170666666666666,
	"grad_norm": 0.3786895275115967,
	"learning_rate": 3.957088731479316e-06,
	"loss": 0.6244,
	"step": 239
	},
	{
	"epoch": 1.0213333333333334,
	"grad_norm": 0.3769228458404541,
	"learning_rate": 3.947532987287509e-06,
	"loss": 0.6288,
	"step": 240
	},
	{
	"epoch": 1.0256,
	"grad_norm": 0.4023935794830322,
	"learning_rate": 3.937945322191763e-06,
	"loss": 0.6277,
	"step": 241
	},
	{
	"epoch": 1.0298666666666667,
	"grad_norm": 0.38678252696990967,
	"learning_rate": 3.928325947618649e-06,
	"loss": 0.6202,
	"step": 242
	},
	{
	"epoch": 1.0341333333333333,
	"grad_norm": 0.38373494148254395,
	"learning_rate": 3.9186750756939925e-06,
	"loss": 0.6458,
	"step": 243
	},
	{
	"epoch": 1.0384,
	"grad_norm": 0.411771684885025,
	"learning_rate": 3.9089929192382e-06,
	"loss": 0.6443,
	"step": 244
	},
	{
	"epoch": 1.0426666666666666,
	"grad_norm": 0.3979637920856476,
	"learning_rate": 3.899279691761558e-06,
	"loss": 0.6271,
	"step": 245
	},
	{
	"epoch": 1.0469333333333333,
	"grad_norm": 0.37983348965644836,
	"learning_rate": 3.889535607459534e-06,
	"loss": 0.6626,
	"step": 246
	},
	{
	"epoch": 1.0512,
	"grad_norm": 0.4087248742580414,
	"learning_rate": 3.879760881208043e-06,
	"loss": 0.6602,
	"step": 247
	},
	{
	"epoch": 1.0554666666666668,
	"grad_norm": 0.3652113378047943,
	"learning_rate": 3.869955728558719e-06,
	"loss": 0.6425,
	"step": 248
	},
	{
	"epoch": 1.0597333333333334,
	"grad_norm": 0.3603936433792114,
	"learning_rate": 3.860120365734154e-06,
	"loss": 0.6331,
	"step": 249
	},
	{
	"epoch": 1.064,
	"grad_norm": 0.4053269624710083,
	"learning_rate": 3.8502550096231325e-06,
	"loss": 0.6956,
	"step": 250
	},
	{
	"epoch": 1.0682666666666667,
	"grad_norm": 0.4000628888607025,
	"learning_rate": 3.840359877775853e-06,
	"loss": 0.6321,
	"step": 251
	},
	{
	"epoch": 1.0725333333333333,
	"grad_norm": 0.3704379200935364,
	"learning_rate": 3.830435188399123e-06,
	"loss": 0.6227,
	"step": 252
	},
	{
	"epoch": 1.0768,
	"grad_norm": 0.3613002300262451,
	"learning_rate": 3.82048116035155e-06,
	"loss": 0.6464,
	"step": 253
	},
	{
	"epoch": 1.0810666666666666,
	"grad_norm": 0.37688636779785156,
	"learning_rate": 3.810498013138719e-06,
	"loss": 0.6121,
	"step": 254
	},
	{
	"epoch": 1.0853333333333333,
	"grad_norm": 0.41339555382728577,
	"learning_rate": 3.8004859669083475e-06,
	"loss": 0.6386,
	"step": 255
	},
	{
	"epoch": 1.0896,
	"grad_norm": 0.3702141344547272,
	"learning_rate": 3.790445242445432e-06,
	"loss": 0.6094,
	"step": 256
	},
	{
	"epoch": 1.0938666666666668,
	"grad_norm": 0.37923765182495117,
	"learning_rate": 3.780376061167379e-06,
	"loss": 0.6252,
	"step": 257
	},
	{
	"epoch": 1.0981333333333334,
	"grad_norm": 0.38305890560150146,
	"learning_rate": 3.7702786451191255e-06,
	"loss": 0.6404,
	"step": 258
	},
	{
	"epoch": 1.1024,
	"grad_norm": 0.3678419589996338,
	"learning_rate": 3.7601532169682363e-06,
	"loss": 0.6251,
	"step": 259
	},
	{
	"epoch": 1.1066666666666667,
	"grad_norm": 0.38134104013442993,
	"learning_rate": 3.7500000000000005e-06,
	"loss": 0.6412,
	"step": 260
	},
	{
	"epoch": 1.1109333333333333,
	"grad_norm": 0.37436601519584656,
	"learning_rate": 3.7398192181125014e-06,
	"loss": 0.6244,
	"step": 261
	},
	{
	"epoch": 1.1152,
	"grad_norm": 0.3732365667819977,
	"learning_rate": 3.7296110958116845e-06,
	"loss": 0.5944,
	"step": 262
	},
	{
	"epoch": 1.1194666666666666,
	"grad_norm": 0.38658225536346436,
	"learning_rate": 3.719375858206403e-06,
	"loss": 0.6135,
	"step": 263
	},
	{
	"epoch": 1.1237333333333333,
	"grad_norm": 0.38506805896759033,
	"learning_rate": 3.7091137310034565e-06,
	"loss": 0.6318,
	"step": 264
	},
	{
	"epoch": 1.1280000000000001,
	"grad_norm": 0.36155635118484497,
	"learning_rate": 3.69882494050261e-06,
	"loss": 0.6097,
	"step": 265
	},
	{
	"epoch": 1.1322666666666668,
	"grad_norm": 0.366577684879303,
	"learning_rate": 3.6885097135916067e-06,
	"loss": 0.6103,
	"step": 266
	},
	{
	"epoch": 1.1365333333333334,
	"grad_norm": 0.37110307812690735,
	"learning_rate": 3.6781682777411663e-06,
	"loss": 0.6421,
	"step": 267
	},
	{
	"epoch": 1.1408,
	"grad_norm": 0.38045334815979004,
	"learning_rate": 3.6678008609999618e-06,
	"loss": 0.6392,
	"step": 268
	},
	{
	"epoch": 1.1450666666666667,
	"grad_norm": 0.38193008303642273,
	"learning_rate": 3.657407691989599e-06,
	"loss": 0.636,
	"step": 269
	},
	{
	"epoch": 1.1493333333333333,
	"grad_norm": 0.3796103000640869,
	"learning_rate": 3.64698899989957e-06,
	"loss": 0.6597,
	"step": 270
	},
	{
	"epoch": 1.1536,
	"grad_norm": 0.38126182556152344,
	"learning_rate": 3.636545014482198e-06,
	"loss": 0.6194,
	"step": 271
	},
	{
	"epoch": 1.1578666666666666,
	"grad_norm": 0.37700942158699036,
	"learning_rate": 3.6260759660475767e-06,
	"loss": 0.6472,
	"step": 272
	},
	{
	"epoch": 1.1621333333333332,
	"grad_norm": 0.3943956196308136,
	"learning_rate": 3.615582085458485e-06,
	"loss": 0.6142,
	"step": 273
	},
	{
	"epoch": 1.1663999999999999,
	"grad_norm": 0.37596529722213745,
	"learning_rate": 3.6050636041252996e-06,
	"loss": 0.6617,
	"step": 274
	},
	{
	"epoch": 1.1706666666666667,
	"grad_norm": 0.38903918862342834,
	"learning_rate": 3.594520754000893e-06,
	"loss": 0.6215,
	"step": 275
	},
	{
	"epoch": 1.1749333333333334,
	"grad_norm": 0.3797720670700073,
	"learning_rate": 3.5839537675755136e-06,
	"loss": 0.6393,
	"step": 276
	},
	{
	"epoch": 1.1792,
	"grad_norm": 0.33679234981536865,
	"learning_rate": 3.5733628778716645e-06,
	"loss": 0.6029,
	"step": 277
	},
	{
	"epoch": 1.1834666666666667,
	"grad_norm": 0.3872799277305603,
	"learning_rate": 3.562748318438961e-06,
	"loss": 0.6323,
	"step": 278
	},
	{
	"epoch": 1.1877333333333333,
	"grad_norm": 0.38341936469078064,
	"learning_rate": 3.552110323348981e-06,
	"loss": 0.6964,
	"step": 279
	},
	{
	"epoch": 1.192,
	"grad_norm": 0.3867659568786621,
	"learning_rate": 3.5414491271901073e-06,
	"loss": 0.6376,
	"step": 280
	},
	{
	"epoch": 1.1962666666666666,
	"grad_norm": 0.3914010226726532,
	"learning_rate": 3.5307649650623476e-06,
	"loss": 0.6143,
	"step": 281
	},
	{
	"epoch": 1.2005333333333335,
	"grad_norm": 0.36839964985847473,
	"learning_rate": 3.5200580725721554e-06,
	"loss": 0.6702,
	"step": 282
	},
	{
	"epoch": 1.2048,
	"grad_norm": 0.37717902660369873,
	"learning_rate": 3.5093286858272325e-06,
	"loss": 0.6148,
	"step": 283
	},
	{
	"epoch": 1.2090666666666667,
	"grad_norm": 0.3799995183944702,
	"learning_rate": 3.4985770414313218e-06,
	"loss": 0.6284,
	"step": 284
	},
	{
	"epoch": 1.2133333333333334,
	"grad_norm": 0.3792381286621094,
	"learning_rate": 3.487803376478992e-06,
	"loss": 0.5911,
	"step": 285
	},
	{
	"epoch": 1.2176,
	"grad_norm": 0.3653464615345001,
	"learning_rate": 3.4770079285504053e-06,
	"loss": 0.6178,
	"step": 286
	},
	{
	"epoch": 1.2218666666666667,
	"grad_norm": 0.3645116090774536,
	"learning_rate": 3.4661909357060835e-06,
	"loss": 0.644,
	"step": 287
	},
	{
	"epoch": 1.2261333333333333,
	"grad_norm": 0.37026965618133545,
	"learning_rate": 3.4553526364816535e-06,
	"loss": 0.6191,
	"step": 288
	},
	{
	"epoch": 1.2304,
	"grad_norm": 0.40830501914024353,
	"learning_rate": 3.4444932698825904e-06,
	"loss": 0.6319,
	"step": 289
	},
	{
	"epoch": 1.2346666666666666,
	"grad_norm": 0.35780298709869385,
	"learning_rate": 3.4336130753789445e-06,
	"loss": 0.66,
	"step": 290
	},
	{
	"epoch": 1.2389333333333332,
	"grad_norm": 0.39104047417640686,
	"learning_rate": 3.422712292900062e-06,
	"loss": 0.6276,
	"step": 291
	},
	{
	"epoch": 1.2432,
	"grad_norm": 0.38032180070877075,
	"learning_rate": 3.4117911628292944e-06,
	"loss": 0.6201,
	"step": 292
	},
	{
	"epoch": 1.2474666666666667,
	"grad_norm": 0.3887733817100525,
	"learning_rate": 3.400849925998697e-06,
	"loss": 0.6148,
	"step": 293
	},
	{
	"epoch": 1.2517333333333334,
	"grad_norm": 0.37434589862823486,
	"learning_rate": 3.3898888236837167e-06,
	"loss": 0.649,
	"step": 294
	},
	{
	"epoch": 1.256,
	"grad_norm": 0.36425620317459106,
	"learning_rate": 3.378908097597875e-06,
	"loss": 0.6313,
	"step": 295
	},
	{
	"epoch": 1.2602666666666666,
	"grad_norm": 0.3721037805080414,
	"learning_rate": 3.3679079898874327e-06,
	"loss": 0.6699,
	"step": 296
	},
	{
	"epoch": 1.2645333333333333,
	"grad_norm": 0.35984450578689575,
	"learning_rate": 3.3568887431260566e-06,
	"loss": 0.6005,
	"step": 297
	},
	{
	"epoch": 1.2688,
	"grad_norm": 0.3606344759464264,
	"learning_rate": 3.3458506003094626e-06,
	"loss": 0.6569,
	"step": 298
	},
	{
	"epoch": 1.2730666666666668,
	"grad_norm": 0.3679051697254181,
	"learning_rate": 3.3347938048500643e-06,
	"loss": 0.5853,
	"step": 299
	},
	{
	"epoch": 1.2773333333333334,
	"grad_norm": 0.35892370343208313,
	"learning_rate": 3.3237186005716005e-06,
	"loss": 0.613,
	"step": 300
	},
	{
	"epoch": 1.2816,
	"grad_norm": 0.3816829323768616,
	"learning_rate": 3.3126252317037616e-06,
	"loss": 0.6021,
	"step": 301
	},
	{
	"epoch": 1.2858666666666667,
	"grad_norm": 0.3961769938468933,
	"learning_rate": 3.3015139428767994e-06,
	"loss": 0.667,
	"step": 302
	},
	{
	"epoch": 1.2901333333333334,
	"grad_norm": 0.34190869331359863,
	"learning_rate": 3.2903849791161398e-06,
	"loss": 0.6147,
	"step": 303
	},
	{
	"epoch": 1.2944,
	"grad_norm": 0.3746764659881592,
	"learning_rate": 3.2792385858369706e-06,
	"loss": 0.609,
	"step": 304
	},
	{
	"epoch": 1.2986666666666666,
	"grad_norm": 0.3749980628490448,
	"learning_rate": 3.2680750088388376e-06,
	"loss": 0.6378,
	"step": 305
	},
	{
	"epoch": 1.3029333333333333,
	"grad_norm": 0.35247915983200073,
	"learning_rate": 3.2568944943002205e-06,
	"loss": 0.6476,
	"step": 306
	},
	{
	"epoch": 1.3072,
	"grad_norm": 0.366487979888916,
	"learning_rate": 3.245697288773102e-06,
	"loss": 0.6239,
	"step": 307
	},
	{
	"epoch": 1.3114666666666666,
	"grad_norm": 0.37208351492881775,
	"learning_rate": 3.2344836391775357e-06,
	"loss": 0.6621,
	"step": 308
	},
	{
	"epoch": 1.3157333333333332,
	"grad_norm": 0.38878902792930603,
	"learning_rate": 3.2232537927961993e-06,
	"loss": 0.6533,
	"step": 309
	},
	{
	"epoch": 1.32,
	"grad_norm": 0.3752239942550659,
	"learning_rate": 3.2120079972689385e-06,
	"loss": 0.6528,
	"step": 310
	},
	{
	"epoch": 1.3242666666666667,
	"grad_norm": 0.33627378940582275,
	"learning_rate": 3.2007465005873104e-06,
	"loss": 0.6337,
	"step": 311
	},
	{
	"epoch": 1.3285333333333333,
	"grad_norm": 0.36405107378959656,
	"learning_rate": 3.189469551089113e-06,
	"loss": 0.646,
	"step": 312
	},
	{
	"epoch": 1.3328,
	"grad_norm": 0.34430474042892456,
	"learning_rate": 3.1781773974529072e-06,
	"loss": 0.6324,
	"step": 313
	},
	{
	"epoch": 1.3370666666666666,
	"grad_norm": 0.370339572429657,
	"learning_rate": 3.1668702886925366e-06,
	"loss": 0.6594,
	"step": 314
	},
	{
	"epoch": 1.3413333333333333,
	"grad_norm": 0.3622921109199524,
	"learning_rate": 3.1555484741516324e-06,
	"loss": 0.6463,
	"step": 315
	},
	{
	"epoch": 1.3456000000000001,
	"grad_norm": 0.37744611501693726,
	"learning_rate": 3.1442122034981187e-06,
	"loss": 0.6284,
	"step": 316
	},
	{
	"epoch": 1.3498666666666668,
	"grad_norm": 0.36469364166259766,
	"learning_rate": 3.1328617267187023e-06,
	"loss": 0.6014,
	"step": 317
	},
	{
	"epoch": 1.3541333333333334,
	"grad_norm": 0.36354753375053406,
	"learning_rate": 3.1214972941133654e-06,
	"loss": 0.621,
	"step": 318
	},
	{
	"epoch": 1.3584,
	"grad_norm": 0.35719966888427734,
	"learning_rate": 3.110119156289841e-06,
	"loss": 0.6319,
	"step": 319
	},
	{
	"epoch": 1.3626666666666667,
	"grad_norm": 0.37629184126853943,
	"learning_rate": 3.0987275641580887e-06,
	"loss": 0.6248,
	"step": 320
	},
	{
	"epoch": 1.3669333333333333,
	"grad_norm": 0.39341020584106445,
	"learning_rate": 3.087322768924765e-06,
	"loss": 0.6678,
	"step": 321
	},
	{
	"epoch": 1.3712,
	"grad_norm": 0.39847707748413086,
	"learning_rate": 3.075905022087675e-06,
	"loss": 0.6345,
	"step": 322
	},
	{
	"epoch": 1.3754666666666666,
	"grad_norm": 0.3695352375507355,
	"learning_rate": 3.064474575430236e-06,
	"loss": 0.6254,
	"step": 323
	},
	{
	"epoch": 1.3797333333333333,
	"grad_norm": 0.3770747482776642,
	"learning_rate": 3.053031681015919e-06,
	"loss": 0.6331,
	"step": 324
	},
	{
	"epoch": 1.384,
	"grad_norm": 0.35522177815437317,
	"learning_rate": 3.0415765911826916e-06,
	"loss": 0.6243,
	"step": 325
	},
	{
	"epoch": 1.3882666666666665,
	"grad_norm": 0.3473767936229706,
	"learning_rate": 3.030109558537457e-06,
	"loss": 0.6546,
	"step": 326
	},
	{
	"epoch": 1.3925333333333334,
	"grad_norm": 0.3723127841949463,
	"learning_rate": 3.0186308359504768e-06,
	"loss": 0.6376,
	"step": 327
	},
	{
	"epoch": 1.3968,
	"grad_norm": 0.34262001514434814,
	"learning_rate": 3.0071406765498003e-06,
	"loss": 0.5835,
	"step": 328
	},
	{
	"epoch": 1.4010666666666667,
	"grad_norm": 0.40056103467941284,
	"learning_rate": 2.995639333715681e-06,
	"loss": 0.6558,
	"step": 329
	},
	{
	"epoch": 1.4053333333333333,
	"grad_norm": 0.3862249255180359,
	"learning_rate": 2.984127061074987e-06,
	"loss": 0.6368,
	"step": 330
	},
	{
	"epoch": 1.4096,
	"grad_norm": 0.3410535156726837,
	"learning_rate": 2.9726041124956128e-06,
	"loss": 0.5971,
	"step": 331
	},
	{
	"epoch": 1.4138666666666666,
	"grad_norm": 0.36755862832069397,
	"learning_rate": 2.9610707420808754e-06,
	"loss": 0.6154,
	"step": 332
	},
	{
	"epoch": 1.4181333333333335,
	"grad_norm": 0.36731356382369995,
	"learning_rate": 2.9495272041639143e-06,
	"loss": 0.6269,
	"step": 333
	},
	{
	"epoch": 1.4224,
	"grad_norm": 0.35700151324272156,
	"learning_rate": 2.9379737533020812e-06,
	"loss": 0.6226,
	"step": 334
	},
	{
	"epoch": 1.4266666666666667,
	"grad_norm": 0.3792375922203064,
	"learning_rate": 2.9264106442713293e-06,
	"loss": 0.6546,
	"step": 335
	},
	{
	"epoch": 1.4309333333333334,
	"grad_norm": 0.37135738134384155,
	"learning_rate": 2.914838132060592e-06,
	"loss": 0.6582,
	"step": 336
	},
	{
	"epoch": 1.4352,
	"grad_norm": 0.3696453869342804,
	"learning_rate": 2.9032564718661606e-06,
	"loss": 0.6349,
	"step": 337
	},
	{
	"epoch": 1.4394666666666667,
	"grad_norm": 0.3558184802532196,
	"learning_rate": 2.891665919086058e-06,
	"loss": 0.636,
	"step": 338
	},
	{
	"epoch": 1.4437333333333333,
	"grad_norm": 0.36788755655288696,
	"learning_rate": 2.8800667293144047e-06,
	"loss": 0.6256,
	"step": 339
	},
	{
	"epoch": 1.448,
	"grad_norm": 0.3636646568775177,
	"learning_rate": 2.8684591583357863e-06,
	"loss": 0.6737,
	"step": 340
	},
	{
	"epoch": 1.4522666666666666,
	"grad_norm": 0.35329827666282654,
	"learning_rate": 2.8568434621196055e-06,
	"loss": 0.6449,
	"step": 341
	},
	{
	"epoch": 1.4565333333333332,
	"grad_norm": 0.3763044476509094,
	"learning_rate": 2.845219896814448e-06,
	"loss": 0.6034,
	"step": 342
	},
	{
	"epoch": 1.4607999999999999,
	"grad_norm": 0.3717707097530365,
	"learning_rate": 2.8335887187424225e-06,
	"loss": 0.6195,
	"step": 343
	},
	{
	"epoch": 1.4650666666666667,
	"grad_norm": 0.3806118965148926,
	"learning_rate": 2.8219501843935183e-06,
	"loss": 0.6065,
	"step": 344
	},
	{
	"epoch": 1.4693333333333334,
	"grad_norm": 0.35683637857437134,
	"learning_rate": 2.8103045504199435e-06,
	"loss": 0.6336,
	"step": 345
	},
	{
	"epoch": 1.4736,
	"grad_norm": 0.3510432243347168,
	"learning_rate": 2.7986520736304632e-06,
	"loss": 0.656,
	"step": 346
	},
	{
	"epoch": 1.4778666666666667,
	"grad_norm": 0.3614979386329651,
	"learning_rate": 2.786993010984747e-06,
	"loss": 0.5899,
	"step": 347
	},
	{
	"epoch": 1.4821333333333333,
	"grad_norm": 0.34515616297721863,
	"learning_rate": 2.7753276195876887e-06,
	"loss": 0.6528,
	"step": 348
	},
	{
	"epoch": 1.4864,
	"grad_norm": 0.35917502641677856,
	"learning_rate": 2.7636561566837463e-06,
	"loss": 0.6501,
	"step": 349
	},
	{
	"epoch": 1.4906666666666666,
	"grad_norm": 0.3679303228855133,
	"learning_rate": 2.751978879651267e-06,
	"loss": 0.6186,
	"step": 350
	},
	{
	"epoch": 1.4949333333333334,
	"grad_norm": 0.341778963804245,
	"learning_rate": 2.740296045996808e-06,
	"loss": 0.6206,
	"step": 351
	},
	{
	"epoch": 1.4992,
	"grad_norm": 0.3657280206680298,
	"learning_rate": 2.728607913349464e-06,
	"loss": 0.6201,
	"step": 352
	},
	{
	"epoch": 1.5034666666666667,
	"grad_norm": 0.37184861302375793,
	"learning_rate": 2.716914739455181e-06,
	"loss": 0.6382,
	"step": 353
	},
	{
	"epoch": 1.5077333333333334,
	"grad_norm": 0.35181599855422974,
	"learning_rate": 2.7052167821710728e-06,
	"loss": 0.6181,
	"step": 354
	},
	{
	"epoch": 1.512,
	"grad_norm": 0.33952847123146057,
	"learning_rate": 2.6935142994597407e-06,
	"loss": 0.582,
	"step": 355
	},
	{
	"epoch": 1.5162666666666667,
	"grad_norm": 0.3619312047958374,
	"learning_rate": 2.6818075493835747e-06,
	"loss": 0.6453,
	"step": 356
	},
	{
	"epoch": 1.5205333333333333,
	"grad_norm": 0.353040486574173,
	"learning_rate": 2.6700967900990733e-06,
	"loss": 0.6468,
	"step": 357
	},
	{
	"epoch": 1.5248,
	"grad_norm": 0.3691389262676239,
	"learning_rate": 2.6583822798511428e-06,
	"loss": 0.6226,
	"step": 358
	},
	{
	"epoch": 1.5290666666666666,
	"grad_norm": 0.3559889793395996,
	"learning_rate": 2.6466642769674065e-06,
	"loss": 0.6407,
	"step": 359
	},
	{
	"epoch": 1.5333333333333332,
	"grad_norm": 0.3588290810585022,
	"learning_rate": 2.634943039852509e-06,
	"loss": 0.6327,
	"step": 360
	},
	{
	"epoch": 1.5375999999999999,
	"grad_norm": 0.35324448347091675,
	"learning_rate": 2.623218826982411e-06,
	"loss": 0.6525,
	"step": 361
	},
	{
	"epoch": 1.5418666666666667,
	"grad_norm": 0.3669818043708801,
	"learning_rate": 2.6114918968987e-06,
	"loss": 0.6379,
	"step": 362
	},
	{
	"epoch": 1.5461333333333334,
	"grad_norm": 0.3631032407283783,
	"learning_rate": 2.59976250820288e-06,
	"loss": 0.6324,
	"step": 363
	},
	{
	"epoch": 1.5504,
	"grad_norm": 0.3435375988483429,
	"learning_rate": 2.5880309195506714e-06,
	"loss": 0.638,
	"step": 364
	},
	{
	"epoch": 1.5546666666666666,
	"grad_norm": 0.3883386552333832,
	"learning_rate": 2.5762973896463124e-06,
	"loss": 0.662,
	"step": 365
	},
	{
	"epoch": 1.5589333333333333,
	"grad_norm": 0.3442463278770447,
	"learning_rate": 2.564562177236844e-06,
	"loss": 0.5799,
	"step": 366
	},
	{
	"epoch": 1.5632000000000001,
	"grad_norm": 0.3552541434764862,
	"learning_rate": 2.552825541106414e-06,
	"loss": 0.5965,
	"step": 367
	},
	{
	"epoch": 1.5674666666666668,
	"grad_norm": 0.364967405796051,
	"learning_rate": 2.541087740070563e-06,
	"loss": 0.6378,
	"step": 368
	},
	{
	"epoch": 1.5717333333333334,
	"grad_norm": 0.37892046570777893,
	"learning_rate": 2.5293490329705215e-06,
	"loss": 0.6359,
	"step": 369
	},
	{
	"epoch": 1.576,
	"grad_norm": 0.36757996678352356,
	"learning_rate": 2.517609678667501e-06,
	"loss": 0.643,
	"step": 370
	},
	{
	"epoch": 1.5802666666666667,
	"grad_norm": 0.349754273891449,
	"learning_rate": 2.5058699360369842e-06,
	"loss": 0.6362,
	"step": 371
	},
	{
	"epoch": 1.5845333333333333,
	"grad_norm": 0.3402039706707001,
	"learning_rate": 2.494130063963016e-06,
	"loss": 0.623,
	"step": 372
	},
	{
	"epoch": 1.5888,
	"grad_norm": 0.3724100887775421,
	"learning_rate": 2.4823903213324995e-06,
	"loss": 0.6774,
	"step": 373
	},
	{
	"epoch": 1.5930666666666666,
	"grad_norm": 0.35909926891326904,
	"learning_rate": 2.4706509670294793e-06,
	"loss": 0.6353,
	"step": 374
	},
	{
	"epoch": 1.5973333333333333,
	"grad_norm": 0.3708135783672333,
	"learning_rate": 2.458912259929438e-06,
	"loss": 0.6386,
	"step": 375
	},
	{
	"epoch": 1.6016,
	"grad_norm": 0.3670898377895355,
	"learning_rate": 2.447174458893587e-06,
	"loss": 0.6226,
	"step": 376
	},
	{
	"epoch": 1.6058666666666666,
	"grad_norm": 0.3384304344654083,
	"learning_rate": 2.4354378227631566e-06,
	"loss": 0.6095,
	"step": 377
	},
	{
	"epoch": 1.6101333333333332,
	"grad_norm": 0.3360144793987274,
	"learning_rate": 2.423702610353689e-06,
	"loss": 0.5713,
	"step": 378
	},
	{
	"epoch": 1.6143999999999998,
	"grad_norm": 0.36030176281929016,
	"learning_rate": 2.4119690804493285e-06,
	"loss": 0.6171,
	"step": 379
	},
	{
	"epoch": 1.6186666666666667,
	"grad_norm": 0.3754883110523224,
	"learning_rate": 2.400237491797121e-06,
	"loss": 0.6334,
	"step": 380
	},
	{
	"epoch": 1.6229333333333333,
	"grad_norm": 0.37145912647247314,
	"learning_rate": 2.3885081031013013e-06,
	"loss": 0.6313,
	"step": 381
	},
	{
	"epoch": 1.6272,
	"grad_norm": 0.3442709743976593,
	"learning_rate": 2.376781173017589e-06,
	"loss": 0.616,
	"step": 382
	},
	{
	"epoch": 1.6314666666666666,
	"grad_norm": 0.36108705401420593,
	"learning_rate": 2.365056960147492e-06,
	"loss": 0.6034,
	"step": 383
	},
	{
	"epoch": 1.6357333333333335,
	"grad_norm": 0.3905346989631653,
	"learning_rate": 2.353335723032594e-06,
	"loss": 0.6408,
	"step": 384
	},
	{
	"epoch": 1.6400000000000001,
	"grad_norm": 0.3625428378582001,
	"learning_rate": 2.3416177201488585e-06,
	"loss": 0.6241,
	"step": 385
	},
	{
	"epoch": 1.6442666666666668,
	"grad_norm": 0.3429667353630066,
	"learning_rate": 2.3299032099009276e-06,
	"loss": 0.6253,
	"step": 386
	},
	{
	"epoch": 1.6485333333333334,
	"grad_norm": 0.3611001968383789,
	"learning_rate": 2.318192450616426e-06,
	"loss": 0.596,
	"step": 387
	},
	{
	"epoch": 1.6528,
	"grad_norm": 0.3439117968082428,
	"learning_rate": 2.3064857005402606e-06,
	"loss": 0.615,
	"step": 388
	},
	{
	"epoch": 1.6570666666666667,
	"grad_norm": 0.3314322829246521,
	"learning_rate": 2.294783217828927e-06,
	"loss": 0.5785,
	"step": 389
	},
	{
	"epoch": 1.6613333333333333,
	"grad_norm": 0.3500496745109558,
	"learning_rate": 2.2830852605448197e-06,
	"loss": 0.6063,
	"step": 390
	},
	{
	"epoch": 1.6656,
	"grad_norm": 0.34801536798477173,
	"learning_rate": 2.2713920866505364e-06,
	"loss": 0.6257,
	"step": 391
	},
	{
	"epoch": 1.6698666666666666,
	"grad_norm": 0.36531272530555725,
	"learning_rate": 2.259703954003192e-06,
	"loss": 0.5923,
	"step": 392
	},
	{
	"epoch": 1.6741333333333333,
	"grad_norm": 0.3721877634525299,
	"learning_rate": 2.2480211203487335e-06,
	"loss": 0.6449,
	"step": 393
	},
	{
	"epoch": 1.6784,
	"grad_norm": 0.3649953305721283,
	"learning_rate": 2.236343843316254e-06,
	"loss": 0.6161,
	"step": 394
	},
	{
	"epoch": 1.6826666666666665,
	"grad_norm": 0.36439573764801025,
	"learning_rate": 2.2246723804123126e-06,
	"loss": 0.6068,
	"step": 395
	},
	{
	"epoch": 1.6869333333333332,
	"grad_norm": 0.3658572733402252,
	"learning_rate": 2.213006989015254e-06,
	"loss": 0.5915,
	"step": 396
	},
	{
	"epoch": 1.6912,
	"grad_norm": 0.3674871027469635,
	"learning_rate": 2.201347926369537e-06,
	"loss": 0.6394,
	"step": 397
	},
	{
	"epoch": 1.6954666666666667,
	"grad_norm": 0.3523310124874115,
	"learning_rate": 2.189695449580058e-06,
	"loss": 0.6258,
	"step": 398
	},
	{
	"epoch": 1.6997333333333333,
	"grad_norm": 0.35189226269721985,
	"learning_rate": 2.178049815606482e-06,
	"loss": 0.6281,
	"step": 399
	},
	{
	"epoch": 1.704,
	"grad_norm": 0.36279675364494324,
	"learning_rate": 2.166411281257578e-06,
	"loss": 0.6225,
	"step": 400
	},
	{
	"epoch": 1.7082666666666668,
	"grad_norm": 0.3660772442817688,
	"learning_rate": 2.154780103185553e-06,
	"loss": 0.5899,
	"step": 401
	},
	{
	"epoch": 1.7125333333333335,
	"grad_norm": 0.3713538944721222,
	"learning_rate": 2.1431565378803953e-06,
	"loss": 0.6673,
	"step": 402
	},
	{
	"epoch": 1.7168,
	"grad_norm": 0.34312623739242554,
	"learning_rate": 2.1315408416642145e-06,
	"loss": 0.6076,
	"step": 403
	},
	{
	"epoch": 1.7210666666666667,
	"grad_norm": 0.361995667219162,
	"learning_rate": 2.119933270685596e-06,
	"loss": 0.6847,
	"step": 404
	},
	{
	"epoch": 1.7253333333333334,
	"grad_norm": 0.3452853262424469,
	"learning_rate": 2.1083340809139436e-06,
	"loss": 0.622,
	"step": 405
	},
	{
	"epoch": 1.7296,
	"grad_norm": 0.3667498826980591,
	"learning_rate": 2.09674352813384e-06,
	"loss": 0.626,
	"step": 406
	},
	{
	"epoch": 1.7338666666666667,
	"grad_norm": 0.3574604392051697,
	"learning_rate": 2.085161867939409e-06,
	"loss": 0.643,
	"step": 407
	},
	{
	"epoch": 1.7381333333333333,
	"grad_norm": 0.34958869218826294,
	"learning_rate": 2.0735893557286715e-06,
	"loss": 0.6257,
	"step": 408
	},
	{
	"epoch": 1.7424,
	"grad_norm": 0.34016844630241394,
	"learning_rate": 2.062026246697919e-06,
	"loss": 0.6227,
	"step": 409
	},
	{
	"epoch": 1.7466666666666666,
	"grad_norm": 0.333670973777771,
	"learning_rate": 2.0504727958360865e-06,
	"loss": 0.6102,
	"step": 410
	},
	{
	"epoch": 1.7509333333333332,
	"grad_norm": 0.33881455659866333,
	"learning_rate": 2.038929257919125e-06,
	"loss": 0.6216,
	"step": 411
	},
	{
	"epoch": 1.7551999999999999,
	"grad_norm": 0.3591978847980499,
	"learning_rate": 2.0273958875043877e-06,
	"loss": 0.5926,
	"step": 412
	},
	{
	"epoch": 1.7594666666666665,
	"grad_norm": 0.3602572977542877,
	"learning_rate": 2.015872938925013e-06,
	"loss": 0.65,
	"step": 413
	},
	{
	"epoch": 1.7637333333333334,
	"grad_norm": 0.35508790612220764,
	"learning_rate": 2.0043606662843194e-06,
	"loss": 0.6307,
	"step": 414
	},
	{
	"epoch": 1.768,
	"grad_norm": 0.3617687225341797,
	"learning_rate": 1.992859323450201e-06,
	"loss": 0.5987,
	"step": 415
	},
	{
	"epoch": 1.7722666666666667,
	"grad_norm": 0.37263643741607666,
	"learning_rate": 1.9813691640495236e-06,
	"loss": 0.6138,
	"step": 416
	},
	{
	"epoch": 1.7765333333333333,
	"grad_norm": 0.373625248670578,
	"learning_rate": 1.9698904414625443e-06,
	"loss": 0.6368,
	"step": 417
	},
	{
	"epoch": 1.7808000000000002,
	"grad_norm": 0.3303409814834595,
	"learning_rate": 1.958423408817309e-06,
	"loss": 0.6153,
	"step": 418
	},
	{
	"epoch": 1.7850666666666668,
	"grad_norm": 0.3457784056663513,
	"learning_rate": 1.9469683189840823e-06,
	"loss": 0.6036,
	"step": 419
	},
	{
	"epoch": 1.7893333333333334,
	"grad_norm": 0.36308011412620544,
	"learning_rate": 1.935525424569765e-06,
	"loss": 0.615,
	"step": 420
	},
	{
	"epoch": 1.7936,
	"grad_norm": 0.34869521856307983,
	"learning_rate": 1.924094977912326e-06,
	"loss": 0.6337,
	"step": 421
	},
	{
	"epoch": 1.7978666666666667,
	"grad_norm": 0.3418169915676117,
	"learning_rate": 1.912677231075236e-06,
	"loss": 0.6089,
	"step": 422
	},
	{
	"epoch": 1.8021333333333334,
	"grad_norm": 0.37303951382637024,
	"learning_rate": 1.901272435841911e-06,
	"loss": 0.6467,
	"step": 423
	},
	{
	"epoch": 1.8064,
	"grad_norm": 0.33986544609069824,
	"learning_rate": 1.8898808437101598e-06,
	"loss": 0.6276,
	"step": 424
	},
	{
	"epoch": 1.8106666666666666,
	"grad_norm": 0.36087459325790405,
	"learning_rate": 1.8785027058866358e-06,
	"loss": 0.6157,
	"step": 425
	},
	{
	"epoch": 1.8149333333333333,
	"grad_norm": 0.3607085943222046,
	"learning_rate": 1.8671382732812976e-06,
	"loss": 0.6463,
	"step": 426
	},
	{
	"epoch": 1.8192,
	"grad_norm": 0.3519996702671051,
	"learning_rate": 1.8557877965018817e-06,
	"loss": 0.5965,
	"step": 427
	},
	{
	"epoch": 1.8234666666666666,
	"grad_norm": 0.3577191233634949,
	"learning_rate": 1.8444515258483684e-06,
	"loss": 0.6493,
	"step": 428
	},
	{
	"epoch": 1.8277333333333332,
	"grad_norm": 0.34583061933517456,
	"learning_rate": 1.8331297113074647e-06,
	"loss": 0.6166,
	"step": 429
	},
	{
	"epoch": 1.8319999999999999,
	"grad_norm": 0.3553761839866638,
	"learning_rate": 1.8218226025470934e-06,
	"loss": 0.6197,
	"step": 430
	},
	{
	"epoch": 1.8362666666666667,
	"grad_norm": 0.36136338114738464,
	"learning_rate": 1.810530448910888e-06,
	"loss": 0.6486,
	"step": 431
	},
	{
	"epoch": 1.8405333333333334,
	"grad_norm": 0.3319532871246338,
	"learning_rate": 1.7992534994126904e-06,
	"loss": 0.5983,
	"step": 432
	},
	{
	"epoch": 1.8448,
	"grad_norm": 0.3669814169406891,
	"learning_rate": 1.7879920027310621e-06,
	"loss": 0.6314,
	"step": 433
	},
	{
	"epoch": 1.8490666666666666,
	"grad_norm": 0.34887489676475525,
	"learning_rate": 1.7767462072038017e-06,
	"loss": 0.5914,
	"step": 434
	},
	{
	"epoch": 1.8533333333333335,
	"grad_norm": 0.3559891879558563,
	"learning_rate": 1.7655163608224649e-06,
	"loss": 0.6388,
	"step": 435
	},
	{
	"epoch": 1.8576000000000001,
	"grad_norm": 0.3565674126148224,
	"learning_rate": 1.7543027112268994e-06,
	"loss": 0.654,
	"step": 436
	},
	{
	"epoch": 1.8618666666666668,
	"grad_norm": 0.34790274500846863,
	"learning_rate": 1.7431055056997803e-06,
	"loss": 0.6008,
	"step": 437
	},
	{
	"epoch": 1.8661333333333334,
	"grad_norm": 0.3522760272026062,
	"learning_rate": 1.731924991161163e-06,
	"loss": 0.6389,
	"step": 438
	},
	{
	"epoch": 1.8704,
	"grad_norm": 0.3217763602733612,
	"learning_rate": 1.7207614141630304e-06,
	"loss": 0.6068,
	"step": 439
	},
	{
	"epoch": 1.8746666666666667,
	"grad_norm": 0.3468863070011139,
	"learning_rate": 1.7096150208838613e-06,
	"loss": 0.6374,
	"step": 440
	},
	{
	"epoch": 1.8789333333333333,
	"grad_norm": 0.343654066324234,
	"learning_rate": 1.698486057123201e-06,
	"loss": 0.6164,
	"step": 441
	},
	{
	"epoch": 1.8832,
	"grad_norm": 0.35105621814727783,
	"learning_rate": 1.6873747682962393e-06,
	"loss": 0.6569,
	"step": 442
	},
	{
	"epoch": 1.8874666666666666,
	"grad_norm": 0.3443906307220459,
	"learning_rate": 1.6762813994283993e-06,
	"loss": 0.6269,
	"step": 443
	},
	{
	"epoch": 1.8917333333333333,
	"grad_norm": 0.33432722091674805,
	"learning_rate": 1.665206195149936e-06,
	"loss": 0.6265,
	"step": 444
	},
	{
	"epoch": 1.896,
	"grad_norm": 0.33422231674194336,
	"learning_rate": 1.6541493996905378e-06,
	"loss": 0.6022,
	"step": 445
	},
	{
	"epoch": 1.9002666666666665,
	"grad_norm": 0.32642269134521484,
	"learning_rate": 1.6431112568739448e-06,
	"loss": 0.5939,
	"step": 446
	},
	{
	"epoch": 1.9045333333333332,
	"grad_norm": 0.3520292639732361,
	"learning_rate": 1.6320920101125673e-06,
	"loss": 0.6236,
	"step": 447
	},
	{
	"epoch": 1.9088,
	"grad_norm": 0.3316883146762848,
	"learning_rate": 1.6210919024021258e-06,
	"loss": 0.6398,
	"step": 448
	},
	{
	"epoch": 1.9130666666666667,
	"grad_norm": 0.34300458431243896,
	"learning_rate": 1.6101111763162842e-06,
	"loss": 0.6361,
	"step": 449
	},
	{
	"epoch": 1.9173333333333333,
	"grad_norm": 0.3536739945411682,
	"learning_rate": 1.5991500740013032e-06,
	"loss": 0.6325,
	"step": 450
	},
	{
	"epoch": 1.9216,
	"grad_norm": 0.3418213427066803,
	"learning_rate": 1.588208837170706e-06,
	"loss": 0.6248,
	"step": 451
	},
	{
	"epoch": 1.9258666666666666,
	"grad_norm": 0.35811057686805725,
	"learning_rate": 1.5772877070999388e-06,
	"loss": 0.66,
	"step": 452
	},
	{
	"epoch": 1.9301333333333335,
	"grad_norm": 0.3446464538574219,
	"learning_rate": 1.5663869246210568e-06,
	"loss": 0.6601,
	"step": 453
	},
	{
	"epoch": 1.9344000000000001,
	"grad_norm": 0.352630078792572,
	"learning_rate": 1.55550673011741e-06,
	"loss": 0.6057,
	"step": 454
	},
	{
	"epoch": 1.9386666666666668,
	"grad_norm": 0.3361312747001648,
	"learning_rate": 1.5446473635183469e-06,
	"loss": 0.6151,
	"step": 455
	},
	{
	"epoch": 1.9429333333333334,
	"grad_norm": 0.34577980637550354,
	"learning_rate": 1.5338090642939171e-06,
	"loss": 0.5807,
	"step": 456
	},
	{
	"epoch": 1.9472,
	"grad_norm": 0.3399719297885895,
	"learning_rate": 1.522992071449595e-06,
	"loss": 0.646,
	"step": 457
	},
	{
	"epoch": 1.9514666666666667,
	"grad_norm": 0.33490023016929626,
	"learning_rate": 1.512196623521009e-06,
	"loss": 0.618,
	"step": 458
	},
	{
	"epoch": 1.9557333333333333,
	"grad_norm": 0.36129286885261536,
	"learning_rate": 1.501422958568679e-06,
	"loss": 0.6313,
	"step": 459
	},
	{
	"epoch": 1.96,
	"grad_norm": 0.3402632176876068,
	"learning_rate": 1.4906713141727677e-06,
	"loss": 0.5889,
	"step": 460
	},
	{
	"epoch": 1.9642666666666666,
	"grad_norm": 0.36346685886383057,
	"learning_rate": 1.4799419274278454e-06,
	"loss": 0.6268,
	"step": 461
	},
	{
	"epoch": 1.9685333333333332,
	"grad_norm": 0.36655858159065247,
	"learning_rate": 1.469235034937653e-06,
	"loss": 0.6135,
	"step": 462
	},
	{
	"epoch": 1.9727999999999999,
	"grad_norm": 0.3634871542453766,
	"learning_rate": 1.4585508728098935e-06,
	"loss": 0.6415,
	"step": 463
	},
	{
	"epoch": 1.9770666666666665,
	"grad_norm": 0.3393765091896057,
	"learning_rate": 1.4478896766510187e-06,
	"loss": 0.5915,
	"step": 464
	},
	{
	"epoch": 1.9813333333333332,
	"grad_norm": 0.35128340125083923,
	"learning_rate": 1.4372516815610405e-06,
	"loss": 0.6186,
	"step": 465
	},
	{
	"epoch": 1.9856,
	"grad_norm": 0.33152270317077637,
	"learning_rate": 1.4266371221283367e-06,
	"loss": 0.5733,
	"step": 466
	},
	{
	"epoch": 1.9898666666666667,
	"grad_norm": 0.36451447010040283,
	"learning_rate": 1.4160462324244864e-06,
	"loss": 0.6342,
	"step": 467
	},
	{
	"epoch": 1.9941333333333333,
	"grad_norm": 0.34968507289886475,
	"learning_rate": 1.4054792459991073e-06,
	"loss": 0.6182,
	"step": 468
	},
	{
	"epoch": 1.9984,
	"grad_norm": 0.33991050720214844,
	"learning_rate": 1.3949363958747004e-06,
	"loss": 0.612,
	"step": 469
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.5291548371315002,
	"learning_rate": 1.3844179145415158e-06,
	"loss": 0.6129,
	"step": 470
	},
	{
	"epoch": 2.0042666666666666,
	"grad_norm": 0.3454642593860626,
	"learning_rate": 1.373924033952424e-06,
	"loss": 0.6203,
	"step": 471
	},
	{
	"epoch": 2.0085333333333333,
	"grad_norm": 0.3359213173389435,
	"learning_rate": 1.363454985517803e-06,
	"loss": 0.5775,
	"step": 472
	},
	{
	"epoch": 2.0128,
	"grad_norm": 0.3395461142063141,
	"learning_rate": 1.3530110001004315e-06,
	"loss": 0.6245,
	"step": 473
	},
	{
	"epoch": 2.0170666666666666,
	"grad_norm": 0.33210253715515137,
	"learning_rate": 1.3425923080104008e-06,
	"loss": 0.655,
	"step": 474
	},
	{
	"epoch": 2.021333333333333,
	"grad_norm": 0.3711182773113251,
	"learning_rate": 1.3321991390000382e-06,
	"loss": 0.6177,
	"step": 475
	},
	{
	"epoch": 2.0256,
	"grad_norm": 0.37890559434890747,
	"learning_rate": 1.3218317222588356e-06,
	"loss": 0.5875,
	"step": 476
	},
	{
	"epoch": 2.0298666666666665,
	"grad_norm": 0.34380125999450684,
	"learning_rate": 1.3114902864083937e-06,
	"loss": 0.5857,
	"step": 477
	},
	{
	"epoch": 2.034133333333333,
	"grad_norm": 0.34623777866363525,
	"learning_rate": 1.301175059497391e-06,
	"loss": 0.6143,
	"step": 478
	},
	{
	"epoch": 2.0384,
	"grad_norm": 0.3658795952796936,
	"learning_rate": 1.2908862689965446e-06,
	"loss": 0.6113,
	"step": 479
	},
	{
	"epoch": 2.042666666666667,
	"grad_norm": 0.35803937911987305,
	"learning_rate": 1.2806241417935975e-06,
	"loss": 0.6164,
	"step": 480
	},
	{
	"epoch": 2.0469333333333335,
	"grad_norm": 0.3726085126399994,
	"learning_rate": 1.270388904188316e-06,
	"loss": 0.6031,
	"step": 481
	},
	{
	"epoch": 2.0512,
	"grad_norm": 0.3445771634578705,
	"learning_rate": 1.2601807818874994e-06,
	"loss": 0.6445,
	"step": 482
	},
	{
	"epoch": 2.0554666666666668,
	"grad_norm": 0.3538333475589752,
	"learning_rate": 1.2500000000000007e-06,
	"loss": 0.6456,
	"step": 483
	},
	{
	"epoch": 2.0597333333333334,
	"grad_norm": 0.3596368134021759,
	"learning_rate": 1.2398467830317635e-06,
	"loss": 0.628,
	"step": 484
	},
	{
	"epoch": 2.064,
	"grad_norm": 0.3321940004825592,
	"learning_rate": 1.229721354880875e-06,
	"loss": 0.6237,
	"step": 485
	},
	{
	"epoch": 2.0682666666666667,
	"grad_norm": 0.3428746163845062,
	"learning_rate": 1.219623938832622e-06,
	"loss": 0.6196,
	"step": 486
	},
	{
	"epoch": 2.0725333333333333,
	"grad_norm": 0.34215423464775085,
	"learning_rate": 1.2095547575545685e-06,
	"loss": 0.5942,
	"step": 487
	},
	{
	"epoch": 2.0768,
	"grad_norm": 0.35768529772758484,
	"learning_rate": 1.199514033091653e-06,
	"loss": 0.6276,
	"step": 488
	},
	{
	"epoch": 2.0810666666666666,
	"grad_norm": 0.3465723991394043,
	"learning_rate": 1.1895019868612815e-06,
	"loss": 0.6087,
	"step": 489
	},
	{
	"epoch": 2.0853333333333333,
	"grad_norm": 0.3426065146923065,
	"learning_rate": 1.1795188396484505e-06,
	"loss": 0.5751,
	"step": 490
	},
	{
	"epoch": 2.0896,
	"grad_norm": 0.3264654278755188,
	"learning_rate": 1.1695648116008781e-06,
	"loss": 0.5953,
	"step": 491
	},
	{
	"epoch": 2.0938666666666665,
	"grad_norm": 0.33921313285827637,
	"learning_rate": 1.1596401222241473e-06,
	"loss": 0.6169,
	"step": 492
	},
	{
	"epoch": 2.098133333333333,
	"grad_norm": 0.3380139470100403,
	"learning_rate": 1.149744990376868e-06,
	"loss": 0.5793,
	"step": 493
	},
	{
	"epoch": 2.1024,
	"grad_norm": 0.33891841769218445,
	"learning_rate": 1.139879634265847e-06,
	"loss": 0.6119,
	"step": 494
	},
	{
	"epoch": 2.1066666666666665,
	"grad_norm": 0.33831652998924255,
	"learning_rate": 1.1300442714412819e-06,
	"loss": 0.6114,
	"step": 495
	},
	{
	"epoch": 2.1109333333333336,
	"grad_norm": 0.3383654057979584,
	"learning_rate": 1.1202391187919575e-06,
	"loss": 0.61,
	"step": 496
	},
	{
	"epoch": 2.1152,
	"grad_norm": 0.32236188650131226,
	"learning_rate": 1.1104643925404678e-06,
	"loss": 0.5775,
	"step": 497
	},
	{
	"epoch": 2.119466666666667,
	"grad_norm": 0.359540194272995,
	"learning_rate": 1.1007203082384424e-06,
	"loss": 0.5865,
	"step": 498
	},
	{
	"epoch": 2.1237333333333335,
	"grad_norm": 0.3443056344985962,
	"learning_rate": 1.0910070807618012e-06,
	"loss": 0.5759,
	"step": 499
	},
	{
	"epoch": 2.128,
	"grad_norm": 0.35354653000831604,
	"learning_rate": 1.0813249243060081e-06,
	"loss": 0.5905,
	"step": 500
	},
	{
	"epoch": 2.1322666666666668,
	"grad_norm": 0.3386101722717285,
	"learning_rate": 1.0716740523813524e-06,
	"loss": 0.6143,
	"step": 501
	},
	{
	"epoch": 2.1365333333333334,
	"grad_norm": 0.3504805564880371,
	"learning_rate": 1.062054677808238e-06,
	"loss": 0.6194,
	"step": 502
	},
	{
	"epoch": 2.1408,
	"grad_norm": 0.35748982429504395,
	"learning_rate": 1.0524670127124918e-06,
	"loss": 0.6312,
	"step": 503
	},
	{
	"epoch": 2.1450666666666667,
	"grad_norm": 0.3584182560443878,
	"learning_rate": 1.0429112685206843e-06,
	"loss": 0.622,
	"step": 504
	},
	{
	"epoch": 2.1493333333333333,
	"grad_norm": 0.34925296902656555,
	"learning_rate": 1.033387655955471e-06,
	"loss": 0.6289,
	"step": 505
	},
	{
	"epoch": 2.1536,
	"grad_norm": 0.3288041353225708,
	"learning_rate": 1.0238963850309406e-06,
	"loss": 0.5748,
	"step": 506
	},
	{
	"epoch": 2.1578666666666666,
	"grad_norm": 0.355558305978775,
	"learning_rate": 1.0144376650479867e-06,
	"loss": 0.6296,
	"step": 507
	},
	{
	"epoch": 2.1621333333333332,
	"grad_norm": 0.36249178647994995,
	"learning_rate": 1.0050117045896889e-06,
	"loss": 0.6366,
	"step": 508
	},
	{
	"epoch": 2.1664,
	"grad_norm": 0.3458845615386963,
	"learning_rate": 9.956187115167215e-07,
	"loss": 0.6318,
	"step": 509
	},
	{
	"epoch": 2.1706666666666665,
	"grad_norm": 0.34122511744499207,
	"learning_rate": 9.8625889296276e-07,
	"loss": 0.5991,
	"step": 510
	},
	{
	"epoch": 2.174933333333333,
	"grad_norm": 0.3294980525970459,
	"learning_rate": 9.769324553299174e-07,
	"loss": 0.6074,
	"step": 511
	},
	{
	"epoch": 2.1792,
	"grad_norm": 0.35011374950408936,
	"learning_rate": 9.67639604284197e-07,
	"loss": 0.6041,
	"step": 512
	},
	{
	"epoch": 2.183466666666667,
	"grad_norm": 0.3691865801811218,
	"learning_rate": 9.58380544750947e-07,
	"loss": 0.6238,
	"step": 513
	},
	{
	"epoch": 2.1877333333333335,
	"grad_norm": 0.35375744104385376,
	"learning_rate": 9.491554809103509e-07,
	"loss": 0.6299,
	"step": 514
	},
	{
	"epoch": 2.192,
	"grad_norm": 0.34152060747146606,
	"learning_rate": 9.399646161929202e-07,
	"loss": 0.6286,
	"step": 515
	},
	{
	"epoch": 2.196266666666667,
	"grad_norm": 0.36606308817863464,
	"learning_rate": 9.308081532750116e-07,
	"loss": 0.612,
	"step": 516
	},
	{
	"epoch": 2.2005333333333335,
	"grad_norm": 0.34242525696754456,
	"learning_rate": 9.216862940743529e-07,
	"loss": 0.641,
	"step": 517
	},
	{
	"epoch": 2.2048,
	"grad_norm": 0.33378395438194275,
	"learning_rate": 9.125992397455943e-07,
	"loss": 0.5533,
	"step": 518
	},
	{
	"epoch": 2.2090666666666667,
	"grad_norm": 0.3290783166885376,
	"learning_rate": 9.035471906758705e-07,
	"loss": 0.5853,
	"step": 519
	},
	{
	"epoch": 2.2133333333333334,
	"grad_norm": 0.35453036427497864,
	"learning_rate": 8.945303464803833e-07,
	"loss": 0.645,
	"step": 520
	},
	{
	"epoch": 2.2176,
	"grad_norm": 0.35501500964164734,
	"learning_rate": 8.855489059979977e-07,
	"loss": 0.6475,
	"step": 521
	},
	{
	"epoch": 2.2218666666666667,
	"grad_norm": 0.33805051445961,
	"learning_rate": 8.766030672868614e-07,
	"loss": 0.595,
	"step": 522
	},
	{
	"epoch": 2.2261333333333333,
	"grad_norm": 0.3185022175312042,
	"learning_rate": 8.676930276200294e-07,
	"loss": 0.5749,
	"step": 523
	},
	{
	"epoch": 2.2304,
	"grad_norm": 0.35385066270828247,
	"learning_rate": 8.588189834811217e-07,
	"loss": 0.6604,
	"step": 524
	},
	{
	"epoch": 2.2346666666666666,
	"grad_norm": 0.34080225229263306,
	"learning_rate": 8.499811305599858e-07,
	"loss": 0.6281,
	"step": 525
	},
	{
	"epoch": 2.238933333333333,
	"grad_norm": 0.32432180643081665,
	"learning_rate": 8.411796637483852e-07,
	"loss": 0.6241,
	"step": 526
	},
	{
	"epoch": 2.2432,
	"grad_norm": 0.3203832507133484,
	"learning_rate": 8.324147771356964e-07,
	"loss": 0.6222,
	"step": 527
	},
	{
	"epoch": 2.2474666666666665,
	"grad_norm": 0.32758456468582153,
	"learning_rate": 8.236866640046329e-07,
	"loss": 0.6351,
	"step": 528
	},
	{
	"epoch": 2.251733333333333,
	"grad_norm": 0.3457350730895996,
	"learning_rate": 8.149955168269822e-07,
	"loss": 0.6175,
	"step": 529
	},
	{
	"epoch": 2.2560000000000002,
	"grad_norm": 0.34189313650131226,
	"learning_rate": 8.0634152725936e-07,
	"loss": 0.6246,
	"step": 530
	},
	{
	"epoch": 2.2602666666666664,
	"grad_norm": 0.35133737325668335,
	"learning_rate": 7.977248861389853e-07,
	"loss": 0.6176,
	"step": 531
	},
	{
	"epoch": 2.2645333333333335,
	"grad_norm": 0.3272813856601715,
	"learning_rate": 7.891457834794711e-07,
	"loss": 0.5574,
	"step": 532
	},
	{
	"epoch": 2.2688,
	"grad_norm": 0.3326052725315094,
	"learning_rate": 7.80604408466637e-07,
	"loss": 0.5754,
	"step": 533
	},
	{
	"epoch": 2.273066666666667,
	"grad_norm": 0.3340674340724945,
	"learning_rate": 7.721009494543314e-07,
	"loss": 0.603,
	"step": 534
	},
	{
	"epoch": 2.2773333333333334,
	"grad_norm": 0.3468780517578125,
	"learning_rate": 7.636355939602824e-07,
	"loss": 0.6316,
	"step": 535
	},
	{
	"epoch": 2.2816,
	"grad_norm": 0.3622860312461853,
	"learning_rate": 7.55208528661965e-07,
	"loss": 0.5903,
	"step": 536
	},
	{
	"epoch": 2.2858666666666667,
	"grad_norm": 0.33696678280830383,
	"learning_rate": 7.468199393924775e-07,
	"loss": 0.6157,
	"step": 537
	},
	{
	"epoch": 2.2901333333333334,
	"grad_norm": 0.34255290031433105,
	"learning_rate": 7.384700111364487e-07,
	"loss": 0.6159,
	"step": 538
	},
	{
	"epoch": 2.2944,
	"grad_norm": 0.34535640478134155,
	"learning_rate": 7.301589280259572e-07,
	"loss": 0.6059,
	"step": 539
	},
	{
	"epoch": 2.2986666666666666,
	"grad_norm": 0.3281169533729553,
	"learning_rate": 7.218868733364712e-07,
	"loss": 0.5943,
	"step": 540
	},
	{
	"epoch": 2.3029333333333333,
	"grad_norm": 0.34532874822616577,
	"learning_rate": 7.136540294828062e-07,
	"loss": 0.5923,
	"step": 541
	},
	{
	"epoch": 2.3072,
	"grad_norm": 0.3486146926879883,
	"learning_rate": 7.054605780151022e-07,
	"loss": 0.6401,
	"step": 542
	},
	{
	"epoch": 2.3114666666666666,
	"grad_norm": 0.33802080154418945,
	"learning_rate": 6.973066996148245e-07,
	"loss": 0.5979,
	"step": 543
	},
	{
	"epoch": 2.315733333333333,
	"grad_norm": 0.33193105459213257,
	"learning_rate": 6.891925740907701e-07,
	"loss": 0.6044,
	"step": 544
	},
	{
	"epoch": 2.32,
	"grad_norm": 0.3354455828666687,
	"learning_rate": 6.811183803751112e-07,
	"loss": 0.5764,
	"step": 545
	},
	{
	"epoch": 2.3242666666666665,
	"grad_norm": 0.32878172397613525,
	"learning_rate": 6.730842965194479e-07,
	"loss": 0.5584,
	"step": 546
	},
	{
	"epoch": 2.3285333333333336,
	"grad_norm": 0.33991891145706177,
	"learning_rate": 6.650904996908772e-07,
	"loss": 0.6111,
	"step": 547
	},
	{
	"epoch": 2.3327999999999998,
	"grad_norm": 0.32996976375579834,
	"learning_rate": 6.571371661680909e-07,
	"loss": 0.5858,
	"step": 548
	},
	{
	"epoch": 2.337066666666667,
	"grad_norm": 0.3353066146373749,
	"learning_rate": 6.492244713374857e-07,
	"loss": 0.6115,
	"step": 549
	},
	{
	"epoch": 2.3413333333333335,
	"grad_norm": 0.31983545422554016,
	"learning_rate": 6.413525896892972e-07,
	"loss": 0.6009,
	"step": 550
	},
	{
	"epoch": 2.3456,
	"grad_norm": 0.33389580249786377,
	"learning_rate": 6.335216948137513e-07,
	"loss": 0.5975,
	"step": 551
	},
	{
	"epoch": 2.3498666666666668,
	"grad_norm": 0.34626585245132446,
	"learning_rate": 6.257319593972347e-07,
	"loss": 0.5625,
	"step": 552
	},
	{
	"epoch": 2.3541333333333334,
	"grad_norm": 0.3237454891204834,
	"learning_rate": 6.179835552184924e-07,
	"loss": 0.6048,
	"step": 553
	},
	{
	"epoch": 2.3584,
	"grad_norm": 0.3444509208202362,
	"learning_rate": 6.1027665314483e-07,
	"loss": 0.5843,
	"step": 554
	},
	{
	"epoch": 2.3626666666666667,
	"grad_norm": 0.3375681936740875,
	"learning_rate": 6.02611423128355e-07,
	"loss": 0.6234,
	"step": 555
	},
	{
	"epoch": 2.3669333333333333,
	"grad_norm": 0.35530391335487366,
	"learning_rate": 5.949880342022258e-07,
	"loss": 0.6244,
	"step": 556
	},
	{
	"epoch": 2.3712,
	"grad_norm": 0.35115307569503784,
	"learning_rate": 5.874066544769217e-07,
	"loss": 0.616,
	"step": 557
	},
	{
	"epoch": 2.3754666666666666,
	"grad_norm": 0.31733638048171997,
	"learning_rate": 5.79867451136539e-07,
	"loss": 0.6113,
	"step": 558
	},
	{
	"epoch": 2.3797333333333333,
	"grad_norm": 0.3279070556163788,
	"learning_rate": 5.723705904351027e-07,
	"loss": 0.6109,
	"step": 559
	},
	{
	"epoch": 2.384,
	"grad_norm": 0.3417271673679352,
	"learning_rate": 5.649162376929004e-07,
	"loss": 0.5966,
	"step": 560
	},
	{
	"epoch": 2.3882666666666665,
	"grad_norm": 0.3424253463745117,
	"learning_rate": 5.575045572928378e-07,
	"loss": 0.583,
	"step": 561
	},
	{
	"epoch": 2.392533333333333,
	"grad_norm": 0.3309208154678345,
	"learning_rate": 5.501357126768117e-07,
	"loss": 0.6015,
	"step": 562
	},
	{
	"epoch": 2.3968,
	"grad_norm": 0.34883973002433777,
	"learning_rate": 5.428098663421086e-07,
	"loss": 0.6008,
	"step": 563
	},
	{
	"epoch": 2.401066666666667,
	"grad_norm": 0.34529733657836914,
	"learning_rate": 5.355271798378189e-07,
	"loss": 0.6182,
	"step": 564
	},
	{
	"epoch": 2.405333333333333,
	"grad_norm": 0.34527671337127686,
	"learning_rate": 5.282878137612738e-07,
	"loss": 0.6188,
	"step": 565
	},
	{
	"epoch": 2.4096,
	"grad_norm": 0.3241617977619171,
	"learning_rate": 5.210919277545059e-07,
	"loss": 0.6145,
	"step": 566
	},
	{
	"epoch": 2.413866666666667,
	"grad_norm": 0.3428850769996643,
	"learning_rate": 5.139396805007307e-07,
	"loss": 0.6524,
	"step": 567
	},
	{
	"epoch": 2.4181333333333335,
	"grad_norm": 0.3443160653114319,
	"learning_rate": 5.068312297208414e-07,
	"loss": 0.618,
	"step": 568
	},
	{
	"epoch": 2.4224,
	"grad_norm": 0.34759387373924255,
	"learning_rate": 4.99766732169936e-07,
	"loss": 0.6638,
	"step": 569
	},
	{
	"epoch": 2.4266666666666667,
	"grad_norm": 0.3494528830051422,
	"learning_rate": 4.927463436338578e-07,
	"loss": 0.6362,
	"step": 570
	},
	{
	"epoch": 2.4309333333333334,
	"grad_norm": 0.33158278465270996,
	"learning_rate": 4.857702189257613e-07,
	"loss": 0.6511,
	"step": 571
	},
	{
	"epoch": 2.4352,
	"grad_norm": 0.33719706535339355,
	"learning_rate": 4.788385118826977e-07,
	"loss": 0.6401,
	"step": 572
	},
	{
	"epoch": 2.4394666666666667,
	"grad_norm": 0.34365832805633545,
	"learning_rate": 4.71951375362224e-07,
	"loss": 0.5674,
	"step": 573
	},
	{
	"epoch": 2.4437333333333333,
	"grad_norm": 0.36191850900650024,
	"learning_rate": 4.6510896123903027e-07,
	"loss": 0.6556,
	"step": 574
	},
	{
	"epoch": 2.448,
	"grad_norm": 0.32959699630737305,
	"learning_rate": 4.58311420401589e-07,
	"loss": 0.6102,
	"step": 575
	},
	{
	"epoch": 2.4522666666666666,
	"grad_norm": 0.3538116216659546,
	"learning_rate": 4.515589027488318e-07,
	"loss": 0.6435,
	"step": 576
	},
	{
	"epoch": 2.4565333333333332,
	"grad_norm": 0.32300877571105957,
	"learning_rate": 4.4485155718684334e-07,
	"loss": 0.5984,
	"step": 577
	},
	{
	"epoch": 2.4608,
	"grad_norm": 0.3273656666278839,
	"learning_rate": 4.381895316255741e-07,
	"loss": 0.5789,
	"step": 578
	},
	{
	"epoch": 2.4650666666666665,
	"grad_norm": 0.34395623207092285,
	"learning_rate": 4.31572972975581e-07,
	"loss": 0.6221,
	"step": 579
	},
	{
	"epoch": 2.469333333333333,
	"grad_norm": 0.3349197208881378,
	"learning_rate": 4.2500202714478853e-07,
	"loss": 0.6468,
	"step": 580
	},
	{
	"epoch": 2.4736000000000002,
	"grad_norm": 0.34170135855674744,
	"learning_rate": 4.1847683903526976e-07,
	"loss": 0.6236,
	"step": 581
	},
	{
	"epoch": 2.4778666666666664,
	"grad_norm": 0.34563860297203064,
	"learning_rate": 4.1199755254005105e-07,
	"loss": 0.644,
	"step": 582
	},
	{
	"epoch": 2.4821333333333335,
	"grad_norm": 0.3555491268634796,
	"learning_rate": 4.05564310539939e-07,
	"loss": 0.6249,
	"step": 583
	},
	{
	"epoch": 2.4864,
	"grad_norm": 0.36919161677360535,
	"learning_rate": 3.991772549003725e-07,
	"loss": 0.6316,
	"step": 584
	},
	{
	"epoch": 2.490666666666667,
	"grad_norm": 0.3386523723602295,
	"learning_rate": 3.9283652646828927e-07,
	"loss": 0.6206,
	"step": 585
	},
	{
	"epoch": 2.4949333333333334,
	"grad_norm": 0.3346911370754242,
	"learning_rate": 3.8654226506902204e-07,
	"loss": 0.5803,
	"step": 586
	},
	{
	"epoch": 2.4992,
	"grad_norm": 0.3344287872314453,
	"learning_rate": 3.8029460950321784e-07,
	"loss": 0.6229,
	"step": 587
	},
	{
	"epoch": 2.5034666666666667,
	"grad_norm": 0.3264784812927246,
	"learning_rate": 3.740936975437734e-07,
	"loss": 0.6047,
	"step": 588
	},
	{
	"epoch": 2.5077333333333334,
	"grad_norm": 0.33765143156051636,
	"learning_rate": 3.679396659327986e-07,
	"loss": 0.6114,
	"step": 589
	},
	{
	"epoch": 2.512,
	"grad_norm": 0.3362836539745331,
	"learning_rate": 3.6183265037860126e-07,
	"loss": 0.6251,
	"step": 590
	},
	{
	"epoch": 2.5162666666666667,
	"grad_norm": 0.3675728738307953,
	"learning_rate": 3.557727855526935e-07,
	"loss": 0.6128,
	"step": 591
	},
	{
	"epoch": 2.5205333333333333,
	"grad_norm": 0.3262024223804474,
	"learning_rate": 3.4976020508682345e-07,
	"loss": 0.6194,
	"step": 592
	},
	{
	"epoch": 2.5248,
	"grad_norm": 0.3431658148765564,
	"learning_rate": 3.437950415700264e-07,
	"loss": 0.6542,
	"step": 593
	},
	{
	"epoch": 2.5290666666666666,
	"grad_norm": 0.3347388207912445,
	"learning_rate": 3.378774265457041e-07,
	"loss": 0.6032,
	"step": 594
	},
	{
	"epoch": 2.533333333333333,
	"grad_norm": 0.33215099573135376,
	"learning_rate": 3.320074905087212e-07,
	"loss": 0.6248,
	"step": 595
	},
	{
	"epoch": 2.5376,
	"grad_norm": 0.3271443247795105,
	"learning_rate": 3.261853629025258e-07,
	"loss": 0.5753,
	"step": 596
	},
	{
	"epoch": 2.5418666666666665,
	"grad_norm": 0.3376429080963135,
	"learning_rate": 3.2041117211630166e-07,
	"loss": 0.6269,
	"step": 597
	},
	{
	"epoch": 2.5461333333333336,
	"grad_norm": 0.35204386711120605,
	"learning_rate": 3.14685045482131e-07,
	"loss": 0.6039,
	"step": 598
	},
	{
	"epoch": 2.5504,
	"grad_norm": 0.32474127411842346,
	"learning_rate": 3.090071092721877e-07,
	"loss": 0.5955,
	"step": 599
	},
	{
	"epoch": 2.554666666666667,
	"grad_norm": 0.3389427065849304,
	"learning_rate": 3.033774886959548e-07,
	"loss": 0.6076,
	"step": 600
	},
	{
	"epoch": 2.558933333333333,
	"grad_norm": 0.3408302664756775,
	"learning_rate": 2.977963078974616e-07,
	"loss": 0.6078,
	"step": 601
	},
	{
	"epoch": 2.5632,
	"grad_norm": 0.3243234157562256,
	"learning_rate": 2.922636899525466e-07,
	"loss": 0.6008,
	"step": 602
	},
	{
	"epoch": 2.567466666666667,
	"grad_norm": 0.3424961566925049,
	"learning_rate": 2.8677975686614264e-07,
	"loss": 0.6593,
	"step": 603
	},
	{
	"epoch": 2.5717333333333334,
	"grad_norm": 0.3413273096084595,
	"learning_rate": 2.813446295695893e-07,
	"loss": 0.5957,
	"step": 604
	},
	{
	"epoch": 2.576,
	"grad_norm": 0.34058678150177,
	"learning_rate": 2.759584279179617e-07,
	"loss": 0.6134,
	"step": 605
	},
	{
	"epoch": 2.5802666666666667,
	"grad_norm": 0.3428144156932831,
	"learning_rate": 2.7062127068743116e-07,
	"loss": 0.6109,
	"step": 606
	},
	{
	"epoch": 2.5845333333333333,
	"grad_norm": 0.33080190420150757,
	"learning_rate": 2.65333275572644e-07,
	"loss": 0.5882,
	"step": 607
	},
	{
	"epoch": 2.5888,
	"grad_norm": 0.35210663080215454,
	"learning_rate": 2.6009455918412724e-07,
	"loss": 0.6054,
	"step": 608
	},
	{
	"epoch": 2.5930666666666666,
	"grad_norm": 0.3406427800655365,
	"learning_rate": 2.5490523704571583e-07,
	"loss": 0.6164,
	"step": 609
	},
	{
	"epoch": 2.5973333333333333,
	"grad_norm": 0.3491783142089844,
	"learning_rate": 2.4976542359200664e-07,
	"loss": 0.5984,
	"step": 610
	},
	{
	"epoch": 2.6016,
	"grad_norm": 0.33281442523002625,
	"learning_rate": 2.4467523216583413e-07,
	"loss": 0.6001,
	"step": 611
	},
	{
	"epoch": 2.6058666666666666,
	"grad_norm": 0.35289639234542847,
	"learning_rate": 2.396347750157707e-07,
	"loss": 0.6258,
	"step": 612
	},
	{
	"epoch": 2.610133333333333,
	"grad_norm": 0.3332329988479614,
	"learning_rate": 2.3464416329365137e-07,
	"loss": 0.6031,
	"step": 613
	},
	{
	"epoch": 2.6144,
	"grad_norm": 0.34444907307624817,
	"learning_rate": 2.297035070521242e-07,
	"loss": 0.598,
	"step": 614
	},
	{
	"epoch": 2.618666666666667,
	"grad_norm": 0.35094860196113586,
	"learning_rate": 2.2481291524222154e-07,
	"loss": 0.6277,
	"step": 615
	},
	{
	"epoch": 2.622933333333333,
	"grad_norm": 0.34441515803337097,
	"learning_rate": 2.1997249571095835e-07,
	"loss": 0.5922,
	"step": 616
	},
	{
	"epoch": 2.6272,
	"grad_norm": 0.3234129846096039,
	"learning_rate": 2.151823551989518e-07,
	"loss": 0.6095,
	"step": 617
	},
	{
	"epoch": 2.6314666666666664,
	"grad_norm": 0.3194693326950073,
	"learning_rate": 2.1044259933807293e-07,
	"loss": 0.576,
	"step": 618
	},
	{
	"epoch": 2.6357333333333335,
	"grad_norm": 0.3412642776966095,
	"learning_rate": 2.0575333264911125e-07,
	"loss": 0.6096,
	"step": 619
	},
	{
	"epoch": 2.64,
	"grad_norm": 0.3499319851398468,
	"learning_rate": 2.0111465853947215e-07,
	"loss": 0.6403,
	"step": 620
	},
	{
	"epoch": 2.6442666666666668,
	"grad_norm": 0.33573850989341736,
	"learning_rate": 1.9652667930089908e-07,
	"loss": 0.5974,
	"step": 621
	},
	{
	"epoch": 2.6485333333333334,
	"grad_norm": 0.34437811374664307,
	"learning_rate": 1.9198949610721273e-07,
	"loss": 0.6193,
	"step": 622
	},
	{
	"epoch": 2.6528,
	"grad_norm": 0.3286372125148773,
	"learning_rate": 1.8750320901208345e-07,
	"loss": 0.6061,
	"step": 623
	},
	{
	"epoch": 2.6570666666666667,
	"grad_norm": 0.3341968357563019,
	"learning_rate": 1.8306791694682552e-07,
	"loss": 0.6014,
	"step": 624
	},
	{
	"epoch": 2.6613333333333333,
	"grad_norm": 0.34197428822517395,
	"learning_rate": 1.786837177182127e-07,
	"loss": 0.5892,
	"step": 625
	},
	{
	"epoch": 2.6656,
	"grad_norm": 0.35125383734703064,
	"learning_rate": 1.7435070800632336e-07,
	"loss": 0.6188,
	"step": 626
	},
	{
	"epoch": 2.6698666666666666,
	"grad_norm": 0.3228970766067505,
	"learning_rate": 1.7006898336240723e-07,
	"loss": 0.5889,
	"step": 627
	},
	{
	"epoch": 2.6741333333333333,
	"grad_norm": 0.32253357768058777,
	"learning_rate": 1.6583863820678032e-07,
	"loss": 0.6036,
	"step": 628
	},
	{
	"epoch": 2.6784,
	"grad_norm": 0.3427412211894989,
	"learning_rate": 1.616597658267402e-07,
	"loss": 0.6298,
	"step": 629
	},
	{
	"epoch": 2.6826666666666665,
	"grad_norm": 0.34148457646369934,
	"learning_rate": 1.5753245837451054e-07,
	"loss": 0.5882,
	"step": 630
	},
	{
	"epoch": 2.686933333333333,
	"grad_norm": 0.33803874254226685,
	"learning_rate": 1.534568068652101e-07,
	"loss": 0.6303,
	"step": 631
	},
	{
	"epoch": 2.6912000000000003,
	"grad_norm": 0.3265403211116791,
	"learning_rate": 1.4943290117484104e-07,
	"loss": 0.5489,
	"step": 632
	},
	{
	"epoch": 2.6954666666666665,
	"grad_norm": 0.33894577622413635,
	"learning_rate": 1.4546083003831201e-07,
	"loss": 0.6069,
	"step": 633
	},
	{
	"epoch": 2.6997333333333335,
	"grad_norm": 0.33138516545295715,
	"learning_rate": 1.4154068104747981e-07,
	"loss": 0.6033,
	"step": 634
	},
	{
	"epoch": 2.7039999999999997,
	"grad_norm": 0.32515788078308105,
	"learning_rate": 1.376725406492166e-07,
	"loss": 0.5931,
	"step": 635
	},
	{
	"epoch": 2.708266666666667,
	"grad_norm": 0.340743750333786,
	"learning_rate": 1.3385649414350442e-07,
	"loss": 0.6482,
	"step": 636
	},
	{
	"epoch": 2.7125333333333335,
	"grad_norm": 0.348867267370224,
	"learning_rate": 1.3009262568155462e-07,
	"loss": 0.5972,
	"step": 637
	},
	{
	"epoch": 2.7168,
	"grad_norm": 0.32340556383132935,
	"learning_rate": 1.2638101826395104e-07,
	"loss": 0.584,
	"step": 638
	},
	{
	"epoch": 2.7210666666666667,
	"grad_norm": 0.3204813003540039,
	"learning_rate": 1.227217537388209e-07,
	"loss": 0.6476,
	"step": 639
	},
	{
	"epoch": 2.7253333333333334,
	"grad_norm": 0.3281926214694977,
	"learning_rate": 1.1911491280002907e-07,
	"loss": 0.5966,
	"step": 640
	},
	{
	"epoch": 2.7296,
	"grad_norm": 0.3434792757034302,
	"learning_rate": 1.1556057498539913e-07,
	"loss": 0.5946,
	"step": 641
	},
	{
	"epoch": 2.7338666666666667,
	"grad_norm": 0.3499756455421448,
	"learning_rate": 1.120588186749591e-07,
	"loss": 0.6589,
	"step": 642
	},
	{
	"epoch": 2.7381333333333333,
	"grad_norm": 0.32970553636550903,
	"learning_rate": 1.0860972108921258e-07,
	"loss": 0.6073,
	"step": 643
	},
	{
	"epoch": 2.7424,
	"grad_norm": 0.3311205506324768,
	"learning_rate": 1.0521335828743678e-07,
	"loss": 0.5906,
	"step": 644
	},
	{
	"epoch": 2.7466666666666666,
	"grad_norm": 0.34418705105781555,
	"learning_rate": 1.0186980516600525e-07,
	"loss": 0.6233,
	"step": 645
	},
	{
	"epoch": 2.7509333333333332,
	"grad_norm": 0.32787424325942993,
	"learning_rate": 9.857913545673503e-08,
	"loss": 0.6237,
	"step": 646
	},
	{
	"epoch": 2.7552,
	"grad_norm": 0.31942757964134216,
	"learning_rate": 9.534142172526239e-08,
	"loss": 0.6018,
	"step": 647
	},
	{
	"epoch": 2.7594666666666665,
	"grad_norm": 0.3224412500858307,
	"learning_rate": 9.215673536944108e-08,
	"loss": 0.6439,
	"step": 648
	},
	{
	"epoch": 2.7637333333333336,
	"grad_norm": 0.331991583108902,
	"learning_rate": 8.902514661776885e-08,
	"loss": 0.5759,
	"step": 649
	},
	{
	"epoch": 2.768,
	"grad_norm": 0.32098379731178284,
	"learning_rate": 8.594672452783892e-08,
	"loss": 0.6009,
	"step": 650
	},
	{
	"epoch": 2.772266666666667,
	"grad_norm": 0.33318814635276794,
	"learning_rate": 8.292153698481631e-08,
	"loss": 0.6401,
	"step": 651
	},
	{
	"epoch": 2.776533333333333,
	"grad_norm": 0.3261711895465851,
	"learning_rate": 7.994965069994143e-08,
	"loss": 0.6193,
	"step": 652
	},
	{
	"epoch": 2.7808,
	"grad_norm": 0.32475578784942627,
	"learning_rate": 7.703113120905825e-08,
	"loss": 0.6092,
	"step": 653
	},
	{
	"epoch": 2.785066666666667,
	"grad_norm": 0.3446325957775116,
	"learning_rate": 7.416604287117018e-08,
	"loss": 0.5965,
	"step": 654
	},
	{
	"epoch": 2.7893333333333334,
	"grad_norm": 0.3262110948562622,
	"learning_rate": 7.135444886702064e-08,
	"loss": 0.5995,
	"step": 655
	},
	{
	"epoch": 2.7936,
	"grad_norm": 0.3156624734401703,
	"learning_rate": 6.859641119769861e-08,
	"loss": 0.6088,
	"step": 656
	},
	{
	"epoch": 2.7978666666666667,
	"grad_norm": 0.33477863669395447,
	"learning_rate": 6.58919906832728e-08,
	"loss": 0.6326,
	"step": 657
	},
	{
	"epoch": 2.8021333333333334,
	"grad_norm": 0.32477566599845886,
	"learning_rate": 6.324124696144962e-08,
	"loss": 0.5886,
	"step": 658
	},
	{
	"epoch": 2.8064,
	"grad_norm": 0.31346455216407776,
	"learning_rate": 6.064423848625822e-08,
	"loss": 0.6223,
	"step": 659
	},
	{
	"epoch": 2.8106666666666666,
	"grad_norm": 0.3541554808616638,
	"learning_rate": 5.810102252676225e-08,
	"loss": 0.6283,
	"step": 660
	},
	{
	"epoch": 2.8149333333333333,
	"grad_norm": 0.31597334146499634,
	"learning_rate": 5.5611655165795365e-08,
	"loss": 0.6229,
	"step": 661
	},
	{
	"epoch": 2.8192,
	"grad_norm": 0.325488418340683,
	"learning_rate": 5.3176191298726085e-08,
	"loss": 0.611,
	"step": 662
	},
	{
	"epoch": 2.8234666666666666,
	"grad_norm": 0.34377193450927734,
	"learning_rate": 5.0794684632246294e-08,
	"loss": 0.6153,
	"step": 663
	},
	{
	"epoch": 2.827733333333333,
	"grad_norm": 0.3318426311016083,
	"learning_rate": 4.846718768318659e-08,
	"loss": 0.5911,
	"step": 664
	},
	{
	"epoch": 2.832,
	"grad_norm": 0.33121493458747864,
	"learning_rate": 4.619375177736002e-08,
	"loss": 0.5897,
	"step": 665
	},
	{
	"epoch": 2.836266666666667,
	"grad_norm": 0.3531855642795563,
	"learning_rate": 4.397442704842825e-08,
	"loss": 0.6235,
	"step": 666
	},
	{
	"epoch": 2.840533333333333,
	"grad_norm": 0.33835938572883606,
	"learning_rate": 4.1809262436796896e-08,
	"loss": 0.6011,
	"step": 667
	},
	{
	"epoch": 2.8448,
	"grad_norm": 0.33475086092948914,
	"learning_rate": 3.9698305688535835e-08,
	"loss": 0.6189,
	"step": 668
	},
	{
	"epoch": 2.8490666666666664,
	"grad_norm": 0.341691792011261,
	"learning_rate": 3.764160335432726e-08,
	"loss": 0.6417,
	"step": 669
	},
	{
	"epoch": 2.8533333333333335,
	"grad_norm": 0.3405057489871979,
	"learning_rate": 3.563920078843791e-08,
	"loss": 0.6067,
	"step": 670
	},
	{
	"epoch": 2.8576,
	"grad_norm": 0.3475085198879242,
	"learning_rate": 3.369114214771957e-08,
	"loss": 0.634,
	"step": 671
	},
	{
	"epoch": 2.861866666666667,
	"grad_norm": 0.3283518850803375,
	"learning_rate": 3.179747039063652e-08,
	"loss": 0.5701,
	"step": 672
	},
	{
	"epoch": 2.8661333333333334,
	"grad_norm": 0.31825271248817444,
	"learning_rate": 2.99582272763152e-08,
	"loss": 0.5646,
	"step": 673
	},
	{
	"epoch": 2.8704,
	"grad_norm": 0.32577526569366455,
	"learning_rate": 2.8173453363626313e-08,
	"loss": 0.6118,
	"step": 674
	},
	{
	"epoch": 2.8746666666666667,
	"grad_norm": 0.32733026146888733,
	"learning_rate": 2.6443188010288612e-08,
	"loss": 0.6049,
	"step": 675
	},
	{
	"epoch": 2.8789333333333333,
	"grad_norm": 0.30781808495521545,
	"learning_rate": 2.4767469372002362e-08,
	"loss": 0.5807,
	"step": 676
	},
	{
	"epoch": 2.8832,
	"grad_norm": 0.33830124139785767,
	"learning_rate": 2.3146334401606406e-08,
	"loss": 0.6324,
	"step": 677
	},
	{
	"epoch": 2.8874666666666666,
	"grad_norm": 0.3217734694480896,
	"learning_rate": 2.1579818848264656e-08,
	"loss": 0.622,
	"step": 678
	},
	{
	"epoch": 2.8917333333333333,
	"grad_norm": 0.3331310749053955,
	"learning_rate": 2.0067957256676428e-08,
	"loss": 0.6071,
	"step": 679
	},
	{
	"epoch": 2.896,
	"grad_norm": 0.3501247465610504,
	"learning_rate": 1.861078296631652e-08,
	"loss": 0.6558,
	"step": 680
	},
	{
	"epoch": 2.9002666666666665,
	"grad_norm": 0.3323565423488617,
	"learning_rate": 1.7208328110697726e-08,
	"loss": 0.6192,
	"step": 681
	},
	{
	"epoch": 2.904533333333333,
	"grad_norm": 0.34517747163772583,
	"learning_rate": 1.5860623616664183e-08,
	"loss": 0.5974,
	"step": 682
	},
	{
	"epoch": 2.9088000000000003,
	"grad_norm": 0.33607083559036255,
	"learning_rate": 1.4567699203708597e-08,
	"loss": 0.6046,
	"step": 683
	},
	{
	"epoch": 2.9130666666666665,
	"grad_norm": 0.3128437101840973,
	"learning_rate": 1.332958338331608e-08,
	"loss": 0.585,
	"step": 684
	},
	{
	"epoch": 2.9173333333333336,
	"grad_norm": 0.31413301825523376,
	"learning_rate": 1.2146303458337172e-08,
	"loss": 0.5879,
	"step": 685
	},
	{
	"epoch": 2.9215999999999998,
	"grad_norm": 0.33694204688072205,
	"learning_rate": 1.1017885522383864e-08,
	"loss": 0.5916,
	"step": 686
	},
	{
	"epoch": 2.925866666666667,
	"grad_norm": 0.3271304666996002,
	"learning_rate": 9.944354459256178e-09,
	"loss": 0.5807,
	"step": 687
	},
	{
	"epoch": 2.9301333333333335,
	"grad_norm": 0.32571712136268616,
	"learning_rate": 8.92573394239149e-09,
	"loss": 0.5992,
	"step": 688
	},
	{
	"epoch": 2.9344,
	"grad_norm": 0.32543250918388367,
	"learning_rate": 7.962046434343562e-09,
	"loss": 0.6143,
	"step": 689
	},
	{
	"epoch": 2.9386666666666668,
	"grad_norm": 0.338191419839859,
	"learning_rate": 7.0533131862873804e-09,
	"loss": 0.6197,
	"step": 690
	},
	{
	"epoch": 2.9429333333333334,
	"grad_norm": 0.32142868638038635,
	"learning_rate": 6.1995542375495325e-09,
	"loss": 0.5715,
	"step": 691
	},
	{
	"epoch": 2.9472,
	"grad_norm": 0.31995338201522827,
	"learning_rate": 5.400788415167168e-09,
	"loss": 0.6164,
	"step": 692
	},
	{
	"epoch": 2.9514666666666667,
	"grad_norm": 0.32262685894966125,
	"learning_rate": 4.657033333472782e-09,
	"loss": 0.5794,
	"step": 693
	},
	{
	"epoch": 2.9557333333333333,
	"grad_norm": 0.3404903709888458,
	"learning_rate": 3.96830539370563e-09,
	"loss": 0.6333,
	"step": 694
	},
	{
	"epoch": 2.96,
	"grad_norm": 0.330427348613739,
	"learning_rate": 3.33461978364924e-09,
	"loss": 0.6157,
	"step": 695
	},
	{
	"epoch": 2.9642666666666666,
	"grad_norm": 0.32176586985588074,
	"learning_rate": 2.755990477298076e-09,
	"loss": 0.6469,
	"step": 696
	},
	{
	"epoch": 2.9685333333333332,
	"grad_norm": 0.3283085823059082,
	"learning_rate": 2.2324302345483327e-09,
	"loss": 0.6124,
	"step": 697
	},
	{
	"epoch": 2.9728,
	"grad_norm": 0.3386090397834778,
	"learning_rate": 1.7639506009162199e-09,
	"loss": 0.5898,
	"step": 698
	},
	{
	"epoch": 2.9770666666666665,
	"grad_norm": 0.3304394781589508,
	"learning_rate": 1.3505619072848309e-09,
	"loss": 0.6167,
	"step": 699
	},
	{
	"epoch": 2.981333333333333,
	"grad_norm": 0.3292512893676758,
	"learning_rate": 9.922732696748816e-10,
	"loss": 0.6138,
	"step": 700
	},
	{
	"epoch": 2.9856,
	"grad_norm": 0.32595470547676086,
	"learning_rate": 6.890925890437605e-10,
	"loss": 0.6257,
	"step": 701
	},
	{
	"epoch": 2.989866666666667,
	"grad_norm": 0.32718536257743835,
	"learning_rate": 4.410265511128886e-10,
	"loss": 0.6169,
	"step": 702
	},
	{
	"epoch": 2.994133333333333,
	"grad_norm": 0.3314308822154999,
	"learning_rate": 2.480806262181168e-10,
	"loss": 0.6169,
	"step": 703
	},
	{
	"epoch": 2.9984,
	"grad_norm": 0.3245869576931,
	"learning_rate": 1.1025906919065465e-10,
	"loss": 0.5867,
	"step": 704
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.579947292804718,
	"learning_rate": 2.756491926270144e-11,
	"loss": 0.6911,
	"step": 705
	},
	{
	"epoch": 3.0,
	"step": 705,
	"total_flos": 385665514733568.0,
	"train_loss": 0.6493097235970463,
	"train_runtime": 29533.3855,
	"train_samples_per_second": 1.524,
	"train_steps_per_second": 0.024
	}
	],
	"logging_steps": 1,
	"max_steps": 705,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 1000,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 385665514733568.0,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}