Instructions to use furproxy/27b-4-lora with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use furproxy/27b-4-lora with PEFT:

from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("/workspace/models/Qwen3.6-27B")
model = PeftModel.from_pretrained(base_model, "furproxy/27b-4-lora")

Transformers

How to use furproxy/27b-4-lora with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="furproxy/27b-4-lora")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModel
model = AutoModel.from_pretrained("furproxy/27b-4-lora", dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use furproxy/27b-4-lora with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "furproxy/27b-4-lora"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "furproxy/27b-4-lora",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/furproxy/27b-4-lora

SGLang

How to use furproxy/27b-4-lora with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "furproxy/27b-4-lora" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "furproxy/27b-4-lora",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "furproxy/27b-4-lora" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "furproxy/27b-4-lora",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use furproxy/27b-4-lora with Docker Model Runner:
```
docker model run hf.co/furproxy/27b-4-lora
```

27b-4-lora / trainer_state.json

furproxy

Upload folder using huggingface_hub

f404b71 verified about 1 month ago

raw

history blame contribute delete

153 kB

	{
	"best_global_step": null,
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 3.0,
	"eval_steps": 500,
	"global_step": 1638,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.003663003663003663,
	"grad_norm": 2.9990251064300537,
	"learning_rate": 4.0000000000000003e-07,
	"loss": 2.6876986026763916,
	"step": 2
	},
	{
	"epoch": 0.007326007326007326,
	"grad_norm": 1.4552937746047974,
	"learning_rate": 1.2000000000000002e-06,
	"loss": 1.6663331985473633,
	"step": 4
	},
	{
	"epoch": 0.01098901098901099,
	"grad_norm": 0.3801696300506592,
	"learning_rate": 2.0000000000000003e-06,
	"loss": 1.881505012512207,
	"step": 6
	},
	{
	"epoch": 0.014652014652014652,
	"grad_norm": 0.31310608983039856,
	"learning_rate": 2.8000000000000003e-06,
	"loss": 2.063166618347168,
	"step": 8
	},
	{
	"epoch": 0.018315018315018316,
	"grad_norm": 0.2654954493045807,
	"learning_rate": 3.6000000000000003e-06,
	"loss": 2.217334747314453,
	"step": 10
	},
	{
	"epoch": 0.02197802197802198,
	"grad_norm": 0.6757699847221375,
	"learning_rate": 4.4e-06,
	"loss": 2.016745090484619,
	"step": 12
	},
	{
	"epoch": 0.02564102564102564,
	"grad_norm": 0.16483484208583832,
	"learning_rate": 5.2e-06,
	"loss": 1.754088044166565,
	"step": 14
	},
	{
	"epoch": 0.029304029304029304,
	"grad_norm": 0.13874536752700806,
	"learning_rate": 6e-06,
	"loss": 1.8193743228912354,
	"step": 16
	},
	{
	"epoch": 0.03296703296703297,
	"grad_norm": 0.8416975140571594,
	"learning_rate": 6.800000000000001e-06,
	"loss": 1.7517926692962646,
	"step": 18
	},
	{
	"epoch": 0.03663003663003663,
	"grad_norm": 0.23088037967681885,
	"learning_rate": 7.600000000000001e-06,
	"loss": 1.740407943725586,
	"step": 20
	},
	{
	"epoch": 0.040293040293040296,
	"grad_norm": 0.9081354737281799,
	"learning_rate": 8.400000000000001e-06,
	"loss": 1.112322449684143,
	"step": 22
	},
	{
	"epoch": 0.04395604395604396,
	"grad_norm": 0.22898580133914948,
	"learning_rate": 9.200000000000002e-06,
	"loss": 1.2775133848190308,
	"step": 24
	},
	{
	"epoch": 0.047619047619047616,
	"grad_norm": 0.2769138813018799,
	"learning_rate": 1e-05,
	"loss": 1.4573379755020142,
	"step": 26
	},
	{
	"epoch": 0.05128205128205128,
	"grad_norm": 0.7259135246276855,
	"learning_rate": 1.0800000000000002e-05,
	"loss": 1.476364016532898,
	"step": 28
	},
	{
	"epoch": 0.054945054945054944,
	"grad_norm": 0.3253249526023865,
	"learning_rate": 1.16e-05,
	"loss": 1.1695544719696045,
	"step": 30
	},
	{
	"epoch": 0.05860805860805861,
	"grad_norm": 1.4336923360824585,
	"learning_rate": 1.2400000000000002e-05,
	"loss": 1.108648419380188,
	"step": 32
	},
	{
	"epoch": 0.06227106227106227,
	"grad_norm": 0.0512721985578537,
	"learning_rate": 1.3200000000000002e-05,
	"loss": 1.2354477643966675,
	"step": 34
	},
	{
	"epoch": 0.06593406593406594,
	"grad_norm": 0.19175046682357788,
	"learning_rate": 1.4e-05,
	"loss": 1.6114126443862915,
	"step": 36
	},
	{
	"epoch": 0.0695970695970696,
	"grad_norm": 0.2009870707988739,
	"learning_rate": 1.48e-05,
	"loss": 1.375102162361145,
	"step": 38
	},
	{
	"epoch": 0.07326007326007326,
	"grad_norm": 0.2682252824306488,
	"learning_rate": 1.5600000000000003e-05,
	"loss": 1.4309669733047485,
	"step": 40
	},
	{
	"epoch": 0.07692307692307693,
	"grad_norm": 0.5950008630752563,
	"learning_rate": 1.64e-05,
	"loss": 1.1326210498809814,
	"step": 42
	},
	{
	"epoch": 0.08058608058608059,
	"grad_norm": 0.12459344416856766,
	"learning_rate": 1.72e-05,
	"loss": 1.532023549079895,
	"step": 44
	},
	{
	"epoch": 0.08424908424908426,
	"grad_norm": 0.16608703136444092,
	"learning_rate": 1.8e-05,
	"loss": 1.6225450038909912,
	"step": 46
	},
	{
	"epoch": 0.08791208791208792,
	"grad_norm": 0.3743988275527954,
	"learning_rate": 1.88e-05,
	"loss": 1.0662028789520264,
	"step": 48
	},
	{
	"epoch": 0.09157509157509157,
	"grad_norm": 0.13452348113059998,
	"learning_rate": 1.9600000000000002e-05,
	"loss": 1.509545087814331,
	"step": 50
	},
	{
	"epoch": 0.09523809523809523,
	"grad_norm": 0.18599143624305725,
	"learning_rate": 1.999998238790087e-05,
	"loss": 0.7481744885444641,
	"step": 52
	},
	{
	"epoch": 0.0989010989010989,
	"grad_norm": 0.5716649293899536,
	"learning_rate": 1.999984149152137e-05,
	"loss": 0.9735360145568848,
	"step": 54
	},
	{
	"epoch": 0.10256410256410256,
	"grad_norm": 0.3235531747341156,
	"learning_rate": 1.999955970096814e-05,
	"loss": 1.3465101718902588,
	"step": 56
	},
	{
	"epoch": 0.10622710622710622,
	"grad_norm": 0.2089589536190033,
	"learning_rate": 1.9999137020652663e-05,
	"loss": 1.1941382884979248,
	"step": 58
	},
	{
	"epoch": 0.10989010989010989,
	"grad_norm": 0.14622101187705994,
	"learning_rate": 1.999857345719207e-05,
	"loss": 1.4114629030227661,
	"step": 60
	},
	{
	"epoch": 0.11355311355311355,
	"grad_norm": 0.12178941816091537,
	"learning_rate": 1.9997869019409047e-05,
	"loss": 1.428280234336853,
	"step": 62
	},
	{
	"epoch": 0.11721611721611722,
	"grad_norm": 0.11851361393928528,
	"learning_rate": 1.9997023718331707e-05,
	"loss": 1.3913908004760742,
	"step": 64
	},
	{
	"epoch": 0.12087912087912088,
	"grad_norm": 0.14859896898269653,
	"learning_rate": 1.9996037567193388e-05,
	"loss": 1.3538874387741089,
	"step": 66
	},
	{
	"epoch": 0.12454212454212454,
	"grad_norm": 0.21116814017295837,
	"learning_rate": 1.9994910581432466e-05,
	"loss": 1.3233115673065186,
	"step": 68
	},
	{
	"epoch": 0.1282051282051282,
	"grad_norm": 0.4955520033836365,
	"learning_rate": 1.9993642778692116e-05,
	"loss": 1.1092506647109985,
	"step": 70
	},
	{
	"epoch": 0.13186813186813187,
	"grad_norm": 0.1819586306810379,
	"learning_rate": 1.999223417882002e-05,
	"loss": 1.431759238243103,
	"step": 72
	},
	{
	"epoch": 0.13553113553113552,
	"grad_norm": 0.2914942502975464,
	"learning_rate": 1.9990684803868068e-05,
	"loss": 1.593772292137146,
	"step": 74
	},
	{
	"epoch": 0.1391941391941392,
	"grad_norm": 0.2133510410785675,
	"learning_rate": 1.9988994678092007e-05,
	"loss": 1.0841394662857056,
	"step": 76
	},
	{
	"epoch": 0.14285714285714285,
	"grad_norm": 0.15914985537528992,
	"learning_rate": 1.9987163827951077e-05,
	"loss": 1.434753656387329,
	"step": 78
	},
	{
	"epoch": 0.14652014652014653,
	"grad_norm": 0.24071533977985382,
	"learning_rate": 1.998519228210756e-05,
	"loss": 1.5812965631484985,
	"step": 80
	},
	{
	"epoch": 0.15018315018315018,
	"grad_norm": 0.24525368213653564,
	"learning_rate": 1.998308007142638e-05,
	"loss": 1.1953579187393188,
	"step": 82
	},
	{
	"epoch": 0.15384615384615385,
	"grad_norm": 0.20853224396705627,
	"learning_rate": 1.9980827228974575e-05,
	"loss": 1.3637341260910034,
	"step": 84
	},
	{
	"epoch": 0.1575091575091575,
	"grad_norm": 0.271347314119339,
	"learning_rate": 1.997843379002081e-05,
	"loss": 1.4977788925170898,
	"step": 86
	},
	{
	"epoch": 0.16117216117216118,
	"grad_norm": 0.23267266154289246,
	"learning_rate": 1.9975899792034824e-05,
	"loss": 0.6990910768508911,
	"step": 88
	},
	{
	"epoch": 0.16483516483516483,
	"grad_norm": 0.3276968002319336,
	"learning_rate": 1.9973225274686804e-05,
	"loss": 0.8633757829666138,
	"step": 90
	},
	{
	"epoch": 0.1684981684981685,
	"grad_norm": 0.22280800342559814,
	"learning_rate": 1.9970410279846816e-05,
	"loss": 1.3163621425628662,
	"step": 92
	},
	{
	"epoch": 0.17216117216117216,
	"grad_norm": 0.22414235770702362,
	"learning_rate": 1.9967454851584132e-05,
	"loss": 1.3430674076080322,
	"step": 94
	},
	{
	"epoch": 0.17582417582417584,
	"grad_norm": 0.21248510479927063,
	"learning_rate": 1.996435903616651e-05,
	"loss": 1.232496976852417,
	"step": 96
	},
	{
	"epoch": 0.1794871794871795,
	"grad_norm": 0.16916917264461517,
	"learning_rate": 1.9961122882059523e-05,
	"loss": 1.3284939527511597,
	"step": 98
	},
	{
	"epoch": 0.18315018315018314,
	"grad_norm": 0.691618800163269,
	"learning_rate": 1.9957746439925748e-05,
	"loss": 1.1766855716705322,
	"step": 100
	},
	{
	"epoch": 0.18681318681318682,
	"grad_norm": 0.2733667492866516,
	"learning_rate": 1.9954229762624016e-05,
	"loss": 1.2522631883621216,
	"step": 102
	},
	{
	"epoch": 0.19047619047619047,
	"grad_norm": 0.2049688994884491,
	"learning_rate": 1.995057290520855e-05,
	"loss": 0.9271856546401978,
	"step": 104
	},
	{
	"epoch": 0.19413919413919414,
	"grad_norm": 0.5174992680549622,
	"learning_rate": 1.9946775924928132e-05,
	"loss": 1.0877634286880493,
	"step": 106
	},
	{
	"epoch": 0.1978021978021978,
	"grad_norm": 0.1619553118944168,
	"learning_rate": 1.9942838881225183e-05,
	"loss": 1.315323829650879,
	"step": 108
	},
	{
	"epoch": 0.20146520146520147,
	"grad_norm": 0.2320939004421234,
	"learning_rate": 1.9938761835734842e-05,
	"loss": 1.1636862754821777,
	"step": 110
	},
	{
	"epoch": 0.20512820512820512,
	"grad_norm": 0.11429142951965332,
	"learning_rate": 1.9934544852284013e-05,
	"loss": 1.231845736503601,
	"step": 112
	},
	{
	"epoch": 0.2087912087912088,
	"grad_norm": 0.42730769515037537,
	"learning_rate": 1.9930187996890347e-05,
	"loss": 0.6122523546218872,
	"step": 114
	},
	{
	"epoch": 0.21245421245421245,
	"grad_norm": 0.19400282204151154,
	"learning_rate": 1.992569133776121e-05,
	"loss": 1.3050415515899658,
	"step": 116
	},
	{
	"epoch": 0.21611721611721613,
	"grad_norm": 0.31536924839019775,
	"learning_rate": 1.992105494529264e-05,
	"loss": 1.3003625869750977,
	"step": 118
	},
	{
	"epoch": 0.21978021978021978,
	"grad_norm": 0.21704483032226562,
	"learning_rate": 1.99162788920682e-05,
	"loss": 1.3665677309036255,
	"step": 120
	},
	{
	"epoch": 0.22344322344322345,
	"grad_norm": 0.3633449971675873,
	"learning_rate": 1.9911363252857887e-05,
	"loss": 1.2980903387069702,
	"step": 122
	},
	{
	"epoch": 0.2271062271062271,
	"grad_norm": 0.3505003750324249,
	"learning_rate": 1.990630810461694e-05,
	"loss": 1.0229507684707642,
	"step": 124
	},
	{
	"epoch": 0.23076923076923078,
	"grad_norm": 0.5447864532470703,
	"learning_rate": 1.990111352648463e-05,
	"loss": 0.9008902311325073,
	"step": 126
	},
	{
	"epoch": 0.23443223443223443,
	"grad_norm": 0.3103252649307251,
	"learning_rate": 1.9895779599783033e-05,
	"loss": 1.194158673286438,
	"step": 128
	},
	{
	"epoch": 0.23809523809523808,
	"grad_norm": 0.5151532888412476,
	"learning_rate": 1.989030640801576e-05,
	"loss": 1.2995827198028564,
	"step": 130
	},
	{
	"epoch": 0.24175824175824176,
	"grad_norm": 0.3624991178512573,
	"learning_rate": 1.9884694036866624e-05,
	"loss": 1.3926903009414673,
	"step": 132
	},
	{
	"epoch": 0.2454212454212454,
	"grad_norm": 0.4354057312011719,
	"learning_rate": 1.9878942574198334e-05,
	"loss": 1.2948912382125854,
	"step": 134
	},
	{
	"epoch": 0.2490842490842491,
	"grad_norm": 0.2617216110229492,
	"learning_rate": 1.9873052110051094e-05,
	"loss": 1.2796152830123901,
	"step": 136
	},
	{
	"epoch": 0.25274725274725274,
	"grad_norm": 0.1822281926870346,
	"learning_rate": 1.9867022736641205e-05,
	"loss": 1.0871366262435913,
	"step": 138
	},
	{
	"epoch": 0.2564102564102564,
	"grad_norm": 0.17482224106788635,
	"learning_rate": 1.9860854548359615e-05,
	"loss": 1.2783880233764648,
	"step": 140
	},
	{
	"epoch": 0.2600732600732601,
	"grad_norm": 0.36004480719566345,
	"learning_rate": 1.9854547641770446e-05,
	"loss": 1.2902638912200928,
	"step": 142
	},
	{
	"epoch": 0.26373626373626374,
	"grad_norm": 0.2905973494052887,
	"learning_rate": 1.9848102115609483e-05,
	"loss": 1.2590699195861816,
	"step": 144
	},
	{
	"epoch": 0.2673992673992674,
	"grad_norm": 1.8011971712112427,
	"learning_rate": 1.9841518070782615e-05,
	"loss": 1.407915711402893,
	"step": 146
	},
	{
	"epoch": 0.27106227106227104,
	"grad_norm": 0.2025395929813385,
	"learning_rate": 1.983479561036429e-05,
	"loss": 1.316453456878662,
	"step": 148
	},
	{
	"epoch": 0.27472527472527475,
	"grad_norm": 0.3478810489177704,
	"learning_rate": 1.982793483959585e-05,
	"loss": 0.9313694834709167,
	"step": 150
	},
	{
	"epoch": 0.2783882783882784,
	"grad_norm": 0.05738401412963867,
	"learning_rate": 1.9820935865883924e-05,
	"loss": 0.6459367871284485,
	"step": 152
	},
	{
	"epoch": 0.28205128205128205,
	"grad_norm": 0.2924075126647949,
	"learning_rate": 1.981379879879874e-05,
	"loss": 1.0998259782791138,
	"step": 154
	},
	{
	"epoch": 0.2857142857142857,
	"grad_norm": 0.11050858348608017,
	"learning_rate": 1.9806523750072385e-05,
	"loss": 1.3427971601486206,
	"step": 156
	},
	{
	"epoch": 0.2893772893772894,
	"grad_norm": 0.3989790678024292,
	"learning_rate": 1.9799110833597093e-05,
	"loss": 1.2781323194503784,
	"step": 158
	},
	{
	"epoch": 0.29304029304029305,
	"grad_norm": 0.15474985539913177,
	"learning_rate": 1.9791560165423433e-05,
	"loss": 0.9342338442802429,
	"step": 160
	},
	{
	"epoch": 0.2967032967032967,
	"grad_norm": 0.2973707914352417,
	"learning_rate": 1.9783871863758503e-05,
	"loss": 1.5323666334152222,
	"step": 162
	},
	{
	"epoch": 0.30036630036630035,
	"grad_norm": 0.27787813544273376,
	"learning_rate": 1.9776046048964082e-05,
	"loss": 1.0420787334442139,
	"step": 164
	},
	{
	"epoch": 0.304029304029304,
	"grad_norm": 0.47159209847450256,
	"learning_rate": 1.9768082843554737e-05,
	"loss": 1.3945231437683105,
	"step": 166
	},
	{
	"epoch": 0.3076923076923077,
	"grad_norm": 0.3334677219390869,
	"learning_rate": 1.9759982372195918e-05,
	"loss": 1.1299034357070923,
	"step": 168
	},
	{
	"epoch": 0.31135531135531136,
	"grad_norm": 0.2050635814666748,
	"learning_rate": 1.9751744761701984e-05,
	"loss": 1.260428786277771,
	"step": 170
	},
	{
	"epoch": 0.315018315018315,
	"grad_norm": 0.2747495770454407,
	"learning_rate": 1.9743370141034248e-05,
	"loss": 1.006029725074768,
	"step": 172
	},
	{
	"epoch": 0.31868131868131866,
	"grad_norm": 0.19203943014144897,
	"learning_rate": 1.973485864129894e-05,
	"loss": 0.8638060688972473,
	"step": 174
	},
	{
	"epoch": 0.32234432234432236,
	"grad_norm": 0.3611125946044922,
	"learning_rate": 1.9726210395745148e-05,
	"loss": 1.397803783416748,
	"step": 176
	},
	{
	"epoch": 0.326007326007326,
	"grad_norm": 0.22483861446380615,
	"learning_rate": 1.971742553976275e-05,
	"loss": 0.921164870262146,
	"step": 178
	},
	{
	"epoch": 0.32967032967032966,
	"grad_norm": 0.26655104756355286,
	"learning_rate": 1.9708504210880284e-05,
	"loss": 1.4893336296081543,
	"step": 180
	},
	{
	"epoch": 0.3333333333333333,
	"grad_norm": 0.2917214334011078,
	"learning_rate": 1.969944654876279e-05,
	"loss": 0.977988064289093,
	"step": 182
	},
	{
	"epoch": 0.336996336996337,
	"grad_norm": 0.4554070234298706,
	"learning_rate": 1.9690252695209636e-05,
	"loss": 1.2434574365615845,
	"step": 184
	},
	{
	"epoch": 0.34065934065934067,
	"grad_norm": 0.1526191085577011,
	"learning_rate": 1.9680922794152294e-05,
	"loss": 1.3150489330291748,
	"step": 186
	},
	{
	"epoch": 0.3443223443223443,
	"grad_norm": 0.20055139064788818,
	"learning_rate": 1.9671456991652072e-05,
	"loss": 1.170944333076477,
	"step": 188
	},
	{
	"epoch": 0.34798534798534797,
	"grad_norm": 0.35305070877075195,
	"learning_rate": 1.9661855435897858e-05,
	"loss": 1.2700278759002686,
	"step": 190
	},
	{
	"epoch": 0.3516483516483517,
	"grad_norm": 0.39122989773750305,
	"learning_rate": 1.9652118277203767e-05,
	"loss": 1.1048038005828857,
	"step": 192
	},
	{
	"epoch": 0.3553113553113553,
	"grad_norm": 0.19117675721645355,
	"learning_rate": 1.9642245668006814e-05,
	"loss": 1.2465182542800903,
	"step": 194
	},
	{
	"epoch": 0.358974358974359,
	"grad_norm": 0.17611072957515717,
	"learning_rate": 1.963223776286451e-05,
	"loss": 1.2548701763153076,
	"step": 196
	},
	{
	"epoch": 0.3626373626373626,
	"grad_norm": 0.11268770694732666,
	"learning_rate": 1.9622094718452448e-05,
	"loss": 0.8607481718063354,
	"step": 198
	},
	{
	"epoch": 0.3663003663003663,
	"grad_norm": 0.3055954873561859,
	"learning_rate": 1.9611816693561858e-05,
	"loss": 1.0138609409332275,
	"step": 200
	},
	{
	"epoch": 0.36996336996337,
	"grad_norm": 0.4296218156814575,
	"learning_rate": 1.96014038490971e-05,
	"loss": 1.4290412664413452,
	"step": 202
	},
	{
	"epoch": 0.37362637362637363,
	"grad_norm": 0.3468053638935089,
	"learning_rate": 1.9590856348073182e-05,
	"loss": 1.2090134620666504,
	"step": 204
	},
	{
	"epoch": 0.3772893772893773,
	"grad_norm": 0.31726396083831787,
	"learning_rate": 1.9580174355613168e-05,
	"loss": 0.7611775398254395,
	"step": 206
	},
	{
	"epoch": 0.38095238095238093,
	"grad_norm": 0.30729055404663086,
	"learning_rate": 1.9569358038945617e-05,
	"loss": 1.1324646472930908,
	"step": 208
	},
	{
	"epoch": 0.38461538461538464,
	"grad_norm": 0.3941497504711151,
	"learning_rate": 1.9558407567401945e-05,
	"loss": 1.4070419073104858,
	"step": 210
	},
	{
	"epoch": 0.3882783882783883,
	"grad_norm": 0.15125571191310883,
	"learning_rate": 1.9547323112413806e-05,
	"loss": 1.071973204612732,
	"step": 212
	},
	{
	"epoch": 0.39194139194139194,
	"grad_norm": 0.9772356748580933,
	"learning_rate": 1.9536104847510384e-05,
	"loss": 1.1344265937805176,
	"step": 214
	},
	{
	"epoch": 0.3956043956043956,
	"grad_norm": 0.17172372341156006,
	"learning_rate": 1.9524752948315677e-05,
	"loss": 1.2220566272735596,
	"step": 216
	},
	{
	"epoch": 0.3992673992673993,
	"grad_norm": 0.2565971314907074,
	"learning_rate": 1.9513267592545752e-05,
	"loss": 1.2576326131820679,
	"step": 218
	},
	{
	"epoch": 0.40293040293040294,
	"grad_norm": 0.2370012104511261,
	"learning_rate": 1.9501648960005964e-05,
	"loss": 0.6170648336410522,
	"step": 220
	},
	{
	"epoch": 0.4065934065934066,
	"grad_norm": 0.19124245643615723,
	"learning_rate": 1.948989723258815e-05,
	"loss": 1.339916706085205,
	"step": 222
	},
	{
	"epoch": 0.41025641025641024,
	"grad_norm": 0.22209906578063965,
	"learning_rate": 1.9478012594267757e-05,
	"loss": 1.077911615371704,
	"step": 224
	},
	{
	"epoch": 0.4139194139194139,
	"grad_norm": 0.29072171449661255,
	"learning_rate": 1.946599523110099e-05,
	"loss": 1.2358698844909668,
	"step": 226
	},
	{
	"epoch": 0.4175824175824176,
	"grad_norm": 0.14009469747543335,
	"learning_rate": 1.945384533122187e-05,
	"loss": 1.3055531978607178,
	"step": 228
	},
	{
	"epoch": 0.42124542124542125,
	"grad_norm": 0.391304075717926,
	"learning_rate": 1.9441563084839324e-05,
	"loss": 1.2255327701568604,
	"step": 230
	},
	{
	"epoch": 0.4249084249084249,
	"grad_norm": 0.39054739475250244,
	"learning_rate": 1.942914868423417e-05,
	"loss": 0.9998282790184021,
	"step": 232
	},
	{
	"epoch": 0.42857142857142855,
	"grad_norm": 0.3032453954219818,
	"learning_rate": 1.941660232375614e-05,
	"loss": 1.4894115924835205,
	"step": 234
	},
	{
	"epoch": 0.43223443223443225,
	"grad_norm": 0.28551390767097473,
	"learning_rate": 1.9403924199820813e-05,
	"loss": 1.0169166326522827,
	"step": 236
	},
	{
	"epoch": 0.4358974358974359,
	"grad_norm": 0.3329331874847412,
	"learning_rate": 1.9391114510906546e-05,
	"loss": 1.0664693117141724,
	"step": 238
	},
	{
	"epoch": 0.43956043956043955,
	"grad_norm": 0.2889857590198517,
	"learning_rate": 1.937817345755138e-05,
	"loss": 0.9052911996841431,
	"step": 240
	},
	{
	"epoch": 0.4432234432234432,
	"grad_norm": 0.24564586579799652,
	"learning_rate": 1.9365101242349883e-05,
	"loss": 0.866486668586731,
	"step": 242
	},
	{
	"epoch": 0.4468864468864469,
	"grad_norm": 0.09904003888368607,
	"learning_rate": 1.9351898069949985e-05,
	"loss": 0.5777208209037781,
	"step": 244
	},
	{
	"epoch": 0.45054945054945056,
	"grad_norm": 0.3413459062576294,
	"learning_rate": 1.9338564147049785e-05,
	"loss": 1.2593415975570679,
	"step": 246
	},
	{
	"epoch": 0.4542124542124542,
	"grad_norm": 0.226095050573349,
	"learning_rate": 1.9325099682394296e-05,
	"loss": 0.8774123787879944,
	"step": 248
	},
	{
	"epoch": 0.45787545787545786,
	"grad_norm": 0.4865569472312927,
	"learning_rate": 1.9311504886772183e-05,
	"loss": 1.2584809064865112,
	"step": 250
	},
	{
	"epoch": 0.46153846153846156,
	"grad_norm": 0.577569842338562,
	"learning_rate": 1.929777997301248e-05,
	"loss": 1.1775099039077759,
	"step": 252
	},
	{
	"epoch": 0.4652014652014652,
	"grad_norm": 0.1839146912097931,
	"learning_rate": 1.9283925155981228e-05,
	"loss": 0.9682942628860474,
	"step": 254
	},
	{
	"epoch": 0.46886446886446886,
	"grad_norm": 0.3294638395309448,
	"learning_rate": 1.9269940652578143e-05,
	"loss": 1.26495361328125,
	"step": 256
	},
	{
	"epoch": 0.4725274725274725,
	"grad_norm": 0.3952905237674713,
	"learning_rate": 1.9255826681733194e-05,
	"loss": 1.286316990852356,
	"step": 258
	},
	{
	"epoch": 0.47619047619047616,
	"grad_norm": 0.06955263763666153,
	"learning_rate": 1.924158346440319e-05,
	"loss": 0.7573358416557312,
	"step": 260
	},
	{
	"epoch": 0.47985347985347987,
	"grad_norm": 0.1773945838212967,
	"learning_rate": 1.9227211223568317e-05,
	"loss": 1.148931622505188,
	"step": 262
	},
	{
	"epoch": 0.4835164835164835,
	"grad_norm": 8.7334566116333,
	"learning_rate": 1.9212710184228654e-05,
	"loss": 1.2336255311965942,
	"step": 264
	},
	{
	"epoch": 0.48717948717948717,
	"grad_norm": 0.28341051936149597,
	"learning_rate": 1.9198080573400634e-05,
	"loss": 1.503554105758667,
	"step": 266
	},
	{
	"epoch": 0.4908424908424908,
	"grad_norm": 0.8716868758201599,
	"learning_rate": 1.9183322620113505e-05,
	"loss": 0.7954114675521851,
	"step": 268
	},
	{
	"epoch": 0.4945054945054945,
	"grad_norm": 0.25315386056900024,
	"learning_rate": 1.916843655540574e-05,
	"loss": 1.2086211442947388,
	"step": 270
	},
	{
	"epoch": 0.4981684981684982,
	"grad_norm": 0.18766719102859497,
	"learning_rate": 1.915342261232142e-05,
	"loss": 0.8882235884666443,
	"step": 272
	},
	{
	"epoch": 0.5018315018315018,
	"grad_norm": 0.44387945532798767,
	"learning_rate": 1.913828102590659e-05,
	"loss": 1.2472962141036987,
	"step": 274
	},
	{
	"epoch": 0.5054945054945055,
	"grad_norm": 0.4415086507797241,
	"learning_rate": 1.9123012033205564e-05,
	"loss": 0.8005316853523254,
	"step": 276
	},
	{
	"epoch": 0.5091575091575091,
	"grad_norm": 0.2174045890569687,
	"learning_rate": 1.9107615873257234e-05,
	"loss": 0.8836736083030701,
	"step": 278
	},
	{
	"epoch": 0.5128205128205128,
	"grad_norm": 0.17167173326015472,
	"learning_rate": 1.909209278709131e-05,
	"loss": 1.2598307132720947,
	"step": 280
	},
	{
	"epoch": 0.5164835164835165,
	"grad_norm": 0.2882351577281952,
	"learning_rate": 1.9076443017724568e-05,
	"loss": 1.2541738748550415,
	"step": 282
	},
	{
	"epoch": 0.5201465201465202,
	"grad_norm": 1.581842303276062,
	"learning_rate": 1.9060666810157025e-05,
	"loss": 1.2553168535232544,
	"step": 284
	},
	{
	"epoch": 0.5238095238095238,
	"grad_norm": 0.8126206398010254,
	"learning_rate": 1.9044764411368106e-05,
	"loss": 1.0212312936782837,
	"step": 286
	},
	{
	"epoch": 0.5274725274725275,
	"grad_norm": 0.2915526032447815,
	"learning_rate": 1.9028736070312796e-05,
	"loss": 1.262040615081787,
	"step": 288
	},
	{
	"epoch": 0.5311355311355311,
	"grad_norm": 0.1944521814584732,
	"learning_rate": 1.9012582037917713e-05,
	"loss": 1.2195689678192139,
	"step": 290
	},
	{
	"epoch": 0.5347985347985348,
	"grad_norm": 0.08246937394142151,
	"learning_rate": 1.8996302567077217e-05,
	"loss": 0.7313263416290283,
	"step": 292
	},
	{
	"epoch": 0.5384615384615384,
	"grad_norm": 0.07945507764816284,
	"learning_rate": 1.897989791264941e-05,
	"loss": 0.9493017792701721,
	"step": 294
	},
	{
	"epoch": 0.5421245421245421,
	"grad_norm": 0.21474634110927582,
	"learning_rate": 1.8963368331452172e-05,
	"loss": 1.028235673904419,
	"step": 296
	},
	{
	"epoch": 0.5457875457875457,
	"grad_norm": 0.4141714572906494,
	"learning_rate": 1.8946714082259145e-05,
	"loss": 1.3035478591918945,
	"step": 298
	},
	{
	"epoch": 0.5494505494505495,
	"grad_norm": 0.1883694976568222,
	"learning_rate": 1.8929935425795655e-05,
	"loss": 1.2072572708129883,
	"step": 300
	},
	{
	"epoch": 0.5531135531135531,
	"grad_norm": 0.1640656739473343,
	"learning_rate": 1.8913032624734657e-05,
	"loss": 1.192374587059021,
	"step": 302
	},
	{
	"epoch": 0.5567765567765568,
	"grad_norm": 0.30181482434272766,
	"learning_rate": 1.8896005943692614e-05,
	"loss": 0.9877452850341797,
	"step": 304
	},
	{
	"epoch": 0.5604395604395604,
	"grad_norm": 0.7420312166213989,
	"learning_rate": 1.8878855649225346e-05,
	"loss": 0.966866672039032,
	"step": 306
	},
	{
	"epoch": 0.5641025641025641,
	"grad_norm": 0.26835373044013977,
	"learning_rate": 1.8861582009823868e-05,
	"loss": 1.418901801109314,
	"step": 308
	},
	{
	"epoch": 0.5677655677655677,
	"grad_norm": 0.1676975041627884,
	"learning_rate": 1.884418529591018e-05,
	"loss": 0.9967933297157288,
	"step": 310
	},
	{
	"epoch": 0.5714285714285714,
	"grad_norm": 0.20033420622348785,
	"learning_rate": 1.882666577983304e-05,
	"loss": 1.213472604751587,
	"step": 312
	},
	{
	"epoch": 0.575091575091575,
	"grad_norm": 0.48580336570739746,
	"learning_rate": 1.8809023735863693e-05,
	"loss": 1.145321249961853,
	"step": 314
	},
	{
	"epoch": 0.5787545787545788,
	"grad_norm": 0.2609061896800995,
	"learning_rate": 1.879125944019158e-05,
	"loss": 1.2913143634796143,
	"step": 316
	},
	{
	"epoch": 0.5824175824175825,
	"grad_norm": 0.6166033148765564,
	"learning_rate": 1.8773373170920022e-05,
	"loss": 1.129797339439392,
	"step": 318
	},
	{
	"epoch": 0.5860805860805861,
	"grad_norm": 0.5301306247711182,
	"learning_rate": 1.875536520806185e-05,
	"loss": 1.345680832862854,
	"step": 320
	},
	{
	"epoch": 0.5897435897435898,
	"grad_norm": 0.1917179673910141,
	"learning_rate": 1.8737235833535033e-05,
	"loss": 1.532901406288147,
	"step": 322
	},
	{
	"epoch": 0.5934065934065934,
	"grad_norm": 0.1980760395526886,
	"learning_rate": 1.871898533115827e-05,
	"loss": 1.2808473110198975,
	"step": 324
	},
	{
	"epoch": 0.5970695970695971,
	"grad_norm": 0.23233523964881897,
	"learning_rate": 1.870061398664653e-05,
	"loss": 1.3697587251663208,
	"step": 326
	},
	{
	"epoch": 0.6007326007326007,
	"grad_norm": 0.3174518942832947,
	"learning_rate": 1.868212208760658e-05,
	"loss": 1.2338076829910278,
	"step": 328
	},
	{
	"epoch": 0.6043956043956044,
	"grad_norm": 0.28371602296829224,
	"learning_rate": 1.8663509923532514e-05,
	"loss": 1.113355040550232,
	"step": 330
	},
	{
	"epoch": 0.608058608058608,
	"grad_norm": 0.48596900701522827,
	"learning_rate": 1.8644777785801175e-05,
	"loss": 1.1921931505203247,
	"step": 332
	},
	{
	"epoch": 0.6117216117216118,
	"grad_norm": 0.18142631649971008,
	"learning_rate": 1.862592596766763e-05,
	"loss": 1.287142038345337,
	"step": 334
	},
	{
	"epoch": 0.6153846153846154,
	"grad_norm": 0.39248043298721313,
	"learning_rate": 1.8606954764260556e-05,
	"loss": 0.9066182374954224,
	"step": 336
	},
	{
	"epoch": 0.6190476190476191,
	"grad_norm": 0.19468526542186737,
	"learning_rate": 1.8587864472577632e-05,
	"loss": 1.240350604057312,
	"step": 338
	},
	{
	"epoch": 0.6227106227106227,
	"grad_norm": 0.8226643800735474,
	"learning_rate": 1.8568655391480882e-05,
	"loss": 1.2407909631729126,
	"step": 340
	},
	{
	"epoch": 0.6263736263736264,
	"grad_norm": 0.31274235248565674,
	"learning_rate": 1.8549327821692008e-05,
	"loss": 0.5828521251678467,
	"step": 342
	},
	{
	"epoch": 0.63003663003663,
	"grad_norm": 0.3394624888896942,
	"learning_rate": 1.852988206578767e-05,
	"loss": 1.444503903388977,
	"step": 344
	},
	{
	"epoch": 0.6336996336996337,
	"grad_norm": 0.3735450208187103,
	"learning_rate": 1.851031842819475e-05,
	"loss": 0.6921512484550476,
	"step": 346
	},
	{
	"epoch": 0.6373626373626373,
	"grad_norm": 0.19409337639808655,
	"learning_rate": 1.849063721518559e-05,
	"loss": 1.1690187454223633,
	"step": 348
	},
	{
	"epoch": 0.6410256410256411,
	"grad_norm": 0.45232218503952026,
	"learning_rate": 1.8470838734873205e-05,
	"loss": 0.8881887197494507,
	"step": 350
	},
	{
	"epoch": 0.6446886446886447,
	"grad_norm": 0.6146277785301208,
	"learning_rate": 1.8450923297206446e-05,
	"loss": 0.9233137965202332,
	"step": 352
	},
	{
	"epoch": 0.6483516483516484,
	"grad_norm": 0.6419174075126648,
	"learning_rate": 1.8430891213965146e-05,
	"loss": 0.954558253288269,
	"step": 354
	},
	{
	"epoch": 0.652014652014652,
	"grad_norm": 0.19340090453624725,
	"learning_rate": 1.8410742798755255e-05,
	"loss": 1.1792762279510498,
	"step": 356
	},
	{
	"epoch": 0.6556776556776557,
	"grad_norm": 0.26170945167541504,
	"learning_rate": 1.8390478367003922e-05,
	"loss": 1.1631232500076294,
	"step": 358
	},
	{
	"epoch": 0.6593406593406593,
	"grad_norm": 0.20085132122039795,
	"learning_rate": 1.8370098235954553e-05,
	"loss": 0.6956652998924255,
	"step": 360
	},
	{
	"epoch": 0.663003663003663,
	"grad_norm": 0.22286580502986908,
	"learning_rate": 1.834960272466184e-05,
	"loss": 0.9578306078910828,
	"step": 362
	},
	{
	"epoch": 0.6666666666666666,
	"grad_norm": 0.21211758255958557,
	"learning_rate": 1.832899215398679e-05,
	"loss": 0.9421581625938416,
	"step": 364
	},
	{
	"epoch": 0.6703296703296703,
	"grad_norm": 0.2532086968421936,
	"learning_rate": 1.8308266846591673e-05,
	"loss": 1.2012219429016113,
	"step": 366
	},
	{
	"epoch": 0.673992673992674,
	"grad_norm": 0.18142886459827423,
	"learning_rate": 1.828742712693499e-05,
	"loss": 1.065047264099121,
	"step": 368
	},
	{
	"epoch": 0.6776556776556777,
	"grad_norm": 0.17264650762081146,
	"learning_rate": 1.8266473321266385e-05,
	"loss": 1.1004585027694702,
	"step": 370
	},
	{
	"epoch": 0.6813186813186813,
	"grad_norm": 0.3221263885498047,
	"learning_rate": 1.824540575762154e-05,
	"loss": 1.1929394006729126,
	"step": 372
	},
	{
	"epoch": 0.684981684981685,
	"grad_norm": 0.2477160543203354,
	"learning_rate": 1.8224224765817033e-05,
	"loss": 1.217964768409729,
	"step": 374
	},
	{
	"epoch": 0.6886446886446886,
	"grad_norm": 0.1615569293498993,
	"learning_rate": 1.820293067744519e-05,
	"loss": 0.8868032097816467,
	"step": 376
	},
	{
	"epoch": 0.6923076923076923,
	"grad_norm": 0.16895385086536407,
	"learning_rate": 1.8181523825868882e-05,
	"loss": 0.8352534174919128,
	"step": 378
	},
	{
	"epoch": 0.6959706959706959,
	"grad_norm": 0.9105785489082336,
	"learning_rate": 1.816000454621631e-05,
	"loss": 1.06725013256073,
	"step": 380
	},
	{
	"epoch": 0.6996336996336996,
	"grad_norm": 0.32969197630882263,
	"learning_rate": 1.8138373175375744e-05,
	"loss": 0.9851567149162292,
	"step": 382
	},
	{
	"epoch": 0.7032967032967034,
	"grad_norm": 0.16868281364440918,
	"learning_rate": 1.8116630051990283e-05,
	"loss": 1.1879215240478516,
	"step": 384
	},
	{
	"epoch": 0.706959706959707,
	"grad_norm": 0.19711828231811523,
	"learning_rate": 1.8094775516452522e-05,
	"loss": 1.1000186204910278,
	"step": 386
	},
	{
	"epoch": 0.7106227106227107,
	"grad_norm": 0.24652710556983948,
	"learning_rate": 1.807280991089923e-05,
	"loss": 0.8919756412506104,
	"step": 388
	},
	{
	"epoch": 0.7142857142857143,
	"grad_norm": 0.1706121861934662,
	"learning_rate": 1.8050733579206005e-05,
	"loss": 1.113328456878662,
	"step": 390
	},
	{
	"epoch": 0.717948717948718,
	"grad_norm": 0.18873530626296997,
	"learning_rate": 1.8028546866981875e-05,
	"loss": 1.1803910732269287,
	"step": 392
	},
	{
	"epoch": 0.7216117216117216,
	"grad_norm": 0.44652295112609863,
	"learning_rate": 1.8006250121563903e-05,
	"loss": 1.1312916278839111,
	"step": 394
	},
	{
	"epoch": 0.7252747252747253,
	"grad_norm": 0.18060843646526337,
	"learning_rate": 1.798384369201174e-05,
	"loss": 1.2498586177825928,
	"step": 396
	},
	{
	"epoch": 0.7289377289377289,
	"grad_norm": 0.24533820152282715,
	"learning_rate": 1.796132792910216e-05,
	"loss": 0.92662513256073,
	"step": 398
	},
	{
	"epoch": 0.7326007326007326,
	"grad_norm": 0.30888646841049194,
	"learning_rate": 1.7938703185323575e-05,
	"loss": 0.8566319942474365,
	"step": 400
	},
	{
	"epoch": 0.7362637362637363,
	"grad_norm": 0.23859871923923492,
	"learning_rate": 1.7915969814870508e-05,
	"loss": 1.2503591775894165,
	"step": 402
	},
	{
	"epoch": 0.73992673992674,
	"grad_norm": 0.8576849699020386,
	"learning_rate": 1.789312817363805e-05,
	"loss": 0.851728081703186,
	"step": 404
	},
	{
	"epoch": 0.7435897435897436,
	"grad_norm": 0.5677772760391235,
	"learning_rate": 1.7870178619216304e-05,
	"loss": 1.0317764282226562,
	"step": 406
	},
	{
	"epoch": 0.7472527472527473,
	"grad_norm": 0.28832104802131653,
	"learning_rate": 1.784712151088476e-05,
	"loss": 1.029388666152954,
	"step": 408
	},
	{
	"epoch": 0.7509157509157509,
	"grad_norm": 2.981823444366455,
	"learning_rate": 1.782395720960669e-05,
	"loss": 0.8808343410491943,
	"step": 410
	},
	{
	"epoch": 0.7545787545787546,
	"grad_norm": 0.20613928139209747,
	"learning_rate": 1.780068607802349e-05,
	"loss": 1.1766679286956787,
	"step": 412
	},
	{
	"epoch": 0.7582417582417582,
	"grad_norm": 0.327497273683548,
	"learning_rate": 1.7777308480449006e-05,
	"loss": 1.0107574462890625,
	"step": 414
	},
	{
	"epoch": 0.7619047619047619,
	"grad_norm": 0.16338209807872772,
	"learning_rate": 1.7753824782863827e-05,
	"loss": 1.28201425075531,
	"step": 416
	},
	{
	"epoch": 0.7655677655677655,
	"grad_norm": 0.12209810316562653,
	"learning_rate": 1.773023535290956e-05,
	"loss": 0.6714475750923157,
	"step": 418
	},
	{
	"epoch": 0.7692307692307693,
	"grad_norm": 0.21398121118545532,
	"learning_rate": 1.7706540559883066e-05,
	"loss": 1.245855450630188,
	"step": 420
	},
	{
	"epoch": 0.7728937728937729,
	"grad_norm": 0.21047231554985046,
	"learning_rate": 1.7682740774730688e-05,
	"loss": 0.9957686066627502,
	"step": 422
	},
	{
	"epoch": 0.7765567765567766,
	"grad_norm": 0.3477121591567993,
	"learning_rate": 1.7658836370042443e-05,
	"loss": 0.4911870062351227,
	"step": 424
	},
	{
	"epoch": 0.7802197802197802,
	"grad_norm": 0.18948478996753693,
	"learning_rate": 1.7634827720046178e-05,
	"loss": 0.7882061004638672,
	"step": 426
	},
	{
	"epoch": 0.7838827838827839,
	"grad_norm": 0.246296226978302,
	"learning_rate": 1.7610715200601727e-05,
	"loss": 1.070567011833191,
	"step": 428
	},
	{
	"epoch": 0.7875457875457875,
	"grad_norm": 0.14532603323459625,
	"learning_rate": 1.7586499189195016e-05,
	"loss": 1.2160210609436035,
	"step": 430
	},
	{
	"epoch": 0.7912087912087912,
	"grad_norm": 0.21179836988449097,
	"learning_rate": 1.7562180064932158e-05,
	"loss": 1.3040070533752441,
	"step": 432
	},
	{
	"epoch": 0.7948717948717948,
	"grad_norm": 0.18843315541744232,
	"learning_rate": 1.7537758208533516e-05,
	"loss": 0.883861243724823,
	"step": 434
	},
	{
	"epoch": 0.7985347985347986,
	"grad_norm": 0.28507623076438904,
	"learning_rate": 1.7513234002327738e-05,
	"loss": 0.9705989956855774,
	"step": 436
	},
	{
	"epoch": 0.8021978021978022,
	"grad_norm": 0.17907510697841644,
	"learning_rate": 1.748860783024579e-05,
	"loss": 0.8900943994522095,
	"step": 438
	},
	{
	"epoch": 0.8058608058608059,
	"grad_norm": 0.1402684599161148,
	"learning_rate": 1.746388007781492e-05,
	"loss": 1.3216501474380493,
	"step": 440
	},
	{
	"epoch": 0.8095238095238095,
	"grad_norm": 0.21389149129390717,
	"learning_rate": 1.7439051132152644e-05,
	"loss": 1.203598976135254,
	"step": 442
	},
	{
	"epoch": 0.8131868131868132,
	"grad_norm": 0.3677215874195099,
	"learning_rate": 1.741412138196067e-05,
	"loss": 1.205753207206726,
	"step": 444
	},
	{
	"epoch": 0.8168498168498168,
	"grad_norm": 0.13579382002353668,
	"learning_rate": 1.738909121751882e-05,
	"loss": 1.2312397956848145,
	"step": 446
	},
	{
	"epoch": 0.8205128205128205,
	"grad_norm": 0.1395559310913086,
	"learning_rate": 1.736396103067893e-05,
	"loss": 1.2268660068511963,
	"step": 448
	},
	{
	"epoch": 0.8241758241758241,
	"grad_norm": 0.23807592689990997,
	"learning_rate": 1.7338731214858688e-05,
	"loss": 1.3640066385269165,
	"step": 450
	},
	{
	"epoch": 0.8278388278388278,
	"grad_norm": 0.31100767850875854,
	"learning_rate": 1.7313402165035504e-05,
	"loss": 1.0011274814605713,
	"step": 452
	},
	{
	"epoch": 0.8315018315018315,
	"grad_norm": 0.0944792851805687,
	"learning_rate": 1.728797427774031e-05,
	"loss": 0.5261611938476562,
	"step": 454
	},
	{
	"epoch": 0.8351648351648352,
	"grad_norm": 0.09580200910568237,
	"learning_rate": 1.7262447951051366e-05,
	"loss": 0.9001358151435852,
	"step": 456
	},
	{
	"epoch": 0.8388278388278388,
	"grad_norm": 1.045163631439209,
	"learning_rate": 1.7236823584587995e-05,
	"loss": 0.8410728573799133,
	"step": 458
	},
	{
	"epoch": 0.8424908424908425,
	"grad_norm": 0.5595254898071289,
	"learning_rate": 1.7211101579504382e-05,
	"loss": 1.0333346128463745,
	"step": 460
	},
	{
	"epoch": 0.8461538461538461,
	"grad_norm": 0.2719687521457672,
	"learning_rate": 1.7185282338483243e-05,
	"loss": 1.230086326599121,
	"step": 462
	},
	{
	"epoch": 0.8498168498168498,
	"grad_norm": 0.12194544076919556,
	"learning_rate": 1.7159366265729537e-05,
	"loss": 1.1816717386245728,
	"step": 464
	},
	{
	"epoch": 0.8534798534798534,
	"grad_norm": 0.036874208599328995,
	"learning_rate": 1.713335376696416e-05,
	"loss": 1.1999090909957886,
	"step": 466
	},
	{
	"epoch": 0.8571428571428571,
	"grad_norm": 0.19600030779838562,
	"learning_rate": 1.7107245249417556e-05,
	"loss": 0.891631543636322,
	"step": 468
	},
	{
	"epoch": 0.8608058608058609,
	"grad_norm": 0.29932400584220886,
	"learning_rate": 1.7081041121823375e-05,
	"loss": 0.9280604720115662,
	"step": 470
	},
	{
	"epoch": 0.8644688644688645,
	"grad_norm": 0.19305935502052307,
	"learning_rate": 1.705474179441205e-05,
	"loss": 1.1746187210083008,
	"step": 472
	},
	{
	"epoch": 0.8681318681318682,
	"grad_norm": 0.07503829896450043,
	"learning_rate": 1.7028347678904388e-05,
	"loss": 0.8727067112922668,
	"step": 474
	},
	{
	"epoch": 0.8717948717948718,
	"grad_norm": 0.13077512383460999,
	"learning_rate": 1.700185918850512e-05,
	"loss": 1.1008151769638062,
	"step": 476
	},
	{
	"epoch": 0.8754578754578755,
	"grad_norm": 0.1901371330022812,
	"learning_rate": 1.6975276737896443e-05,
	"loss": 1.0441374778747559,
	"step": 478
	},
	{
	"epoch": 0.8791208791208791,
	"grad_norm": 0.49179327487945557,
	"learning_rate": 1.69486007432315e-05,
	"loss": 1.0766282081604004,
	"step": 480
	},
	{
	"epoch": 0.8827838827838828,
	"grad_norm": 0.25861576199531555,
	"learning_rate": 1.6921831622127905e-05,
	"loss": 1.1920297145843506,
	"step": 482
	},
	{
	"epoch": 0.8864468864468864,
	"grad_norm": 0.21175383031368256,
	"learning_rate": 1.6894969793661163e-05,
	"loss": 1.267449140548706,
	"step": 484
	},
	{
	"epoch": 0.8901098901098901,
	"grad_norm": 0.15876920521259308,
	"learning_rate": 1.686801567835814e-05,
	"loss": 0.9071460366249084,
	"step": 486
	},
	{
	"epoch": 0.8937728937728938,
	"grad_norm": 0.42371031641960144,
	"learning_rate": 1.6840969698190467e-05,
	"loss": 1.1632630825042725,
	"step": 488
	},
	{
	"epoch": 0.8974358974358975,
	"grad_norm": 0.15626969933509827,
	"learning_rate": 1.6813832276567942e-05,
	"loss": 1.1079881191253662,
	"step": 490
	},
	{
	"epoch": 0.9010989010989011,
	"grad_norm": 0.6316317319869995,
	"learning_rate": 1.6786603838331894e-05,
	"loss": 1.0516939163208008,
	"step": 492
	},
	{
	"epoch": 0.9047619047619048,
	"grad_norm": 0.45088160037994385,
	"learning_rate": 1.6759284809748522e-05,
	"loss": 0.5825961232185364,
	"step": 494
	},
	{
	"epoch": 0.9084249084249084,
	"grad_norm": 0.1580314040184021,
	"learning_rate": 1.673187561850225e-05,
	"loss": 1.280515193939209,
	"step": 496
	},
	{
	"epoch": 0.9120879120879121,
	"grad_norm": 0.2608250379562378,
	"learning_rate": 1.6704376693689003e-05,
	"loss": 1.1362996101379395,
	"step": 498
	},
	{
	"epoch": 0.9157509157509157,
	"grad_norm": 0.1769954264163971,
	"learning_rate": 1.6676788465809506e-05,
	"loss": 0.8131341338157654,
	"step": 500
	},
	{
	"epoch": 0.9194139194139194,
	"grad_norm": 0.060602471232414246,
	"learning_rate": 1.6649111366762552e-05,
	"loss": 0.8627150654792786,
	"step": 502
	},
	{
	"epoch": 0.9230769230769231,
	"grad_norm": 0.19384537637233734,
	"learning_rate": 1.66213458298382e-05,
	"loss": 0.9442139267921448,
	"step": 504
	},
	{
	"epoch": 0.9267399267399268,
	"grad_norm": 0.07560499757528305,
	"learning_rate": 1.659349228971105e-05,
	"loss": 0.8496960401535034,
	"step": 506
	},
	{
	"epoch": 0.9304029304029304,
	"grad_norm": 0.4257555305957794,
	"learning_rate": 1.6565551182433382e-05,
	"loss": 1.1711339950561523,
	"step": 508
	},
	{
	"epoch": 0.9340659340659341,
	"grad_norm": 0.3755870759487152,
	"learning_rate": 1.6537522945428386e-05,
	"loss": 1.2261637449264526,
	"step": 510
	},
	{
	"epoch": 0.9377289377289377,
	"grad_norm": 0.5649870038032532,
	"learning_rate": 1.6509408017483258e-05,
	"loss": 1.1781846284866333,
	"step": 512
	},
	{
	"epoch": 0.9413919413919414,
	"grad_norm": 0.23034217953681946,
	"learning_rate": 1.6481206838742362e-05,
	"loss": 0.9514595866203308,
	"step": 514
	},
	{
	"epoch": 0.945054945054945,
	"grad_norm": 0.18874996900558472,
	"learning_rate": 1.645291985070034e-05,
	"loss": 1.1820859909057617,
	"step": 516
	},
	{
	"epoch": 0.9487179487179487,
	"grad_norm": 0.23948520421981812,
	"learning_rate": 1.64245474961952e-05,
	"loss": 1.2166918516159058,
	"step": 518
	},
	{
	"epoch": 0.9523809523809523,
	"grad_norm": 0.2762729227542877,
	"learning_rate": 1.639609021940136e-05,
	"loss": 1.216727375984192,
	"step": 520
	},
	{
	"epoch": 0.9560439560439561,
	"grad_norm": 0.3581596910953522,
	"learning_rate": 1.6367548465822723e-05,
	"loss": 0.8915116190910339,
	"step": 522
	},
	{
	"epoch": 0.9597069597069597,
	"grad_norm": 0.24976904690265656,
	"learning_rate": 1.6338922682285697e-05,
	"loss": 1.0291974544525146,
	"step": 524
	},
	{
	"epoch": 0.9633699633699634,
	"grad_norm": 0.28492605686187744,
	"learning_rate": 1.6310213316932187e-05,
	"loss": 0.965217113494873,
	"step": 526
	},
	{
	"epoch": 0.967032967032967,
	"grad_norm": 0.14754849672317505,
	"learning_rate": 1.6281420819212578e-05,
	"loss": 0.6573881506919861,
	"step": 528
	},
	{
	"epoch": 0.9706959706959707,
	"grad_norm": 0.47054773569107056,
	"learning_rate": 1.6252545639878728e-05,
	"loss": 0.901147186756134,
	"step": 530
	},
	{
	"epoch": 0.9743589743589743,
	"grad_norm": 0.29779255390167236,
	"learning_rate": 1.6223588230976874e-05,
	"loss": 1.3553292751312256,
	"step": 532
	},
	{
	"epoch": 0.978021978021978,
	"grad_norm": 0.1531398594379425,
	"learning_rate": 1.6194549045840582e-05,
	"loss": 0.6141087412834167,
	"step": 534
	},
	{
	"epoch": 0.9816849816849816,
	"grad_norm": 0.21005891263484955,
	"learning_rate": 1.616542853908363e-05,
	"loss": 0.8652016520500183,
	"step": 536
	},
	{
	"epoch": 0.9853479853479854,
	"grad_norm": 0.10895261913537979,
	"learning_rate": 1.6136227166592912e-05,
	"loss": 0.7932905554771423,
	"step": 538
	},
	{
	"epoch": 0.989010989010989,
	"grad_norm": 0.3947748839855194,
	"learning_rate": 1.6106945385521286e-05,
	"loss": 1.1230978965759277,
	"step": 540
	},
	{
	"epoch": 0.9926739926739927,
	"grad_norm": 0.25413796305656433,
	"learning_rate": 1.6077583654280416e-05,
	"loss": 1.173661470413208,
	"step": 542
	},
	{
	"epoch": 0.9963369963369964,
	"grad_norm": 0.3170083463191986,
	"learning_rate": 1.60481424325336e-05,
	"loss": 1.1835765838623047,
	"step": 544
	},
	{
	"epoch": 1.0,
	"grad_norm": 0.1737937182188034,
	"learning_rate": 1.6018622181188594e-05,
	"loss": 1.3657788038253784,
	"step": 546
	},
	{
	"epoch": 1.0036630036630036,
	"grad_norm": 0.38061967492103577,
	"learning_rate": 1.598902336239035e-05,
	"loss": 0.95131516456604,
	"step": 548
	},
	{
	"epoch": 1.0073260073260073,
	"grad_norm": 0.30429619550704956,
	"learning_rate": 1.595934643951382e-05,
	"loss": 1.182119607925415,
	"step": 550
	},
	{
	"epoch": 1.010989010989011,
	"grad_norm": 0.08316740393638611,
	"learning_rate": 1.5929591877156694e-05,
	"loss": 0.6702922582626343,
	"step": 552
	},
	{
	"epoch": 1.0146520146520146,
	"grad_norm": 0.16152364015579224,
	"learning_rate": 1.5899760141132115e-05,
	"loss": 1.133069634437561,
	"step": 554
	},
	{
	"epoch": 1.0183150183150182,
	"grad_norm": 0.1696375012397766,
	"learning_rate": 1.58698516984614e-05,
	"loss": 1.0280545949935913,
	"step": 556
	},
	{
	"epoch": 1.021978021978022,
	"grad_norm": 0.1253109574317932,
	"learning_rate": 1.583986701736672e-05,
	"loss": 1.2176275253295898,
	"step": 558
	},
	{
	"epoch": 1.0256410256410255,
	"grad_norm": 0.2406562715768814,
	"learning_rate": 1.5809806567263767e-05,
	"loss": 0.9253168702125549,
	"step": 560
	},
	{
	"epoch": 1.0293040293040292,
	"grad_norm": 0.19116729497909546,
	"learning_rate": 1.577967081875442e-05,
	"loss": 1.1666338443756104,
	"step": 562
	},
	{
	"epoch": 1.032967032967033,
	"grad_norm": 0.22894150018692017,
	"learning_rate": 1.574946024361936e-05,
	"loss": 1.1546154022216797,
	"step": 564
	},
	{
	"epoch": 1.0366300366300367,
	"grad_norm": 0.17245912551879883,
	"learning_rate": 1.5719175314810706e-05,
	"loss": 1.0534967184066772,
	"step": 566
	},
	{
	"epoch": 1.0402930402930404,
	"grad_norm": 0.6177197098731995,
	"learning_rate": 1.568881650644458e-05,
	"loss": 1.0505338907241821,
	"step": 568
	},
	{
	"epoch": 1.043956043956044,
	"grad_norm": 0.4463607966899872,
	"learning_rate": 1.565838429379371e-05,
	"loss": 1.111217975616455,
	"step": 570
	},
	{
	"epoch": 1.0476190476190477,
	"grad_norm": 0.336713969707489,
	"learning_rate": 1.5627879153279986e-05,
	"loss": 1.2461800575256348,
	"step": 572
	},
	{
	"epoch": 1.0512820512820513,
	"grad_norm": 0.6079159379005432,
	"learning_rate": 1.559730156246699e-05,
	"loss": 1.0888653993606567,
	"step": 574
	},
	{
	"epoch": 1.054945054945055,
	"grad_norm": 0.30595675110816956,
	"learning_rate": 1.5566652000052533e-05,
	"loss": 1.2408089637756348,
	"step": 576
	},
	{
	"epoch": 1.0586080586080586,
	"grad_norm": 0.2787778675556183,
	"learning_rate": 1.553593094586115e-05,
	"loss": 1.2228813171386719,
	"step": 578
	},
	{
	"epoch": 1.0622710622710623,
	"grad_norm": 0.2613432705402374,
	"learning_rate": 1.5505138880836595e-05,
	"loss": 1.2199451923370361,
	"step": 580
	},
	{
	"epoch": 1.065934065934066,
	"grad_norm": 0.2822198271751404,
	"learning_rate": 1.5474276287034305e-05,
	"loss": 0.9853427410125732,
	"step": 582
	},
	{
	"epoch": 1.0695970695970696,
	"grad_norm": 0.21116189658641815,
	"learning_rate": 1.544334364761387e-05,
	"loss": 1.14948308467865,
	"step": 584
	},
	{
	"epoch": 1.0732600732600732,
	"grad_norm": 0.1739940047264099,
	"learning_rate": 1.541234144683144e-05,
	"loss": 1.0748449563980103,
	"step": 586
	},
	{
	"epoch": 1.0769230769230769,
	"grad_norm": 0.26933544874191284,
	"learning_rate": 1.5381270170032173e-05,
	"loss": 0.8263255953788757,
	"step": 588
	},
	{
	"epoch": 1.0805860805860805,
	"grad_norm": 0.2734127342700958,
	"learning_rate": 1.5350130303642625e-05,
	"loss": 1.206434965133667,
	"step": 590
	},
	{
	"epoch": 1.0842490842490842,
	"grad_norm": 0.17778117954730988,
	"learning_rate": 1.5318922335163128e-05,
	"loss": 1.0260313749313354,
	"step": 592
	},
	{
	"epoch": 1.0879120879120878,
	"grad_norm": 0.29060789942741394,
	"learning_rate": 1.5287646753160174e-05,
	"loss": 0.9886998534202576,
	"step": 594
	},
	{
	"epoch": 1.0915750915750915,
	"grad_norm": 0.31412631273269653,
	"learning_rate": 1.5256304047258739e-05,
	"loss": 1.0180435180664062,
	"step": 596
	},
	{
	"epoch": 1.0952380952380953,
	"grad_norm": 0.8019676208496094,
	"learning_rate": 1.522489470813466e-05,
	"loss": 1.0896857976913452,
	"step": 598
	},
	{
	"epoch": 1.098901098901099,
	"grad_norm": 0.44265615940093994,
	"learning_rate": 1.5193419227506913e-05,
	"loss": 1.1571629047393799,
	"step": 600
	},
	{
	"epoch": 1.1025641025641026,
	"grad_norm": 0.17273813486099243,
	"learning_rate": 1.5161878098129937e-05,
	"loss": 0.808494508266449,
	"step": 602
	},
	{
	"epoch": 1.1062271062271063,
	"grad_norm": 0.4399075210094452,
	"learning_rate": 1.5130271813785908e-05,
	"loss": 0.9551038146018982,
	"step": 604
	},
	{
	"epoch": 1.10989010989011,
	"grad_norm": 0.167891725897789,
	"learning_rate": 1.509860086927703e-05,
	"loss": 0.8898839950561523,
	"step": 606
	},
	{
	"epoch": 1.1135531135531136,
	"grad_norm": 0.39632448554039,
	"learning_rate": 1.5066865760417757e-05,
	"loss": 1.2790815830230713,
	"step": 608
	},
	{
	"epoch": 1.1172161172161172,
	"grad_norm": 0.19680312275886536,
	"learning_rate": 1.5035066984027053e-05,
	"loss": 0.7381772398948669,
	"step": 610
	},
	{
	"epoch": 1.120879120879121,
	"grad_norm": 0.46025514602661133,
	"learning_rate": 1.5003205037920616e-05,
	"loss": 1.177968978881836,
	"step": 612
	},
	{
	"epoch": 1.1245421245421245,
	"grad_norm": 0.2731161415576935,
	"learning_rate": 1.497128042090307e-05,
	"loss": 0.9878349900245667,
	"step": 614
	},
	{
	"epoch": 1.1282051282051282,
	"grad_norm": 0.4879436492919922,
	"learning_rate": 1.493929363276017e-05,
	"loss": 1.159622073173523,
	"step": 616
	},
	{
	"epoch": 1.1318681318681318,
	"grad_norm": 0.32358941435813904,
	"learning_rate": 1.4907245174250957e-05,
	"loss": 0.39573994278907776,
	"step": 618
	},
	{
	"epoch": 1.1355311355311355,
	"grad_norm": 0.32142671942710876,
	"learning_rate": 1.4875135547099953e-05,
	"loss": 1.0841599702835083,
	"step": 620
	},
	{
	"epoch": 1.1391941391941391,
	"grad_norm": 1.0509231090545654,
	"learning_rate": 1.484296525398927e-05,
	"loss": 0.7484586238861084,
	"step": 622
	},
	{
	"epoch": 1.1428571428571428,
	"grad_norm": 0.33799245953559875,
	"learning_rate": 1.4810734798550769e-05,
	"loss": 1.099888801574707,
	"step": 624
	},
	{
	"epoch": 1.1465201465201464,
	"grad_norm": 0.24967046082019806,
	"learning_rate": 1.4778444685358147e-05,
	"loss": 1.3691567182540894,
	"step": 626
	},
	{
	"epoch": 1.15018315018315,
	"grad_norm": 1.2254343032836914,
	"learning_rate": 1.4746095419919075e-05,
	"loss": 0.44285932183265686,
	"step": 628
	},
	{
	"epoch": 1.1538461538461537,
	"grad_norm": 0.05378958210349083,
	"learning_rate": 1.4713687508667251e-05,
	"loss": 1.1192455291748047,
	"step": 630
	},
	{
	"epoch": 1.1575091575091574,
	"grad_norm": 0.3350047171115875,
	"learning_rate": 1.4681221458954484e-05,
	"loss": 1.0908193588256836,
	"step": 632
	},
	{
	"epoch": 1.1611721611721613,
	"grad_norm": 0.4507475197315216,
	"learning_rate": 1.4648697779042754e-05,
	"loss": 0.8585102558135986,
	"step": 634
	},
	{
	"epoch": 1.164835164835165,
	"grad_norm": 0.2026178389787674,
	"learning_rate": 1.461611697809625e-05,
	"loss": 0.9734127521514893,
	"step": 636
	},
	{
	"epoch": 1.1684981684981686,
	"grad_norm": 0.24890930950641632,
	"learning_rate": 1.4583479566173401e-05,
	"loss": 1.1943788528442383,
	"step": 638
	},
	{
	"epoch": 1.1721611721611722,
	"grad_norm": 0.11191798001527786,
	"learning_rate": 1.4550786054218902e-05,
	"loss": 0.7507898211479187,
	"step": 640
	},
	{
	"epoch": 1.1758241758241759,
	"grad_norm": 0.20529033243656158,
	"learning_rate": 1.4518036954055685e-05,
	"loss": 1.1232999563217163,
	"step": 642
	},
	{
	"epoch": 1.1794871794871795,
	"grad_norm": 0.32321590185165405,
	"learning_rate": 1.4485232778376945e-05,
	"loss": 1.090404987335205,
	"step": 644
	},
	{
	"epoch": 1.1831501831501832,
	"grad_norm": 0.14505989849567413,
	"learning_rate": 1.4452374040738078e-05,
	"loss": 0.7514759302139282,
	"step": 646
	},
	{
	"epoch": 1.1868131868131868,
	"grad_norm": 0.29796501994132996,
	"learning_rate": 1.4419461255548666e-05,
	"loss": 0.8982775807380676,
	"step": 648
	},
	{
	"epoch": 1.1904761904761905,
	"grad_norm": 0.1850217878818512,
	"learning_rate": 1.4386494938064417e-05,
	"loss": 1.1429556608200073,
	"step": 650
	},
	{
	"epoch": 1.1941391941391941,
	"grad_norm": 0.20900724828243256,
	"learning_rate": 1.4353475604379093e-05,
	"loss": 0.6728243231773376,
	"step": 652
	},
	{
	"epoch": 1.1978021978021978,
	"grad_norm": 0.25098782777786255,
	"learning_rate": 1.4320403771416438e-05,
	"loss": 1.297597050666809,
	"step": 654
	},
	{
	"epoch": 1.2014652014652014,
	"grad_norm": 0.268048495054245,
	"learning_rate": 1.4287279956922076e-05,
	"loss": 0.8227198123931885,
	"step": 656
	},
	{
	"epoch": 1.205128205128205,
	"grad_norm": 0.5488580465316772,
	"learning_rate": 1.4254104679455416e-05,
	"loss": 0.7556626796722412,
	"step": 658
	},
	{
	"epoch": 1.2087912087912087,
	"grad_norm": 0.31467971205711365,
	"learning_rate": 1.4220878458381523e-05,
	"loss": 1.1595160961151123,
	"step": 660
	},
	{
	"epoch": 1.2124542124542124,
	"grad_norm": 0.5642125606536865,
	"learning_rate": 1.418760181386301e-05,
	"loss": 1.0214927196502686,
	"step": 662
	},
	{
	"epoch": 1.2161172161172162,
	"grad_norm": 0.6281329989433289,
	"learning_rate": 1.4154275266851856e-05,
	"loss": 0.8876990079879761,
	"step": 664
	},
	{
	"epoch": 1.2197802197802199,
	"grad_norm": 0.2951427698135376,
	"learning_rate": 1.4120899339081291e-05,
	"loss": 0.8086169958114624,
	"step": 666
	},
	{
	"epoch": 1.2234432234432235,
	"grad_norm": 0.4641685485839844,
	"learning_rate": 1.4087474553057599e-05,
	"loss": 0.8984144926071167,
	"step": 668
	},
	{
	"epoch": 1.2271062271062272,
	"grad_norm": 0.23914682865142822,
	"learning_rate": 1.405400143205195e-05,
	"loss": 0.68328458070755,
	"step": 670
	},
	{
	"epoch": 1.2307692307692308,
	"grad_norm": 0.20490619540214539,
	"learning_rate": 1.4020480500092217e-05,
	"loss": 1.1849759817123413,
	"step": 672
	},
	{
	"epoch": 1.2344322344322345,
	"grad_norm": 0.24510972201824188,
	"learning_rate": 1.3986912281954745e-05,
	"loss": 1.1614172458648682,
	"step": 674
	},
	{
	"epoch": 1.2380952380952381,
	"grad_norm": 0.29094198346138,
	"learning_rate": 1.3953297303156174e-05,
	"loss": 1.1797810792922974,
	"step": 676
	},
	{
	"epoch": 1.2417582417582418,
	"grad_norm": 0.32928380370140076,
	"learning_rate": 1.391963608994517e-05,
	"loss": 0.7733846306800842,
	"step": 678
	},
	{
	"epoch": 1.2454212454212454,
	"grad_norm": 0.313425213098526,
	"learning_rate": 1.3885929169294218e-05,
	"loss": 0.8277187943458557,
	"step": 680
	},
	{
	"epoch": 1.249084249084249,
	"grad_norm": 0.9971262216567993,
	"learning_rate": 1.3852177068891364e-05,
	"loss": 1.1930638551712036,
	"step": 682
	},
	{
	"epoch": 1.2527472527472527,
	"grad_norm": 0.25025832653045654,
	"learning_rate": 1.3818380317131946e-05,
	"loss": 1.1631584167480469,
	"step": 684
	},
	{
	"epoch": 1.2564102564102564,
	"grad_norm": 0.3746495842933655,
	"learning_rate": 1.3784539443110323e-05,
	"loss": 0.8208354115486145,
	"step": 686
	},
	{
	"epoch": 1.26007326007326,
	"grad_norm": 0.18115021288394928,
	"learning_rate": 1.375065497661161e-05,
	"loss": 1.1170754432678223,
	"step": 688
	},
	{
	"epoch": 1.2637362637362637,
	"grad_norm": 0.3046591281890869,
	"learning_rate": 1.3716727448103356e-05,
	"loss": 1.1399976015090942,
	"step": 690
	},
	{
	"epoch": 1.2673992673992673,
	"grad_norm": 0.18948785960674286,
	"learning_rate": 1.3682757388727261e-05,
	"loss": 1.1814244985580444,
	"step": 692
	},
	{
	"epoch": 1.271062271062271,
	"grad_norm": 0.533482551574707,
	"learning_rate": 1.3648745330290848e-05,
	"loss": 0.978636622428894,
	"step": 694
	},
	{
	"epoch": 1.2747252747252746,
	"grad_norm": 0.8323184251785278,
	"learning_rate": 1.361469180525916e-05,
	"loss": 1.0108963251113892,
	"step": 696
	},
	{
	"epoch": 1.2783882783882783,
	"grad_norm": 0.5439953207969666,
	"learning_rate": 1.358059734674638e-05,
	"loss": 0.9210678935050964,
	"step": 698
	},
	{
	"epoch": 1.282051282051282,
	"grad_norm": 0.11215175688266754,
	"learning_rate": 1.3546462488507532e-05,
	"loss": 0.6512026786804199,
	"step": 700
	},
	{
	"epoch": 1.2857142857142856,
	"grad_norm": 0.37732869386672974,
	"learning_rate": 1.3512287764930102e-05,
	"loss": 0.5342491865158081,
	"step": 702
	},
	{
	"epoch": 1.2893772893772895,
	"grad_norm": 0.6193699836730957,
	"learning_rate": 1.347807371102567e-05,
	"loss": 1.278100609779358,
	"step": 704
	},
	{
	"epoch": 1.293040293040293,
	"grad_norm": 0.11498138308525085,
	"learning_rate": 1.3443820862421542e-05,
	"loss": 0.9952257871627808,
	"step": 706
	},
	{
	"epoch": 1.2967032967032968,
	"grad_norm": 0.08605136722326279,
	"learning_rate": 1.3409529755352361e-05,
	"loss": 0.9555791616439819,
	"step": 708
	},
	{
	"epoch": 1.3003663003663004,
	"grad_norm": 0.27246323227882385,
	"learning_rate": 1.3375200926651719e-05,
	"loss": 0.5672224164009094,
	"step": 710
	},
	{
	"epoch": 1.304029304029304,
	"grad_norm": 0.3187742829322815,
	"learning_rate": 1.3340834913743742e-05,
	"loss": 0.8858057856559753,
	"step": 712
	},
	{
	"epoch": 1.3076923076923077,
	"grad_norm": 0.16815616190433502,
	"learning_rate": 1.3306432254634676e-05,
	"loss": 1.204947829246521,
	"step": 714
	},
	{
	"epoch": 1.3113553113553114,
	"grad_norm": 0.41079041361808777,
	"learning_rate": 1.3271993487904485e-05,
	"loss": 1.1408731937408447,
	"step": 716
	},
	{
	"epoch": 1.315018315018315,
	"grad_norm": 0.27732053399086,
	"learning_rate": 1.3237519152698392e-05,
	"loss": 0.9380479454994202,
	"step": 718
	},
	{
	"epoch": 1.3186813186813187,
	"grad_norm": 0.21861641108989716,
	"learning_rate": 1.3203009788718454e-05,
	"loss": 0.9294501543045044,
	"step": 720
	},
	{
	"epoch": 1.3223443223443223,
	"grad_norm": 0.18586112558841705,
	"learning_rate": 1.3168465936215114e-05,
	"loss": 0.9205433130264282,
	"step": 722
	},
	{
	"epoch": 1.326007326007326,
	"grad_norm": 0.22559452056884766,
	"learning_rate": 1.3133888135978733e-05,
	"loss": 1.204390287399292,
	"step": 724
	},
	{
	"epoch": 1.3296703296703296,
	"grad_norm": 0.18981778621673584,
	"learning_rate": 1.3099276929331132e-05,
	"loss": 1.0717546939849854,
	"step": 726
	},
	{
	"epoch": 1.3333333333333333,
	"grad_norm": 0.8061219453811646,
	"learning_rate": 1.3064632858117123e-05,
	"loss": 1.141485571861267,
	"step": 728
	},
	{
	"epoch": 1.3369963369963371,
	"grad_norm": 0.27166712284088135,
	"learning_rate": 1.3029956464696006e-05,
	"loss": 0.7387529611587524,
	"step": 730
	},
	{
	"epoch": 1.3406593406593408,
	"grad_norm": 0.24559837579727173,
	"learning_rate": 1.2995248291933099e-05,
	"loss": 0.8294005393981934,
	"step": 732
	},
	{
	"epoch": 1.3443223443223444,
	"grad_norm": 0.4172825217247009,
	"learning_rate": 1.296050888319123e-05,
	"loss": 0.6106349229812622,
	"step": 734
	},
	{
	"epoch": 1.347985347985348,
	"grad_norm": 0.30259451270103455,
	"learning_rate": 1.2925738782322232e-05,
	"loss": 1.1268317699432373,
	"step": 736
	},
	{
	"epoch": 1.3516483516483517,
	"grad_norm": 0.45538032054901123,
	"learning_rate": 1.2890938533658429e-05,
	"loss": 0.7494300007820129,
	"step": 738
	},
	{
	"epoch": 1.3553113553113554,
	"grad_norm": 0.2754368484020233,
	"learning_rate": 1.2856108682004116e-05,
	"loss": 1.0099072456359863,
	"step": 740
	},
	{
	"epoch": 1.358974358974359,
	"grad_norm": 1.1335643529891968,
	"learning_rate": 1.282124977262702e-05,
	"loss": 0.6061318516731262,
	"step": 742
	},
	{
	"epoch": 1.3626373626373627,
	"grad_norm": 0.22091345489025116,
	"learning_rate": 1.2786362351249785e-05,
	"loss": 1.2335970401763916,
	"step": 744
	},
	{
	"epoch": 1.3663003663003663,
	"grad_norm": 0.1620124727487564,
	"learning_rate": 1.2751446964041405e-05,
	"loss": 1.0585705041885376,
	"step": 746
	},
	{
	"epoch": 1.36996336996337,
	"grad_norm": 0.18626387417316437,
	"learning_rate": 1.2716504157608693e-05,
	"loss": 1.0690348148345947,
	"step": 748
	},
	{
	"epoch": 1.3736263736263736,
	"grad_norm": 0.4700137674808502,
	"learning_rate": 1.2681534478987703e-05,
	"loss": 0.7966979146003723,
	"step": 750
	},
	{
	"epoch": 1.3772893772893773,
	"grad_norm": 0.2724190056324005,
	"learning_rate": 1.264653847563519e-05,
	"loss": 1.1220238208770752,
	"step": 752
	},
	{
	"epoch": 1.380952380952381,
	"grad_norm": 0.38326799869537354,
	"learning_rate": 1.2611516695420023e-05,
	"loss": 0.9589250087738037,
	"step": 754
	},
	{
	"epoch": 1.3846153846153846,
	"grad_norm": 0.20580832660198212,
	"learning_rate": 1.2576469686614608e-05,
	"loss": 1.3073914051055908,
	"step": 756
	},
	{
	"epoch": 1.3882783882783882,
	"grad_norm": 0.20781798660755157,
	"learning_rate": 1.2541397997886317e-05,
	"loss": 1.207567811012268,
	"step": 758
	},
	{
	"epoch": 1.3919413919413919,
	"grad_norm": 0.11688730120658875,
	"learning_rate": 1.2506302178288887e-05,
	"loss": 1.1461073160171509,
	"step": 760
	},
	{
	"epoch": 1.3956043956043955,
	"grad_norm": 0.13031449913978577,
	"learning_rate": 1.2471182777253832e-05,
	"loss": 1.1465712785720825,
	"step": 762
	},
	{
	"epoch": 1.3992673992673992,
	"grad_norm": 0.7425429224967957,
	"learning_rate": 1.2436040344581824e-05,
	"loss": 0.6940481066703796,
	"step": 764
	},
	{
	"epoch": 1.4029304029304028,
	"grad_norm": 0.1409740447998047,
	"learning_rate": 1.2400875430434119e-05,
	"loss": 0.8896733522415161,
	"step": 766
	},
	{
	"epoch": 1.4065934065934065,
	"grad_norm": 0.6136982440948486,
	"learning_rate": 1.236568858532391e-05,
	"loss": 0.8965504765510559,
	"step": 768
	},
	{
	"epoch": 1.4102564102564101,
	"grad_norm": 0.9428948760032654,
	"learning_rate": 1.2330480360107728e-05,
	"loss": 1.178584337234497,
	"step": 770
	},
	{
	"epoch": 1.4139194139194138,
	"grad_norm": 0.23718096315860748,
	"learning_rate": 1.2295251305976818e-05,
	"loss": 1.2134631872177124,
	"step": 772
	},
	{
	"epoch": 1.4175824175824177,
	"grad_norm": 0.5856656432151794,
	"learning_rate": 1.2260001974448504e-05,
	"loss": 1.0313076972961426,
	"step": 774
	},
	{
	"epoch": 1.4212454212454213,
	"grad_norm": 0.18890565633773804,
	"learning_rate": 1.222473291735754e-05,
	"loss": 1.155706763267517,
	"step": 776
	},
	{
	"epoch": 1.424908424908425,
	"grad_norm": 0.6749048829078674,
	"learning_rate": 1.218944468684752e-05,
	"loss": 0.8292032480239868,
	"step": 778
	},
	{
	"epoch": 1.4285714285714286,
	"grad_norm": 0.26861321926116943,
	"learning_rate": 1.215413783536217e-05,
	"loss": 1.3639805316925049,
	"step": 780
	},
	{
	"epoch": 1.4322344322344323,
	"grad_norm": 0.614528477191925,
	"learning_rate": 1.2118812915636744e-05,
	"loss": 1.2479382753372192,
	"step": 782
	},
	{
	"epoch": 1.435897435897436,
	"grad_norm": 0.23455196619033813,
	"learning_rate": 1.2083470480689363e-05,
	"loss": 1.1566649675369263,
	"step": 784
	},
	{
	"epoch": 1.4395604395604396,
	"grad_norm": 0.5015549063682556,
	"learning_rate": 1.2048111083812342e-05,
	"loss": 0.9601765871047974,
	"step": 786
	},
	{
	"epoch": 1.4432234432234432,
	"grad_norm": 0.4462692141532898,
	"learning_rate": 1.2012735278563546e-05,
	"loss": 1.132340908050537,
	"step": 788
	},
	{
	"epoch": 1.4468864468864469,
	"grad_norm": 0.058078374713659286,
	"learning_rate": 1.1977343618757702e-05,
	"loss": 0.7252522706985474,
	"step": 790
	},
	{
	"epoch": 1.4505494505494505,
	"grad_norm": 0.1725509613752365,
	"learning_rate": 1.1941936658457769e-05,
	"loss": 0.9156342148780823,
	"step": 792
	},
	{
	"epoch": 1.4542124542124542,
	"grad_norm": 0.1891067773103714,
	"learning_rate": 1.1906514951966208e-05,
	"loss": 0.7965120077133179,
	"step": 794
	},
	{
	"epoch": 1.4578754578754578,
	"grad_norm": 0.35316765308380127,
	"learning_rate": 1.1871079053816357e-05,
	"loss": 1.1462140083312988,
	"step": 796
	},
	{
	"epoch": 1.4615384615384617,
	"grad_norm": 0.5077418088912964,
	"learning_rate": 1.1835629518763714e-05,
	"loss": 0.8043964505195618,
	"step": 798
	},
	{
	"epoch": 1.4652014652014653,
	"grad_norm": 0.19880668818950653,
	"learning_rate": 1.1800166901777272e-05,
	"loss": 1.0313421487808228,
	"step": 800
	},
	{
	"epoch": 1.468864468864469,
	"grad_norm": 0.6041324734687805,
	"learning_rate": 1.1764691758030825e-05,
	"loss": 1.5652896165847778,
	"step": 802
	},
	{
	"epoch": 1.4725274725274726,
	"grad_norm": 0.5720117688179016,
	"learning_rate": 1.1729204642894265e-05,
	"loss": 1.0238008499145508,
	"step": 804
	},
	{
	"epoch": 1.4761904761904763,
	"grad_norm": 1.6409764289855957,
	"learning_rate": 1.1693706111924912e-05,
	"loss": 1.1952707767486572,
	"step": 806
	},
	{
	"epoch": 1.47985347985348,
	"grad_norm": 0.364315003156662,
	"learning_rate": 1.1658196720858794e-05,
	"loss": 1.170802116394043,
	"step": 808
	},
	{
	"epoch": 1.4835164835164836,
	"grad_norm": 0.23474650084972382,
	"learning_rate": 1.1622677025601966e-05,
	"loss": 1.0006611347198486,
	"step": 810
	},
	{
	"epoch": 1.4871794871794872,
	"grad_norm": 0.19155164062976837,
	"learning_rate": 1.1587147582221776e-05,
	"loss": 0.8545271754264832,
	"step": 812
	},
	{
	"epoch": 1.4908424908424909,
	"grad_norm": 0.2254861444234848,
	"learning_rate": 1.1551608946938208e-05,
	"loss": 1.2002607583999634,
	"step": 814
	},
	{
	"epoch": 1.4945054945054945,
	"grad_norm": 0.95094233751297,
	"learning_rate": 1.1516061676115124e-05,
	"loss": 1.1363773345947266,
	"step": 816
	},
	{
	"epoch": 1.4981684981684982,
	"grad_norm": 0.14062048494815826,
	"learning_rate": 1.1480506326251595e-05,
	"loss": 0.4067857265472412,
	"step": 818
	},
	{
	"epoch": 1.5018315018315018,
	"grad_norm": 0.20023633539676666,
	"learning_rate": 1.1444943453973155e-05,
	"loss": 1.1526317596435547,
	"step": 820
	},
	{
	"epoch": 1.5054945054945055,
	"grad_norm": 0.14617124199867249,
	"learning_rate": 1.1409373616023111e-05,
	"loss": 0.908935546875,
	"step": 822
	},
	{
	"epoch": 1.5091575091575091,
	"grad_norm": 0.24364927411079407,
	"learning_rate": 1.1373797369253818e-05,
	"loss": 0.8317020535469055,
	"step": 824
	},
	{
	"epoch": 1.5128205128205128,
	"grad_norm": 0.3145918548107147,
	"learning_rate": 1.1338215270617967e-05,
	"loss": 1.0526800155639648,
	"step": 826
	},
	{
	"epoch": 1.5164835164835164,
	"grad_norm": 0.23534518480300903,
	"learning_rate": 1.130262787715985e-05,
	"loss": 1.0063765048980713,
	"step": 828
	},
	{
	"epoch": 1.52014652014652,
	"grad_norm": 0.5414501428604126,
	"learning_rate": 1.1267035746006658e-05,
	"loss": 1.0093384981155396,
	"step": 830
	},
	{
	"epoch": 1.5238095238095237,
	"grad_norm": 0.3159659504890442,
	"learning_rate": 1.1231439434359755e-05,
	"loss": 1.2474395036697388,
	"step": 832
	},
	{
	"epoch": 1.5274725274725274,
	"grad_norm": 0.2073548436164856,
	"learning_rate": 1.119583949948594e-05,
	"loss": 0.8181140422821045,
	"step": 834
	},
	{
	"epoch": 1.531135531135531,
	"grad_norm": 0.263867050409317,
	"learning_rate": 1.1160236498708742e-05,
	"loss": 1.1536332368850708,
	"step": 836
	},
	{
	"epoch": 1.5347985347985347,
	"grad_norm": 0.8327881693840027,
	"learning_rate": 1.112463098939969e-05,
	"loss": 1.2023496627807617,
	"step": 838
	},
	{
	"epoch": 1.5384615384615383,
	"grad_norm": 0.6123428344726562,
	"learning_rate": 1.1089023528969576e-05,
	"loss": 1.0480921268463135,
	"step": 840
	},
	{
	"epoch": 1.542124542124542,
	"grad_norm": 0.1374921053647995,
	"learning_rate": 1.1053414674859741e-05,
	"loss": 0.8764810562133789,
	"step": 842
	},
	{
	"epoch": 1.5457875457875456,
	"grad_norm": 0.30038702487945557,
	"learning_rate": 1.1017804984533351e-05,
	"loss": 1.0434658527374268,
	"step": 844
	},
	{
	"epoch": 1.5494505494505495,
	"grad_norm": 0.21336066722869873,
	"learning_rate": 1.0982195015466652e-05,
	"loss": 1.1829794645309448,
	"step": 846
	},
	{
	"epoch": 1.5531135531135531,
	"grad_norm": 0.2401581108570099,
	"learning_rate": 1.0946585325140261e-05,
	"loss": 0.5567160844802856,
	"step": 848
	},
	{
	"epoch": 1.5567765567765568,
	"grad_norm": 0.17095908522605896,
	"learning_rate": 1.0910976471030428e-05,
	"loss": 1.0297696590423584,
	"step": 850
	},
	{
	"epoch": 1.5604395604395604,
	"grad_norm": 0.19768744707107544,
	"learning_rate": 1.0875369010600317e-05,
	"loss": 1.1779743432998657,
	"step": 852
	},
	{
	"epoch": 1.564102564102564,
	"grad_norm": 0.24530059099197388,
	"learning_rate": 1.083976350129126e-05,
	"loss": 0.8627362251281738,
	"step": 854
	},
	{
	"epoch": 1.5677655677655677,
	"grad_norm": 0.17667430639266968,
	"learning_rate": 1.0804160500514062e-05,
	"loss": 0.8182336688041687,
	"step": 856
	},
	{
	"epoch": 1.5714285714285714,
	"grad_norm": 0.4187414348125458,
	"learning_rate": 1.0768560565640252e-05,
	"loss": 0.9450175762176514,
	"step": 858
	},
	{
	"epoch": 1.575091575091575,
	"grad_norm": 0.2475825846195221,
	"learning_rate": 1.0732964253993343e-05,
	"loss": 0.7554057240486145,
	"step": 860
	},
	{
	"epoch": 1.578754578754579,
	"grad_norm": 0.20360927283763885,
	"learning_rate": 1.0697372122840156e-05,
	"loss": 1.1586618423461914,
	"step": 862
	},
	{
	"epoch": 1.5824175824175826,
	"grad_norm": 0.3513490557670593,
	"learning_rate": 1.0661784729382036e-05,
	"loss": 0.9128925800323486,
	"step": 864
	},
	{
	"epoch": 1.5860805860805862,
	"grad_norm": 0.29773491621017456,
	"learning_rate": 1.0626202630746183e-05,
	"loss": 1.1837108135223389,
	"step": 866
	},
	{
	"epoch": 1.5897435897435899,
	"grad_norm": 0.19517117738723755,
	"learning_rate": 1.0590626383976894e-05,
	"loss": 1.1871565580368042,
	"step": 868
	},
	{
	"epoch": 1.5934065934065935,
	"grad_norm": 0.29443803429603577,
	"learning_rate": 1.055505654602685e-05,
	"loss": 0.584392786026001,
	"step": 870
	},
	{
	"epoch": 1.5970695970695972,
	"grad_norm": 0.7519898414611816,
	"learning_rate": 1.0519493673748406e-05,
	"loss": 1.1818510293960571,
	"step": 872
	},
	{
	"epoch": 1.6007326007326008,
	"grad_norm": 0.19262118637561798,
	"learning_rate": 1.0483938323884879e-05,
	"loss": 1.0697413682937622,
	"step": 874
	},
	{
	"epoch": 1.6043956043956045,
	"grad_norm": 0.543876051902771,
	"learning_rate": 1.0448391053061795e-05,
	"loss": 0.7751603126525879,
	"step": 876
	},
	{
	"epoch": 1.6080586080586081,
	"grad_norm": 0.2502467930316925,
	"learning_rate": 1.0412852417778225e-05,
	"loss": 1.0019612312316895,
	"step": 878
	},
	{
	"epoch": 1.6117216117216118,
	"grad_norm": 0.09987431019544601,
	"learning_rate": 1.037732297439804e-05,
	"loss": 0.9077653884887695,
	"step": 880
	},
	{
	"epoch": 1.6153846153846154,
	"grad_norm": 0.5216807126998901,
	"learning_rate": 1.034180327914121e-05,
	"loss": 1.14017653465271,
	"step": 882
	},
	{
	"epoch": 1.619047619047619,
	"grad_norm": 0.4357174336910248,
	"learning_rate": 1.030629388807509e-05,
	"loss": 0.9527326226234436,
	"step": 884
	},
	{
	"epoch": 1.6227106227106227,
	"grad_norm": 0.4798242151737213,
	"learning_rate": 1.0270795357105738e-05,
	"loss": 1.1481817960739136,
	"step": 886
	},
	{
	"epoch": 1.6263736263736264,
	"grad_norm": 0.14864085614681244,
	"learning_rate": 1.023530824196918e-05,
	"loss": 0.8415536284446716,
	"step": 888
	},
	{
	"epoch": 1.63003663003663,
	"grad_norm": 0.12731288373470306,
	"learning_rate": 1.019983309822273e-05,
	"loss": 1.2169089317321777,
	"step": 890
	},
	{
	"epoch": 1.6336996336996337,
	"grad_norm": 0.14988932013511658,
	"learning_rate": 1.0164370481236292e-05,
	"loss": 0.9084001779556274,
	"step": 892
	},
	{
	"epoch": 1.6373626373626373,
	"grad_norm": 0.20712965726852417,
	"learning_rate": 1.0128920946183646e-05,
	"loss": 1.1889891624450684,
	"step": 894
	},
	{
	"epoch": 1.641025641025641,
	"grad_norm": 0.42661115527153015,
	"learning_rate": 1.0093485048033798e-05,
	"loss": 0.757189929485321,
	"step": 896
	},
	{
	"epoch": 1.6446886446886446,
	"grad_norm": 0.3163396120071411,
	"learning_rate": 1.0058063341542238e-05,
	"loss": 1.1425553560256958,
	"step": 898
	},
	{
	"epoch": 1.6483516483516483,
	"grad_norm": 0.09768297523260117,
	"learning_rate": 1.0022656381242297e-05,
	"loss": 0.8344699144363403,
	"step": 900
	},
	{
	"epoch": 1.652014652014652,
	"grad_norm": 0.26233789324760437,
	"learning_rate": 9.98726472143646e-06,
	"loss": 0.8869269490242004,
	"step": 902
	},
	{
	"epoch": 1.6556776556776556,
	"grad_norm": 0.1829376518726349,
	"learning_rate": 9.951888916187662e-06,
	"loss": 1.0285108089447021,
	"step": 904
	},
	{
	"epoch": 1.6593406593406592,
	"grad_norm": 0.24138136208057404,
	"learning_rate": 9.916529519310638e-06,
	"loss": 1.1398890018463135,
	"step": 906
	},
	{
	"epoch": 1.6630036630036629,
	"grad_norm": 0.1399925798177719,
	"learning_rate": 9.881187084363257e-06,
	"loss": 0.7672206163406372,
	"step": 908
	},
	{
	"epoch": 1.6666666666666665,
	"grad_norm": 1.6093522310256958,
	"learning_rate": 9.845862164637834e-06,
	"loss": 1.207901954650879,
	"step": 910
	},
	{
	"epoch": 1.6703296703296702,
	"grad_norm": 0.16260547935962677,
	"learning_rate": 9.810555313152486e-06,
	"loss": 1.221139907836914,
	"step": 912
	},
	{
	"epoch": 1.673992673992674,
	"grad_norm": 2.362788677215576,
	"learning_rate": 9.775267082642461e-06,
	"loss": 1.1024638414382935,
	"step": 914
	},
	{
	"epoch": 1.6776556776556777,
	"grad_norm": 0.2498432844877243,
	"learning_rate": 9.7399980255515e-06,
	"loss": 1.2147701978683472,
	"step": 916
	},
	{
	"epoch": 1.6813186813186813,
	"grad_norm": 2.7283363342285156,
	"learning_rate": 9.704748694023183e-06,
	"loss": 0.8409310579299927,
	"step": 918
	},
	{
	"epoch": 1.684981684981685,
	"grad_norm": 0.1900961995124817,
	"learning_rate": 9.669519639892275e-06,
	"loss": 1.2224406003952026,
	"step": 920
	},
	{
	"epoch": 1.6886446886446886,
	"grad_norm": 0.14632610976696014,
	"learning_rate": 9.634311414676096e-06,
	"loss": 1.0241305828094482,
	"step": 922
	},
	{
	"epoch": 1.6923076923076923,
	"grad_norm": 0.19529180228710175,
	"learning_rate": 9.599124569565887e-06,
	"loss": 0.8517318367958069,
	"step": 924
	},
	{
	"epoch": 1.695970695970696,
	"grad_norm": 0.302605539560318,
	"learning_rate": 9.56395965541818e-06,
	"loss": 0.9822613596916199,
	"step": 926
	},
	{
	"epoch": 1.6996336996336996,
	"grad_norm": 0.2754058539867401,
	"learning_rate": 9.528817222746171e-06,
	"loss": 0.8101611733436584,
	"step": 928
	},
	{
	"epoch": 1.7032967032967035,
	"grad_norm": 0.0321723073720932,
	"learning_rate": 9.493697821711116e-06,
	"loss": 0.8986843228340149,
	"step": 930
	},
	{
	"epoch": 1.7069597069597071,
	"grad_norm": 0.5187890529632568,
	"learning_rate": 9.458602002113684e-06,
	"loss": 0.9380394220352173,
	"step": 932
	},
	{
	"epoch": 1.7106227106227108,
	"grad_norm": 0.43265751004219055,
	"learning_rate": 9.423530313385395e-06,
	"loss": 1.3956506252288818,
	"step": 934
	},
	{
	"epoch": 1.7142857142857144,
	"grad_norm": 0.3128417134284973,
	"learning_rate": 9.388483304579983e-06,
	"loss": 1.1987532377243042,
	"step": 936
	},
	{
	"epoch": 1.717948717948718,
	"grad_norm": 0.38596177101135254,
	"learning_rate": 9.353461524364814e-06,
	"loss": 0.4802657961845398,
	"step": 938
	},
	{
	"epoch": 1.7216117216117217,
	"grad_norm": 0.10296937823295593,
	"learning_rate": 9.318465521012298e-06,
	"loss": 0.5590758919715881,
	"step": 940
	},
	{
	"epoch": 1.7252747252747254,
	"grad_norm": 0.3300826847553253,
	"learning_rate": 9.283495842391313e-06,
	"loss": 1.1315335035324097,
	"step": 942
	},
	{
	"epoch": 1.728937728937729,
	"grad_norm": 0.30823764204978943,
	"learning_rate": 9.248553035958596e-06,
	"loss": 0.9322311282157898,
	"step": 944
	},
	{
	"epoch": 1.7326007326007327,
	"grad_norm": 0.45546165108680725,
	"learning_rate": 9.213637648750217e-06,
	"loss": 1.1529691219329834,
	"step": 946
	},
	{
	"epoch": 1.7362637362637363,
	"grad_norm": 0.14963890612125397,
	"learning_rate": 9.178750227372983e-06,
	"loss": 1.1352661848068237,
	"step": 948
	},
	{
	"epoch": 1.73992673992674,
	"grad_norm": 0.2032959908246994,
	"learning_rate": 9.143891317995888e-06,
	"loss": 0.9980076551437378,
	"step": 950
	},
	{
	"epoch": 1.7435897435897436,
	"grad_norm": 0.25436630845069885,
	"learning_rate": 9.109061466341576e-06,
	"loss": 0.9472299814224243,
	"step": 952
	},
	{
	"epoch": 1.7472527472527473,
	"grad_norm": 0.9840583205223083,
	"learning_rate": 9.074261217677771e-06,
	"loss": 1.212887167930603,
	"step": 954
	},
	{
	"epoch": 1.750915750915751,
	"grad_norm": 0.3302346467971802,
	"learning_rate": 9.039491116808773e-06,
	"loss": 0.7923216819763184,
	"step": 956
	},
	{
	"epoch": 1.7545787545787546,
	"grad_norm": 0.2849687337875366,
	"learning_rate": 9.004751708066906e-06,
	"loss": 1.20464026927948,
	"step": 958
	},
	{
	"epoch": 1.7582417582417582,
	"grad_norm": 0.32917916774749756,
	"learning_rate": 8.970043535303999e-06,
	"loss": 0.5495156645774841,
	"step": 960
	},
	{
	"epoch": 1.7619047619047619,
	"grad_norm": 0.1469060480594635,
	"learning_rate": 8.93536714188288e-06,
	"loss": 0.9884249567985535,
	"step": 962
	},
	{
	"epoch": 1.7655677655677655,
	"grad_norm": 0.2145930975675583,
	"learning_rate": 8.900723070668869e-06,
	"loss": 1.0432814359664917,
	"step": 964
	},
	{
	"epoch": 1.7692307692307692,
	"grad_norm": 0.2602897584438324,
	"learning_rate": 8.86611186402127e-06,
	"loss": 1.1860088109970093,
	"step": 966
	},
	{
	"epoch": 1.7728937728937728,
	"grad_norm": 1.8385608196258545,
	"learning_rate": 8.831534063784891e-06,
	"loss": 0.5766138434410095,
	"step": 968
	},
	{
	"epoch": 1.7765567765567765,
	"grad_norm": 0.332838773727417,
	"learning_rate": 8.796990211281549e-06,
	"loss": 0.8520796298980713,
	"step": 970
	},
	{
	"epoch": 1.7802197802197801,
	"grad_norm": 0.36388519406318665,
	"learning_rate": 8.76248084730161e-06,
	"loss": 0.9118585586547852,
	"step": 972
	},
	{
	"epoch": 1.7838827838827838,
	"grad_norm": 0.35957708954811096,
	"learning_rate": 8.728006512095517e-06,
	"loss": 1.235234022140503,
	"step": 974
	},
	{
	"epoch": 1.7875457875457874,
	"grad_norm": 0.15730635821819305,
	"learning_rate": 8.693567745365325e-06,
	"loss": 1.2089356184005737,
	"step": 976
	},
	{
	"epoch": 1.791208791208791,
	"grad_norm": 0.18533851206302643,
	"learning_rate": 8.659165086256263e-06,
	"loss": 0.9138573408126831,
	"step": 978
	},
	{
	"epoch": 1.7948717948717947,
	"grad_norm": 0.22930195927619934,
	"learning_rate": 8.624799073348282e-06,
	"loss": 0.9500142931938171,
	"step": 980
	},
	{
	"epoch": 1.7985347985347986,
	"grad_norm": 0.14871567487716675,
	"learning_rate": 8.590470244647643e-06,
	"loss": 1.1431803703308105,
	"step": 982
	},
	{
	"epoch": 1.8021978021978022,
	"grad_norm": 0.5050992369651794,
	"learning_rate": 8.556179137578461e-06,
	"loss": 1.1003555059432983,
	"step": 984
	},
	{
	"epoch": 1.8058608058608059,
	"grad_norm": 0.2502465844154358,
	"learning_rate": 8.521926288974336e-06,
	"loss": 0.6595162153244019,
	"step": 986
	},
	{
	"epoch": 1.8095238095238095,
	"grad_norm": 0.3257753849029541,
	"learning_rate": 8.487712235069901e-06,
	"loss": 0.8256427645683289,
	"step": 988
	},
	{
	"epoch": 1.8131868131868132,
	"grad_norm": 1.430795431137085,
	"learning_rate": 8.453537511492469e-06,
	"loss": 0.7550182938575745,
	"step": 990
	},
	{
	"epoch": 1.8168498168498168,
	"grad_norm": 0.2725939452648163,
	"learning_rate": 8.419402653253623e-06,
	"loss": 0.7868635058403015,
	"step": 992
	},
	{
	"epoch": 1.8205128205128205,
	"grad_norm": 0.22666583955287933,
	"learning_rate": 8.385308194740846e-06,
	"loss": 0.8552929759025574,
	"step": 994
	},
	{
	"epoch": 1.8241758241758241,
	"grad_norm": 0.43080052733421326,
	"learning_rate": 8.35125466970915e-06,
	"loss": 1.1360217332839966,
	"step": 996
	},
	{
	"epoch": 1.8278388278388278,
	"grad_norm": 0.7836577892303467,
	"learning_rate": 8.317242611272745e-06,
	"loss": 0.8594327569007874,
	"step": 998
	},
	{
	"epoch": 1.8315018315018317,
	"grad_norm": 0.7361294627189636,
	"learning_rate": 8.283272551896649e-06,
	"loss": 1.119120717048645,
	"step": 1000
	},
	{
	"epoch": 1.8351648351648353,
	"grad_norm": 0.2481701672077179,
	"learning_rate": 8.249345023388393e-06,
	"loss": 1.1469377279281616,
	"step": 1002
	},
	{
	"epoch": 1.838827838827839,
	"grad_norm": 0.24314983189105988,
	"learning_rate": 8.21546055688968e-06,
	"loss": 1.1452265977859497,
	"step": 1004
	},
	{
	"epoch": 1.8424908424908426,
	"grad_norm": 0.16082322597503662,
	"learning_rate": 8.181619682868059e-06,
	"loss": 1.155297875404358,
	"step": 1006
	},
	{
	"epoch": 1.8461538461538463,
	"grad_norm": 0.6126939058303833,
	"learning_rate": 8.147822931108638e-06,
	"loss": 0.7930988073348999,
	"step": 1008
	},
	{
	"epoch": 1.84981684981685,
	"grad_norm": 0.31037959456443787,
	"learning_rate": 8.114070830705785e-06,
	"loss": 1.105625867843628,
	"step": 1010
	},
	{
	"epoch": 1.8534798534798536,
	"grad_norm": 0.7834182977676392,
	"learning_rate": 8.080363910054833e-06,
	"loss": 0.7679654359817505,
	"step": 1012
	},
	{
	"epoch": 1.8571428571428572,
	"grad_norm": 0.25094303488731384,
	"learning_rate": 8.04670269684383e-06,
	"loss": 1.163719654083252,
	"step": 1014
	},
	{
	"epoch": 1.8608058608058609,
	"grad_norm": 0.25439849495887756,
	"learning_rate": 8.013087718045256e-06,
	"loss": 1.1505731344223022,
	"step": 1016
	},
	{
	"epoch": 1.8644688644688645,
	"grad_norm": 0.34597018361091614,
	"learning_rate": 7.979519499907786e-06,
	"loss": 1.227553367614746,
	"step": 1018
	},
	{
	"epoch": 1.8681318681318682,
	"grad_norm": 0.05276898667216301,
	"learning_rate": 7.945998567948052e-06,
	"loss": 0.9696344137191772,
	"step": 1020
	},
	{
	"epoch": 1.8717948717948718,
	"grad_norm": 0.20804066956043243,
	"learning_rate": 7.912525446942406e-06,
	"loss": 1.119184970855713,
	"step": 1022
	},
	{
	"epoch": 1.8754578754578755,
	"grad_norm": 0.48872050642967224,
	"learning_rate": 7.879100660918713e-06,
	"loss": 0.5573999285697937,
	"step": 1024
	},
	{
	"epoch": 1.879120879120879,
	"grad_norm": 0.16911174356937408,
	"learning_rate": 7.845724733148149e-06,
	"loss": 1.1561304330825806,
	"step": 1026
	},
	{
	"epoch": 1.8827838827838828,
	"grad_norm": 0.1431117057800293,
	"learning_rate": 7.812398186136994e-06,
	"loss": 0.9320932626724243,
	"step": 1028
	},
	{
	"epoch": 1.8864468864468864,
	"grad_norm": 0.12939822673797607,
	"learning_rate": 7.779121541618478e-06,
	"loss": 1.1574739217758179,
	"step": 1030
	},
	{
	"epoch": 1.89010989010989,
	"grad_norm": 1.1522557735443115,
	"learning_rate": 7.74589532054459e-06,
	"loss": 0.9570916295051575,
	"step": 1032
	},
	{
	"epoch": 1.8937728937728937,
	"grad_norm": 4.078045845031738,
	"learning_rate": 7.712720043077929e-06,
	"loss": 0.8005634546279907,
	"step": 1034
	},
	{
	"epoch": 1.8974358974358974,
	"grad_norm": 0.21664126217365265,
	"learning_rate": 7.679596228583563e-06,
	"loss": 1.19529128074646,
	"step": 1036
	},
	{
	"epoch": 1.901098901098901,
	"grad_norm": 0.2670510709285736,
	"learning_rate": 7.646524395620908e-06,
	"loss": 1.156490445137024,
	"step": 1038
	},
	{
	"epoch": 1.9047619047619047,
	"grad_norm": 0.7328397035598755,
	"learning_rate": 7.613505061935584e-06,
	"loss": 1.2261680364608765,
	"step": 1040
	},
	{
	"epoch": 1.9084249084249083,
	"grad_norm": 0.7271265983581543,
	"learning_rate": 7.580538744451336e-06,
	"loss": 0.6238923668861389,
	"step": 1042
	},
	{
	"epoch": 1.912087912087912,
	"grad_norm": 0.15432201325893402,
	"learning_rate": 7.547625959261928e-06,
	"loss": 0.8794652819633484,
	"step": 1044
	},
	{
	"epoch": 1.9157509157509156,
	"grad_norm": 0.8092189431190491,
	"learning_rate": 7.5147672216230605e-06,
	"loss": 1.1170141696929932,
	"step": 1046
	},
	{
	"epoch": 1.9194139194139193,
	"grad_norm": 0.6514054536819458,
	"learning_rate": 7.481963045944318e-06,
	"loss": 0.4663321077823639,
	"step": 1048
	},
	{
	"epoch": 1.9230769230769231,
	"grad_norm": 0.6940572261810303,
	"learning_rate": 7.449213945781102e-06,
	"loss": 0.8802782297134399,
	"step": 1050
	},
	{
	"epoch": 1.9267399267399268,
	"grad_norm": 0.3622654974460602,
	"learning_rate": 7.416520433826599e-06,
	"loss": 0.8212952613830566,
	"step": 1052
	},
	{
	"epoch": 1.9304029304029304,
	"grad_norm": 0.38605034351348877,
	"learning_rate": 7.383883021903755e-06,
	"loss": 1.123952031135559,
	"step": 1054
	},
	{
	"epoch": 1.934065934065934,
	"grad_norm": 0.3802632987499237,
	"learning_rate": 7.351302220957251e-06,
	"loss": 0.7547966837882996,
	"step": 1056
	},
	{
	"epoch": 1.9377289377289377,
	"grad_norm": 0.1588432937860489,
	"learning_rate": 7.318778541045517e-06,
	"loss": 0.9930992722511292,
	"step": 1058
	},
	{
	"epoch": 1.9413919413919414,
	"grad_norm": 0.9069202542304993,
	"learning_rate": 7.286312491332754e-06,
	"loss": 1.088295340538025,
	"step": 1060
	},
	{
	"epoch": 1.945054945054945,
	"grad_norm": 0.5420103073120117,
	"learning_rate": 7.253904580080926e-06,
	"loss": 0.8403469920158386,
	"step": 1062
	},
	{
	"epoch": 1.9487179487179487,
	"grad_norm": 0.2942644953727722,
	"learning_rate": 7.221555314641853e-06,
	"loss": 0.8127306699752808,
	"step": 1064
	},
	{
	"epoch": 1.9523809523809523,
	"grad_norm": 0.22579017281532288,
	"learning_rate": 7.18926520144924e-06,
	"loss": 1.1636987924575806,
	"step": 1066
	},
	{
	"epoch": 1.9560439560439562,
	"grad_norm": 0.16633360087871552,
	"learning_rate": 7.1570347460107335e-06,
	"loss": 1.1915522813796997,
	"step": 1068
	},
	{
	"epoch": 1.9597069597069599,
	"grad_norm": 0.12977154552936554,
	"learning_rate": 7.124864452900049e-06,
	"loss": 0.7159602046012878,
	"step": 1070
	},
	{
	"epoch": 1.9633699633699635,
	"grad_norm": 0.23673447966575623,
	"learning_rate": 7.0927548257490465e-06,
	"loss": 0.8579642176628113,
	"step": 1072
	},
	{
	"epoch": 1.9670329670329672,
	"grad_norm": 0.17493152618408203,
	"learning_rate": 7.060706367239836e-06,
	"loss": 1.1460034847259521,
	"step": 1074
	},
	{
	"epoch": 1.9706959706959708,
	"grad_norm": 0.2128761112689972,
	"learning_rate": 7.028719579096932e-06,
	"loss": 1.12616765499115,
	"step": 1076
	},
	{
	"epoch": 1.9743589743589745,
	"grad_norm": 1.0706182718276978,
	"learning_rate": 6.9967949620793854e-06,
	"loss": 1.0034505128860474,
	"step": 1078
	},
	{
	"epoch": 1.978021978021978,
	"grad_norm": 0.18170702457427979,
	"learning_rate": 6.964933015972947e-06,
	"loss": 1.0116511583328247,
	"step": 1080
	},
	{
	"epoch": 1.9816849816849818,
	"grad_norm": 0.13612566888332367,
	"learning_rate": 6.933134239582246e-06,
	"loss": 1.1105514764785767,
	"step": 1082
	},
	{
	"epoch": 1.9853479853479854,
	"grad_norm": 0.09141907840967178,
	"learning_rate": 6.9013991307229745e-06,
	"loss": 0.723926842212677,
	"step": 1084
	},
	{
	"epoch": 1.989010989010989,
	"grad_norm": 0.7665627002716064,
	"learning_rate": 6.869728186214093e-06,
	"loss": 0.9730409979820251,
	"step": 1086
	},
	{
	"epoch": 1.9926739926739927,
	"grad_norm": 0.2971165180206299,
	"learning_rate": 6.8381219018700675e-06,
	"loss": 0.9841219186782837,
	"step": 1088
	},
	{
	"epoch": 1.9963369963369964,
	"grad_norm": 0.13406872749328613,
	"learning_rate": 6.806580772493088e-06,
	"loss": 0.928429901599884,
	"step": 1090
	},
	{
	"epoch": 2.0,
	"grad_norm": 0.14409571886062622,
	"learning_rate": 6.775105291865343e-06,
	"loss": 1.044892430305481,
	"step": 1092
	},
	{
	"epoch": 2.0036630036630036,
	"grad_norm": 0.1583234965801239,
	"learning_rate": 6.743695952741265e-06,
	"loss": 1.0874207019805908,
	"step": 1094
	},
	{
	"epoch": 2.0073260073260073,
	"grad_norm": 0.2746216058731079,
	"learning_rate": 6.71235324683983e-06,
	"loss": 1.148724913597107,
	"step": 1096
	},
	{
	"epoch": 2.010989010989011,
	"grad_norm": 0.17820103466510773,
	"learning_rate": 6.681077664836872e-06,
	"loss": 1.0912903547286987,
	"step": 1098
	},
	{
	"epoch": 2.0146520146520146,
	"grad_norm": 0.2823878824710846,
	"learning_rate": 6.649869696357381e-06,
	"loss": 1.1763356924057007,
	"step": 1100
	},
	{
	"epoch": 2.0183150183150182,
	"grad_norm": 0.24771764874458313,
	"learning_rate": 6.6187298299678295e-06,
	"loss": 0.8503238558769226,
	"step": 1102
	},
	{
	"epoch": 2.021978021978022,
	"grad_norm": 0.15120865404605865,
	"learning_rate": 6.587658553168563e-06,
	"loss": 1.149125337600708,
	"step": 1104
	},
	{
	"epoch": 2.0256410256410255,
	"grad_norm": 0.14734791219234467,
	"learning_rate": 6.556656352386135e-06,
	"loss": 0.7560878992080688,
	"step": 1106
	},
	{
	"epoch": 2.029304029304029,
	"grad_norm": 0.16239944100379944,
	"learning_rate": 6.525723712965698e-06,
	"loss": 1.1898839473724365,
	"step": 1108
	},
	{
	"epoch": 2.032967032967033,
	"grad_norm": 0.3344440162181854,
	"learning_rate": 6.494861119163412e-06,
	"loss": 0.8839846253395081,
	"step": 1110
	},
	{
	"epoch": 2.0366300366300365,
	"grad_norm": 0.4149315655231476,
	"learning_rate": 6.464069054138853e-06,
	"loss": 0.607286810874939,
	"step": 1112
	},
	{
	"epoch": 2.04029304029304,
	"grad_norm": 0.4456092417240143,
	"learning_rate": 6.433347999947468e-06,
	"loss": 0.8418302536010742,
	"step": 1114
	},
	{
	"epoch": 2.043956043956044,
	"grad_norm": 0.3016660511493683,
	"learning_rate": 6.402698437533012e-06,
	"loss": 1.1660289764404297,
	"step": 1116
	},
	{
	"epoch": 2.0476190476190474,
	"grad_norm": 5.284980773925781,
	"learning_rate": 6.372120846720018e-06,
	"loss": 1.118957281112671,
	"step": 1118
	},
	{
	"epoch": 2.051282051282051,
	"grad_norm": 0.15599218010902405,
	"learning_rate": 6.341615706206292e-06,
	"loss": 0.8220248818397522,
	"step": 1120
	},
	{
	"epoch": 2.0549450549450547,
	"grad_norm": 0.2986451983451843,
	"learning_rate": 6.311183493555426e-06,
	"loss": 1.305782437324524,
	"step": 1122
	},
	{
	"epoch": 2.0586080586080584,
	"grad_norm": 0.48373496532440186,
	"learning_rate": 6.280824685189296e-06,
	"loss": 1.1407259702682495,
	"step": 1124
	},
	{
	"epoch": 2.062271062271062,
	"grad_norm": 0.2743145227432251,
	"learning_rate": 6.25053975638064e-06,
	"loss": 0.7712053656578064,
	"step": 1126
	},
	{
	"epoch": 2.065934065934066,
	"grad_norm": 0.25203126668930054,
	"learning_rate": 6.220329181245585e-06,
	"loss": 1.1069000959396362,
	"step": 1128
	},
	{
	"epoch": 2.06959706959707,
	"grad_norm": 0.2117457091808319,
	"learning_rate": 6.1901934327362355e-06,
	"loss": 1.098212718963623,
	"step": 1130
	},
	{
	"epoch": 2.0732600732600734,
	"grad_norm": 0.1468828320503235,
	"learning_rate": 6.16013298263328e-06,
	"loss": 1.1368842124938965,
	"step": 1132
	},
	{
	"epoch": 2.076923076923077,
	"grad_norm": 0.40307801961898804,
	"learning_rate": 6.130148301538601e-06,
	"loss": 1.116690754890442,
	"step": 1134
	},
	{
	"epoch": 2.0805860805860807,
	"grad_norm": 0.24662664532661438,
	"learning_rate": 6.100239858867887e-06,
	"loss": 0.7355341911315918,
	"step": 1136
	},
	{
	"epoch": 2.0842490842490844,
	"grad_norm": 0.13771356642246246,
	"learning_rate": 6.070408122843311e-06,
	"loss": 1.119900107383728,
	"step": 1138
	},
	{
	"epoch": 2.087912087912088,
	"grad_norm": 0.19247093796730042,
	"learning_rate": 6.040653560486183e-06,
	"loss": 1.0210225582122803,
	"step": 1140
	},
	{
	"epoch": 2.0915750915750917,
	"grad_norm": 0.4167131781578064,
	"learning_rate": 6.010976637609653e-06,
	"loss": 1.111708402633667,
	"step": 1142
	},
	{
	"epoch": 2.0952380952380953,
	"grad_norm": 0.1344819813966751,
	"learning_rate": 5.9813778188114125e-06,
	"loss": 0.41445374488830566,
	"step": 1144
	},
	{
	"epoch": 2.098901098901099,
	"grad_norm": 1.15572190284729,
	"learning_rate": 5.951857567466401e-06,
	"loss": 0.9204697012901306,
	"step": 1146
	},
	{
	"epoch": 2.1025641025641026,
	"grad_norm": 0.24351730942726135,
	"learning_rate": 5.922416345719588e-06,
	"loss": 0.8129392266273499,
	"step": 1148
	},
	{
	"epoch": 2.1062271062271063,
	"grad_norm": 0.2636270821094513,
	"learning_rate": 5.893054614478718e-06,
	"loss": 0.8170366287231445,
	"step": 1150
	},
	{
	"epoch": 2.10989010989011,
	"grad_norm": 0.20464959740638733,
	"learning_rate": 5.8637728334070905e-06,
	"loss": 0.9602442979812622,
	"step": 1152
	},
	{
	"epoch": 2.1135531135531136,
	"grad_norm": 0.24514929950237274,
	"learning_rate": 5.834571460916371e-06,
	"loss": 0.7969391345977783,
	"step": 1154
	},
	{
	"epoch": 2.1172161172161172,
	"grad_norm": 0.22006969153881073,
	"learning_rate": 5.805450954159422e-06,
	"loss": 1.0832160711288452,
	"step": 1156
	},
	{
	"epoch": 2.120879120879121,
	"grad_norm": 0.298306405544281,
	"learning_rate": 5.776411769023127e-06,
	"loss": 1.0314806699752808,
	"step": 1158
	},
	{
	"epoch": 2.1245421245421245,
	"grad_norm": 5.666049480438232,
	"learning_rate": 5.747454360121274e-06,
	"loss": 0.8712628483772278,
	"step": 1160
	},
	{
	"epoch": 2.128205128205128,
	"grad_norm": 1.3040249347686768,
	"learning_rate": 5.718579180787425e-06,
	"loss": 0.7886207699775696,
	"step": 1162
	},
	{
	"epoch": 2.131868131868132,
	"grad_norm": 0.39199671149253845,
	"learning_rate": 5.689786683067817e-06,
	"loss": 0.9137855768203735,
	"step": 1164
	},
	{
	"epoch": 2.1355311355311355,
	"grad_norm": 2.5173118114471436,
	"learning_rate": 5.661077317714303e-06,
	"loss": 0.4366130828857422,
	"step": 1166
	},
	{
	"epoch": 2.139194139194139,
	"grad_norm": 0.3403417468070984,
	"learning_rate": 5.632451534177276e-06,
	"loss": 0.43130162358283997,
	"step": 1168
	},
	{
	"epoch": 2.142857142857143,
	"grad_norm": 0.21239206194877625,
	"learning_rate": 5.603909780598644e-06,
	"loss": 0.9684357047080994,
	"step": 1170
	},
	{
	"epoch": 2.1465201465201464,
	"grad_norm": 0.38845381140708923,
	"learning_rate": 5.575452503804805e-06,
	"loss": 1.1393444538116455,
	"step": 1172
	},
	{
	"epoch": 2.15018315018315,
	"grad_norm": 0.1983974426984787,
	"learning_rate": 5.5470801492996605e-06,
	"loss": 1.2824560403823853,
	"step": 1174
	},
	{
	"epoch": 2.1538461538461537,
	"grad_norm": 0.38974130153656006,
	"learning_rate": 5.518793161257641e-06,
	"loss": 0.7756329774856567,
	"step": 1176
	},
	{
	"epoch": 2.1575091575091574,
	"grad_norm": 0.220947727560997,
	"learning_rate": 5.490591982516749e-06,
	"loss": 1.1459908485412598,
	"step": 1178
	},
	{
	"epoch": 2.161172161172161,
	"grad_norm": 0.09795540571212769,
	"learning_rate": 5.462477054571617e-06,
	"loss": 1.1290199756622314,
	"step": 1180
	},
	{
	"epoch": 2.1648351648351647,
	"grad_norm": 0.2630612850189209,
	"learning_rate": 5.4344488175666154e-06,
	"loss": 1.1604737043380737,
	"step": 1182
	},
	{
	"epoch": 2.1684981684981683,
	"grad_norm": 0.25433579087257385,
	"learning_rate": 5.406507710288955e-06,
	"loss": 1.1460589170455933,
	"step": 1184
	},
	{
	"epoch": 2.172161172161172,
	"grad_norm": 0.2012251317501068,
	"learning_rate": 5.378654170161805e-06,
	"loss": 0.3281984031200409,
	"step": 1186
	},
	{
	"epoch": 2.1758241758241756,
	"grad_norm": 0.32929378747940063,
	"learning_rate": 5.3508886332374534e-06,
	"loss": 1.2191470861434937,
	"step": 1188
	},
	{
	"epoch": 2.1794871794871793,
	"grad_norm": 0.3437884747982025,
	"learning_rate": 5.323211534190496e-06,
	"loss": 0.7731289267539978,
	"step": 1190
	},
	{
	"epoch": 2.183150183150183,
	"grad_norm": 0.6123156547546387,
	"learning_rate": 5.295623306310999e-06,
	"loss": 0.984969973564148,
	"step": 1192
	},
	{
	"epoch": 2.186813186813187,
	"grad_norm": 0.10968142002820969,
	"learning_rate": 5.268124381497755e-06,
	"loss": 0.7878018021583557,
	"step": 1194
	},
	{
	"epoch": 2.1904761904761907,
	"grad_norm": 0.217378631234169,
	"learning_rate": 5.240715190251484e-06,
	"loss": 0.8958462476730347,
	"step": 1196
	},
	{
	"epoch": 2.1941391941391943,
	"grad_norm": 0.12512177228927612,
	"learning_rate": 5.213396161668111e-06,
	"loss": 1.1181265115737915,
	"step": 1198
	},
	{
	"epoch": 2.197802197802198,
	"grad_norm": 0.5750654339790344,
	"learning_rate": 5.186167723432061e-06,
	"loss": 0.7682434916496277,
	"step": 1200
	},
	{
	"epoch": 2.2014652014652016,
	"grad_norm": 0.26122191548347473,
	"learning_rate": 5.159030301809534e-06,
	"loss": 1.1852482557296753,
	"step": 1202
	},
	{
	"epoch": 2.2051282051282053,
	"grad_norm": 0.6376845836639404,
	"learning_rate": 5.131984321641865e-06,
	"loss": 1.1312910318374634,
	"step": 1204
	},
	{
	"epoch": 2.208791208791209,
	"grad_norm": 0.224775031208992,
	"learning_rate": 5.105030206338843e-06,
	"loss": 0.4939090609550476,
	"step": 1206
	},
	{
	"epoch": 2.2124542124542126,
	"grad_norm": 0.49578848481178284,
	"learning_rate": 5.0781683778720965e-06,
	"loss": 0.7406359314918518,
	"step": 1208
	},
	{
	"epoch": 2.2161172161172162,
	"grad_norm": 0.08699317276477814,
	"learning_rate": 5.051399256768498e-06,
	"loss": 0.616413950920105,
	"step": 1210
	},
	{
	"epoch": 2.21978021978022,
	"grad_norm": 0.3828323483467102,
	"learning_rate": 5.024723262103559e-06,
	"loss": 1.084445595741272,
	"step": 1212
	},
	{
	"epoch": 2.2234432234432235,
	"grad_norm": 0.2736396789550781,
	"learning_rate": 4.998140811494881e-06,
	"loss": 0.8275343179702759,
	"step": 1214
	},
	{
	"epoch": 2.227106227106227,
	"grad_norm": 2.418752431869507,
	"learning_rate": 4.971652321095614e-06,
	"loss": 0.9097423553466797,
	"step": 1216
	},
	{
	"epoch": 2.230769230769231,
	"grad_norm": 0.2448444962501526,
	"learning_rate": 4.945258205587955e-06,
	"loss": 1.1182854175567627,
	"step": 1218
	},
	{
	"epoch": 2.2344322344322345,
	"grad_norm": 0.2883419990539551,
	"learning_rate": 4.918958878176628e-06,
	"loss": 1.1232012510299683,
	"step": 1220
	},
	{
	"epoch": 2.238095238095238,
	"grad_norm": 0.11452820897102356,
	"learning_rate": 4.8927547505824465e-06,
	"loss": 1.1322976350784302,
	"step": 1222
	},
	{
	"epoch": 2.241758241758242,
	"grad_norm": 0.353952556848526,
	"learning_rate": 4.866646233035845e-06,
	"loss": 0.5048877596855164,
	"step": 1224
	},
	{
	"epoch": 2.2454212454212454,
	"grad_norm": 0.23814988136291504,
	"learning_rate": 4.840633734270464e-06,
	"loss": 1.0887198448181152,
	"step": 1226
	},
	{
	"epoch": 2.249084249084249,
	"grad_norm": 0.6550807952880859,
	"learning_rate": 4.814717661516762e-06,
	"loss": 0.6211652755737305,
	"step": 1228
	},
	{
	"epoch": 2.2527472527472527,
	"grad_norm": 0.05338886380195618,
	"learning_rate": 4.788898420495622e-06,
	"loss": 0.6063228845596313,
	"step": 1230
	},
	{
	"epoch": 2.2564102564102564,
	"grad_norm": 0.22689950466156006,
	"learning_rate": 4.763176415412006e-06,
	"loss": 0.6207817792892456,
	"step": 1232
	},
	{
	"epoch": 2.26007326007326,
	"grad_norm": 0.30934926867485046,
	"learning_rate": 4.7375520489486395e-06,
	"loss": 1.1054112911224365,
	"step": 1234
	},
	{
	"epoch": 2.2637362637362637,
	"grad_norm": 0.4497435390949249,
	"learning_rate": 4.71202572225969e-06,
	"loss": 0.7728376984596252,
	"step": 1236
	},
	{
	"epoch": 2.2673992673992673,
	"grad_norm": 1.08028244972229,
	"learning_rate": 4.686597834964499e-06,
	"loss": 0.9523231983184814,
	"step": 1238
	},
	{
	"epoch": 2.271062271062271,
	"grad_norm": 0.14384856820106506,
	"learning_rate": 4.661268785141316e-06,
	"loss": 0.8889424204826355,
	"step": 1240
	},
	{
	"epoch": 2.2747252747252746,
	"grad_norm": 0.3974786400794983,
	"learning_rate": 4.636038969321073e-06,
	"loss": 0.913772702217102,
	"step": 1242
	},
	{
	"epoch": 2.2783882783882783,
	"grad_norm": 0.2402804046869278,
	"learning_rate": 4.610908782481179e-06,
	"loss": 1.112667441368103,
	"step": 1244
	},
	{
	"epoch": 2.282051282051282,
	"grad_norm": 0.08489400893449783,
	"learning_rate": 4.5858786180393326e-06,
	"loss": 0.7339819669723511,
	"step": 1246
	},
	{
	"epoch": 2.2857142857142856,
	"grad_norm": 2.1772708892822266,
	"learning_rate": 4.560948867847359e-06,
	"loss": 0.7208875417709351,
	"step": 1248
	},
	{
	"epoch": 2.2893772893772892,
	"grad_norm": 0.1306900978088379,
	"learning_rate": 4.536119922185082e-06,
	"loss": 1.1010695695877075,
	"step": 1250
	},
	{
	"epoch": 2.293040293040293,
	"grad_norm": 0.2704022526741028,
	"learning_rate": 4.511392169754214e-06,
	"loss": 0.8470789790153503,
	"step": 1252
	},
	{
	"epoch": 2.2967032967032965,
	"grad_norm": 2.712707281112671,
	"learning_rate": 4.486765997672263e-06,
	"loss": 1.1660858392715454,
	"step": 1254
	},
	{
	"epoch": 2.3003663003663,
	"grad_norm": 0.17226196825504303,
	"learning_rate": 4.46224179146649e-06,
	"loss": 1.185795783996582,
	"step": 1256
	},
	{
	"epoch": 2.304029304029304,
	"grad_norm": 0.4166550934314728,
	"learning_rate": 4.437819935067847e-06,
	"loss": 0.7838965058326721,
	"step": 1258
	},
	{
	"epoch": 2.3076923076923075,
	"grad_norm": 0.7990443110466003,
	"learning_rate": 4.413500810804986e-06,
	"loss": 1.1802911758422852,
	"step": 1260
	},
	{
	"epoch": 2.311355311355311,
	"grad_norm": 0.7324039936065674,
	"learning_rate": 4.389284799398276e-06,
	"loss": 1.0409055948257446,
	"step": 1262
	},
	{
	"epoch": 2.315018315018315,
	"grad_norm": 0.3711146414279938,
	"learning_rate": 4.365172279953825e-06,
	"loss": 0.8843819499015808,
	"step": 1264
	},
	{
	"epoch": 2.3186813186813184,
	"grad_norm": 0.22019793093204498,
	"learning_rate": 4.34116362995756e-06,
	"loss": 0.7941460013389587,
	"step": 1266
	},
	{
	"epoch": 2.3223443223443225,
	"grad_norm": 0.24882954359054565,
	"learning_rate": 4.317259225269313e-06,
	"loss": 0.8228640556335449,
	"step": 1268
	},
	{
	"epoch": 2.326007326007326,
	"grad_norm": 0.19314497709274292,
	"learning_rate": 4.293459440116935e-06,
	"loss": 1.1893386840820312,
	"step": 1270
	},
	{
	"epoch": 2.32967032967033,
	"grad_norm": 0.3660260736942291,
	"learning_rate": 4.269764647090442e-06,
	"loss": 1.010369896888733,
	"step": 1272
	},
	{
	"epoch": 2.3333333333333335,
	"grad_norm": 0.31458190083503723,
	"learning_rate": 4.246175217136176e-06,
	"loss": 0.6291781663894653,
	"step": 1274
	},
	{
	"epoch": 2.336996336996337,
	"grad_norm": 0.6633192300796509,
	"learning_rate": 4.2226915195509954e-06,
	"loss": 1.0228174924850464,
	"step": 1276
	},
	{
	"epoch": 2.340659340659341,
	"grad_norm": 0.21478788554668427,
	"learning_rate": 4.199313921976511e-06,
	"loss": 0.8354744911193848,
	"step": 1278
	},
	{
	"epoch": 2.3443223443223444,
	"grad_norm": 0.1583641618490219,
	"learning_rate": 4.176042790393313e-06,
	"loss": 0.7678868770599365,
	"step": 1280
	},
	{
	"epoch": 2.347985347985348,
	"grad_norm": 0.243345245718956,
	"learning_rate": 4.152878489115244e-06,
	"loss": 0.6189059019088745,
	"step": 1282
	},
	{
	"epoch": 2.3516483516483517,
	"grad_norm": 5.6270623207092285,
	"learning_rate": 4.129821380783698e-06,
	"loss": 1.0946751832962036,
	"step": 1284
	},
	{
	"epoch": 2.3553113553113554,
	"grad_norm": 0.6898922324180603,
	"learning_rate": 4.106871826361952e-06,
	"loss": 0.6271629929542542,
	"step": 1286
	},
	{
	"epoch": 2.358974358974359,
	"grad_norm": 0.12118589878082275,
	"learning_rate": 4.084030185129495e-06,
	"loss": 0.9334720969200134,
	"step": 1288
	},
	{
	"epoch": 2.3626373626373627,
	"grad_norm": 0.709778368473053,
	"learning_rate": 4.061296814676429e-06,
	"loss": 0.895787239074707,
	"step": 1290
	},
	{
	"epoch": 2.3663003663003663,
	"grad_norm": 0.15288704633712769,
	"learning_rate": 4.038672070897844e-06,
	"loss": 0.7779858708381653,
	"step": 1292
	},
	{
	"epoch": 2.36996336996337,
	"grad_norm": 0.4073762893676758,
	"learning_rate": 4.016156307988262e-06,
	"loss": 0.8972816467285156,
	"step": 1294
	},
	{
	"epoch": 2.3736263736263736,
	"grad_norm": 0.17373113334178925,
	"learning_rate": 3.9937498784361e-06,
	"loss": 1.2363923788070679,
	"step": 1296
	},
	{
	"epoch": 2.3772893772893773,
	"grad_norm": 0.20760738849639893,
	"learning_rate": 3.9714531330181275e-06,
	"loss": 1.11896812915802,
	"step": 1298
	},
	{
	"epoch": 2.380952380952381,
	"grad_norm": 0.17635349929332733,
	"learning_rate": 3.949266420793999e-06,
	"loss": 1.161751627922058,
	"step": 1300
	},
	{
	"epoch": 2.3846153846153846,
	"grad_norm": 0.4839298129081726,
	"learning_rate": 3.9271900891007734e-06,
	"loss": 0.8857109546661377,
	"step": 1302
	},
	{
	"epoch": 2.3882783882783882,
	"grad_norm": 1.2910223007202148,
	"learning_rate": 3.905224483547479e-06,
	"loss": 0.4758785665035248,
	"step": 1304
	},
	{
	"epoch": 2.391941391941392,
	"grad_norm": 0.3727143406867981,
	"learning_rate": 3.883369948009714e-06,
	"loss": 0.9364715218544006,
	"step": 1306
	},
	{
	"epoch": 2.3956043956043955,
	"grad_norm": 0.19504396617412567,
	"learning_rate": 3.861626824624258e-06,
	"loss": 1.116919994354248,
	"step": 1308
	},
	{
	"epoch": 2.399267399267399,
	"grad_norm": 0.9123826026916504,
	"learning_rate": 3.839995453783694e-06,
	"loss": 0.5252923965454102,
	"step": 1310
	},
	{
	"epoch": 2.402930402930403,
	"grad_norm": 0.2855915129184723,
	"learning_rate": 3.818476174131118e-06,
	"loss": 1.1178092956542969,
	"step": 1312
	},
	{
	"epoch": 2.4065934065934065,
	"grad_norm": 0.14372749626636505,
	"learning_rate": 3.7970693225548116e-06,
	"loss": 0.8329194188117981,
	"step": 1314
	},
	{
	"epoch": 2.41025641025641,
	"grad_norm": 0.40384870767593384,
	"learning_rate": 3.7757752341829723e-06,
	"loss": 1.1172298192977905,
	"step": 1316
	},
	{
	"epoch": 2.413919413919414,
	"grad_norm": 1.6513596773147583,
	"learning_rate": 3.754594242378466e-06,
	"loss": 0.780471682548523,
	"step": 1318
	},
	{
	"epoch": 2.4175824175824174,
	"grad_norm": 0.12547166645526886,
	"learning_rate": 3.7335266787336194e-06,
	"loss": 0.7762452960014343,
	"step": 1320
	},
	{
	"epoch": 2.421245421245421,
	"grad_norm": 0.36459726095199585,
	"learning_rate": 3.712572873065012e-06,
	"loss": 0.6150048971176147,
	"step": 1322
	},
	{
	"epoch": 2.4249084249084247,
	"grad_norm": 0.6258686780929565,
	"learning_rate": 3.69173315340833e-06,
	"loss": 0.7689996361732483,
	"step": 1324
	},
	{
	"epoch": 2.4285714285714284,
	"grad_norm": 0.18336020410060883,
	"learning_rate": 3.6710078460132137e-06,
	"loss": 0.7754949331283569,
	"step": 1326
	},
	{
	"epoch": 2.4322344322344325,
	"grad_norm": 0.14323486387729645,
	"learning_rate": 3.650397275338161e-06,
	"loss": 0.6892093420028687,
	"step": 1328
	},
	{
	"epoch": 2.435897435897436,
	"grad_norm": 0.29547300934791565,
	"learning_rate": 3.6299017640454516e-06,
	"loss": 0.8112237453460693,
	"step": 1330
	},
	{
	"epoch": 2.4395604395604398,
	"grad_norm": 0.24407808482646942,
	"learning_rate": 3.6095216329960786e-06,
	"loss": 1.0584710836410522,
	"step": 1332
	},
	{
	"epoch": 2.4432234432234434,
	"grad_norm": 0.1516418755054474,
	"learning_rate": 3.5892572012447457e-06,
	"loss": 0.7057441473007202,
	"step": 1334
	},
	{
	"epoch": 2.446886446886447,
	"grad_norm": 0.7905113101005554,
	"learning_rate": 3.5691087860348577e-06,
	"loss": 0.6778836250305176,
	"step": 1336
	},
	{
	"epoch": 2.4505494505494507,
	"grad_norm": 0.22014175355434418,
	"learning_rate": 3.549076702793557e-06,
	"loss": 1.029534935951233,
	"step": 1338
	},
	{
	"epoch": 2.4542124542124544,
	"grad_norm": 0.1801709532737732,
	"learning_rate": 3.529161265126795e-06,
	"loss": 0.8789123296737671,
	"step": 1340
	},
	{
	"epoch": 2.457875457875458,
	"grad_norm": 0.20198704302310944,
	"learning_rate": 3.5093627848144128e-06,
	"loss": 0.6481719613075256,
	"step": 1342
	},
	{
	"epoch": 2.4615384615384617,
	"grad_norm": 0.19247259199619293,
	"learning_rate": 3.4896815718052534e-06,
	"loss": 0.8237780332565308,
	"step": 1344
	},
	{
	"epoch": 2.4652014652014653,
	"grad_norm": 0.33279868960380554,
	"learning_rate": 3.4701179342123313e-06,
	"loss": 1.0744898319244385,
	"step": 1346
	},
	{
	"epoch": 2.468864468864469,
	"grad_norm": 0.22335071861743927,
	"learning_rate": 3.4506721783079925e-06,
	"loss": 1.1047273874282837,
	"step": 1348
	},
	{
	"epoch": 2.4725274725274726,
	"grad_norm": 0.22440405189990997,
	"learning_rate": 3.4313446085191203e-06,
	"loss": 0.7375847697257996,
	"step": 1350
	},
	{
	"epoch": 2.4761904761904763,
	"grad_norm": 0.19244354963302612,
	"learning_rate": 3.4121355274223727e-06,
	"loss": 0.8467298150062561,
	"step": 1352
	},
	{
	"epoch": 2.47985347985348,
	"grad_norm": 0.6908999085426331,
	"learning_rate": 3.3930452357394473e-06,
	"loss": 0.9552220106124878,
	"step": 1354
	},
	{
	"epoch": 2.4835164835164836,
	"grad_norm": 0.08286982029676437,
	"learning_rate": 3.3740740323323705e-06,
	"loss": 0.9142954349517822,
	"step": 1356
	},
	{
	"epoch": 2.4871794871794872,
	"grad_norm": 0.22177588939666748,
	"learning_rate": 3.3552222141988257e-06,
	"loss": 1.086094617843628,
	"step": 1358
	},
	{
	"epoch": 2.490842490842491,
	"grad_norm": 0.25347036123275757,
	"learning_rate": 3.336490076467489e-06,
	"loss": 0.8864040970802307,
	"step": 1360
	},
	{
	"epoch": 2.4945054945054945,
	"grad_norm": 0.23653751611709595,
	"learning_rate": 3.31787791239342e-06,
	"loss": 0.8004603385925293,
	"step": 1362
	},
	{
	"epoch": 2.498168498168498,
	"grad_norm": 0.5980947017669678,
	"learning_rate": 3.2993860133534763e-06,
	"loss": 0.793962836265564,
	"step": 1364
	},
	{
	"epoch": 2.501831501831502,
	"grad_norm": 0.21092575788497925,
	"learning_rate": 3.2810146688417304e-06,
	"loss": 1.1041920185089111,
	"step": 1366
	},
	{
	"epoch": 2.5054945054945055,
	"grad_norm": 0.27634331583976746,
	"learning_rate": 3.2627641664649666e-06,
	"loss": 0.7773873209953308,
	"step": 1368
	},
	{
	"epoch": 2.509157509157509,
	"grad_norm": 0.9778348207473755,
	"learning_rate": 3.2446347919381533e-06,
	"loss": 0.9699241518974304,
	"step": 1370
	},
	{
	"epoch": 2.5128205128205128,
	"grad_norm": 0.1627015322446823,
	"learning_rate": 3.226626829079979e-06,
	"loss": 0.6628168821334839,
	"step": 1372
	},
	{
	"epoch": 2.5164835164835164,
	"grad_norm": 0.2965766489505768,
	"learning_rate": 3.2087405598084194e-06,
	"loss": 0.7764725685119629,
	"step": 1374
	},
	{
	"epoch": 2.52014652014652,
	"grad_norm": 0.3749862015247345,
	"learning_rate": 3.1909762641363083e-06,
	"loss": 0.9640114903450012,
	"step": 1376
	},
	{
	"epoch": 2.5238095238095237,
	"grad_norm": 0.33859074115753174,
	"learning_rate": 3.173334220166962e-06,
	"loss": 0.7791145443916321,
	"step": 1378
	},
	{
	"epoch": 2.5274725274725274,
	"grad_norm": 0.11459320783615112,
	"learning_rate": 3.155814704089823e-06,
	"loss": 0.9036394953727722,
	"step": 1380
	},
	{
	"epoch": 2.531135531135531,
	"grad_norm": 0.05072527751326561,
	"learning_rate": 3.1384179901761343e-06,
	"loss": 0.8687333464622498,
	"step": 1382
	},
	{
	"epoch": 2.5347985347985347,
	"grad_norm": 0.14993038773536682,
	"learning_rate": 3.1211443507746546e-06,
	"loss": 0.796865701675415,
	"step": 1384
	},
	{
	"epoch": 2.5384615384615383,
	"grad_norm": 0.21694020926952362,
	"learning_rate": 3.1039940563073894e-06,
	"loss": 1.1112338304519653,
	"step": 1386
	},
	{
	"epoch": 2.542124542124542,
	"grad_norm": 0.3444092273712158,
	"learning_rate": 3.0869673752653447e-06,
	"loss": 0.7709718346595764,
	"step": 1388
	},
	{
	"epoch": 2.5457875457875456,
	"grad_norm": 0.17744679749011993,
	"learning_rate": 3.0700645742043476e-06,
	"loss": 0.8162652850151062,
	"step": 1390
	},
	{
	"epoch": 2.5494505494505493,
	"grad_norm": 0.20530077815055847,
	"learning_rate": 3.0532859177408587e-06,
	"loss": 0.9874088168144226,
	"step": 1392
	},
	{
	"epoch": 2.553113553113553,
	"grad_norm": 0.274586945772171,
	"learning_rate": 3.03663166854783e-06,
	"loss": 0.7136038541793823,
	"step": 1394
	},
	{
	"epoch": 2.5567765567765566,
	"grad_norm": 3.192466974258423,
	"learning_rate": 3.020102087350594e-06,
	"loss": 0.34726637601852417,
	"step": 1396
	},
	{
	"epoch": 2.5604395604395602,
	"grad_norm": 0.1340579241514206,
	"learning_rate": 3.0036974329227862e-06,
	"loss": 1.1166174411773682,
	"step": 1398
	},
	{
	"epoch": 2.564102564102564,
	"grad_norm": 0.21132424473762512,
	"learning_rate": 2.9874179620822856e-06,
	"loss": 1.113121509552002,
	"step": 1400
	},
	{
	"epoch": 2.5677655677655675,
	"grad_norm": 10.752368927001953,
	"learning_rate": 2.971263929687207e-06,
	"loss": 0.890852689743042,
	"step": 1402
	},
	{
	"epoch": 2.571428571428571,
	"grad_norm": 0.17507673799991608,
	"learning_rate": 2.9552355886318968e-06,
	"loss": 1.103977918624878,
	"step": 1404
	},
	{
	"epoch": 2.575091575091575,
	"grad_norm": 0.5911962389945984,
	"learning_rate": 2.9393331898429777e-06,
	"loss": 0.490363210439682,
	"step": 1406
	},
	{
	"epoch": 2.578754578754579,
	"grad_norm": 0.3114611804485321,
	"learning_rate": 2.9235569822754317e-06,
	"loss": 1.1442636251449585,
	"step": 1408
	},
	{
	"epoch": 2.5824175824175826,
	"grad_norm": 0.5324491262435913,
	"learning_rate": 2.9079072129086906e-06,
	"loss": 0.902152955532074,
	"step": 1410
	},
	{
	"epoch": 2.586080586080586,
	"grad_norm": 0.7867463827133179,
	"learning_rate": 2.89238412674277e-06,
	"loss": 0.8568077683448792,
	"step": 1412
	},
	{
	"epoch": 2.58974358974359,
	"grad_norm": 0.15315239131450653,
	"learning_rate": 2.8769879667944393e-06,
	"loss": 0.9874310493469238,
	"step": 1414
	},
	{
	"epoch": 2.5934065934065935,
	"grad_norm": 0.1416534036397934,
	"learning_rate": 2.8617189740934113e-06,
	"loss": 1.0887506008148193,
	"step": 1416
	},
	{
	"epoch": 2.597069597069597,
	"grad_norm": 0.5506995916366577,
	"learning_rate": 2.8465773876785786e-06,
	"loss": 0.7493932247161865,
	"step": 1418
	},
	{
	"epoch": 2.600732600732601,
	"grad_norm": 0.18263141810894012,
	"learning_rate": 2.8315634445942623e-06,
	"loss": 1.0847831964492798,
	"step": 1420
	},
	{
	"epoch": 2.6043956043956045,
	"grad_norm": 0.34544312953948975,
	"learning_rate": 2.8166773798864978e-06,
	"loss": 1.034698486328125,
	"step": 1422
	},
	{
	"epoch": 2.608058608058608,
	"grad_norm": 0.1508936733007431,
	"learning_rate": 2.8019194265993683e-06,
	"loss": 1.1893014907836914,
	"step": 1424
	},
	{
	"epoch": 2.6117216117216118,
	"grad_norm": 0.4766862988471985,
	"learning_rate": 2.787289815771348e-06,
	"loss": 1.2730779647827148,
	"step": 1426
	},
	{
	"epoch": 2.6153846153846154,
	"grad_norm": 0.13348671793937683,
	"learning_rate": 2.7727887764316835e-06,
	"loss": 1.1426931619644165,
	"step": 1428
	},
	{
	"epoch": 2.619047619047619,
	"grad_norm": 0.236838236451149,
	"learning_rate": 2.758416535596812e-06,
	"loss": 1.0849556922912598,
	"step": 1430
	},
	{
	"epoch": 2.6227106227106227,
	"grad_norm": 0.5794153213500977,
	"learning_rate": 2.744173318266809e-06,
	"loss": 0.9450169205665588,
	"step": 1432
	},
	{
	"epoch": 2.6263736263736264,
	"grad_norm": 0.36088743805885315,
	"learning_rate": 2.7300593474218583e-06,
	"loss": 0.9599583745002747,
	"step": 1434
	},
	{
	"epoch": 2.63003663003663,
	"grad_norm": 0.31706318259239197,
	"learning_rate": 2.7160748440187736e-06,
	"loss": 1.3008346557617188,
	"step": 1436
	},
	{
	"epoch": 2.6336996336996337,
	"grad_norm": 0.3580021858215332,
	"learning_rate": 2.702220026987525e-06,
	"loss": 1.1389007568359375,
	"step": 1438
	},
	{
	"epoch": 2.6373626373626373,
	"grad_norm": 0.14445240795612335,
	"learning_rate": 2.6884951132278185e-06,
	"loss": 1.0998938083648682,
	"step": 1440
	},
	{
	"epoch": 2.641025641025641,
	"grad_norm": 0.1517283320426941,
	"learning_rate": 2.6749003176057092e-06,
	"loss": 1.1210440397262573,
	"step": 1442
	},
	{
	"epoch": 2.6446886446886446,
	"grad_norm": 0.45322877168655396,
	"learning_rate": 2.6614358529502165e-06,
	"loss": 1.0847159624099731,
	"step": 1444
	},
	{
	"epoch": 2.6483516483516483,
	"grad_norm": 0.29109883308410645,
	"learning_rate": 2.6481019300500166e-06,
	"loss": 0.7964064478874207,
	"step": 1446
	},
	{
	"epoch": 2.652014652014652,
	"grad_norm": 0.11436530947685242,
	"learning_rate": 2.634898757650121e-06,
	"loss": 0.8163434267044067,
	"step": 1448
	},
	{
	"epoch": 2.6556776556776556,
	"grad_norm": 0.2947494089603424,
	"learning_rate": 2.6218265424486233e-06,
	"loss": 1.0925049781799316,
	"step": 1450
	},
	{
	"epoch": 2.659340659340659,
	"grad_norm": 0.1212126612663269,
	"learning_rate": 2.608885489093455e-06,
	"loss": 0.7164836525917053,
	"step": 1452
	},
	{
	"epoch": 2.663003663003663,
	"grad_norm": 0.04943783953785896,
	"learning_rate": 2.5960758001791893e-06,
	"loss": 0.691486120223999,
	"step": 1454
	},
	{
	"epoch": 2.6666666666666665,
	"grad_norm": 0.3063153624534607,
	"learning_rate": 2.5833976762438605e-06,
	"loss": 1.0765835046768188,
	"step": 1456
	},
	{
	"epoch": 2.67032967032967,
	"grad_norm": 0.22485622763633728,
	"learning_rate": 2.5708513157658295e-06,
	"loss": 0.7582894563674927,
	"step": 1458
	},
	{
	"epoch": 2.6739926739926743,
	"grad_norm": 0.06677547842264175,
	"learning_rate": 2.5584369151606785e-06,
	"loss": 0.7757070064544678,
	"step": 1460
	},
	{
	"epoch": 2.677655677655678,
	"grad_norm": 0.7671374082565308,
	"learning_rate": 2.5461546687781325e-06,
	"loss": 0.7911657094955444,
	"step": 1462
	},
	{
	"epoch": 2.6813186813186816,
	"grad_norm": 0.7623786926269531,
	"learning_rate": 2.5340047688990142e-06,
	"loss": 1.068118929862976,
	"step": 1464
	},
	{
	"epoch": 2.684981684981685,
	"grad_norm": 0.43807947635650635,
	"learning_rate": 2.5219874057322453e-06,
	"loss": 0.873447597026825,
	"step": 1466
	},
	{
	"epoch": 2.688644688644689,
	"grad_norm": 0.26977503299713135,
	"learning_rate": 2.5101027674118523e-06,
	"loss": 1.035935401916504,
	"step": 1468
	},
	{
	"epoch": 2.6923076923076925,
	"grad_norm": 0.5837493538856506,
	"learning_rate": 2.4983510399940377e-06,
	"loss": 0.6788349151611328,
	"step": 1470
	},
	{
	"epoch": 2.695970695970696,
	"grad_norm": 0.18614645302295685,
	"learning_rate": 2.4867324074542525e-06,
	"loss": 0.7821959853172302,
	"step": 1472
	},
	{
	"epoch": 2.6996336996337,
	"grad_norm": 0.15699058771133423,
	"learning_rate": 2.4752470516843257e-06,
	"loss": 0.43087324500083923,
	"step": 1474
	},
	{
	"epoch": 2.7032967032967035,
	"grad_norm": 0.2172020673751831,
	"learning_rate": 2.463895152489617e-06,
	"loss": 1.1456137895584106,
	"step": 1476
	},
	{
	"epoch": 2.706959706959707,
	"grad_norm": 2.0078094005584717,
	"learning_rate": 2.4526768875861938e-06,
	"loss": 0.6557917594909668,
	"step": 1478
	},
	{
	"epoch": 2.7106227106227108,
	"grad_norm": 0.20314203202724457,
	"learning_rate": 2.4415924325980575e-06,
	"loss": 1.097117304801941,
	"step": 1480
	},
	{
	"epoch": 2.7142857142857144,
	"grad_norm": 0.2310757040977478,
	"learning_rate": 2.4306419610543885e-06,
	"loss": 1.1016616821289062,
	"step": 1482
	},
	{
	"epoch": 2.717948717948718,
	"grad_norm": 0.2786143720149994,
	"learning_rate": 2.4198256443868327e-06,
	"loss": 1.007630705833435,
	"step": 1484
	},
	{
	"epoch": 2.7216117216117217,
	"grad_norm": 0.19392997026443481,
	"learning_rate": 2.4091436519268167e-06,
	"loss": 1.1404350996017456,
	"step": 1486
	},
	{
	"epoch": 2.7252747252747254,
	"grad_norm": 0.19597096741199493,
	"learning_rate": 2.3985961509028994e-06,
	"loss": 1.1333134174346924,
	"step": 1488
	},
	{
	"epoch": 2.728937728937729,
	"grad_norm": 0.5422940254211426,
	"learning_rate": 2.3881833064381478e-06,
	"loss": 0.5175521373748779,
	"step": 1490
	},
	{
	"epoch": 2.7326007326007327,
	"grad_norm": 0.2044411152601242,
	"learning_rate": 2.3779052815475553e-06,
	"loss": 1.1308917999267578,
	"step": 1492
	},
	{
	"epoch": 2.7362637362637363,
	"grad_norm": 0.1416081041097641,
	"learning_rate": 2.3677622371354932e-06,
	"loss": 0.6426665186882019,
	"step": 1494
	},
	{
	"epoch": 2.73992673992674,
	"grad_norm": 0.2006901204586029,
	"learning_rate": 2.357754331993187e-06,
	"loss": 1.209808349609375,
	"step": 1496
	},
	{
	"epoch": 2.7435897435897436,
	"grad_norm": 0.6464157104492188,
	"learning_rate": 2.347881722796234e-06,
	"loss": 1.0826395750045776,
	"step": 1498
	},
	{
	"epoch": 2.7472527472527473,
	"grad_norm": 0.2090245485305786,
	"learning_rate": 2.3381445641021445e-06,
	"loss": 0.7629504799842834,
	"step": 1500
	},
	{
	"epoch": 2.750915750915751,
	"grad_norm": 0.5330518484115601,
	"learning_rate": 2.328543008347928e-06,
	"loss": 1.0442568063735962,
	"step": 1502
	},
	{
	"epoch": 2.7545787545787546,
	"grad_norm": 0.16121193766593933,
	"learning_rate": 2.31907720584771e-06,
	"loss": 1.110172986984253,
	"step": 1504
	},
	{
	"epoch": 2.758241758241758,
	"grad_norm": 0.30081266164779663,
	"learning_rate": 2.3097473047903645e-06,
	"loss": 1.1260133981704712,
	"step": 1506
	},
	{
	"epoch": 2.761904761904762,
	"grad_norm": 0.1162453442811966,
	"learning_rate": 2.3005534512372106e-06,
	"loss": 0.9192911982536316,
	"step": 1508
	},
	{
	"epoch": 2.7655677655677655,
	"grad_norm": 0.20261140167713165,
	"learning_rate": 2.2914957891197182e-06,
	"loss": 0.9793508648872375,
	"step": 1510
	},
	{
	"epoch": 2.769230769230769,
	"grad_norm": 0.4535771310329437,
	"learning_rate": 2.2825744602372506e-06,
	"loss": 0.9353797435760498,
	"step": 1512
	},
	{
	"epoch": 2.772893772893773,
	"grad_norm": 0.1549007147550583,
	"learning_rate": 2.2737896042548537e-06,
	"loss": 1.0892693996429443,
	"step": 1514
	},
	{
	"epoch": 2.7765567765567765,
	"grad_norm": 0.19211973249912262,
	"learning_rate": 2.2651413587010634e-06,
	"loss": 1.018998146057129,
	"step": 1516
	},
	{
	"epoch": 2.78021978021978,
	"grad_norm": 0.08975478261709213,
	"learning_rate": 2.2566298589657546e-06,
	"loss": 0.9774460196495056,
	"step": 1518
	},
	{
	"epoch": 2.7838827838827838,
	"grad_norm": 0.43200933933258057,
	"learning_rate": 2.2482552382980194e-06,
	"loss": 0.5105809569358826,
	"step": 1520
	},
	{
	"epoch": 2.7875457875457874,
	"grad_norm": 0.3256201148033142,
	"learning_rate": 2.240017627804088e-06,
	"loss": 0.7682803869247437,
	"step": 1522
	},
	{
	"epoch": 2.791208791208791,
	"grad_norm": 0.2014317661523819,
	"learning_rate": 2.231917156445265e-06,
	"loss": 0.8274461627006531,
	"step": 1524
	},
	{
	"epoch": 2.7948717948717947,
	"grad_norm": 0.2527340054512024,
	"learning_rate": 2.223953951035919e-06,
	"loss": 1.1454637050628662,
	"step": 1526
	},
	{
	"epoch": 2.7985347985347984,
	"grad_norm": 0.24777404963970184,
	"learning_rate": 2.216128136241497e-06,
	"loss": 1.1062901020050049,
	"step": 1528
	},
	{
	"epoch": 2.802197802197802,
	"grad_norm": 0.266488641500473,
	"learning_rate": 2.208439834576568e-06,
	"loss": 1.0948668718338013,
	"step": 1530
	},
	{
	"epoch": 2.8058608058608057,
	"grad_norm": 0.22438856959342957,
	"learning_rate": 2.200889166402908e-06,
	"loss": 0.9922219514846802,
	"step": 1532
	},
	{
	"epoch": 2.8095238095238093,
	"grad_norm": 0.44665324687957764,
	"learning_rate": 2.193476249927617e-06,
	"loss": 0.7689359188079834,
	"step": 1534
	},
	{
	"epoch": 2.813186813186813,
	"grad_norm": 0.2788642644882202,
	"learning_rate": 2.1862012012012647e-06,
	"loss": 1.2956171035766602,
	"step": 1536
	},
	{
	"epoch": 2.8168498168498166,
	"grad_norm": 0.19505532085895538,
	"learning_rate": 2.179064134116078e-06,
	"loss": 0.9100971221923828,
	"step": 1538
	},
	{
	"epoch": 2.8205128205128203,
	"grad_norm": 0.375299870967865,
	"learning_rate": 2.1720651604041543e-06,
	"loss": 0.797982931137085,
	"step": 1540
	},
	{
	"epoch": 2.824175824175824,
	"grad_norm": 0.3967142105102539,
	"learning_rate": 2.1652043896357132e-06,
	"loss": 0.8747553825378418,
	"step": 1542
	},
	{
	"epoch": 2.8278388278388276,
	"grad_norm": 0.20281562209129333,
	"learning_rate": 2.1584819292173844e-06,
	"loss": 1.0789376497268677,
	"step": 1544
	},
	{
	"epoch": 2.8315018315018317,
	"grad_norm": 0.16052302718162537,
	"learning_rate": 2.1518978843905204e-06,
	"loss": 1.1215577125549316,
	"step": 1546
	},
	{
	"epoch": 2.8351648351648353,
	"grad_norm": 0.3627042770385742,
	"learning_rate": 2.1454523582295567e-06,
	"loss": 1.1921805143356323,
	"step": 1548
	},
	{
	"epoch": 2.838827838827839,
	"grad_norm": 0.24073031544685364,
	"learning_rate": 2.1391454516403876e-06,
	"loss": 0.8529725670814514,
	"step": 1550
	},
	{
	"epoch": 2.8424908424908426,
	"grad_norm": 0.0781974121928215,
	"learning_rate": 2.1329772633587976e-06,
	"loss": 0.5583704113960266,
	"step": 1552
	},
	{
	"epoch": 2.8461538461538463,
	"grad_norm": 0.36369529366493225,
	"learning_rate": 2.1269478899489068e-06,
	"loss": 1.1247549057006836,
	"step": 1554
	},
	{
	"epoch": 2.84981684981685,
	"grad_norm": 0.2011660635471344,
	"learning_rate": 2.1210574258016675e-06,
	"loss": 0.933762788772583,
	"step": 1556
	},
	{
	"epoch": 2.8534798534798536,
	"grad_norm": 0.28781574964523315,
	"learning_rate": 2.1153059631333785e-06,
	"loss": 1.0756527185440063,
	"step": 1558
	},
	{
	"epoch": 2.857142857142857,
	"grad_norm": 0.24251697957515717,
	"learning_rate": 2.1096935919842434e-06,
	"loss": 0.6010774970054626,
	"step": 1560
	},
	{
	"epoch": 2.860805860805861,
	"grad_norm": 0.7163761854171753,
	"learning_rate": 2.104220400216967e-06,
	"loss": 0.7070506811141968,
	"step": 1562
	},
	{
	"epoch": 2.8644688644688645,
	"grad_norm": 0.2898437976837158,
	"learning_rate": 2.0988864735153724e-06,
	"loss": 0.8790630102157593,
	"step": 1564
	},
	{
	"epoch": 2.868131868131868,
	"grad_norm": 0.21259622275829315,
	"learning_rate": 2.0936918953830633e-06,
	"loss": 0.7261740565299988,
	"step": 1566
	},
	{
	"epoch": 2.871794871794872,
	"grad_norm": 0.2109789252281189,
	"learning_rate": 2.088636747142114e-06,
	"loss": 0.7227349281311035,
	"step": 1568
	},
	{
	"epoch": 2.8754578754578755,
	"grad_norm": 0.13113172352313995,
	"learning_rate": 2.083721107931803e-06,
	"loss": 0.7098702192306519,
	"step": 1570
	},
	{
	"epoch": 2.879120879120879,
	"grad_norm": 0.15327706933021545,
	"learning_rate": 2.0789450547073634e-06,
	"loss": 0.670756995677948,
	"step": 1572
	},
	{
	"epoch": 2.8827838827838828,
	"grad_norm": 0.18212483823299408,
	"learning_rate": 2.074308662238789e-06,
	"loss": 1.0003503561019897,
	"step": 1574
	},
	{
	"epoch": 2.8864468864468864,
	"grad_norm": 0.4816892147064209,
	"learning_rate": 2.069812003109654e-06,
	"loss": 0.9688353538513184,
	"step": 1576
	},
	{
	"epoch": 2.89010989010989,
	"grad_norm": 0.10544779151678085,
	"learning_rate": 2.0654551477159868e-06,
	"loss": 0.8836110234260559,
	"step": 1578
	},
	{
	"epoch": 2.8937728937728937,
	"grad_norm": 0.3180168867111206,
	"learning_rate": 2.0612381642651584e-06,
	"loss": 1.1719013452529907,
	"step": 1580
	},
	{
	"epoch": 2.8974358974358974,
	"grad_norm": 0.27793431282043457,
	"learning_rate": 2.057161118774821e-06,
	"loss": 0.8414309024810791,
	"step": 1582
	},
	{
	"epoch": 2.901098901098901,
	"grad_norm": 0.04963896423578262,
	"learning_rate": 2.05322407507187e-06,
	"loss": 0.774722695350647,
	"step": 1584
	},
	{
	"epoch": 2.9047619047619047,
	"grad_norm": 0.20248396694660187,
	"learning_rate": 2.0494270947914507e-06,
	"loss": 0.7867611050605774,
	"step": 1586
	},
	{
	"epoch": 2.9084249084249083,
	"grad_norm": 0.21805624663829803,
	"learning_rate": 2.0457702373759864e-06,
	"loss": 1.1360061168670654,
	"step": 1588
	},
	{
	"epoch": 2.912087912087912,
	"grad_norm": 0.23772092163562775,
	"learning_rate": 2.0422535600742526e-06,
	"loss": 1.2341614961624146,
	"step": 1590
	},
	{
	"epoch": 2.9157509157509156,
	"grad_norm": 0.18435899913311005,
	"learning_rate": 2.03887711794048e-06,
	"loss": 0.5011038780212402,
	"step": 1592
	},
	{
	"epoch": 2.9194139194139193,
	"grad_norm": 0.3422221839427948,
	"learning_rate": 2.0356409638334902e-06,
	"loss": 1.1472764015197754,
	"step": 1594
	},
	{
	"epoch": 2.9230769230769234,
	"grad_norm": 0.17098046839237213,
	"learning_rate": 2.032545148415871e-06,
	"loss": 0.7732096314430237,
	"step": 1596
	},
	{
	"epoch": 2.926739926739927,
	"grad_norm": 0.7645007967948914,
	"learning_rate": 2.0295897201531838e-06,
	"loss": 1.1579139232635498,
	"step": 1598
	},
	{
	"epoch": 2.9304029304029307,
	"grad_norm": 0.10712127387523651,
	"learning_rate": 2.026774725313199e-06,
	"loss": 0.7875133752822876,
	"step": 1600
	},
	{
	"epoch": 2.9340659340659343,
	"grad_norm": 0.2381410002708435,
	"learning_rate": 2.0241002079651803e-06,
	"loss": 1.127753734588623,
	"step": 1602
	},
	{
	"epoch": 2.937728937728938,
	"grad_norm": 0.11660497635602951,
	"learning_rate": 2.0215662099791874e-06,
	"loss": 0.8583760857582092,
	"step": 1604
	},
	{
	"epoch": 2.9413919413919416,
	"grad_norm": 0.11747006326913834,
	"learning_rate": 2.019172771025426e-06,
	"loss": 1.1139161586761475,
	"step": 1606
	},
	{
	"epoch": 2.9450549450549453,
	"grad_norm": 0.23837412893772125,
	"learning_rate": 2.0169199285736234e-06,
	"loss": 0.70558762550354,
	"step": 1608
	},
	{
	"epoch": 2.948717948717949,
	"grad_norm": 1.0472151041030884,
	"learning_rate": 2.0148077178924412e-06,
	"loss": 1.0212595462799072,
	"step": 1610
	},
	{
	"epoch": 2.9523809523809526,
	"grad_norm": 0.42982223629951477,
	"learning_rate": 2.0128361720489263e-06,
	"loss": 0.9128657579421997,
	"step": 1612
	},
	{
	"epoch": 2.956043956043956,
	"grad_norm": 0.3609876036643982,
	"learning_rate": 2.0110053219079927e-06,
	"loss": 0.7006140351295471,
	"step": 1614
	},
	{
	"epoch": 2.95970695970696,
	"grad_norm": 0.1467907726764679,
	"learning_rate": 2.009315196131934e-06,
	"loss": 0.8262853622436523,
	"step": 1616
	},
	{
	"epoch": 2.9633699633699635,
	"grad_norm": 0.19187031686306,
	"learning_rate": 2.0077658211799823e-06,
	"loss": 1.377809762954712,
	"step": 1618
	},
	{
	"epoch": 2.967032967032967,
	"grad_norm": 0.15873286128044128,
	"learning_rate": 2.0063572213078856e-06,
	"loss": 1.231734275817871,
	"step": 1620
	},
	{
	"epoch": 2.970695970695971,
	"grad_norm": 0.21058079600334167,
	"learning_rate": 2.0050894185675354e-06,
	"loss": 0.9216747283935547,
	"step": 1622
	},
	{
	"epoch": 2.9743589743589745,
	"grad_norm": 0.987656831741333,
	"learning_rate": 2.0039624328066154e-06,
	"loss": 0.7753393650054932,
	"step": 1624
	},
	{
	"epoch": 2.978021978021978,
	"grad_norm": 0.1376422792673111,
	"learning_rate": 2.0029762816682963e-06,
	"loss": 0.8735133409500122,
	"step": 1626
	},
	{
	"epoch": 2.9816849816849818,
	"grad_norm": 0.2521003782749176,
	"learning_rate": 2.0021309805909546e-06,
	"loss": 0.9476748108863831,
	"step": 1628
	},
	{
	"epoch": 2.9853479853479854,
	"grad_norm": 0.2520880401134491,
	"learning_rate": 2.001426542807935e-06,
	"loss": 1.4022109508514404,
	"step": 1630
	},
	{
	"epoch": 2.989010989010989,
	"grad_norm": 0.664996325969696,
	"learning_rate": 2.000862979347339e-06,
	"loss": 1.0088284015655518,
	"step": 1632
	},
	{
	"epoch": 2.9926739926739927,
	"grad_norm": 0.1726013422012329,
	"learning_rate": 2.0004402990318574e-06,
	"loss": 0.7768830060958862,
	"step": 1634
	},
	{
	"epoch": 2.9963369963369964,
	"grad_norm": 0.2047058343887329,
	"learning_rate": 2.000158508478629e-06,
	"loss": 1.2755635976791382,
	"step": 1636
	},
	{
	"epoch": 3.0,
	"grad_norm": 0.24670879542827606,
	"learning_rate": 2.0000176120991345e-06,
	"loss": 1.0712250471115112,
	"step": 1638
	},
	{
	"epoch": 3.0,
	"step": 1638,
	"total_flos": 8.4482141520606e+18,
	"train_loss": 1.0263564972723214,
	"train_runtime": 57008.8117,
	"train_samples_per_second": 0.69,
	"train_steps_per_second": 0.029
	}
	],
	"logging_steps": 2,
	"max_steps": 1638,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 3,
	"save_steps": 99999,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": false,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 8.4482141520606e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}