Text Generation
Transformers
Safetensors
qwen3
Generated from Trainer
sft
unsloth
trl
custom_code
text-generation-inference
Instructions to use Ba2han/experimental_auto with libraries, inference providers, notebooks, and local apps. Follow these links to get started.
- Libraries
- Transformers
How to use Ba2han/experimental_auto with Transformers:
# Use a pipeline as a high-level helper from transformers import pipeline pipe = pipeline("text-generation", model="Ba2han/experimental_auto", trust_remote_code=True)# Load model directly from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("Ba2han/experimental_auto", trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained("Ba2han/experimental_auto", trust_remote_code=True) - Notebooks
- Google Colab
- Kaggle
- Local Apps
- vLLM
How to use Ba2han/experimental_auto with vLLM:
Install from pip and serve model
# Install vLLM from pip: pip install vllm # Start the vLLM server: vllm serve "Ba2han/experimental_auto" # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:8000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Ba2han/experimental_auto", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker
docker model run hf.co/Ba2han/experimental_auto
- SGLang
How to use Ba2han/experimental_auto with SGLang:
Install from pip and serve model
# Install SGLang from pip: pip install sglang # Start the SGLang server: python3 -m sglang.launch_server \ --model-path "Ba2han/experimental_auto" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Ba2han/experimental_auto", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }'Use Docker images
docker run --gpus all \ --shm-size 32g \ -p 30000:30000 \ -v ~/.cache/huggingface:/root/.cache/huggingface \ --env "HF_TOKEN=<secret>" \ --ipc=host \ lmsysorg/sglang:latest \ python3 -m sglang.launch_server \ --model-path "Ba2han/experimental_auto" \ --host 0.0.0.0 \ --port 30000 # Call the server using curl (OpenAI-compatible API): curl -X POST "http://localhost:30000/v1/completions" \ -H "Content-Type: application/json" \ --data '{ "model": "Ba2han/experimental_auto", "prompt": "Once upon a time,", "max_tokens": 512, "temperature": 0.5 }' - Unsloth Studio new
How to use Ba2han/experimental_auto with Unsloth Studio:
Install Unsloth Studio (macOS, Linux, WSL)
curl -fsSL https://unsloth.ai/install.sh | sh # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for Ba2han/experimental_auto to start chatting
Install Unsloth Studio (Windows)
irm https://unsloth.ai/install.ps1 | iex # Run unsloth studio unsloth studio -H 0.0.0.0 -p 8888 # Then open http://localhost:8888 in your browser # Search for Ba2han/experimental_auto to start chatting
Using HuggingFace Spaces for Unsloth
# No setup required # Open https://huggingface.co/spaces/unsloth/studio in your browser # Search for Ba2han/experimental_auto to start chatting
Load model with FastModel
pip install unsloth from unsloth import FastModel model, tokenizer = FastModel.from_pretrained( model_name="Ba2han/experimental_auto", max_seq_length=2048, ) - Docker Model Runner
How to use Ba2han/experimental_auto with Docker Model Runner:
docker model run hf.co/Ba2han/experimental_auto
Training in progress, step 4500, checkpoint
Browse files
last-checkpoint/model.safetensors
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
size 1229999800
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:c680bb4a5040ef0e48d015c7a12c5f4e41f96515bcfc410b5cd05d60b88f0155
|
| 3 |
size 1229999800
|
last-checkpoint/optimizer.pt
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
size 490531915
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:948e61d950be46fd3952d87c1da4e9be624ff31d0e5c8893c4b4a910bc45e24f
|
| 3 |
size 490531915
|
last-checkpoint/scheduler.pt
CHANGED
|
@@ -1,3 +1,3 @@
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
-
oid sha256:
|
| 3 |
size 1465
|
|
|
|
| 1 |
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:01fb2dd3a221f4f86e7a7276692c3336860660e04b234b110de764c629eabe82
|
| 3 |
size 1465
|
last-checkpoint/trainer_state.json
CHANGED
|
@@ -2,9 +2,9 @@
|
|
| 2 |
"best_global_step": null,
|
| 3 |
"best_metric": null,
|
| 4 |
"best_model_checkpoint": null,
|
| 5 |
-
"epoch": 0.
|
| 6 |
"eval_steps": 3000,
|
| 7 |
-
"global_step":
|
| 8 |
"is_hyper_param_search": false,
|
| 9 |
"is_local_process_zero": true,
|
| 10 |
"is_world_process_zero": true,
|
|
@@ -12608,6 +12608,3156 @@
|
|
| 12608 |
"learning_rate": 0.024,
|
| 12609 |
"loss": 2.4164199829101562,
|
| 12610 |
"step": 3600
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 12611 |
}
|
| 12612 |
],
|
| 12613 |
"logging_steps": 2,
|
|
@@ -12627,7 +15777,7 @@
|
|
| 12627 |
"attributes": {}
|
| 12628 |
}
|
| 12629 |
},
|
| 12630 |
-
"total_flos": 1.
|
| 12631 |
"train_batch_size": 4,
|
| 12632 |
"trial_name": null,
|
| 12633 |
"trial_params": null
|
|
|
|
| 2 |
"best_global_step": null,
|
| 3 |
"best_metric": null,
|
| 4 |
"best_model_checkpoint": null,
|
| 5 |
+
"epoch": 0.15,
|
| 6 |
"eval_steps": 3000,
|
| 7 |
+
"global_step": 4500,
|
| 8 |
"is_hyper_param_search": false,
|
| 9 |
"is_local_process_zero": true,
|
| 10 |
"is_world_process_zero": true,
|
|
|
|
| 12608 |
"learning_rate": 0.024,
|
| 12609 |
"loss": 2.4164199829101562,
|
| 12610 |
"step": 3600
|
| 12611 |
+
},
|
| 12612 |
+
{
|
| 12613 |
+
"epoch": 0.12006666666666667,
|
| 12614 |
+
"grad_norm": 0.12890625,
|
| 12615 |
+
"learning_rate": 0.024,
|
| 12616 |
+
"loss": 2.4011921882629395,
|
| 12617 |
+
"step": 3602
|
| 12618 |
+
},
|
| 12619 |
+
{
|
| 12620 |
+
"epoch": 0.12013333333333333,
|
| 12621 |
+
"grad_norm": 0.1357421875,
|
| 12622 |
+
"learning_rate": 0.024,
|
| 12623 |
+
"loss": 2.427804470062256,
|
| 12624 |
+
"step": 3604
|
| 12625 |
+
},
|
| 12626 |
+
{
|
| 12627 |
+
"epoch": 0.1202,
|
| 12628 |
+
"grad_norm": 0.12451171875,
|
| 12629 |
+
"learning_rate": 0.024,
|
| 12630 |
+
"loss": 2.4052743911743164,
|
| 12631 |
+
"step": 3606
|
| 12632 |
+
},
|
| 12633 |
+
{
|
| 12634 |
+
"epoch": 0.12026666666666666,
|
| 12635 |
+
"grad_norm": 0.12890625,
|
| 12636 |
+
"learning_rate": 0.024,
|
| 12637 |
+
"loss": 2.412158489227295,
|
| 12638 |
+
"step": 3608
|
| 12639 |
+
},
|
| 12640 |
+
{
|
| 12641 |
+
"epoch": 0.12033333333333333,
|
| 12642 |
+
"grad_norm": 0.12451171875,
|
| 12643 |
+
"learning_rate": 0.024,
|
| 12644 |
+
"loss": 2.403179168701172,
|
| 12645 |
+
"step": 3610
|
| 12646 |
+
},
|
| 12647 |
+
{
|
| 12648 |
+
"epoch": 0.1204,
|
| 12649 |
+
"grad_norm": 0.126953125,
|
| 12650 |
+
"learning_rate": 0.024,
|
| 12651 |
+
"loss": 2.398909568786621,
|
| 12652 |
+
"step": 3612
|
| 12653 |
+
},
|
| 12654 |
+
{
|
| 12655 |
+
"epoch": 0.12046666666666667,
|
| 12656 |
+
"grad_norm": 0.12890625,
|
| 12657 |
+
"learning_rate": 0.024,
|
| 12658 |
+
"loss": 2.415963888168335,
|
| 12659 |
+
"step": 3614
|
| 12660 |
+
},
|
| 12661 |
+
{
|
| 12662 |
+
"epoch": 0.12053333333333334,
|
| 12663 |
+
"grad_norm": 0.123046875,
|
| 12664 |
+
"learning_rate": 0.024,
|
| 12665 |
+
"loss": 2.416398525238037,
|
| 12666 |
+
"step": 3616
|
| 12667 |
+
},
|
| 12668 |
+
{
|
| 12669 |
+
"epoch": 0.1206,
|
| 12670 |
+
"grad_norm": 0.125,
|
| 12671 |
+
"learning_rate": 0.024,
|
| 12672 |
+
"loss": 2.379307508468628,
|
| 12673 |
+
"step": 3618
|
| 12674 |
+
},
|
| 12675 |
+
{
|
| 12676 |
+
"epoch": 0.12066666666666667,
|
| 12677 |
+
"grad_norm": 0.1298828125,
|
| 12678 |
+
"learning_rate": 0.024,
|
| 12679 |
+
"loss": 2.4079151153564453,
|
| 12680 |
+
"step": 3620
|
| 12681 |
+
},
|
| 12682 |
+
{
|
| 12683 |
+
"epoch": 0.12073333333333333,
|
| 12684 |
+
"grad_norm": 0.1142578125,
|
| 12685 |
+
"learning_rate": 0.024,
|
| 12686 |
+
"loss": 2.40400767326355,
|
| 12687 |
+
"step": 3622
|
| 12688 |
+
},
|
| 12689 |
+
{
|
| 12690 |
+
"epoch": 0.1208,
|
| 12691 |
+
"grad_norm": 0.130859375,
|
| 12692 |
+
"learning_rate": 0.024,
|
| 12693 |
+
"loss": 2.4404966831207275,
|
| 12694 |
+
"step": 3624
|
| 12695 |
+
},
|
| 12696 |
+
{
|
| 12697 |
+
"epoch": 0.12086666666666666,
|
| 12698 |
+
"grad_norm": 0.1279296875,
|
| 12699 |
+
"learning_rate": 0.024,
|
| 12700 |
+
"loss": 2.4328360557556152,
|
| 12701 |
+
"step": 3626
|
| 12702 |
+
},
|
| 12703 |
+
{
|
| 12704 |
+
"epoch": 0.12093333333333334,
|
| 12705 |
+
"grad_norm": 0.123046875,
|
| 12706 |
+
"learning_rate": 0.024,
|
| 12707 |
+
"loss": 2.4026076793670654,
|
| 12708 |
+
"step": 3628
|
| 12709 |
+
},
|
| 12710 |
+
{
|
| 12711 |
+
"epoch": 0.121,
|
| 12712 |
+
"grad_norm": 0.1318359375,
|
| 12713 |
+
"learning_rate": 0.024,
|
| 12714 |
+
"loss": 2.4100027084350586,
|
| 12715 |
+
"step": 3630
|
| 12716 |
+
},
|
| 12717 |
+
{
|
| 12718 |
+
"epoch": 0.12106666666666667,
|
| 12719 |
+
"grad_norm": 0.12451171875,
|
| 12720 |
+
"learning_rate": 0.024,
|
| 12721 |
+
"loss": 2.41629958152771,
|
| 12722 |
+
"step": 3632
|
| 12723 |
+
},
|
| 12724 |
+
{
|
| 12725 |
+
"epoch": 0.12113333333333333,
|
| 12726 |
+
"grad_norm": 0.12451171875,
|
| 12727 |
+
"learning_rate": 0.024,
|
| 12728 |
+
"loss": 2.3833088874816895,
|
| 12729 |
+
"step": 3634
|
| 12730 |
+
},
|
| 12731 |
+
{
|
| 12732 |
+
"epoch": 0.1212,
|
| 12733 |
+
"grad_norm": 0.12890625,
|
| 12734 |
+
"learning_rate": 0.024,
|
| 12735 |
+
"loss": 2.3819260597229004,
|
| 12736 |
+
"step": 3636
|
| 12737 |
+
},
|
| 12738 |
+
{
|
| 12739 |
+
"epoch": 0.12126666666666666,
|
| 12740 |
+
"grad_norm": 0.1318359375,
|
| 12741 |
+
"learning_rate": 0.024,
|
| 12742 |
+
"loss": 2.3865809440612793,
|
| 12743 |
+
"step": 3638
|
| 12744 |
+
},
|
| 12745 |
+
{
|
| 12746 |
+
"epoch": 0.12133333333333333,
|
| 12747 |
+
"grad_norm": 0.1396484375,
|
| 12748 |
+
"learning_rate": 0.024,
|
| 12749 |
+
"loss": 2.4073989391326904,
|
| 12750 |
+
"step": 3640
|
| 12751 |
+
},
|
| 12752 |
+
{
|
| 12753 |
+
"epoch": 0.1214,
|
| 12754 |
+
"grad_norm": 0.13671875,
|
| 12755 |
+
"learning_rate": 0.024,
|
| 12756 |
+
"loss": 2.398315906524658,
|
| 12757 |
+
"step": 3642
|
| 12758 |
+
},
|
| 12759 |
+
{
|
| 12760 |
+
"epoch": 0.12146666666666667,
|
| 12761 |
+
"grad_norm": 0.1328125,
|
| 12762 |
+
"learning_rate": 0.024,
|
| 12763 |
+
"loss": 2.4219884872436523,
|
| 12764 |
+
"step": 3644
|
| 12765 |
+
},
|
| 12766 |
+
{
|
| 12767 |
+
"epoch": 0.12153333333333333,
|
| 12768 |
+
"grad_norm": 0.1259765625,
|
| 12769 |
+
"learning_rate": 0.024,
|
| 12770 |
+
"loss": 2.4168853759765625,
|
| 12771 |
+
"step": 3646
|
| 12772 |
+
},
|
| 12773 |
+
{
|
| 12774 |
+
"epoch": 0.1216,
|
| 12775 |
+
"grad_norm": 0.115234375,
|
| 12776 |
+
"learning_rate": 0.024,
|
| 12777 |
+
"loss": 2.414362907409668,
|
| 12778 |
+
"step": 3648
|
| 12779 |
+
},
|
| 12780 |
+
{
|
| 12781 |
+
"epoch": 0.12166666666666667,
|
| 12782 |
+
"grad_norm": 0.12158203125,
|
| 12783 |
+
"learning_rate": 0.024,
|
| 12784 |
+
"loss": 2.382805347442627,
|
| 12785 |
+
"step": 3650
|
| 12786 |
+
},
|
| 12787 |
+
{
|
| 12788 |
+
"epoch": 0.12173333333333333,
|
| 12789 |
+
"grad_norm": 0.12890625,
|
| 12790 |
+
"learning_rate": 0.024,
|
| 12791 |
+
"loss": 2.427590847015381,
|
| 12792 |
+
"step": 3652
|
| 12793 |
+
},
|
| 12794 |
+
{
|
| 12795 |
+
"epoch": 0.1218,
|
| 12796 |
+
"grad_norm": 0.138671875,
|
| 12797 |
+
"learning_rate": 0.024,
|
| 12798 |
+
"loss": 2.4051952362060547,
|
| 12799 |
+
"step": 3654
|
| 12800 |
+
},
|
| 12801 |
+
{
|
| 12802 |
+
"epoch": 0.12186666666666666,
|
| 12803 |
+
"grad_norm": 0.1328125,
|
| 12804 |
+
"learning_rate": 0.024,
|
| 12805 |
+
"loss": 2.4132471084594727,
|
| 12806 |
+
"step": 3656
|
| 12807 |
+
},
|
| 12808 |
+
{
|
| 12809 |
+
"epoch": 0.12193333333333334,
|
| 12810 |
+
"grad_norm": 0.1396484375,
|
| 12811 |
+
"learning_rate": 0.024,
|
| 12812 |
+
"loss": 2.416978597640991,
|
| 12813 |
+
"step": 3658
|
| 12814 |
+
},
|
| 12815 |
+
{
|
| 12816 |
+
"epoch": 0.122,
|
| 12817 |
+
"grad_norm": 0.1396484375,
|
| 12818 |
+
"learning_rate": 0.024,
|
| 12819 |
+
"loss": 2.4009478092193604,
|
| 12820 |
+
"step": 3660
|
| 12821 |
+
},
|
| 12822 |
+
{
|
| 12823 |
+
"epoch": 0.12206666666666667,
|
| 12824 |
+
"grad_norm": 0.1396484375,
|
| 12825 |
+
"learning_rate": 0.024,
|
| 12826 |
+
"loss": 2.4033687114715576,
|
| 12827 |
+
"step": 3662
|
| 12828 |
+
},
|
| 12829 |
+
{
|
| 12830 |
+
"epoch": 0.12213333333333333,
|
| 12831 |
+
"grad_norm": 0.138671875,
|
| 12832 |
+
"learning_rate": 0.024,
|
| 12833 |
+
"loss": 2.402921676635742,
|
| 12834 |
+
"step": 3664
|
| 12835 |
+
},
|
| 12836 |
+
{
|
| 12837 |
+
"epoch": 0.1222,
|
| 12838 |
+
"grad_norm": 0.130859375,
|
| 12839 |
+
"learning_rate": 0.024,
|
| 12840 |
+
"loss": 2.3990068435668945,
|
| 12841 |
+
"step": 3666
|
| 12842 |
+
},
|
| 12843 |
+
{
|
| 12844 |
+
"epoch": 0.12226666666666666,
|
| 12845 |
+
"grad_norm": 0.1279296875,
|
| 12846 |
+
"learning_rate": 0.024,
|
| 12847 |
+
"loss": 2.413029193878174,
|
| 12848 |
+
"step": 3668
|
| 12849 |
+
},
|
| 12850 |
+
{
|
| 12851 |
+
"epoch": 0.12233333333333334,
|
| 12852 |
+
"grad_norm": 0.130859375,
|
| 12853 |
+
"learning_rate": 0.024,
|
| 12854 |
+
"loss": 2.3891119956970215,
|
| 12855 |
+
"step": 3670
|
| 12856 |
+
},
|
| 12857 |
+
{
|
| 12858 |
+
"epoch": 0.1224,
|
| 12859 |
+
"grad_norm": 0.130859375,
|
| 12860 |
+
"learning_rate": 0.024,
|
| 12861 |
+
"loss": 2.4084033966064453,
|
| 12862 |
+
"step": 3672
|
| 12863 |
+
},
|
| 12864 |
+
{
|
| 12865 |
+
"epoch": 0.12246666666666667,
|
| 12866 |
+
"grad_norm": 0.1484375,
|
| 12867 |
+
"learning_rate": 0.024,
|
| 12868 |
+
"loss": 2.3892369270324707,
|
| 12869 |
+
"step": 3674
|
| 12870 |
+
},
|
| 12871 |
+
{
|
| 12872 |
+
"epoch": 0.12253333333333333,
|
| 12873 |
+
"grad_norm": 0.13671875,
|
| 12874 |
+
"learning_rate": 0.024,
|
| 12875 |
+
"loss": 2.367910861968994,
|
| 12876 |
+
"step": 3676
|
| 12877 |
+
},
|
| 12878 |
+
{
|
| 12879 |
+
"epoch": 0.1226,
|
| 12880 |
+
"grad_norm": 0.12451171875,
|
| 12881 |
+
"learning_rate": 0.024,
|
| 12882 |
+
"loss": 2.3568520545959473,
|
| 12883 |
+
"step": 3678
|
| 12884 |
+
},
|
| 12885 |
+
{
|
| 12886 |
+
"epoch": 0.12266666666666666,
|
| 12887 |
+
"grad_norm": 0.1318359375,
|
| 12888 |
+
"learning_rate": 0.024,
|
| 12889 |
+
"loss": 2.4197208881378174,
|
| 12890 |
+
"step": 3680
|
| 12891 |
+
},
|
| 12892 |
+
{
|
| 12893 |
+
"epoch": 0.12273333333333333,
|
| 12894 |
+
"grad_norm": 0.1298828125,
|
| 12895 |
+
"learning_rate": 0.024,
|
| 12896 |
+
"loss": 2.415536880493164,
|
| 12897 |
+
"step": 3682
|
| 12898 |
+
},
|
| 12899 |
+
{
|
| 12900 |
+
"epoch": 0.1228,
|
| 12901 |
+
"grad_norm": 0.130859375,
|
| 12902 |
+
"learning_rate": 0.024,
|
| 12903 |
+
"loss": 2.4307994842529297,
|
| 12904 |
+
"step": 3684
|
| 12905 |
+
},
|
| 12906 |
+
{
|
| 12907 |
+
"epoch": 0.12286666666666667,
|
| 12908 |
+
"grad_norm": 0.1357421875,
|
| 12909 |
+
"learning_rate": 0.024,
|
| 12910 |
+
"loss": 2.3882856369018555,
|
| 12911 |
+
"step": 3686
|
| 12912 |
+
},
|
| 12913 |
+
{
|
| 12914 |
+
"epoch": 0.12293333333333334,
|
| 12915 |
+
"grad_norm": 0.126953125,
|
| 12916 |
+
"learning_rate": 0.024,
|
| 12917 |
+
"loss": 2.406144618988037,
|
| 12918 |
+
"step": 3688
|
| 12919 |
+
},
|
| 12920 |
+
{
|
| 12921 |
+
"epoch": 0.123,
|
| 12922 |
+
"grad_norm": 0.1337890625,
|
| 12923 |
+
"learning_rate": 0.024,
|
| 12924 |
+
"loss": 2.377098560333252,
|
| 12925 |
+
"step": 3690
|
| 12926 |
+
},
|
| 12927 |
+
{
|
| 12928 |
+
"epoch": 0.12306666666666667,
|
| 12929 |
+
"grad_norm": 0.1279296875,
|
| 12930 |
+
"learning_rate": 0.024,
|
| 12931 |
+
"loss": 2.3935470581054688,
|
| 12932 |
+
"step": 3692
|
| 12933 |
+
},
|
| 12934 |
+
{
|
| 12935 |
+
"epoch": 0.12313333333333333,
|
| 12936 |
+
"grad_norm": 0.1181640625,
|
| 12937 |
+
"learning_rate": 0.024,
|
| 12938 |
+
"loss": 2.3825440406799316,
|
| 12939 |
+
"step": 3694
|
| 12940 |
+
},
|
| 12941 |
+
{
|
| 12942 |
+
"epoch": 0.1232,
|
| 12943 |
+
"grad_norm": 0.11572265625,
|
| 12944 |
+
"learning_rate": 0.024,
|
| 12945 |
+
"loss": 2.3986525535583496,
|
| 12946 |
+
"step": 3696
|
| 12947 |
+
},
|
| 12948 |
+
{
|
| 12949 |
+
"epoch": 0.12326666666666666,
|
| 12950 |
+
"grad_norm": 0.1279296875,
|
| 12951 |
+
"learning_rate": 0.024,
|
| 12952 |
+
"loss": 2.4108262062072754,
|
| 12953 |
+
"step": 3698
|
| 12954 |
+
},
|
| 12955 |
+
{
|
| 12956 |
+
"epoch": 0.12333333333333334,
|
| 12957 |
+
"grad_norm": 0.1240234375,
|
| 12958 |
+
"learning_rate": 0.024,
|
| 12959 |
+
"loss": 2.3969693183898926,
|
| 12960 |
+
"step": 3700
|
| 12961 |
+
},
|
| 12962 |
+
{
|
| 12963 |
+
"epoch": 0.1234,
|
| 12964 |
+
"grad_norm": 0.1337890625,
|
| 12965 |
+
"learning_rate": 0.024,
|
| 12966 |
+
"loss": 2.409869909286499,
|
| 12967 |
+
"step": 3702
|
| 12968 |
+
},
|
| 12969 |
+
{
|
| 12970 |
+
"epoch": 0.12346666666666667,
|
| 12971 |
+
"grad_norm": 0.12353515625,
|
| 12972 |
+
"learning_rate": 0.024,
|
| 12973 |
+
"loss": 2.4007859230041504,
|
| 12974 |
+
"step": 3704
|
| 12975 |
+
},
|
| 12976 |
+
{
|
| 12977 |
+
"epoch": 0.12353333333333333,
|
| 12978 |
+
"grad_norm": 0.1416015625,
|
| 12979 |
+
"learning_rate": 0.024,
|
| 12980 |
+
"loss": 2.4266932010650635,
|
| 12981 |
+
"step": 3706
|
| 12982 |
+
},
|
| 12983 |
+
{
|
| 12984 |
+
"epoch": 0.1236,
|
| 12985 |
+
"grad_norm": 0.1396484375,
|
| 12986 |
+
"learning_rate": 0.024,
|
| 12987 |
+
"loss": 2.3845696449279785,
|
| 12988 |
+
"step": 3708
|
| 12989 |
+
},
|
| 12990 |
+
{
|
| 12991 |
+
"epoch": 0.12366666666666666,
|
| 12992 |
+
"grad_norm": 0.138671875,
|
| 12993 |
+
"learning_rate": 0.024,
|
| 12994 |
+
"loss": 2.3770651817321777,
|
| 12995 |
+
"step": 3710
|
| 12996 |
+
},
|
| 12997 |
+
{
|
| 12998 |
+
"epoch": 0.12373333333333333,
|
| 12999 |
+
"grad_norm": 0.150390625,
|
| 13000 |
+
"learning_rate": 0.024,
|
| 13001 |
+
"loss": 2.404356002807617,
|
| 13002 |
+
"step": 3712
|
| 13003 |
+
},
|
| 13004 |
+
{
|
| 13005 |
+
"epoch": 0.1238,
|
| 13006 |
+
"grad_norm": 0.126953125,
|
| 13007 |
+
"learning_rate": 0.024,
|
| 13008 |
+
"loss": 2.355290412902832,
|
| 13009 |
+
"step": 3714
|
| 13010 |
+
},
|
| 13011 |
+
{
|
| 13012 |
+
"epoch": 0.12386666666666667,
|
| 13013 |
+
"grad_norm": 0.12890625,
|
| 13014 |
+
"learning_rate": 0.024,
|
| 13015 |
+
"loss": 2.382802963256836,
|
| 13016 |
+
"step": 3716
|
| 13017 |
+
},
|
| 13018 |
+
{
|
| 13019 |
+
"epoch": 0.12393333333333334,
|
| 13020 |
+
"grad_norm": 0.12451171875,
|
| 13021 |
+
"learning_rate": 0.024,
|
| 13022 |
+
"loss": 2.385908365249634,
|
| 13023 |
+
"step": 3718
|
| 13024 |
+
},
|
| 13025 |
+
{
|
| 13026 |
+
"epoch": 0.124,
|
| 13027 |
+
"grad_norm": 0.1220703125,
|
| 13028 |
+
"learning_rate": 0.024,
|
| 13029 |
+
"loss": 2.3875515460968018,
|
| 13030 |
+
"step": 3720
|
| 13031 |
+
},
|
| 13032 |
+
{
|
| 13033 |
+
"epoch": 0.12406666666666667,
|
| 13034 |
+
"grad_norm": 0.11767578125,
|
| 13035 |
+
"learning_rate": 0.024,
|
| 13036 |
+
"loss": 2.370589256286621,
|
| 13037 |
+
"step": 3722
|
| 13038 |
+
},
|
| 13039 |
+
{
|
| 13040 |
+
"epoch": 0.12413333333333333,
|
| 13041 |
+
"grad_norm": 0.10888671875,
|
| 13042 |
+
"learning_rate": 0.024,
|
| 13043 |
+
"loss": 2.389080047607422,
|
| 13044 |
+
"step": 3724
|
| 13045 |
+
},
|
| 13046 |
+
{
|
| 13047 |
+
"epoch": 0.1242,
|
| 13048 |
+
"grad_norm": 0.11865234375,
|
| 13049 |
+
"learning_rate": 0.024,
|
| 13050 |
+
"loss": 2.383751392364502,
|
| 13051 |
+
"step": 3726
|
| 13052 |
+
},
|
| 13053 |
+
{
|
| 13054 |
+
"epoch": 0.12426666666666666,
|
| 13055 |
+
"grad_norm": 0.11181640625,
|
| 13056 |
+
"learning_rate": 0.024,
|
| 13057 |
+
"loss": 2.385361433029175,
|
| 13058 |
+
"step": 3728
|
| 13059 |
+
},
|
| 13060 |
+
{
|
| 13061 |
+
"epoch": 0.12433333333333334,
|
| 13062 |
+
"grad_norm": 0.1328125,
|
| 13063 |
+
"learning_rate": 0.024,
|
| 13064 |
+
"loss": 2.373563766479492,
|
| 13065 |
+
"step": 3730
|
| 13066 |
+
},
|
| 13067 |
+
{
|
| 13068 |
+
"epoch": 0.1244,
|
| 13069 |
+
"grad_norm": 0.1318359375,
|
| 13070 |
+
"learning_rate": 0.024,
|
| 13071 |
+
"loss": 2.407423973083496,
|
| 13072 |
+
"step": 3732
|
| 13073 |
+
},
|
| 13074 |
+
{
|
| 13075 |
+
"epoch": 0.12446666666666667,
|
| 13076 |
+
"grad_norm": 0.142578125,
|
| 13077 |
+
"learning_rate": 0.024,
|
| 13078 |
+
"loss": 2.3536858558654785,
|
| 13079 |
+
"step": 3734
|
| 13080 |
+
},
|
| 13081 |
+
{
|
| 13082 |
+
"epoch": 0.12453333333333333,
|
| 13083 |
+
"grad_norm": 0.138671875,
|
| 13084 |
+
"learning_rate": 0.024,
|
| 13085 |
+
"loss": 2.3897664546966553,
|
| 13086 |
+
"step": 3736
|
| 13087 |
+
},
|
| 13088 |
+
{
|
| 13089 |
+
"epoch": 0.1246,
|
| 13090 |
+
"grad_norm": 0.1337890625,
|
| 13091 |
+
"learning_rate": 0.024,
|
| 13092 |
+
"loss": 2.3618383407592773,
|
| 13093 |
+
"step": 3738
|
| 13094 |
+
},
|
| 13095 |
+
{
|
| 13096 |
+
"epoch": 0.12466666666666666,
|
| 13097 |
+
"grad_norm": 0.1279296875,
|
| 13098 |
+
"learning_rate": 0.024,
|
| 13099 |
+
"loss": 2.3776140213012695,
|
| 13100 |
+
"step": 3740
|
| 13101 |
+
},
|
| 13102 |
+
{
|
| 13103 |
+
"epoch": 0.12473333333333333,
|
| 13104 |
+
"grad_norm": 0.13671875,
|
| 13105 |
+
"learning_rate": 0.024,
|
| 13106 |
+
"loss": 2.3997998237609863,
|
| 13107 |
+
"step": 3742
|
| 13108 |
+
},
|
| 13109 |
+
{
|
| 13110 |
+
"epoch": 0.1248,
|
| 13111 |
+
"grad_norm": 0.1279296875,
|
| 13112 |
+
"learning_rate": 0.024,
|
| 13113 |
+
"loss": 2.3725056648254395,
|
| 13114 |
+
"step": 3744
|
| 13115 |
+
},
|
| 13116 |
+
{
|
| 13117 |
+
"epoch": 0.12486666666666667,
|
| 13118 |
+
"grad_norm": 0.126953125,
|
| 13119 |
+
"learning_rate": 0.024,
|
| 13120 |
+
"loss": 2.3934664726257324,
|
| 13121 |
+
"step": 3746
|
| 13122 |
+
},
|
| 13123 |
+
{
|
| 13124 |
+
"epoch": 0.12493333333333333,
|
| 13125 |
+
"grad_norm": 0.123046875,
|
| 13126 |
+
"learning_rate": 0.024,
|
| 13127 |
+
"loss": 2.3850443363189697,
|
| 13128 |
+
"step": 3748
|
| 13129 |
+
},
|
| 13130 |
+
{
|
| 13131 |
+
"epoch": 0.125,
|
| 13132 |
+
"grad_norm": 0.126953125,
|
| 13133 |
+
"learning_rate": 0.024,
|
| 13134 |
+
"loss": 2.3826987743377686,
|
| 13135 |
+
"step": 3750
|
| 13136 |
+
},
|
| 13137 |
+
{
|
| 13138 |
+
"epoch": 0.12506666666666666,
|
| 13139 |
+
"grad_norm": 0.1357421875,
|
| 13140 |
+
"learning_rate": 0.024,
|
| 13141 |
+
"loss": 2.3847384452819824,
|
| 13142 |
+
"step": 3752
|
| 13143 |
+
},
|
| 13144 |
+
{
|
| 13145 |
+
"epoch": 0.12513333333333335,
|
| 13146 |
+
"grad_norm": 0.1259765625,
|
| 13147 |
+
"learning_rate": 0.024,
|
| 13148 |
+
"loss": 2.358799934387207,
|
| 13149 |
+
"step": 3754
|
| 13150 |
+
},
|
| 13151 |
+
{
|
| 13152 |
+
"epoch": 0.1252,
|
| 13153 |
+
"grad_norm": 0.1220703125,
|
| 13154 |
+
"learning_rate": 0.024,
|
| 13155 |
+
"loss": 2.383861541748047,
|
| 13156 |
+
"step": 3756
|
| 13157 |
+
},
|
| 13158 |
+
{
|
| 13159 |
+
"epoch": 0.12526666666666667,
|
| 13160 |
+
"grad_norm": 0.1201171875,
|
| 13161 |
+
"learning_rate": 0.024,
|
| 13162 |
+
"loss": 2.3852736949920654,
|
| 13163 |
+
"step": 3758
|
| 13164 |
+
},
|
| 13165 |
+
{
|
| 13166 |
+
"epoch": 0.12533333333333332,
|
| 13167 |
+
"grad_norm": 0.1279296875,
|
| 13168 |
+
"learning_rate": 0.024,
|
| 13169 |
+
"loss": 2.363457441329956,
|
| 13170 |
+
"step": 3760
|
| 13171 |
+
},
|
| 13172 |
+
{
|
| 13173 |
+
"epoch": 0.1254,
|
| 13174 |
+
"grad_norm": 0.125,
|
| 13175 |
+
"learning_rate": 0.024,
|
| 13176 |
+
"loss": 2.3848607540130615,
|
| 13177 |
+
"step": 3762
|
| 13178 |
+
},
|
| 13179 |
+
{
|
| 13180 |
+
"epoch": 0.12546666666666667,
|
| 13181 |
+
"grad_norm": 0.1318359375,
|
| 13182 |
+
"learning_rate": 0.024,
|
| 13183 |
+
"loss": 2.370737075805664,
|
| 13184 |
+
"step": 3764
|
| 13185 |
+
},
|
| 13186 |
+
{
|
| 13187 |
+
"epoch": 0.12553333333333333,
|
| 13188 |
+
"grad_norm": 0.1328125,
|
| 13189 |
+
"learning_rate": 0.024,
|
| 13190 |
+
"loss": 2.398829460144043,
|
| 13191 |
+
"step": 3766
|
| 13192 |
+
},
|
| 13193 |
+
{
|
| 13194 |
+
"epoch": 0.1256,
|
| 13195 |
+
"grad_norm": 0.134765625,
|
| 13196 |
+
"learning_rate": 0.024,
|
| 13197 |
+
"loss": 2.387014150619507,
|
| 13198 |
+
"step": 3768
|
| 13199 |
+
},
|
| 13200 |
+
{
|
| 13201 |
+
"epoch": 0.12566666666666668,
|
| 13202 |
+
"grad_norm": 0.1396484375,
|
| 13203 |
+
"learning_rate": 0.024,
|
| 13204 |
+
"loss": 2.3569459915161133,
|
| 13205 |
+
"step": 3770
|
| 13206 |
+
},
|
| 13207 |
+
{
|
| 13208 |
+
"epoch": 0.12573333333333334,
|
| 13209 |
+
"grad_norm": 0.126953125,
|
| 13210 |
+
"learning_rate": 0.024,
|
| 13211 |
+
"loss": 2.376526355743408,
|
| 13212 |
+
"step": 3772
|
| 13213 |
+
},
|
| 13214 |
+
{
|
| 13215 |
+
"epoch": 0.1258,
|
| 13216 |
+
"grad_norm": 0.12890625,
|
| 13217 |
+
"learning_rate": 0.024,
|
| 13218 |
+
"loss": 2.3798880577087402,
|
| 13219 |
+
"step": 3774
|
| 13220 |
+
},
|
| 13221 |
+
{
|
| 13222 |
+
"epoch": 0.12586666666666665,
|
| 13223 |
+
"grad_norm": 0.1337890625,
|
| 13224 |
+
"learning_rate": 0.024,
|
| 13225 |
+
"loss": 2.391993522644043,
|
| 13226 |
+
"step": 3776
|
| 13227 |
+
},
|
| 13228 |
+
{
|
| 13229 |
+
"epoch": 0.12593333333333334,
|
| 13230 |
+
"grad_norm": 0.1318359375,
|
| 13231 |
+
"learning_rate": 0.024,
|
| 13232 |
+
"loss": 2.37076997756958,
|
| 13233 |
+
"step": 3778
|
| 13234 |
+
},
|
| 13235 |
+
{
|
| 13236 |
+
"epoch": 0.126,
|
| 13237 |
+
"grad_norm": 0.12451171875,
|
| 13238 |
+
"learning_rate": 0.024,
|
| 13239 |
+
"loss": 2.3788928985595703,
|
| 13240 |
+
"step": 3780
|
| 13241 |
+
},
|
| 13242 |
+
{
|
| 13243 |
+
"epoch": 0.12606666666666666,
|
| 13244 |
+
"grad_norm": 0.1337890625,
|
| 13245 |
+
"learning_rate": 0.024,
|
| 13246 |
+
"loss": 2.3889245986938477,
|
| 13247 |
+
"step": 3782
|
| 13248 |
+
},
|
| 13249 |
+
{
|
| 13250 |
+
"epoch": 0.12613333333333332,
|
| 13251 |
+
"grad_norm": 0.1318359375,
|
| 13252 |
+
"learning_rate": 0.024,
|
| 13253 |
+
"loss": 2.392484188079834,
|
| 13254 |
+
"step": 3784
|
| 13255 |
+
},
|
| 13256 |
+
{
|
| 13257 |
+
"epoch": 0.1262,
|
| 13258 |
+
"grad_norm": 0.130859375,
|
| 13259 |
+
"learning_rate": 0.024,
|
| 13260 |
+
"loss": 2.3864212036132812,
|
| 13261 |
+
"step": 3786
|
| 13262 |
+
},
|
| 13263 |
+
{
|
| 13264 |
+
"epoch": 0.12626666666666667,
|
| 13265 |
+
"grad_norm": 0.126953125,
|
| 13266 |
+
"learning_rate": 0.024,
|
| 13267 |
+
"loss": 2.379127025604248,
|
| 13268 |
+
"step": 3788
|
| 13269 |
+
},
|
| 13270 |
+
{
|
| 13271 |
+
"epoch": 0.12633333333333333,
|
| 13272 |
+
"grad_norm": 0.12353515625,
|
| 13273 |
+
"learning_rate": 0.024,
|
| 13274 |
+
"loss": 2.3574647903442383,
|
| 13275 |
+
"step": 3790
|
| 13276 |
+
},
|
| 13277 |
+
{
|
| 13278 |
+
"epoch": 0.1264,
|
| 13279 |
+
"grad_norm": 0.134765625,
|
| 13280 |
+
"learning_rate": 0.024,
|
| 13281 |
+
"loss": 2.3823697566986084,
|
| 13282 |
+
"step": 3792
|
| 13283 |
+
},
|
| 13284 |
+
{
|
| 13285 |
+
"epoch": 0.12646666666666667,
|
| 13286 |
+
"grad_norm": 0.12060546875,
|
| 13287 |
+
"learning_rate": 0.024,
|
| 13288 |
+
"loss": 2.3856654167175293,
|
| 13289 |
+
"step": 3794
|
| 13290 |
+
},
|
| 13291 |
+
{
|
| 13292 |
+
"epoch": 0.12653333333333333,
|
| 13293 |
+
"grad_norm": 0.12109375,
|
| 13294 |
+
"learning_rate": 0.024,
|
| 13295 |
+
"loss": 2.372711658477783,
|
| 13296 |
+
"step": 3796
|
| 13297 |
+
},
|
| 13298 |
+
{
|
| 13299 |
+
"epoch": 0.1266,
|
| 13300 |
+
"grad_norm": 0.1279296875,
|
| 13301 |
+
"learning_rate": 0.024,
|
| 13302 |
+
"loss": 2.3880176544189453,
|
| 13303 |
+
"step": 3798
|
| 13304 |
+
},
|
| 13305 |
+
{
|
| 13306 |
+
"epoch": 0.12666666666666668,
|
| 13307 |
+
"grad_norm": 0.123046875,
|
| 13308 |
+
"learning_rate": 0.024,
|
| 13309 |
+
"loss": 2.3888955116271973,
|
| 13310 |
+
"step": 3800
|
| 13311 |
+
},
|
| 13312 |
+
{
|
| 13313 |
+
"epoch": 0.12673333333333334,
|
| 13314 |
+
"grad_norm": 0.1259765625,
|
| 13315 |
+
"learning_rate": 0.024,
|
| 13316 |
+
"loss": 2.351850748062134,
|
| 13317 |
+
"step": 3802
|
| 13318 |
+
},
|
| 13319 |
+
{
|
| 13320 |
+
"epoch": 0.1268,
|
| 13321 |
+
"grad_norm": 0.1328125,
|
| 13322 |
+
"learning_rate": 0.024,
|
| 13323 |
+
"loss": 2.37087345123291,
|
| 13324 |
+
"step": 3804
|
| 13325 |
+
},
|
| 13326 |
+
{
|
| 13327 |
+
"epoch": 0.12686666666666666,
|
| 13328 |
+
"grad_norm": 0.130859375,
|
| 13329 |
+
"learning_rate": 0.024,
|
| 13330 |
+
"loss": 2.3732619285583496,
|
| 13331 |
+
"step": 3806
|
| 13332 |
+
},
|
| 13333 |
+
{
|
| 13334 |
+
"epoch": 0.12693333333333334,
|
| 13335 |
+
"grad_norm": 0.1328125,
|
| 13336 |
+
"learning_rate": 0.024,
|
| 13337 |
+
"loss": 2.3541526794433594,
|
| 13338 |
+
"step": 3808
|
| 13339 |
+
},
|
| 13340 |
+
{
|
| 13341 |
+
"epoch": 0.127,
|
| 13342 |
+
"grad_norm": 0.130859375,
|
| 13343 |
+
"learning_rate": 0.024,
|
| 13344 |
+
"loss": 2.38732647895813,
|
| 13345 |
+
"step": 3810
|
| 13346 |
+
},
|
| 13347 |
+
{
|
| 13348 |
+
"epoch": 0.12706666666666666,
|
| 13349 |
+
"grad_norm": 0.12158203125,
|
| 13350 |
+
"learning_rate": 0.024,
|
| 13351 |
+
"loss": 2.379753589630127,
|
| 13352 |
+
"step": 3812
|
| 13353 |
+
},
|
| 13354 |
+
{
|
| 13355 |
+
"epoch": 0.12713333333333332,
|
| 13356 |
+
"grad_norm": 0.12255859375,
|
| 13357 |
+
"learning_rate": 0.024,
|
| 13358 |
+
"loss": 2.3826904296875,
|
| 13359 |
+
"step": 3814
|
| 13360 |
+
},
|
| 13361 |
+
{
|
| 13362 |
+
"epoch": 0.1272,
|
| 13363 |
+
"grad_norm": 0.11962890625,
|
| 13364 |
+
"learning_rate": 0.024,
|
| 13365 |
+
"loss": 2.3559939861297607,
|
| 13366 |
+
"step": 3816
|
| 13367 |
+
},
|
| 13368 |
+
{
|
| 13369 |
+
"epoch": 0.12726666666666667,
|
| 13370 |
+
"grad_norm": 0.1328125,
|
| 13371 |
+
"learning_rate": 0.024,
|
| 13372 |
+
"loss": 2.39199161529541,
|
| 13373 |
+
"step": 3818
|
| 13374 |
+
},
|
| 13375 |
+
{
|
| 13376 |
+
"epoch": 0.12733333333333333,
|
| 13377 |
+
"grad_norm": 0.134765625,
|
| 13378 |
+
"learning_rate": 0.024,
|
| 13379 |
+
"loss": 2.350497245788574,
|
| 13380 |
+
"step": 3820
|
| 13381 |
+
},
|
| 13382 |
+
{
|
| 13383 |
+
"epoch": 0.1274,
|
| 13384 |
+
"grad_norm": 0.130859375,
|
| 13385 |
+
"learning_rate": 0.024,
|
| 13386 |
+
"loss": 2.3753068447113037,
|
| 13387 |
+
"step": 3822
|
| 13388 |
+
},
|
| 13389 |
+
{
|
| 13390 |
+
"epoch": 0.12746666666666667,
|
| 13391 |
+
"grad_norm": 0.1279296875,
|
| 13392 |
+
"learning_rate": 0.024,
|
| 13393 |
+
"loss": 2.360866069793701,
|
| 13394 |
+
"step": 3824
|
| 13395 |
+
},
|
| 13396 |
+
{
|
| 13397 |
+
"epoch": 0.12753333333333333,
|
| 13398 |
+
"grad_norm": 0.12353515625,
|
| 13399 |
+
"learning_rate": 0.024,
|
| 13400 |
+
"loss": 2.383366584777832,
|
| 13401 |
+
"step": 3826
|
| 13402 |
+
},
|
| 13403 |
+
{
|
| 13404 |
+
"epoch": 0.1276,
|
| 13405 |
+
"grad_norm": 0.11865234375,
|
| 13406 |
+
"learning_rate": 0.024,
|
| 13407 |
+
"loss": 2.3676815032958984,
|
| 13408 |
+
"step": 3828
|
| 13409 |
+
},
|
| 13410 |
+
{
|
| 13411 |
+
"epoch": 0.12766666666666668,
|
| 13412 |
+
"grad_norm": 0.12158203125,
|
| 13413 |
+
"learning_rate": 0.024,
|
| 13414 |
+
"loss": 2.3946785926818848,
|
| 13415 |
+
"step": 3830
|
| 13416 |
+
},
|
| 13417 |
+
{
|
| 13418 |
+
"epoch": 0.12773333333333334,
|
| 13419 |
+
"grad_norm": 0.1171875,
|
| 13420 |
+
"learning_rate": 0.024,
|
| 13421 |
+
"loss": 2.3763437271118164,
|
| 13422 |
+
"step": 3832
|
| 13423 |
+
},
|
| 13424 |
+
{
|
| 13425 |
+
"epoch": 0.1278,
|
| 13426 |
+
"grad_norm": 0.123046875,
|
| 13427 |
+
"learning_rate": 0.024,
|
| 13428 |
+
"loss": 2.3707990646362305,
|
| 13429 |
+
"step": 3834
|
| 13430 |
+
},
|
| 13431 |
+
{
|
| 13432 |
+
"epoch": 0.12786666666666666,
|
| 13433 |
+
"grad_norm": 0.11572265625,
|
| 13434 |
+
"learning_rate": 0.024,
|
| 13435 |
+
"loss": 2.3518829345703125,
|
| 13436 |
+
"step": 3836
|
| 13437 |
+
},
|
| 13438 |
+
{
|
| 13439 |
+
"epoch": 0.12793333333333334,
|
| 13440 |
+
"grad_norm": 0.1435546875,
|
| 13441 |
+
"learning_rate": 0.024,
|
| 13442 |
+
"loss": 2.385516405105591,
|
| 13443 |
+
"step": 3838
|
| 13444 |
+
},
|
| 13445 |
+
{
|
| 13446 |
+
"epoch": 0.128,
|
| 13447 |
+
"grad_norm": 0.134765625,
|
| 13448 |
+
"learning_rate": 0.024,
|
| 13449 |
+
"loss": 2.376420021057129,
|
| 13450 |
+
"step": 3840
|
| 13451 |
+
},
|
| 13452 |
+
{
|
| 13453 |
+
"epoch": 0.12806666666666666,
|
| 13454 |
+
"grad_norm": 0.12890625,
|
| 13455 |
+
"learning_rate": 0.024,
|
| 13456 |
+
"loss": 2.3339686393737793,
|
| 13457 |
+
"step": 3842
|
| 13458 |
+
},
|
| 13459 |
+
{
|
| 13460 |
+
"epoch": 0.12813333333333332,
|
| 13461 |
+
"grad_norm": 0.134765625,
|
| 13462 |
+
"learning_rate": 0.024,
|
| 13463 |
+
"loss": 2.3762047290802,
|
| 13464 |
+
"step": 3844
|
| 13465 |
+
},
|
| 13466 |
+
{
|
| 13467 |
+
"epoch": 0.1282,
|
| 13468 |
+
"grad_norm": 0.1298828125,
|
| 13469 |
+
"learning_rate": 0.024,
|
| 13470 |
+
"loss": 2.3800315856933594,
|
| 13471 |
+
"step": 3846
|
| 13472 |
+
},
|
| 13473 |
+
{
|
| 13474 |
+
"epoch": 0.12826666666666667,
|
| 13475 |
+
"grad_norm": 0.1318359375,
|
| 13476 |
+
"learning_rate": 0.024,
|
| 13477 |
+
"loss": 2.3711705207824707,
|
| 13478 |
+
"step": 3848
|
| 13479 |
+
},
|
| 13480 |
+
{
|
| 13481 |
+
"epoch": 0.12833333333333333,
|
| 13482 |
+
"grad_norm": 0.1318359375,
|
| 13483 |
+
"learning_rate": 0.024,
|
| 13484 |
+
"loss": 2.3684375286102295,
|
| 13485 |
+
"step": 3850
|
| 13486 |
+
},
|
| 13487 |
+
{
|
| 13488 |
+
"epoch": 0.1284,
|
| 13489 |
+
"grad_norm": 0.12255859375,
|
| 13490 |
+
"learning_rate": 0.024,
|
| 13491 |
+
"loss": 2.3598742485046387,
|
| 13492 |
+
"step": 3852
|
| 13493 |
+
},
|
| 13494 |
+
{
|
| 13495 |
+
"epoch": 0.12846666666666667,
|
| 13496 |
+
"grad_norm": 0.1298828125,
|
| 13497 |
+
"learning_rate": 0.024,
|
| 13498 |
+
"loss": 2.3889265060424805,
|
| 13499 |
+
"step": 3854
|
| 13500 |
+
},
|
| 13501 |
+
{
|
| 13502 |
+
"epoch": 0.12853333333333333,
|
| 13503 |
+
"grad_norm": 0.1298828125,
|
| 13504 |
+
"learning_rate": 0.024,
|
| 13505 |
+
"loss": 2.375478982925415,
|
| 13506 |
+
"step": 3856
|
| 13507 |
+
},
|
| 13508 |
+
{
|
| 13509 |
+
"epoch": 0.1286,
|
| 13510 |
+
"grad_norm": 0.13671875,
|
| 13511 |
+
"learning_rate": 0.024,
|
| 13512 |
+
"loss": 2.391953229904175,
|
| 13513 |
+
"step": 3858
|
| 13514 |
+
},
|
| 13515 |
+
{
|
| 13516 |
+
"epoch": 0.12866666666666668,
|
| 13517 |
+
"grad_norm": 0.1259765625,
|
| 13518 |
+
"learning_rate": 0.024,
|
| 13519 |
+
"loss": 2.358128309249878,
|
| 13520 |
+
"step": 3860
|
| 13521 |
+
},
|
| 13522 |
+
{
|
| 13523 |
+
"epoch": 0.12873333333333334,
|
| 13524 |
+
"grad_norm": 0.11962890625,
|
| 13525 |
+
"learning_rate": 0.024,
|
| 13526 |
+
"loss": 2.3574161529541016,
|
| 13527 |
+
"step": 3862
|
| 13528 |
+
},
|
| 13529 |
+
{
|
| 13530 |
+
"epoch": 0.1288,
|
| 13531 |
+
"grad_norm": 0.11962890625,
|
| 13532 |
+
"learning_rate": 0.024,
|
| 13533 |
+
"loss": 2.369072914123535,
|
| 13534 |
+
"step": 3864
|
| 13535 |
+
},
|
| 13536 |
+
{
|
| 13537 |
+
"epoch": 0.12886666666666666,
|
| 13538 |
+
"grad_norm": 0.1259765625,
|
| 13539 |
+
"learning_rate": 0.024,
|
| 13540 |
+
"loss": 2.366975784301758,
|
| 13541 |
+
"step": 3866
|
| 13542 |
+
},
|
| 13543 |
+
{
|
| 13544 |
+
"epoch": 0.12893333333333334,
|
| 13545 |
+
"grad_norm": 0.1240234375,
|
| 13546 |
+
"learning_rate": 0.024,
|
| 13547 |
+
"loss": 2.411951780319214,
|
| 13548 |
+
"step": 3868
|
| 13549 |
+
},
|
| 13550 |
+
{
|
| 13551 |
+
"epoch": 0.129,
|
| 13552 |
+
"grad_norm": 0.1142578125,
|
| 13553 |
+
"learning_rate": 0.024,
|
| 13554 |
+
"loss": 2.3797030448913574,
|
| 13555 |
+
"step": 3870
|
| 13556 |
+
},
|
| 13557 |
+
{
|
| 13558 |
+
"epoch": 0.12906666666666666,
|
| 13559 |
+
"grad_norm": 0.119140625,
|
| 13560 |
+
"learning_rate": 0.024,
|
| 13561 |
+
"loss": 2.39070463180542,
|
| 13562 |
+
"step": 3872
|
| 13563 |
+
},
|
| 13564 |
+
{
|
| 13565 |
+
"epoch": 0.12913333333333332,
|
| 13566 |
+
"grad_norm": 0.1298828125,
|
| 13567 |
+
"learning_rate": 0.024,
|
| 13568 |
+
"loss": 2.374511241912842,
|
| 13569 |
+
"step": 3874
|
| 13570 |
+
},
|
| 13571 |
+
{
|
| 13572 |
+
"epoch": 0.1292,
|
| 13573 |
+
"grad_norm": 0.126953125,
|
| 13574 |
+
"learning_rate": 0.024,
|
| 13575 |
+
"loss": 2.355795383453369,
|
| 13576 |
+
"step": 3876
|
| 13577 |
+
},
|
| 13578 |
+
{
|
| 13579 |
+
"epoch": 0.12926666666666667,
|
| 13580 |
+
"grad_norm": 0.1337890625,
|
| 13581 |
+
"learning_rate": 0.024,
|
| 13582 |
+
"loss": 2.353588819503784,
|
| 13583 |
+
"step": 3878
|
| 13584 |
+
},
|
| 13585 |
+
{
|
| 13586 |
+
"epoch": 0.12933333333333333,
|
| 13587 |
+
"grad_norm": 0.146484375,
|
| 13588 |
+
"learning_rate": 0.024,
|
| 13589 |
+
"loss": 2.371487855911255,
|
| 13590 |
+
"step": 3880
|
| 13591 |
+
},
|
| 13592 |
+
{
|
| 13593 |
+
"epoch": 0.1294,
|
| 13594 |
+
"grad_norm": 0.1416015625,
|
| 13595 |
+
"learning_rate": 0.024,
|
| 13596 |
+
"loss": 2.362095355987549,
|
| 13597 |
+
"step": 3882
|
| 13598 |
+
},
|
| 13599 |
+
{
|
| 13600 |
+
"epoch": 0.12946666666666667,
|
| 13601 |
+
"grad_norm": 0.1357421875,
|
| 13602 |
+
"learning_rate": 0.024,
|
| 13603 |
+
"loss": 2.3710289001464844,
|
| 13604 |
+
"step": 3884
|
| 13605 |
+
},
|
| 13606 |
+
{
|
| 13607 |
+
"epoch": 0.12953333333333333,
|
| 13608 |
+
"grad_norm": 0.134765625,
|
| 13609 |
+
"learning_rate": 0.024,
|
| 13610 |
+
"loss": 2.379239082336426,
|
| 13611 |
+
"step": 3886
|
| 13612 |
+
},
|
| 13613 |
+
{
|
| 13614 |
+
"epoch": 0.1296,
|
| 13615 |
+
"grad_norm": 0.1328125,
|
| 13616 |
+
"learning_rate": 0.024,
|
| 13617 |
+
"loss": 2.3746304512023926,
|
| 13618 |
+
"step": 3888
|
| 13619 |
+
},
|
| 13620 |
+
{
|
| 13621 |
+
"epoch": 0.12966666666666668,
|
| 13622 |
+
"grad_norm": 0.130859375,
|
| 13623 |
+
"learning_rate": 0.024,
|
| 13624 |
+
"loss": 2.3979411125183105,
|
| 13625 |
+
"step": 3890
|
| 13626 |
+
},
|
| 13627 |
+
{
|
| 13628 |
+
"epoch": 0.12973333333333334,
|
| 13629 |
+
"grad_norm": 0.126953125,
|
| 13630 |
+
"learning_rate": 0.024,
|
| 13631 |
+
"loss": 2.365600109100342,
|
| 13632 |
+
"step": 3892
|
| 13633 |
+
},
|
| 13634 |
+
{
|
| 13635 |
+
"epoch": 0.1298,
|
| 13636 |
+
"grad_norm": 0.130859375,
|
| 13637 |
+
"learning_rate": 0.024,
|
| 13638 |
+
"loss": 2.3684284687042236,
|
| 13639 |
+
"step": 3894
|
| 13640 |
+
},
|
| 13641 |
+
{
|
| 13642 |
+
"epoch": 0.12986666666666666,
|
| 13643 |
+
"grad_norm": 0.1171875,
|
| 13644 |
+
"learning_rate": 0.024,
|
| 13645 |
+
"loss": 2.3519463539123535,
|
| 13646 |
+
"step": 3896
|
| 13647 |
+
},
|
| 13648 |
+
{
|
| 13649 |
+
"epoch": 0.12993333333333335,
|
| 13650 |
+
"grad_norm": 0.12890625,
|
| 13651 |
+
"learning_rate": 0.024,
|
| 13652 |
+
"loss": 2.3602192401885986,
|
| 13653 |
+
"step": 3898
|
| 13654 |
+
},
|
| 13655 |
+
{
|
| 13656 |
+
"epoch": 0.13,
|
| 13657 |
+
"grad_norm": 0.11669921875,
|
| 13658 |
+
"learning_rate": 0.024,
|
| 13659 |
+
"loss": 2.3658294677734375,
|
| 13660 |
+
"step": 3900
|
| 13661 |
+
},
|
| 13662 |
+
{
|
| 13663 |
+
"epoch": 0.13006666666666666,
|
| 13664 |
+
"grad_norm": 0.1220703125,
|
| 13665 |
+
"learning_rate": 0.024,
|
| 13666 |
+
"loss": 2.3803629875183105,
|
| 13667 |
+
"step": 3902
|
| 13668 |
+
},
|
| 13669 |
+
{
|
| 13670 |
+
"epoch": 0.13013333333333332,
|
| 13671 |
+
"grad_norm": 0.11865234375,
|
| 13672 |
+
"learning_rate": 0.024,
|
| 13673 |
+
"loss": 2.357875108718872,
|
| 13674 |
+
"step": 3904
|
| 13675 |
+
},
|
| 13676 |
+
{
|
| 13677 |
+
"epoch": 0.1302,
|
| 13678 |
+
"grad_norm": 0.13671875,
|
| 13679 |
+
"learning_rate": 0.024,
|
| 13680 |
+
"loss": 2.366445541381836,
|
| 13681 |
+
"step": 3906
|
| 13682 |
+
},
|
| 13683 |
+
{
|
| 13684 |
+
"epoch": 0.13026666666666667,
|
| 13685 |
+
"grad_norm": 0.1376953125,
|
| 13686 |
+
"learning_rate": 0.024,
|
| 13687 |
+
"loss": 2.3689982891082764,
|
| 13688 |
+
"step": 3908
|
| 13689 |
+
},
|
| 13690 |
+
{
|
| 13691 |
+
"epoch": 0.13033333333333333,
|
| 13692 |
+
"grad_norm": 0.146484375,
|
| 13693 |
+
"learning_rate": 0.024,
|
| 13694 |
+
"loss": 2.3774566650390625,
|
| 13695 |
+
"step": 3910
|
| 13696 |
+
},
|
| 13697 |
+
{
|
| 13698 |
+
"epoch": 0.1304,
|
| 13699 |
+
"grad_norm": 0.1376953125,
|
| 13700 |
+
"learning_rate": 0.024,
|
| 13701 |
+
"loss": 2.3610658645629883,
|
| 13702 |
+
"step": 3912
|
| 13703 |
+
},
|
| 13704 |
+
{
|
| 13705 |
+
"epoch": 0.13046666666666668,
|
| 13706 |
+
"grad_norm": 0.142578125,
|
| 13707 |
+
"learning_rate": 0.024,
|
| 13708 |
+
"loss": 2.382052421569824,
|
| 13709 |
+
"step": 3914
|
| 13710 |
+
},
|
| 13711 |
+
{
|
| 13712 |
+
"epoch": 0.13053333333333333,
|
| 13713 |
+
"grad_norm": 0.1279296875,
|
| 13714 |
+
"learning_rate": 0.024,
|
| 13715 |
+
"loss": 2.3656699657440186,
|
| 13716 |
+
"step": 3916
|
| 13717 |
+
},
|
| 13718 |
+
{
|
| 13719 |
+
"epoch": 0.1306,
|
| 13720 |
+
"grad_norm": 0.1357421875,
|
| 13721 |
+
"learning_rate": 0.024,
|
| 13722 |
+
"loss": 2.373307704925537,
|
| 13723 |
+
"step": 3918
|
| 13724 |
+
},
|
| 13725 |
+
{
|
| 13726 |
+
"epoch": 0.13066666666666665,
|
| 13727 |
+
"grad_norm": 0.1279296875,
|
| 13728 |
+
"learning_rate": 0.024,
|
| 13729 |
+
"loss": 2.3438265323638916,
|
| 13730 |
+
"step": 3920
|
| 13731 |
+
},
|
| 13732 |
+
{
|
| 13733 |
+
"epoch": 0.13073333333333334,
|
| 13734 |
+
"grad_norm": 0.130859375,
|
| 13735 |
+
"learning_rate": 0.024,
|
| 13736 |
+
"loss": 2.3491063117980957,
|
| 13737 |
+
"step": 3922
|
| 13738 |
+
},
|
| 13739 |
+
{
|
| 13740 |
+
"epoch": 0.1308,
|
| 13741 |
+
"grad_norm": 0.12255859375,
|
| 13742 |
+
"learning_rate": 0.024,
|
| 13743 |
+
"loss": 2.323322296142578,
|
| 13744 |
+
"step": 3924
|
| 13745 |
+
},
|
| 13746 |
+
{
|
| 13747 |
+
"epoch": 0.13086666666666666,
|
| 13748 |
+
"grad_norm": 0.1279296875,
|
| 13749 |
+
"learning_rate": 0.024,
|
| 13750 |
+
"loss": 2.3593077659606934,
|
| 13751 |
+
"step": 3926
|
| 13752 |
+
},
|
| 13753 |
+
{
|
| 13754 |
+
"epoch": 0.13093333333333335,
|
| 13755 |
+
"grad_norm": 0.12353515625,
|
| 13756 |
+
"learning_rate": 0.024,
|
| 13757 |
+
"loss": 2.3386120796203613,
|
| 13758 |
+
"step": 3928
|
| 13759 |
+
},
|
| 13760 |
+
{
|
| 13761 |
+
"epoch": 0.131,
|
| 13762 |
+
"grad_norm": 0.1328125,
|
| 13763 |
+
"learning_rate": 0.024,
|
| 13764 |
+
"loss": 2.3712174892425537,
|
| 13765 |
+
"step": 3930
|
| 13766 |
+
},
|
| 13767 |
+
{
|
| 13768 |
+
"epoch": 0.13106666666666666,
|
| 13769 |
+
"grad_norm": 0.1337890625,
|
| 13770 |
+
"learning_rate": 0.024,
|
| 13771 |
+
"loss": 2.363861322402954,
|
| 13772 |
+
"step": 3932
|
| 13773 |
+
},
|
| 13774 |
+
{
|
| 13775 |
+
"epoch": 0.13113333333333332,
|
| 13776 |
+
"grad_norm": 0.1318359375,
|
| 13777 |
+
"learning_rate": 0.024,
|
| 13778 |
+
"loss": 2.376966714859009,
|
| 13779 |
+
"step": 3934
|
| 13780 |
+
},
|
| 13781 |
+
{
|
| 13782 |
+
"epoch": 0.1312,
|
| 13783 |
+
"grad_norm": 0.12060546875,
|
| 13784 |
+
"learning_rate": 0.024,
|
| 13785 |
+
"loss": 2.3700568675994873,
|
| 13786 |
+
"step": 3936
|
| 13787 |
+
},
|
| 13788 |
+
{
|
| 13789 |
+
"epoch": 0.13126666666666667,
|
| 13790 |
+
"grad_norm": 0.1240234375,
|
| 13791 |
+
"learning_rate": 0.024,
|
| 13792 |
+
"loss": 2.358997344970703,
|
| 13793 |
+
"step": 3938
|
| 13794 |
+
},
|
| 13795 |
+
{
|
| 13796 |
+
"epoch": 0.13133333333333333,
|
| 13797 |
+
"grad_norm": 0.1240234375,
|
| 13798 |
+
"learning_rate": 0.024,
|
| 13799 |
+
"loss": 2.345806837081909,
|
| 13800 |
+
"step": 3940
|
| 13801 |
+
},
|
| 13802 |
+
{
|
| 13803 |
+
"epoch": 0.1314,
|
| 13804 |
+
"grad_norm": 0.130859375,
|
| 13805 |
+
"learning_rate": 0.024,
|
| 13806 |
+
"loss": 2.356936454772949,
|
| 13807 |
+
"step": 3942
|
| 13808 |
+
},
|
| 13809 |
+
{
|
| 13810 |
+
"epoch": 0.13146666666666668,
|
| 13811 |
+
"grad_norm": 0.130859375,
|
| 13812 |
+
"learning_rate": 0.024,
|
| 13813 |
+
"loss": 2.335139751434326,
|
| 13814 |
+
"step": 3944
|
| 13815 |
+
},
|
| 13816 |
+
{
|
| 13817 |
+
"epoch": 0.13153333333333334,
|
| 13818 |
+
"grad_norm": 0.12109375,
|
| 13819 |
+
"learning_rate": 0.024,
|
| 13820 |
+
"loss": 2.3710455894470215,
|
| 13821 |
+
"step": 3946
|
| 13822 |
+
},
|
| 13823 |
+
{
|
| 13824 |
+
"epoch": 0.1316,
|
| 13825 |
+
"grad_norm": 0.1240234375,
|
| 13826 |
+
"learning_rate": 0.024,
|
| 13827 |
+
"loss": 2.362119436264038,
|
| 13828 |
+
"step": 3948
|
| 13829 |
+
},
|
| 13830 |
+
{
|
| 13831 |
+
"epoch": 0.13166666666666665,
|
| 13832 |
+
"grad_norm": 0.12890625,
|
| 13833 |
+
"learning_rate": 0.024,
|
| 13834 |
+
"loss": 2.382863759994507,
|
| 13835 |
+
"step": 3950
|
| 13836 |
+
},
|
| 13837 |
+
{
|
| 13838 |
+
"epoch": 0.13173333333333334,
|
| 13839 |
+
"grad_norm": 0.12109375,
|
| 13840 |
+
"learning_rate": 0.024,
|
| 13841 |
+
"loss": 2.370539426803589,
|
| 13842 |
+
"step": 3952
|
| 13843 |
+
},
|
| 13844 |
+
{
|
| 13845 |
+
"epoch": 0.1318,
|
| 13846 |
+
"grad_norm": 0.11767578125,
|
| 13847 |
+
"learning_rate": 0.024,
|
| 13848 |
+
"loss": 2.350999355316162,
|
| 13849 |
+
"step": 3954
|
| 13850 |
+
},
|
| 13851 |
+
{
|
| 13852 |
+
"epoch": 0.13186666666666666,
|
| 13853 |
+
"grad_norm": 0.12890625,
|
| 13854 |
+
"learning_rate": 0.024,
|
| 13855 |
+
"loss": 2.370344877243042,
|
| 13856 |
+
"step": 3956
|
| 13857 |
+
},
|
| 13858 |
+
{
|
| 13859 |
+
"epoch": 0.13193333333333335,
|
| 13860 |
+
"grad_norm": 0.119140625,
|
| 13861 |
+
"learning_rate": 0.024,
|
| 13862 |
+
"loss": 2.3524131774902344,
|
| 13863 |
+
"step": 3958
|
| 13864 |
+
},
|
| 13865 |
+
{
|
| 13866 |
+
"epoch": 0.132,
|
| 13867 |
+
"grad_norm": 0.1240234375,
|
| 13868 |
+
"learning_rate": 0.024,
|
| 13869 |
+
"loss": 2.355928659439087,
|
| 13870 |
+
"step": 3960
|
| 13871 |
+
},
|
| 13872 |
+
{
|
| 13873 |
+
"epoch": 0.13206666666666667,
|
| 13874 |
+
"grad_norm": 0.1201171875,
|
| 13875 |
+
"learning_rate": 0.024,
|
| 13876 |
+
"loss": 2.371035099029541,
|
| 13877 |
+
"step": 3962
|
| 13878 |
+
},
|
| 13879 |
+
{
|
| 13880 |
+
"epoch": 0.13213333333333332,
|
| 13881 |
+
"grad_norm": 0.11572265625,
|
| 13882 |
+
"learning_rate": 0.024,
|
| 13883 |
+
"loss": 2.35784912109375,
|
| 13884 |
+
"step": 3964
|
| 13885 |
+
},
|
| 13886 |
+
{
|
| 13887 |
+
"epoch": 0.1322,
|
| 13888 |
+
"grad_norm": 0.1171875,
|
| 13889 |
+
"learning_rate": 0.024,
|
| 13890 |
+
"loss": 2.3640050888061523,
|
| 13891 |
+
"step": 3966
|
| 13892 |
+
},
|
| 13893 |
+
{
|
| 13894 |
+
"epoch": 0.13226666666666667,
|
| 13895 |
+
"grad_norm": 0.115234375,
|
| 13896 |
+
"learning_rate": 0.024,
|
| 13897 |
+
"loss": 2.3359017372131348,
|
| 13898 |
+
"step": 3968
|
| 13899 |
+
},
|
| 13900 |
+
{
|
| 13901 |
+
"epoch": 0.13233333333333333,
|
| 13902 |
+
"grad_norm": 0.12255859375,
|
| 13903 |
+
"learning_rate": 0.024,
|
| 13904 |
+
"loss": 2.3528425693511963,
|
| 13905 |
+
"step": 3970
|
| 13906 |
+
},
|
| 13907 |
+
{
|
| 13908 |
+
"epoch": 0.1324,
|
| 13909 |
+
"grad_norm": 0.15625,
|
| 13910 |
+
"learning_rate": 0.024,
|
| 13911 |
+
"loss": 2.340224504470825,
|
| 13912 |
+
"step": 3972
|
| 13913 |
+
},
|
| 13914 |
+
{
|
| 13915 |
+
"epoch": 0.13246666666666668,
|
| 13916 |
+
"grad_norm": 0.13671875,
|
| 13917 |
+
"learning_rate": 0.024,
|
| 13918 |
+
"loss": 2.3440139293670654,
|
| 13919 |
+
"step": 3974
|
| 13920 |
+
},
|
| 13921 |
+
{
|
| 13922 |
+
"epoch": 0.13253333333333334,
|
| 13923 |
+
"grad_norm": 0.1318359375,
|
| 13924 |
+
"learning_rate": 0.024,
|
| 13925 |
+
"loss": 2.3364996910095215,
|
| 13926 |
+
"step": 3976
|
| 13927 |
+
},
|
| 13928 |
+
{
|
| 13929 |
+
"epoch": 0.1326,
|
| 13930 |
+
"grad_norm": 0.1298828125,
|
| 13931 |
+
"learning_rate": 0.024,
|
| 13932 |
+
"loss": 2.3523592948913574,
|
| 13933 |
+
"step": 3978
|
| 13934 |
+
},
|
| 13935 |
+
{
|
| 13936 |
+
"epoch": 0.13266666666666665,
|
| 13937 |
+
"grad_norm": 0.12890625,
|
| 13938 |
+
"learning_rate": 0.024,
|
| 13939 |
+
"loss": 2.3675007820129395,
|
| 13940 |
+
"step": 3980
|
| 13941 |
+
},
|
| 13942 |
+
{
|
| 13943 |
+
"epoch": 0.13273333333333334,
|
| 13944 |
+
"grad_norm": 0.1328125,
|
| 13945 |
+
"learning_rate": 0.024,
|
| 13946 |
+
"loss": 2.375647783279419,
|
| 13947 |
+
"step": 3982
|
| 13948 |
+
},
|
| 13949 |
+
{
|
| 13950 |
+
"epoch": 0.1328,
|
| 13951 |
+
"grad_norm": 0.130859375,
|
| 13952 |
+
"learning_rate": 0.024,
|
| 13953 |
+
"loss": 2.3719310760498047,
|
| 13954 |
+
"step": 3984
|
| 13955 |
+
},
|
| 13956 |
+
{
|
| 13957 |
+
"epoch": 0.13286666666666666,
|
| 13958 |
+
"grad_norm": 0.126953125,
|
| 13959 |
+
"learning_rate": 0.024,
|
| 13960 |
+
"loss": 2.3563833236694336,
|
| 13961 |
+
"step": 3986
|
| 13962 |
+
},
|
| 13963 |
+
{
|
| 13964 |
+
"epoch": 0.13293333333333332,
|
| 13965 |
+
"grad_norm": 0.1240234375,
|
| 13966 |
+
"learning_rate": 0.024,
|
| 13967 |
+
"loss": 2.37358021736145,
|
| 13968 |
+
"step": 3988
|
| 13969 |
+
},
|
| 13970 |
+
{
|
| 13971 |
+
"epoch": 0.133,
|
| 13972 |
+
"grad_norm": 0.1328125,
|
| 13973 |
+
"learning_rate": 0.024,
|
| 13974 |
+
"loss": 2.35754656791687,
|
| 13975 |
+
"step": 3990
|
| 13976 |
+
},
|
| 13977 |
+
{
|
| 13978 |
+
"epoch": 0.13306666666666667,
|
| 13979 |
+
"grad_norm": 0.125,
|
| 13980 |
+
"learning_rate": 0.024,
|
| 13981 |
+
"loss": 2.367353677749634,
|
| 13982 |
+
"step": 3992
|
| 13983 |
+
},
|
| 13984 |
+
{
|
| 13985 |
+
"epoch": 0.13313333333333333,
|
| 13986 |
+
"grad_norm": 0.1259765625,
|
| 13987 |
+
"learning_rate": 0.024,
|
| 13988 |
+
"loss": 2.3672807216644287,
|
| 13989 |
+
"step": 3994
|
| 13990 |
+
},
|
| 13991 |
+
{
|
| 13992 |
+
"epoch": 0.1332,
|
| 13993 |
+
"grad_norm": 0.11572265625,
|
| 13994 |
+
"learning_rate": 0.024,
|
| 13995 |
+
"loss": 2.3530383110046387,
|
| 13996 |
+
"step": 3996
|
| 13997 |
+
},
|
| 13998 |
+
{
|
| 13999 |
+
"epoch": 0.13326666666666667,
|
| 14000 |
+
"grad_norm": 0.11669921875,
|
| 14001 |
+
"learning_rate": 0.024,
|
| 14002 |
+
"loss": 2.326172351837158,
|
| 14003 |
+
"step": 3998
|
| 14004 |
+
},
|
| 14005 |
+
{
|
| 14006 |
+
"epoch": 0.13333333333333333,
|
| 14007 |
+
"grad_norm": 0.12109375,
|
| 14008 |
+
"learning_rate": 0.024,
|
| 14009 |
+
"loss": 2.356168746948242,
|
| 14010 |
+
"step": 4000
|
| 14011 |
+
},
|
| 14012 |
+
{
|
| 14013 |
+
"epoch": 0.1334,
|
| 14014 |
+
"grad_norm": 0.12109375,
|
| 14015 |
+
"learning_rate": 0.024,
|
| 14016 |
+
"loss": 2.3455612659454346,
|
| 14017 |
+
"step": 4002
|
| 14018 |
+
},
|
| 14019 |
+
{
|
| 14020 |
+
"epoch": 0.13346666666666668,
|
| 14021 |
+
"grad_norm": 0.11328125,
|
| 14022 |
+
"learning_rate": 0.024,
|
| 14023 |
+
"loss": 2.342073440551758,
|
| 14024 |
+
"step": 4004
|
| 14025 |
+
},
|
| 14026 |
+
{
|
| 14027 |
+
"epoch": 0.13353333333333334,
|
| 14028 |
+
"grad_norm": 0.1171875,
|
| 14029 |
+
"learning_rate": 0.024,
|
| 14030 |
+
"loss": 2.3537275791168213,
|
| 14031 |
+
"step": 4006
|
| 14032 |
+
},
|
| 14033 |
+
{
|
| 14034 |
+
"epoch": 0.1336,
|
| 14035 |
+
"grad_norm": 0.119140625,
|
| 14036 |
+
"learning_rate": 0.024,
|
| 14037 |
+
"loss": 2.3786559104919434,
|
| 14038 |
+
"step": 4008
|
| 14039 |
+
},
|
| 14040 |
+
{
|
| 14041 |
+
"epoch": 0.13366666666666666,
|
| 14042 |
+
"grad_norm": 0.1259765625,
|
| 14043 |
+
"learning_rate": 0.024,
|
| 14044 |
+
"loss": 2.351339340209961,
|
| 14045 |
+
"step": 4010
|
| 14046 |
+
},
|
| 14047 |
+
{
|
| 14048 |
+
"epoch": 0.13373333333333334,
|
| 14049 |
+
"grad_norm": 0.1298828125,
|
| 14050 |
+
"learning_rate": 0.024,
|
| 14051 |
+
"loss": 2.3444066047668457,
|
| 14052 |
+
"step": 4012
|
| 14053 |
+
},
|
| 14054 |
+
{
|
| 14055 |
+
"epoch": 0.1338,
|
| 14056 |
+
"grad_norm": 0.1357421875,
|
| 14057 |
+
"learning_rate": 0.024,
|
| 14058 |
+
"loss": 2.3518483638763428,
|
| 14059 |
+
"step": 4014
|
| 14060 |
+
},
|
| 14061 |
+
{
|
| 14062 |
+
"epoch": 0.13386666666666666,
|
| 14063 |
+
"grad_norm": 0.1357421875,
|
| 14064 |
+
"learning_rate": 0.024,
|
| 14065 |
+
"loss": 2.3703365325927734,
|
| 14066 |
+
"step": 4016
|
| 14067 |
+
},
|
| 14068 |
+
{
|
| 14069 |
+
"epoch": 0.13393333333333332,
|
| 14070 |
+
"grad_norm": 0.138671875,
|
| 14071 |
+
"learning_rate": 0.024,
|
| 14072 |
+
"loss": 2.3571722507476807,
|
| 14073 |
+
"step": 4018
|
| 14074 |
+
},
|
| 14075 |
+
{
|
| 14076 |
+
"epoch": 0.134,
|
| 14077 |
+
"grad_norm": 0.1279296875,
|
| 14078 |
+
"learning_rate": 0.024,
|
| 14079 |
+
"loss": 2.360157012939453,
|
| 14080 |
+
"step": 4020
|
| 14081 |
+
},
|
| 14082 |
+
{
|
| 14083 |
+
"epoch": 0.13406666666666667,
|
| 14084 |
+
"grad_norm": 0.1318359375,
|
| 14085 |
+
"learning_rate": 0.024,
|
| 14086 |
+
"loss": 2.350553512573242,
|
| 14087 |
+
"step": 4022
|
| 14088 |
+
},
|
| 14089 |
+
{
|
| 14090 |
+
"epoch": 0.13413333333333333,
|
| 14091 |
+
"grad_norm": 0.1298828125,
|
| 14092 |
+
"learning_rate": 0.024,
|
| 14093 |
+
"loss": 2.3694136142730713,
|
| 14094 |
+
"step": 4024
|
| 14095 |
+
},
|
| 14096 |
+
{
|
| 14097 |
+
"epoch": 0.1342,
|
| 14098 |
+
"grad_norm": 0.125,
|
| 14099 |
+
"learning_rate": 0.024,
|
| 14100 |
+
"loss": 2.380239486694336,
|
| 14101 |
+
"step": 4026
|
| 14102 |
+
},
|
| 14103 |
+
{
|
| 14104 |
+
"epoch": 0.13426666666666667,
|
| 14105 |
+
"grad_norm": 0.1201171875,
|
| 14106 |
+
"learning_rate": 0.024,
|
| 14107 |
+
"loss": 2.361875295639038,
|
| 14108 |
+
"step": 4028
|
| 14109 |
+
},
|
| 14110 |
+
{
|
| 14111 |
+
"epoch": 0.13433333333333333,
|
| 14112 |
+
"grad_norm": 0.12353515625,
|
| 14113 |
+
"learning_rate": 0.024,
|
| 14114 |
+
"loss": 2.3673288822174072,
|
| 14115 |
+
"step": 4030
|
| 14116 |
+
},
|
| 14117 |
+
{
|
| 14118 |
+
"epoch": 0.1344,
|
| 14119 |
+
"grad_norm": 0.12158203125,
|
| 14120 |
+
"learning_rate": 0.024,
|
| 14121 |
+
"loss": 2.349339723587036,
|
| 14122 |
+
"step": 4032
|
| 14123 |
+
},
|
| 14124 |
+
{
|
| 14125 |
+
"epoch": 0.13446666666666668,
|
| 14126 |
+
"grad_norm": 0.1279296875,
|
| 14127 |
+
"learning_rate": 0.024,
|
| 14128 |
+
"loss": 2.3550848960876465,
|
| 14129 |
+
"step": 4034
|
| 14130 |
+
},
|
| 14131 |
+
{
|
| 14132 |
+
"epoch": 0.13453333333333334,
|
| 14133 |
+
"grad_norm": 0.1298828125,
|
| 14134 |
+
"learning_rate": 0.024,
|
| 14135 |
+
"loss": 2.3394227027893066,
|
| 14136 |
+
"step": 4036
|
| 14137 |
+
},
|
| 14138 |
+
{
|
| 14139 |
+
"epoch": 0.1346,
|
| 14140 |
+
"grad_norm": 0.130859375,
|
| 14141 |
+
"learning_rate": 0.024,
|
| 14142 |
+
"loss": 2.3543996810913086,
|
| 14143 |
+
"step": 4038
|
| 14144 |
+
},
|
| 14145 |
+
{
|
| 14146 |
+
"epoch": 0.13466666666666666,
|
| 14147 |
+
"grad_norm": 0.12890625,
|
| 14148 |
+
"learning_rate": 0.024,
|
| 14149 |
+
"loss": 2.352705955505371,
|
| 14150 |
+
"step": 4040
|
| 14151 |
+
},
|
| 14152 |
+
{
|
| 14153 |
+
"epoch": 0.13473333333333334,
|
| 14154 |
+
"grad_norm": 0.1328125,
|
| 14155 |
+
"learning_rate": 0.024,
|
| 14156 |
+
"loss": 2.355576753616333,
|
| 14157 |
+
"step": 4042
|
| 14158 |
+
},
|
| 14159 |
+
{
|
| 14160 |
+
"epoch": 0.1348,
|
| 14161 |
+
"grad_norm": 0.126953125,
|
| 14162 |
+
"learning_rate": 0.024,
|
| 14163 |
+
"loss": 2.344717264175415,
|
| 14164 |
+
"step": 4044
|
| 14165 |
+
},
|
| 14166 |
+
{
|
| 14167 |
+
"epoch": 0.13486666666666666,
|
| 14168 |
+
"grad_norm": 0.1181640625,
|
| 14169 |
+
"learning_rate": 0.024,
|
| 14170 |
+
"loss": 2.3356359004974365,
|
| 14171 |
+
"step": 4046
|
| 14172 |
+
},
|
| 14173 |
+
{
|
| 14174 |
+
"epoch": 0.13493333333333332,
|
| 14175 |
+
"grad_norm": 0.1181640625,
|
| 14176 |
+
"learning_rate": 0.024,
|
| 14177 |
+
"loss": 2.33597993850708,
|
| 14178 |
+
"step": 4048
|
| 14179 |
+
},
|
| 14180 |
+
{
|
| 14181 |
+
"epoch": 0.135,
|
| 14182 |
+
"grad_norm": 0.11669921875,
|
| 14183 |
+
"learning_rate": 0.024,
|
| 14184 |
+
"loss": 2.3693370819091797,
|
| 14185 |
+
"step": 4050
|
| 14186 |
+
},
|
| 14187 |
+
{
|
| 14188 |
+
"epoch": 0.13506666666666667,
|
| 14189 |
+
"grad_norm": 0.1298828125,
|
| 14190 |
+
"learning_rate": 0.024,
|
| 14191 |
+
"loss": 2.368928909301758,
|
| 14192 |
+
"step": 4052
|
| 14193 |
+
},
|
| 14194 |
+
{
|
| 14195 |
+
"epoch": 0.13513333333333333,
|
| 14196 |
+
"grad_norm": 0.126953125,
|
| 14197 |
+
"learning_rate": 0.024,
|
| 14198 |
+
"loss": 2.344752311706543,
|
| 14199 |
+
"step": 4054
|
| 14200 |
+
},
|
| 14201 |
+
{
|
| 14202 |
+
"epoch": 0.1352,
|
| 14203 |
+
"grad_norm": 0.12890625,
|
| 14204 |
+
"learning_rate": 0.024,
|
| 14205 |
+
"loss": 2.356283187866211,
|
| 14206 |
+
"step": 4056
|
| 14207 |
+
},
|
| 14208 |
+
{
|
| 14209 |
+
"epoch": 0.13526666666666667,
|
| 14210 |
+
"grad_norm": 0.1259765625,
|
| 14211 |
+
"learning_rate": 0.024,
|
| 14212 |
+
"loss": 2.3414721488952637,
|
| 14213 |
+
"step": 4058
|
| 14214 |
+
},
|
| 14215 |
+
{
|
| 14216 |
+
"epoch": 0.13533333333333333,
|
| 14217 |
+
"grad_norm": 0.11962890625,
|
| 14218 |
+
"learning_rate": 0.024,
|
| 14219 |
+
"loss": 2.3490262031555176,
|
| 14220 |
+
"step": 4060
|
| 14221 |
+
},
|
| 14222 |
+
{
|
| 14223 |
+
"epoch": 0.1354,
|
| 14224 |
+
"grad_norm": 0.1279296875,
|
| 14225 |
+
"learning_rate": 0.024,
|
| 14226 |
+
"loss": 2.339972972869873,
|
| 14227 |
+
"step": 4062
|
| 14228 |
+
},
|
| 14229 |
+
{
|
| 14230 |
+
"epoch": 0.13546666666666668,
|
| 14231 |
+
"grad_norm": 0.123046875,
|
| 14232 |
+
"learning_rate": 0.024,
|
| 14233 |
+
"loss": 2.358412981033325,
|
| 14234 |
+
"step": 4064
|
| 14235 |
+
},
|
| 14236 |
+
{
|
| 14237 |
+
"epoch": 0.13553333333333334,
|
| 14238 |
+
"grad_norm": 0.12060546875,
|
| 14239 |
+
"learning_rate": 0.024,
|
| 14240 |
+
"loss": 2.359578847885132,
|
| 14241 |
+
"step": 4066
|
| 14242 |
+
},
|
| 14243 |
+
{
|
| 14244 |
+
"epoch": 0.1356,
|
| 14245 |
+
"grad_norm": 0.123046875,
|
| 14246 |
+
"learning_rate": 0.024,
|
| 14247 |
+
"loss": 2.362105369567871,
|
| 14248 |
+
"step": 4068
|
| 14249 |
+
},
|
| 14250 |
+
{
|
| 14251 |
+
"epoch": 0.13566666666666666,
|
| 14252 |
+
"grad_norm": 0.126953125,
|
| 14253 |
+
"learning_rate": 0.024,
|
| 14254 |
+
"loss": 2.348503828048706,
|
| 14255 |
+
"step": 4070
|
| 14256 |
+
},
|
| 14257 |
+
{
|
| 14258 |
+
"epoch": 0.13573333333333334,
|
| 14259 |
+
"grad_norm": 0.11865234375,
|
| 14260 |
+
"learning_rate": 0.024,
|
| 14261 |
+
"loss": 2.3370113372802734,
|
| 14262 |
+
"step": 4072
|
| 14263 |
+
},
|
| 14264 |
+
{
|
| 14265 |
+
"epoch": 0.1358,
|
| 14266 |
+
"grad_norm": 0.1142578125,
|
| 14267 |
+
"learning_rate": 0.024,
|
| 14268 |
+
"loss": 2.37503719329834,
|
| 14269 |
+
"step": 4074
|
| 14270 |
+
},
|
| 14271 |
+
{
|
| 14272 |
+
"epoch": 0.13586666666666666,
|
| 14273 |
+
"grad_norm": 0.12060546875,
|
| 14274 |
+
"learning_rate": 0.024,
|
| 14275 |
+
"loss": 2.3442020416259766,
|
| 14276 |
+
"step": 4076
|
| 14277 |
+
},
|
| 14278 |
+
{
|
| 14279 |
+
"epoch": 0.13593333333333332,
|
| 14280 |
+
"grad_norm": 0.12158203125,
|
| 14281 |
+
"learning_rate": 0.024,
|
| 14282 |
+
"loss": 2.3377575874328613,
|
| 14283 |
+
"step": 4078
|
| 14284 |
+
},
|
| 14285 |
+
{
|
| 14286 |
+
"epoch": 0.136,
|
| 14287 |
+
"grad_norm": 0.12109375,
|
| 14288 |
+
"learning_rate": 0.024,
|
| 14289 |
+
"loss": 2.349966526031494,
|
| 14290 |
+
"step": 4080
|
| 14291 |
+
},
|
| 14292 |
+
{
|
| 14293 |
+
"epoch": 0.13606666666666667,
|
| 14294 |
+
"grad_norm": 0.1240234375,
|
| 14295 |
+
"learning_rate": 0.024,
|
| 14296 |
+
"loss": 2.355309009552002,
|
| 14297 |
+
"step": 4082
|
| 14298 |
+
},
|
| 14299 |
+
{
|
| 14300 |
+
"epoch": 0.13613333333333333,
|
| 14301 |
+
"grad_norm": 0.1162109375,
|
| 14302 |
+
"learning_rate": 0.024,
|
| 14303 |
+
"loss": 2.3450968265533447,
|
| 14304 |
+
"step": 4084
|
| 14305 |
+
},
|
| 14306 |
+
{
|
| 14307 |
+
"epoch": 0.1362,
|
| 14308 |
+
"grad_norm": 0.123046875,
|
| 14309 |
+
"learning_rate": 0.024,
|
| 14310 |
+
"loss": 2.354180335998535,
|
| 14311 |
+
"step": 4086
|
| 14312 |
+
},
|
| 14313 |
+
{
|
| 14314 |
+
"epoch": 0.13626666666666667,
|
| 14315 |
+
"grad_norm": 0.12158203125,
|
| 14316 |
+
"learning_rate": 0.024,
|
| 14317 |
+
"loss": 2.357496738433838,
|
| 14318 |
+
"step": 4088
|
| 14319 |
+
},
|
| 14320 |
+
{
|
| 14321 |
+
"epoch": 0.13633333333333333,
|
| 14322 |
+
"grad_norm": 0.126953125,
|
| 14323 |
+
"learning_rate": 0.024,
|
| 14324 |
+
"loss": 2.3622710704803467,
|
| 14325 |
+
"step": 4090
|
| 14326 |
+
},
|
| 14327 |
+
{
|
| 14328 |
+
"epoch": 0.1364,
|
| 14329 |
+
"grad_norm": 0.1337890625,
|
| 14330 |
+
"learning_rate": 0.024,
|
| 14331 |
+
"loss": 2.3677077293395996,
|
| 14332 |
+
"step": 4092
|
| 14333 |
+
},
|
| 14334 |
+
{
|
| 14335 |
+
"epoch": 0.13646666666666665,
|
| 14336 |
+
"grad_norm": 0.1279296875,
|
| 14337 |
+
"learning_rate": 0.024,
|
| 14338 |
+
"loss": 2.367555856704712,
|
| 14339 |
+
"step": 4094
|
| 14340 |
+
},
|
| 14341 |
+
{
|
| 14342 |
+
"epoch": 0.13653333333333334,
|
| 14343 |
+
"grad_norm": 0.1279296875,
|
| 14344 |
+
"learning_rate": 0.024,
|
| 14345 |
+
"loss": 2.366637706756592,
|
| 14346 |
+
"step": 4096
|
| 14347 |
+
},
|
| 14348 |
+
{
|
| 14349 |
+
"epoch": 0.1366,
|
| 14350 |
+
"grad_norm": 0.1298828125,
|
| 14351 |
+
"learning_rate": 0.024,
|
| 14352 |
+
"loss": 2.3600311279296875,
|
| 14353 |
+
"step": 4098
|
| 14354 |
+
},
|
| 14355 |
+
{
|
| 14356 |
+
"epoch": 0.13666666666666666,
|
| 14357 |
+
"grad_norm": 0.125,
|
| 14358 |
+
"learning_rate": 0.024,
|
| 14359 |
+
"loss": 2.3585643768310547,
|
| 14360 |
+
"step": 4100
|
| 14361 |
+
},
|
| 14362 |
+
{
|
| 14363 |
+
"epoch": 0.13673333333333335,
|
| 14364 |
+
"grad_norm": 0.1259765625,
|
| 14365 |
+
"learning_rate": 0.024,
|
| 14366 |
+
"loss": 2.369309902191162,
|
| 14367 |
+
"step": 4102
|
| 14368 |
+
},
|
| 14369 |
+
{
|
| 14370 |
+
"epoch": 0.1368,
|
| 14371 |
+
"grad_norm": 0.12451171875,
|
| 14372 |
+
"learning_rate": 0.024,
|
| 14373 |
+
"loss": 2.36922287940979,
|
| 14374 |
+
"step": 4104
|
| 14375 |
+
},
|
| 14376 |
+
{
|
| 14377 |
+
"epoch": 0.13686666666666666,
|
| 14378 |
+
"grad_norm": 0.12060546875,
|
| 14379 |
+
"learning_rate": 0.024,
|
| 14380 |
+
"loss": 2.3728013038635254,
|
| 14381 |
+
"step": 4106
|
| 14382 |
+
},
|
| 14383 |
+
{
|
| 14384 |
+
"epoch": 0.13693333333333332,
|
| 14385 |
+
"grad_norm": 0.1201171875,
|
| 14386 |
+
"learning_rate": 0.024,
|
| 14387 |
+
"loss": 2.353452205657959,
|
| 14388 |
+
"step": 4108
|
| 14389 |
+
},
|
| 14390 |
+
{
|
| 14391 |
+
"epoch": 0.137,
|
| 14392 |
+
"grad_norm": 0.1142578125,
|
| 14393 |
+
"learning_rate": 0.024,
|
| 14394 |
+
"loss": 2.363727569580078,
|
| 14395 |
+
"step": 4110
|
| 14396 |
+
},
|
| 14397 |
+
{
|
| 14398 |
+
"epoch": 0.13706666666666667,
|
| 14399 |
+
"grad_norm": 0.10888671875,
|
| 14400 |
+
"learning_rate": 0.024,
|
| 14401 |
+
"loss": 2.3332877159118652,
|
| 14402 |
+
"step": 4112
|
| 14403 |
+
},
|
| 14404 |
+
{
|
| 14405 |
+
"epoch": 0.13713333333333333,
|
| 14406 |
+
"grad_norm": 0.107421875,
|
| 14407 |
+
"learning_rate": 0.024,
|
| 14408 |
+
"loss": 2.3386197090148926,
|
| 14409 |
+
"step": 4114
|
| 14410 |
+
},
|
| 14411 |
+
{
|
| 14412 |
+
"epoch": 0.1372,
|
| 14413 |
+
"grad_norm": 0.10595703125,
|
| 14414 |
+
"learning_rate": 0.024,
|
| 14415 |
+
"loss": 2.3320839405059814,
|
| 14416 |
+
"step": 4116
|
| 14417 |
+
},
|
| 14418 |
+
{
|
| 14419 |
+
"epoch": 0.13726666666666668,
|
| 14420 |
+
"grad_norm": 0.1181640625,
|
| 14421 |
+
"learning_rate": 0.024,
|
| 14422 |
+
"loss": 2.3547754287719727,
|
| 14423 |
+
"step": 4118
|
| 14424 |
+
},
|
| 14425 |
+
{
|
| 14426 |
+
"epoch": 0.13733333333333334,
|
| 14427 |
+
"grad_norm": 0.138671875,
|
| 14428 |
+
"learning_rate": 0.024,
|
| 14429 |
+
"loss": 2.343266725540161,
|
| 14430 |
+
"step": 4120
|
| 14431 |
+
},
|
| 14432 |
+
{
|
| 14433 |
+
"epoch": 0.1374,
|
| 14434 |
+
"grad_norm": 0.154296875,
|
| 14435 |
+
"learning_rate": 0.024,
|
| 14436 |
+
"loss": 2.360288143157959,
|
| 14437 |
+
"step": 4122
|
| 14438 |
+
},
|
| 14439 |
+
{
|
| 14440 |
+
"epoch": 0.13746666666666665,
|
| 14441 |
+
"grad_norm": 0.134765625,
|
| 14442 |
+
"learning_rate": 0.024,
|
| 14443 |
+
"loss": 2.349087715148926,
|
| 14444 |
+
"step": 4124
|
| 14445 |
+
},
|
| 14446 |
+
{
|
| 14447 |
+
"epoch": 0.13753333333333334,
|
| 14448 |
+
"grad_norm": 0.1318359375,
|
| 14449 |
+
"learning_rate": 0.024,
|
| 14450 |
+
"loss": 2.339775562286377,
|
| 14451 |
+
"step": 4126
|
| 14452 |
+
},
|
| 14453 |
+
{
|
| 14454 |
+
"epoch": 0.1376,
|
| 14455 |
+
"grad_norm": 0.130859375,
|
| 14456 |
+
"learning_rate": 0.024,
|
| 14457 |
+
"loss": 2.3660402297973633,
|
| 14458 |
+
"step": 4128
|
| 14459 |
+
},
|
| 14460 |
+
{
|
| 14461 |
+
"epoch": 0.13766666666666666,
|
| 14462 |
+
"grad_norm": 0.13671875,
|
| 14463 |
+
"learning_rate": 0.024,
|
| 14464 |
+
"loss": 2.3620176315307617,
|
| 14465 |
+
"step": 4130
|
| 14466 |
+
},
|
| 14467 |
+
{
|
| 14468 |
+
"epoch": 0.13773333333333335,
|
| 14469 |
+
"grad_norm": 0.1337890625,
|
| 14470 |
+
"learning_rate": 0.024,
|
| 14471 |
+
"loss": 2.386262893676758,
|
| 14472 |
+
"step": 4132
|
| 14473 |
+
},
|
| 14474 |
+
{
|
| 14475 |
+
"epoch": 0.1378,
|
| 14476 |
+
"grad_norm": 0.1279296875,
|
| 14477 |
+
"learning_rate": 0.024,
|
| 14478 |
+
"loss": 2.368394374847412,
|
| 14479 |
+
"step": 4134
|
| 14480 |
+
},
|
| 14481 |
+
{
|
| 14482 |
+
"epoch": 0.13786666666666667,
|
| 14483 |
+
"grad_norm": 0.125,
|
| 14484 |
+
"learning_rate": 0.024,
|
| 14485 |
+
"loss": 2.3420932292938232,
|
| 14486 |
+
"step": 4136
|
| 14487 |
+
},
|
| 14488 |
+
{
|
| 14489 |
+
"epoch": 0.13793333333333332,
|
| 14490 |
+
"grad_norm": 0.12060546875,
|
| 14491 |
+
"learning_rate": 0.024,
|
| 14492 |
+
"loss": 2.3396427631378174,
|
| 14493 |
+
"step": 4138
|
| 14494 |
+
},
|
| 14495 |
+
{
|
| 14496 |
+
"epoch": 0.138,
|
| 14497 |
+
"grad_norm": 0.1259765625,
|
| 14498 |
+
"learning_rate": 0.024,
|
| 14499 |
+
"loss": 2.377284288406372,
|
| 14500 |
+
"step": 4140
|
| 14501 |
+
},
|
| 14502 |
+
{
|
| 14503 |
+
"epoch": 0.13806666666666667,
|
| 14504 |
+
"grad_norm": 0.1171875,
|
| 14505 |
+
"learning_rate": 0.024,
|
| 14506 |
+
"loss": 2.3598570823669434,
|
| 14507 |
+
"step": 4142
|
| 14508 |
+
},
|
| 14509 |
+
{
|
| 14510 |
+
"epoch": 0.13813333333333333,
|
| 14511 |
+
"grad_norm": 0.125,
|
| 14512 |
+
"learning_rate": 0.024,
|
| 14513 |
+
"loss": 2.353452444076538,
|
| 14514 |
+
"step": 4144
|
| 14515 |
+
},
|
| 14516 |
+
{
|
| 14517 |
+
"epoch": 0.1382,
|
| 14518 |
+
"grad_norm": 0.1357421875,
|
| 14519 |
+
"learning_rate": 0.024,
|
| 14520 |
+
"loss": 2.3518528938293457,
|
| 14521 |
+
"step": 4146
|
| 14522 |
+
},
|
| 14523 |
+
{
|
| 14524 |
+
"epoch": 0.13826666666666668,
|
| 14525 |
+
"grad_norm": 0.126953125,
|
| 14526 |
+
"learning_rate": 0.024,
|
| 14527 |
+
"loss": 2.3733091354370117,
|
| 14528 |
+
"step": 4148
|
| 14529 |
+
},
|
| 14530 |
+
{
|
| 14531 |
+
"epoch": 0.13833333333333334,
|
| 14532 |
+
"grad_norm": 0.126953125,
|
| 14533 |
+
"learning_rate": 0.024,
|
| 14534 |
+
"loss": 2.3304283618927,
|
| 14535 |
+
"step": 4150
|
| 14536 |
+
},
|
| 14537 |
+
{
|
| 14538 |
+
"epoch": 0.1384,
|
| 14539 |
+
"grad_norm": 0.12451171875,
|
| 14540 |
+
"learning_rate": 0.024,
|
| 14541 |
+
"loss": 2.3714590072631836,
|
| 14542 |
+
"step": 4152
|
| 14543 |
+
},
|
| 14544 |
+
{
|
| 14545 |
+
"epoch": 0.13846666666666665,
|
| 14546 |
+
"grad_norm": 0.1298828125,
|
| 14547 |
+
"learning_rate": 0.024,
|
| 14548 |
+
"loss": 2.3830068111419678,
|
| 14549 |
+
"step": 4154
|
| 14550 |
+
},
|
| 14551 |
+
{
|
| 14552 |
+
"epoch": 0.13853333333333334,
|
| 14553 |
+
"grad_norm": 0.123046875,
|
| 14554 |
+
"learning_rate": 0.024,
|
| 14555 |
+
"loss": 2.3345937728881836,
|
| 14556 |
+
"step": 4156
|
| 14557 |
+
},
|
| 14558 |
+
{
|
| 14559 |
+
"epoch": 0.1386,
|
| 14560 |
+
"grad_norm": 0.11767578125,
|
| 14561 |
+
"learning_rate": 0.024,
|
| 14562 |
+
"loss": 2.3253772258758545,
|
| 14563 |
+
"step": 4158
|
| 14564 |
+
},
|
| 14565 |
+
{
|
| 14566 |
+
"epoch": 0.13866666666666666,
|
| 14567 |
+
"grad_norm": 0.1240234375,
|
| 14568 |
+
"learning_rate": 0.024,
|
| 14569 |
+
"loss": 2.3325822353363037,
|
| 14570 |
+
"step": 4160
|
| 14571 |
+
},
|
| 14572 |
+
{
|
| 14573 |
+
"epoch": 0.13873333333333332,
|
| 14574 |
+
"grad_norm": 0.1259765625,
|
| 14575 |
+
"learning_rate": 0.024,
|
| 14576 |
+
"loss": 2.3441290855407715,
|
| 14577 |
+
"step": 4162
|
| 14578 |
+
},
|
| 14579 |
+
{
|
| 14580 |
+
"epoch": 0.1388,
|
| 14581 |
+
"grad_norm": 0.1142578125,
|
| 14582 |
+
"learning_rate": 0.024,
|
| 14583 |
+
"loss": 2.3370306491851807,
|
| 14584 |
+
"step": 4164
|
| 14585 |
+
},
|
| 14586 |
+
{
|
| 14587 |
+
"epoch": 0.13886666666666667,
|
| 14588 |
+
"grad_norm": 0.125,
|
| 14589 |
+
"learning_rate": 0.024,
|
| 14590 |
+
"loss": 2.343620777130127,
|
| 14591 |
+
"step": 4166
|
| 14592 |
+
},
|
| 14593 |
+
{
|
| 14594 |
+
"epoch": 0.13893333333333333,
|
| 14595 |
+
"grad_norm": 0.1279296875,
|
| 14596 |
+
"learning_rate": 0.024,
|
| 14597 |
+
"loss": 2.3186464309692383,
|
| 14598 |
+
"step": 4168
|
| 14599 |
+
},
|
| 14600 |
+
{
|
| 14601 |
+
"epoch": 0.139,
|
| 14602 |
+
"grad_norm": 0.126953125,
|
| 14603 |
+
"learning_rate": 0.024,
|
| 14604 |
+
"loss": 2.3640966415405273,
|
| 14605 |
+
"step": 4170
|
| 14606 |
+
},
|
| 14607 |
+
{
|
| 14608 |
+
"epoch": 0.13906666666666667,
|
| 14609 |
+
"grad_norm": 0.1220703125,
|
| 14610 |
+
"learning_rate": 0.024,
|
| 14611 |
+
"loss": 2.346224784851074,
|
| 14612 |
+
"step": 4172
|
| 14613 |
+
},
|
| 14614 |
+
{
|
| 14615 |
+
"epoch": 0.13913333333333333,
|
| 14616 |
+
"grad_norm": 0.12353515625,
|
| 14617 |
+
"learning_rate": 0.024,
|
| 14618 |
+
"loss": 2.341198205947876,
|
| 14619 |
+
"step": 4174
|
| 14620 |
+
},
|
| 14621 |
+
{
|
| 14622 |
+
"epoch": 0.1392,
|
| 14623 |
+
"grad_norm": 0.1259765625,
|
| 14624 |
+
"learning_rate": 0.024,
|
| 14625 |
+
"loss": 2.354318141937256,
|
| 14626 |
+
"step": 4176
|
| 14627 |
+
},
|
| 14628 |
+
{
|
| 14629 |
+
"epoch": 0.13926666666666668,
|
| 14630 |
+
"grad_norm": 0.12255859375,
|
| 14631 |
+
"learning_rate": 0.024,
|
| 14632 |
+
"loss": 2.3600947856903076,
|
| 14633 |
+
"step": 4178
|
| 14634 |
+
},
|
| 14635 |
+
{
|
| 14636 |
+
"epoch": 0.13933333333333334,
|
| 14637 |
+
"grad_norm": 0.1279296875,
|
| 14638 |
+
"learning_rate": 0.024,
|
| 14639 |
+
"loss": 2.3591785430908203,
|
| 14640 |
+
"step": 4180
|
| 14641 |
+
},
|
| 14642 |
+
{
|
| 14643 |
+
"epoch": 0.1394,
|
| 14644 |
+
"grad_norm": 0.1162109375,
|
| 14645 |
+
"learning_rate": 0.024,
|
| 14646 |
+
"loss": 2.3701624870300293,
|
| 14647 |
+
"step": 4182
|
| 14648 |
+
},
|
| 14649 |
+
{
|
| 14650 |
+
"epoch": 0.13946666666666666,
|
| 14651 |
+
"grad_norm": 0.1201171875,
|
| 14652 |
+
"learning_rate": 0.024,
|
| 14653 |
+
"loss": 2.3860068321228027,
|
| 14654 |
+
"step": 4184
|
| 14655 |
+
},
|
| 14656 |
+
{
|
| 14657 |
+
"epoch": 0.13953333333333334,
|
| 14658 |
+
"grad_norm": 0.1201171875,
|
| 14659 |
+
"learning_rate": 0.024,
|
| 14660 |
+
"loss": 2.3419768810272217,
|
| 14661 |
+
"step": 4186
|
| 14662 |
+
},
|
| 14663 |
+
{
|
| 14664 |
+
"epoch": 0.1396,
|
| 14665 |
+
"grad_norm": 0.1181640625,
|
| 14666 |
+
"learning_rate": 0.024,
|
| 14667 |
+
"loss": 2.339036703109741,
|
| 14668 |
+
"step": 4188
|
| 14669 |
+
},
|
| 14670 |
+
{
|
| 14671 |
+
"epoch": 0.13966666666666666,
|
| 14672 |
+
"grad_norm": 0.12890625,
|
| 14673 |
+
"learning_rate": 0.024,
|
| 14674 |
+
"loss": 2.3597829341888428,
|
| 14675 |
+
"step": 4190
|
| 14676 |
+
},
|
| 14677 |
+
{
|
| 14678 |
+
"epoch": 0.13973333333333332,
|
| 14679 |
+
"grad_norm": 0.11376953125,
|
| 14680 |
+
"learning_rate": 0.024,
|
| 14681 |
+
"loss": 2.362138032913208,
|
| 14682 |
+
"step": 4192
|
| 14683 |
+
},
|
| 14684 |
+
{
|
| 14685 |
+
"epoch": 0.1398,
|
| 14686 |
+
"grad_norm": 0.12451171875,
|
| 14687 |
+
"learning_rate": 0.024,
|
| 14688 |
+
"loss": 2.3344664573669434,
|
| 14689 |
+
"step": 4194
|
| 14690 |
+
},
|
| 14691 |
+
{
|
| 14692 |
+
"epoch": 0.13986666666666667,
|
| 14693 |
+
"grad_norm": 0.11865234375,
|
| 14694 |
+
"learning_rate": 0.024,
|
| 14695 |
+
"loss": 2.3207502365112305,
|
| 14696 |
+
"step": 4196
|
| 14697 |
+
},
|
| 14698 |
+
{
|
| 14699 |
+
"epoch": 0.13993333333333333,
|
| 14700 |
+
"grad_norm": 0.123046875,
|
| 14701 |
+
"learning_rate": 0.024,
|
| 14702 |
+
"loss": 2.3412649631500244,
|
| 14703 |
+
"step": 4198
|
| 14704 |
+
},
|
| 14705 |
+
{
|
| 14706 |
+
"epoch": 0.14,
|
| 14707 |
+
"grad_norm": 0.1298828125,
|
| 14708 |
+
"learning_rate": 0.024,
|
| 14709 |
+
"loss": 2.363893747329712,
|
| 14710 |
+
"step": 4200
|
| 14711 |
+
},
|
| 14712 |
+
{
|
| 14713 |
+
"epoch": 0.14006666666666667,
|
| 14714 |
+
"grad_norm": 0.126953125,
|
| 14715 |
+
"learning_rate": 0.024,
|
| 14716 |
+
"loss": 2.3572630882263184,
|
| 14717 |
+
"step": 4202
|
| 14718 |
+
},
|
| 14719 |
+
{
|
| 14720 |
+
"epoch": 0.14013333333333333,
|
| 14721 |
+
"grad_norm": 0.12158203125,
|
| 14722 |
+
"learning_rate": 0.024,
|
| 14723 |
+
"loss": 2.3289670944213867,
|
| 14724 |
+
"step": 4204
|
| 14725 |
+
},
|
| 14726 |
+
{
|
| 14727 |
+
"epoch": 0.1402,
|
| 14728 |
+
"grad_norm": 0.1220703125,
|
| 14729 |
+
"learning_rate": 0.024,
|
| 14730 |
+
"loss": 2.3222928047180176,
|
| 14731 |
+
"step": 4206
|
| 14732 |
+
},
|
| 14733 |
+
{
|
| 14734 |
+
"epoch": 0.14026666666666668,
|
| 14735 |
+
"grad_norm": 0.126953125,
|
| 14736 |
+
"learning_rate": 0.024,
|
| 14737 |
+
"loss": 2.350545883178711,
|
| 14738 |
+
"step": 4208
|
| 14739 |
+
},
|
| 14740 |
+
{
|
| 14741 |
+
"epoch": 0.14033333333333334,
|
| 14742 |
+
"grad_norm": 0.12158203125,
|
| 14743 |
+
"learning_rate": 0.024,
|
| 14744 |
+
"loss": 2.3578591346740723,
|
| 14745 |
+
"step": 4210
|
| 14746 |
+
},
|
| 14747 |
+
{
|
| 14748 |
+
"epoch": 0.1404,
|
| 14749 |
+
"grad_norm": 0.11376953125,
|
| 14750 |
+
"learning_rate": 0.024,
|
| 14751 |
+
"loss": 2.329137086868286,
|
| 14752 |
+
"step": 4212
|
| 14753 |
+
},
|
| 14754 |
+
{
|
| 14755 |
+
"epoch": 0.14046666666666666,
|
| 14756 |
+
"grad_norm": 0.12158203125,
|
| 14757 |
+
"learning_rate": 0.024,
|
| 14758 |
+
"loss": 2.3566205501556396,
|
| 14759 |
+
"step": 4214
|
| 14760 |
+
},
|
| 14761 |
+
{
|
| 14762 |
+
"epoch": 0.14053333333333334,
|
| 14763 |
+
"grad_norm": 0.1279296875,
|
| 14764 |
+
"learning_rate": 0.024,
|
| 14765 |
+
"loss": 2.3469624519348145,
|
| 14766 |
+
"step": 4216
|
| 14767 |
+
},
|
| 14768 |
+
{
|
| 14769 |
+
"epoch": 0.1406,
|
| 14770 |
+
"grad_norm": 0.11865234375,
|
| 14771 |
+
"learning_rate": 0.024,
|
| 14772 |
+
"loss": 2.347811698913574,
|
| 14773 |
+
"step": 4218
|
| 14774 |
+
},
|
| 14775 |
+
{
|
| 14776 |
+
"epoch": 0.14066666666666666,
|
| 14777 |
+
"grad_norm": 0.11376953125,
|
| 14778 |
+
"learning_rate": 0.024,
|
| 14779 |
+
"loss": 2.3360273838043213,
|
| 14780 |
+
"step": 4220
|
| 14781 |
+
},
|
| 14782 |
+
{
|
| 14783 |
+
"epoch": 0.14073333333333332,
|
| 14784 |
+
"grad_norm": 0.109375,
|
| 14785 |
+
"learning_rate": 0.024,
|
| 14786 |
+
"loss": 2.3265347480773926,
|
| 14787 |
+
"step": 4222
|
| 14788 |
+
},
|
| 14789 |
+
{
|
| 14790 |
+
"epoch": 0.1408,
|
| 14791 |
+
"grad_norm": 0.12109375,
|
| 14792 |
+
"learning_rate": 0.024,
|
| 14793 |
+
"loss": 2.3565149307250977,
|
| 14794 |
+
"step": 4224
|
| 14795 |
+
},
|
| 14796 |
+
{
|
| 14797 |
+
"epoch": 0.14086666666666667,
|
| 14798 |
+
"grad_norm": 0.123046875,
|
| 14799 |
+
"learning_rate": 0.024,
|
| 14800 |
+
"loss": 2.3632330894470215,
|
| 14801 |
+
"step": 4226
|
| 14802 |
+
},
|
| 14803 |
+
{
|
| 14804 |
+
"epoch": 0.14093333333333333,
|
| 14805 |
+
"grad_norm": 0.1142578125,
|
| 14806 |
+
"learning_rate": 0.024,
|
| 14807 |
+
"loss": 2.336488723754883,
|
| 14808 |
+
"step": 4228
|
| 14809 |
+
},
|
| 14810 |
+
{
|
| 14811 |
+
"epoch": 0.141,
|
| 14812 |
+
"grad_norm": 0.1181640625,
|
| 14813 |
+
"learning_rate": 0.024,
|
| 14814 |
+
"loss": 2.343090534210205,
|
| 14815 |
+
"step": 4230
|
| 14816 |
+
},
|
| 14817 |
+
{
|
| 14818 |
+
"epoch": 0.14106666666666667,
|
| 14819 |
+
"grad_norm": 0.12255859375,
|
| 14820 |
+
"learning_rate": 0.024,
|
| 14821 |
+
"loss": 2.3526129722595215,
|
| 14822 |
+
"step": 4232
|
| 14823 |
+
},
|
| 14824 |
+
{
|
| 14825 |
+
"epoch": 0.14113333333333333,
|
| 14826 |
+
"grad_norm": 0.126953125,
|
| 14827 |
+
"learning_rate": 0.024,
|
| 14828 |
+
"loss": 2.3366219997406006,
|
| 14829 |
+
"step": 4234
|
| 14830 |
+
},
|
| 14831 |
+
{
|
| 14832 |
+
"epoch": 0.1412,
|
| 14833 |
+
"grad_norm": 0.12451171875,
|
| 14834 |
+
"learning_rate": 0.024,
|
| 14835 |
+
"loss": 2.3541088104248047,
|
| 14836 |
+
"step": 4236
|
| 14837 |
+
},
|
| 14838 |
+
{
|
| 14839 |
+
"epoch": 0.14126666666666668,
|
| 14840 |
+
"grad_norm": 0.1201171875,
|
| 14841 |
+
"learning_rate": 0.024,
|
| 14842 |
+
"loss": 2.3402581214904785,
|
| 14843 |
+
"step": 4238
|
| 14844 |
+
},
|
| 14845 |
+
{
|
| 14846 |
+
"epoch": 0.14133333333333334,
|
| 14847 |
+
"grad_norm": 0.12109375,
|
| 14848 |
+
"learning_rate": 0.024,
|
| 14849 |
+
"loss": 2.3441638946533203,
|
| 14850 |
+
"step": 4240
|
| 14851 |
+
},
|
| 14852 |
+
{
|
| 14853 |
+
"epoch": 0.1414,
|
| 14854 |
+
"grad_norm": 0.11279296875,
|
| 14855 |
+
"learning_rate": 0.024,
|
| 14856 |
+
"loss": 2.35387921333313,
|
| 14857 |
+
"step": 4242
|
| 14858 |
+
},
|
| 14859 |
+
{
|
| 14860 |
+
"epoch": 0.14146666666666666,
|
| 14861 |
+
"grad_norm": 0.11181640625,
|
| 14862 |
+
"learning_rate": 0.024,
|
| 14863 |
+
"loss": 2.3445141315460205,
|
| 14864 |
+
"step": 4244
|
| 14865 |
+
},
|
| 14866 |
+
{
|
| 14867 |
+
"epoch": 0.14153333333333334,
|
| 14868 |
+
"grad_norm": 0.11181640625,
|
| 14869 |
+
"learning_rate": 0.024,
|
| 14870 |
+
"loss": 2.3642542362213135,
|
| 14871 |
+
"step": 4246
|
| 14872 |
+
},
|
| 14873 |
+
{
|
| 14874 |
+
"epoch": 0.1416,
|
| 14875 |
+
"grad_norm": 0.11572265625,
|
| 14876 |
+
"learning_rate": 0.024,
|
| 14877 |
+
"loss": 2.3433997631073,
|
| 14878 |
+
"step": 4248
|
| 14879 |
+
},
|
| 14880 |
+
{
|
| 14881 |
+
"epoch": 0.14166666666666666,
|
| 14882 |
+
"grad_norm": 0.12890625,
|
| 14883 |
+
"learning_rate": 0.024,
|
| 14884 |
+
"loss": 2.3520236015319824,
|
| 14885 |
+
"step": 4250
|
| 14886 |
+
},
|
| 14887 |
+
{
|
| 14888 |
+
"epoch": 0.14173333333333332,
|
| 14889 |
+
"grad_norm": 0.12890625,
|
| 14890 |
+
"learning_rate": 0.024,
|
| 14891 |
+
"loss": 2.3472962379455566,
|
| 14892 |
+
"step": 4252
|
| 14893 |
+
},
|
| 14894 |
+
{
|
| 14895 |
+
"epoch": 0.1418,
|
| 14896 |
+
"grad_norm": 0.12353515625,
|
| 14897 |
+
"learning_rate": 0.024,
|
| 14898 |
+
"loss": 2.3269095420837402,
|
| 14899 |
+
"step": 4254
|
| 14900 |
+
},
|
| 14901 |
+
{
|
| 14902 |
+
"epoch": 0.14186666666666667,
|
| 14903 |
+
"grad_norm": 0.1318359375,
|
| 14904 |
+
"learning_rate": 0.024,
|
| 14905 |
+
"loss": 2.3242759704589844,
|
| 14906 |
+
"step": 4256
|
| 14907 |
+
},
|
| 14908 |
+
{
|
| 14909 |
+
"epoch": 0.14193333333333333,
|
| 14910 |
+
"grad_norm": 0.1240234375,
|
| 14911 |
+
"learning_rate": 0.024,
|
| 14912 |
+
"loss": 2.3449528217315674,
|
| 14913 |
+
"step": 4258
|
| 14914 |
+
},
|
| 14915 |
+
{
|
| 14916 |
+
"epoch": 0.142,
|
| 14917 |
+
"grad_norm": 0.11962890625,
|
| 14918 |
+
"learning_rate": 0.024,
|
| 14919 |
+
"loss": 2.3220975399017334,
|
| 14920 |
+
"step": 4260
|
| 14921 |
+
},
|
| 14922 |
+
{
|
| 14923 |
+
"epoch": 0.14206666666666667,
|
| 14924 |
+
"grad_norm": 0.12451171875,
|
| 14925 |
+
"learning_rate": 0.024,
|
| 14926 |
+
"loss": 2.3498308658599854,
|
| 14927 |
+
"step": 4262
|
| 14928 |
+
},
|
| 14929 |
+
{
|
| 14930 |
+
"epoch": 0.14213333333333333,
|
| 14931 |
+
"grad_norm": 0.11767578125,
|
| 14932 |
+
"learning_rate": 0.024,
|
| 14933 |
+
"loss": 2.3885695934295654,
|
| 14934 |
+
"step": 4264
|
| 14935 |
+
},
|
| 14936 |
+
{
|
| 14937 |
+
"epoch": 0.1422,
|
| 14938 |
+
"grad_norm": 0.123046875,
|
| 14939 |
+
"learning_rate": 0.024,
|
| 14940 |
+
"loss": 2.353013277053833,
|
| 14941 |
+
"step": 4266
|
| 14942 |
+
},
|
| 14943 |
+
{
|
| 14944 |
+
"epoch": 0.14226666666666668,
|
| 14945 |
+
"grad_norm": 0.12109375,
|
| 14946 |
+
"learning_rate": 0.024,
|
| 14947 |
+
"loss": 2.3224804401397705,
|
| 14948 |
+
"step": 4268
|
| 14949 |
+
},
|
| 14950 |
+
{
|
| 14951 |
+
"epoch": 0.14233333333333334,
|
| 14952 |
+
"grad_norm": 0.123046875,
|
| 14953 |
+
"learning_rate": 0.024,
|
| 14954 |
+
"loss": 2.319916248321533,
|
| 14955 |
+
"step": 4270
|
| 14956 |
+
},
|
| 14957 |
+
{
|
| 14958 |
+
"epoch": 0.1424,
|
| 14959 |
+
"grad_norm": 0.12109375,
|
| 14960 |
+
"learning_rate": 0.024,
|
| 14961 |
+
"loss": 2.344547748565674,
|
| 14962 |
+
"step": 4272
|
| 14963 |
+
},
|
| 14964 |
+
{
|
| 14965 |
+
"epoch": 0.14246666666666666,
|
| 14966 |
+
"grad_norm": 0.12353515625,
|
| 14967 |
+
"learning_rate": 0.024,
|
| 14968 |
+
"loss": 2.3362879753112793,
|
| 14969 |
+
"step": 4274
|
| 14970 |
+
},
|
| 14971 |
+
{
|
| 14972 |
+
"epoch": 0.14253333333333335,
|
| 14973 |
+
"grad_norm": 0.126953125,
|
| 14974 |
+
"learning_rate": 0.024,
|
| 14975 |
+
"loss": 2.334904432296753,
|
| 14976 |
+
"step": 4276
|
| 14977 |
+
},
|
| 14978 |
+
{
|
| 14979 |
+
"epoch": 0.1426,
|
| 14980 |
+
"grad_norm": 0.12451171875,
|
| 14981 |
+
"learning_rate": 0.024,
|
| 14982 |
+
"loss": 2.3535361289978027,
|
| 14983 |
+
"step": 4278
|
| 14984 |
+
},
|
| 14985 |
+
{
|
| 14986 |
+
"epoch": 0.14266666666666666,
|
| 14987 |
+
"grad_norm": 0.1318359375,
|
| 14988 |
+
"learning_rate": 0.024,
|
| 14989 |
+
"loss": 2.3535141944885254,
|
| 14990 |
+
"step": 4280
|
| 14991 |
+
},
|
| 14992 |
+
{
|
| 14993 |
+
"epoch": 0.14273333333333332,
|
| 14994 |
+
"grad_norm": 0.1279296875,
|
| 14995 |
+
"learning_rate": 0.024,
|
| 14996 |
+
"loss": 2.3646187782287598,
|
| 14997 |
+
"step": 4282
|
| 14998 |
+
},
|
| 14999 |
+
{
|
| 15000 |
+
"epoch": 0.1428,
|
| 15001 |
+
"grad_norm": 0.11669921875,
|
| 15002 |
+
"learning_rate": 0.024,
|
| 15003 |
+
"loss": 2.336981773376465,
|
| 15004 |
+
"step": 4284
|
| 15005 |
+
},
|
| 15006 |
+
{
|
| 15007 |
+
"epoch": 0.14286666666666667,
|
| 15008 |
+
"grad_norm": 0.1181640625,
|
| 15009 |
+
"learning_rate": 0.024,
|
| 15010 |
+
"loss": 2.35300874710083,
|
| 15011 |
+
"step": 4286
|
| 15012 |
+
},
|
| 15013 |
+
{
|
| 15014 |
+
"epoch": 0.14293333333333333,
|
| 15015 |
+
"grad_norm": 0.12255859375,
|
| 15016 |
+
"learning_rate": 0.024,
|
| 15017 |
+
"loss": 2.31760311126709,
|
| 15018 |
+
"step": 4288
|
| 15019 |
+
},
|
| 15020 |
+
{
|
| 15021 |
+
"epoch": 0.143,
|
| 15022 |
+
"grad_norm": 0.1259765625,
|
| 15023 |
+
"learning_rate": 0.024,
|
| 15024 |
+
"loss": 2.3494584560394287,
|
| 15025 |
+
"step": 4290
|
| 15026 |
+
},
|
| 15027 |
+
{
|
| 15028 |
+
"epoch": 0.14306666666666668,
|
| 15029 |
+
"grad_norm": 0.126953125,
|
| 15030 |
+
"learning_rate": 0.024,
|
| 15031 |
+
"loss": 2.3451247215270996,
|
| 15032 |
+
"step": 4292
|
| 15033 |
+
},
|
| 15034 |
+
{
|
| 15035 |
+
"epoch": 0.14313333333333333,
|
| 15036 |
+
"grad_norm": 0.126953125,
|
| 15037 |
+
"learning_rate": 0.024,
|
| 15038 |
+
"loss": 2.36978816986084,
|
| 15039 |
+
"step": 4294
|
| 15040 |
+
},
|
| 15041 |
+
{
|
| 15042 |
+
"epoch": 0.1432,
|
| 15043 |
+
"grad_norm": 0.126953125,
|
| 15044 |
+
"learning_rate": 0.024,
|
| 15045 |
+
"loss": 2.3315482139587402,
|
| 15046 |
+
"step": 4296
|
| 15047 |
+
},
|
| 15048 |
+
{
|
| 15049 |
+
"epoch": 0.14326666666666665,
|
| 15050 |
+
"grad_norm": 0.11962890625,
|
| 15051 |
+
"learning_rate": 0.024,
|
| 15052 |
+
"loss": 2.335247278213501,
|
| 15053 |
+
"step": 4298
|
| 15054 |
+
},
|
| 15055 |
+
{
|
| 15056 |
+
"epoch": 0.14333333333333334,
|
| 15057 |
+
"grad_norm": 0.12158203125,
|
| 15058 |
+
"learning_rate": 0.024,
|
| 15059 |
+
"loss": 2.370162010192871,
|
| 15060 |
+
"step": 4300
|
| 15061 |
+
},
|
| 15062 |
+
{
|
| 15063 |
+
"epoch": 0.1434,
|
| 15064 |
+
"grad_norm": 0.12255859375,
|
| 15065 |
+
"learning_rate": 0.024,
|
| 15066 |
+
"loss": 2.34334659576416,
|
| 15067 |
+
"step": 4302
|
| 15068 |
+
},
|
| 15069 |
+
{
|
| 15070 |
+
"epoch": 0.14346666666666666,
|
| 15071 |
+
"grad_norm": 0.12890625,
|
| 15072 |
+
"learning_rate": 0.024,
|
| 15073 |
+
"loss": 2.349900960922241,
|
| 15074 |
+
"step": 4304
|
| 15075 |
+
},
|
| 15076 |
+
{
|
| 15077 |
+
"epoch": 0.14353333333333335,
|
| 15078 |
+
"grad_norm": 0.1318359375,
|
| 15079 |
+
"learning_rate": 0.024,
|
| 15080 |
+
"loss": 2.329265594482422,
|
| 15081 |
+
"step": 4306
|
| 15082 |
+
},
|
| 15083 |
+
{
|
| 15084 |
+
"epoch": 0.1436,
|
| 15085 |
+
"grad_norm": 0.125,
|
| 15086 |
+
"learning_rate": 0.024,
|
| 15087 |
+
"loss": 2.3498120307922363,
|
| 15088 |
+
"step": 4308
|
| 15089 |
+
},
|
| 15090 |
+
{
|
| 15091 |
+
"epoch": 0.14366666666666666,
|
| 15092 |
+
"grad_norm": 0.1220703125,
|
| 15093 |
+
"learning_rate": 0.024,
|
| 15094 |
+
"loss": 2.3502120971679688,
|
| 15095 |
+
"step": 4310
|
| 15096 |
+
},
|
| 15097 |
+
{
|
| 15098 |
+
"epoch": 0.14373333333333332,
|
| 15099 |
+
"grad_norm": 0.12451171875,
|
| 15100 |
+
"learning_rate": 0.024,
|
| 15101 |
+
"loss": 2.319915771484375,
|
| 15102 |
+
"step": 4312
|
| 15103 |
+
},
|
| 15104 |
+
{
|
| 15105 |
+
"epoch": 0.1438,
|
| 15106 |
+
"grad_norm": 0.125,
|
| 15107 |
+
"learning_rate": 0.024,
|
| 15108 |
+
"loss": 2.3262972831726074,
|
| 15109 |
+
"step": 4314
|
| 15110 |
+
},
|
| 15111 |
+
{
|
| 15112 |
+
"epoch": 0.14386666666666667,
|
| 15113 |
+
"grad_norm": 0.123046875,
|
| 15114 |
+
"learning_rate": 0.024,
|
| 15115 |
+
"loss": 2.3361048698425293,
|
| 15116 |
+
"step": 4316
|
| 15117 |
+
},
|
| 15118 |
+
{
|
| 15119 |
+
"epoch": 0.14393333333333333,
|
| 15120 |
+
"grad_norm": 0.1259765625,
|
| 15121 |
+
"learning_rate": 0.024,
|
| 15122 |
+
"loss": 2.350599765777588,
|
| 15123 |
+
"step": 4318
|
| 15124 |
+
},
|
| 15125 |
+
{
|
| 15126 |
+
"epoch": 0.144,
|
| 15127 |
+
"grad_norm": 0.12109375,
|
| 15128 |
+
"learning_rate": 0.024,
|
| 15129 |
+
"loss": 2.337160587310791,
|
| 15130 |
+
"step": 4320
|
| 15131 |
+
},
|
| 15132 |
+
{
|
| 15133 |
+
"epoch": 0.14406666666666668,
|
| 15134 |
+
"grad_norm": 0.1259765625,
|
| 15135 |
+
"learning_rate": 0.024,
|
| 15136 |
+
"loss": 2.3304052352905273,
|
| 15137 |
+
"step": 4322
|
| 15138 |
+
},
|
| 15139 |
+
{
|
| 15140 |
+
"epoch": 0.14413333333333334,
|
| 15141 |
+
"grad_norm": 0.12255859375,
|
| 15142 |
+
"learning_rate": 0.024,
|
| 15143 |
+
"loss": 2.338160514831543,
|
| 15144 |
+
"step": 4324
|
| 15145 |
+
},
|
| 15146 |
+
{
|
| 15147 |
+
"epoch": 0.1442,
|
| 15148 |
+
"grad_norm": 0.1259765625,
|
| 15149 |
+
"learning_rate": 0.024,
|
| 15150 |
+
"loss": 2.357461929321289,
|
| 15151 |
+
"step": 4326
|
| 15152 |
+
},
|
| 15153 |
+
{
|
| 15154 |
+
"epoch": 0.14426666666666665,
|
| 15155 |
+
"grad_norm": 0.12255859375,
|
| 15156 |
+
"learning_rate": 0.024,
|
| 15157 |
+
"loss": 2.352400779724121,
|
| 15158 |
+
"step": 4328
|
| 15159 |
+
},
|
| 15160 |
+
{
|
| 15161 |
+
"epoch": 0.14433333333333334,
|
| 15162 |
+
"grad_norm": 0.11962890625,
|
| 15163 |
+
"learning_rate": 0.024,
|
| 15164 |
+
"loss": 2.358729362487793,
|
| 15165 |
+
"step": 4330
|
| 15166 |
+
},
|
| 15167 |
+
{
|
| 15168 |
+
"epoch": 0.1444,
|
| 15169 |
+
"grad_norm": 0.126953125,
|
| 15170 |
+
"learning_rate": 0.024,
|
| 15171 |
+
"loss": 2.373351812362671,
|
| 15172 |
+
"step": 4332
|
| 15173 |
+
},
|
| 15174 |
+
{
|
| 15175 |
+
"epoch": 0.14446666666666666,
|
| 15176 |
+
"grad_norm": 0.12109375,
|
| 15177 |
+
"learning_rate": 0.024,
|
| 15178 |
+
"loss": 2.362307548522949,
|
| 15179 |
+
"step": 4334
|
| 15180 |
+
},
|
| 15181 |
+
{
|
| 15182 |
+
"epoch": 0.14453333333333335,
|
| 15183 |
+
"grad_norm": 0.1240234375,
|
| 15184 |
+
"learning_rate": 0.024,
|
| 15185 |
+
"loss": 2.3485960960388184,
|
| 15186 |
+
"step": 4336
|
| 15187 |
+
},
|
| 15188 |
+
{
|
| 15189 |
+
"epoch": 0.1446,
|
| 15190 |
+
"grad_norm": 0.11962890625,
|
| 15191 |
+
"learning_rate": 0.024,
|
| 15192 |
+
"loss": 2.3364505767822266,
|
| 15193 |
+
"step": 4338
|
| 15194 |
+
},
|
| 15195 |
+
{
|
| 15196 |
+
"epoch": 0.14466666666666667,
|
| 15197 |
+
"grad_norm": 0.12158203125,
|
| 15198 |
+
"learning_rate": 0.024,
|
| 15199 |
+
"loss": 2.3484888076782227,
|
| 15200 |
+
"step": 4340
|
| 15201 |
+
},
|
| 15202 |
+
{
|
| 15203 |
+
"epoch": 0.14473333333333332,
|
| 15204 |
+
"grad_norm": 0.11572265625,
|
| 15205 |
+
"learning_rate": 0.024,
|
| 15206 |
+
"loss": 2.3570985794067383,
|
| 15207 |
+
"step": 4342
|
| 15208 |
+
},
|
| 15209 |
+
{
|
| 15210 |
+
"epoch": 0.1448,
|
| 15211 |
+
"grad_norm": 0.1171875,
|
| 15212 |
+
"learning_rate": 0.024,
|
| 15213 |
+
"loss": 2.352726936340332,
|
| 15214 |
+
"step": 4344
|
| 15215 |
+
},
|
| 15216 |
+
{
|
| 15217 |
+
"epoch": 0.14486666666666667,
|
| 15218 |
+
"grad_norm": 0.11279296875,
|
| 15219 |
+
"learning_rate": 0.024,
|
| 15220 |
+
"loss": 2.3433704376220703,
|
| 15221 |
+
"step": 4346
|
| 15222 |
+
},
|
| 15223 |
+
{
|
| 15224 |
+
"epoch": 0.14493333333333333,
|
| 15225 |
+
"grad_norm": 0.11279296875,
|
| 15226 |
+
"learning_rate": 0.024,
|
| 15227 |
+
"loss": 2.3129963874816895,
|
| 15228 |
+
"step": 4348
|
| 15229 |
+
},
|
| 15230 |
+
{
|
| 15231 |
+
"epoch": 0.145,
|
| 15232 |
+
"grad_norm": 0.1162109375,
|
| 15233 |
+
"learning_rate": 0.024,
|
| 15234 |
+
"loss": 2.3472275733947754,
|
| 15235 |
+
"step": 4350
|
| 15236 |
+
},
|
| 15237 |
+
{
|
| 15238 |
+
"epoch": 0.14506666666666668,
|
| 15239 |
+
"grad_norm": 0.1220703125,
|
| 15240 |
+
"learning_rate": 0.024,
|
| 15241 |
+
"loss": 2.352952718734741,
|
| 15242 |
+
"step": 4352
|
| 15243 |
+
},
|
| 15244 |
+
{
|
| 15245 |
+
"epoch": 0.14513333333333334,
|
| 15246 |
+
"grad_norm": 0.130859375,
|
| 15247 |
+
"learning_rate": 0.024,
|
| 15248 |
+
"loss": 2.3204283714294434,
|
| 15249 |
+
"step": 4354
|
| 15250 |
+
},
|
| 15251 |
+
{
|
| 15252 |
+
"epoch": 0.1452,
|
| 15253 |
+
"grad_norm": 0.12890625,
|
| 15254 |
+
"learning_rate": 0.024,
|
| 15255 |
+
"loss": 2.3298873901367188,
|
| 15256 |
+
"step": 4356
|
| 15257 |
+
},
|
| 15258 |
+
{
|
| 15259 |
+
"epoch": 0.14526666666666666,
|
| 15260 |
+
"grad_norm": 0.1181640625,
|
| 15261 |
+
"learning_rate": 0.024,
|
| 15262 |
+
"loss": 2.3033618927001953,
|
| 15263 |
+
"step": 4358
|
| 15264 |
+
},
|
| 15265 |
+
{
|
| 15266 |
+
"epoch": 0.14533333333333334,
|
| 15267 |
+
"grad_norm": 0.1279296875,
|
| 15268 |
+
"learning_rate": 0.024,
|
| 15269 |
+
"loss": 2.363480567932129,
|
| 15270 |
+
"step": 4360
|
| 15271 |
+
},
|
| 15272 |
+
{
|
| 15273 |
+
"epoch": 0.1454,
|
| 15274 |
+
"grad_norm": 0.12353515625,
|
| 15275 |
+
"learning_rate": 0.024,
|
| 15276 |
+
"loss": 2.3193047046661377,
|
| 15277 |
+
"step": 4362
|
| 15278 |
+
},
|
| 15279 |
+
{
|
| 15280 |
+
"epoch": 0.14546666666666666,
|
| 15281 |
+
"grad_norm": 0.1259765625,
|
| 15282 |
+
"learning_rate": 0.024,
|
| 15283 |
+
"loss": 2.352076768875122,
|
| 15284 |
+
"step": 4364
|
| 15285 |
+
},
|
| 15286 |
+
{
|
| 15287 |
+
"epoch": 0.14553333333333332,
|
| 15288 |
+
"grad_norm": 0.11767578125,
|
| 15289 |
+
"learning_rate": 0.024,
|
| 15290 |
+
"loss": 2.3680427074432373,
|
| 15291 |
+
"step": 4366
|
| 15292 |
+
},
|
| 15293 |
+
{
|
| 15294 |
+
"epoch": 0.1456,
|
| 15295 |
+
"grad_norm": 0.11474609375,
|
| 15296 |
+
"learning_rate": 0.024,
|
| 15297 |
+
"loss": 2.3321995735168457,
|
| 15298 |
+
"step": 4368
|
| 15299 |
+
},
|
| 15300 |
+
{
|
| 15301 |
+
"epoch": 0.14566666666666667,
|
| 15302 |
+
"grad_norm": 0.1162109375,
|
| 15303 |
+
"learning_rate": 0.024,
|
| 15304 |
+
"loss": 2.332864999771118,
|
| 15305 |
+
"step": 4370
|
| 15306 |
+
},
|
| 15307 |
+
{
|
| 15308 |
+
"epoch": 0.14573333333333333,
|
| 15309 |
+
"grad_norm": 0.11474609375,
|
| 15310 |
+
"learning_rate": 0.024,
|
| 15311 |
+
"loss": 2.3408894538879395,
|
| 15312 |
+
"step": 4372
|
| 15313 |
+
},
|
| 15314 |
+
{
|
| 15315 |
+
"epoch": 0.1458,
|
| 15316 |
+
"grad_norm": 0.109375,
|
| 15317 |
+
"learning_rate": 0.024,
|
| 15318 |
+
"loss": 2.3581578731536865,
|
| 15319 |
+
"step": 4374
|
| 15320 |
+
},
|
| 15321 |
+
{
|
| 15322 |
+
"epoch": 0.14586666666666667,
|
| 15323 |
+
"grad_norm": 0.10888671875,
|
| 15324 |
+
"learning_rate": 0.024,
|
| 15325 |
+
"loss": 2.361327886581421,
|
| 15326 |
+
"step": 4376
|
| 15327 |
+
},
|
| 15328 |
+
{
|
| 15329 |
+
"epoch": 0.14593333333333333,
|
| 15330 |
+
"grad_norm": 0.10693359375,
|
| 15331 |
+
"learning_rate": 0.024,
|
| 15332 |
+
"loss": 2.314284324645996,
|
| 15333 |
+
"step": 4378
|
| 15334 |
+
},
|
| 15335 |
+
{
|
| 15336 |
+
"epoch": 0.146,
|
| 15337 |
+
"grad_norm": 0.109375,
|
| 15338 |
+
"learning_rate": 0.024,
|
| 15339 |
+
"loss": 2.3254711627960205,
|
| 15340 |
+
"step": 4380
|
| 15341 |
+
},
|
| 15342 |
+
{
|
| 15343 |
+
"epoch": 0.14606666666666668,
|
| 15344 |
+
"grad_norm": 0.1279296875,
|
| 15345 |
+
"learning_rate": 0.024,
|
| 15346 |
+
"loss": 2.352815866470337,
|
| 15347 |
+
"step": 4382
|
| 15348 |
+
},
|
| 15349 |
+
{
|
| 15350 |
+
"epoch": 0.14613333333333334,
|
| 15351 |
+
"grad_norm": 0.134765625,
|
| 15352 |
+
"learning_rate": 0.024,
|
| 15353 |
+
"loss": 2.335772752761841,
|
| 15354 |
+
"step": 4384
|
| 15355 |
+
},
|
| 15356 |
+
{
|
| 15357 |
+
"epoch": 0.1462,
|
| 15358 |
+
"grad_norm": 0.14453125,
|
| 15359 |
+
"learning_rate": 0.024,
|
| 15360 |
+
"loss": 2.333116054534912,
|
| 15361 |
+
"step": 4386
|
| 15362 |
+
},
|
| 15363 |
+
{
|
| 15364 |
+
"epoch": 0.14626666666666666,
|
| 15365 |
+
"grad_norm": 0.1337890625,
|
| 15366 |
+
"learning_rate": 0.024,
|
| 15367 |
+
"loss": 2.3517322540283203,
|
| 15368 |
+
"step": 4388
|
| 15369 |
+
},
|
| 15370 |
+
{
|
| 15371 |
+
"epoch": 0.14633333333333334,
|
| 15372 |
+
"grad_norm": 0.1328125,
|
| 15373 |
+
"learning_rate": 0.024,
|
| 15374 |
+
"loss": 2.3381826877593994,
|
| 15375 |
+
"step": 4390
|
| 15376 |
+
},
|
| 15377 |
+
{
|
| 15378 |
+
"epoch": 0.1464,
|
| 15379 |
+
"grad_norm": 0.1279296875,
|
| 15380 |
+
"learning_rate": 0.024,
|
| 15381 |
+
"loss": 2.340165138244629,
|
| 15382 |
+
"step": 4392
|
| 15383 |
+
},
|
| 15384 |
+
{
|
| 15385 |
+
"epoch": 0.14646666666666666,
|
| 15386 |
+
"grad_norm": 0.1259765625,
|
| 15387 |
+
"learning_rate": 0.024,
|
| 15388 |
+
"loss": 2.335726499557495,
|
| 15389 |
+
"step": 4394
|
| 15390 |
+
},
|
| 15391 |
+
{
|
| 15392 |
+
"epoch": 0.14653333333333332,
|
| 15393 |
+
"grad_norm": 0.11865234375,
|
| 15394 |
+
"learning_rate": 0.024,
|
| 15395 |
+
"loss": 2.3280858993530273,
|
| 15396 |
+
"step": 4396
|
| 15397 |
+
},
|
| 15398 |
+
{
|
| 15399 |
+
"epoch": 0.1466,
|
| 15400 |
+
"grad_norm": 0.123046875,
|
| 15401 |
+
"learning_rate": 0.024,
|
| 15402 |
+
"loss": 2.3164925575256348,
|
| 15403 |
+
"step": 4398
|
| 15404 |
+
},
|
| 15405 |
+
{
|
| 15406 |
+
"epoch": 0.14666666666666667,
|
| 15407 |
+
"grad_norm": 0.11767578125,
|
| 15408 |
+
"learning_rate": 0.024,
|
| 15409 |
+
"loss": 2.3375089168548584,
|
| 15410 |
+
"step": 4400
|
| 15411 |
+
},
|
| 15412 |
+
{
|
| 15413 |
+
"epoch": 0.14673333333333333,
|
| 15414 |
+
"grad_norm": 0.1240234375,
|
| 15415 |
+
"learning_rate": 0.024,
|
| 15416 |
+
"loss": 2.349285840988159,
|
| 15417 |
+
"step": 4402
|
| 15418 |
+
},
|
| 15419 |
+
{
|
| 15420 |
+
"epoch": 0.1468,
|
| 15421 |
+
"grad_norm": 0.11669921875,
|
| 15422 |
+
"learning_rate": 0.024,
|
| 15423 |
+
"loss": 2.337632656097412,
|
| 15424 |
+
"step": 4404
|
| 15425 |
+
},
|
| 15426 |
+
{
|
| 15427 |
+
"epoch": 0.14686666666666667,
|
| 15428 |
+
"grad_norm": 0.11669921875,
|
| 15429 |
+
"learning_rate": 0.024,
|
| 15430 |
+
"loss": 2.3261642456054688,
|
| 15431 |
+
"step": 4406
|
| 15432 |
+
},
|
| 15433 |
+
{
|
| 15434 |
+
"epoch": 0.14693333333333333,
|
| 15435 |
+
"grad_norm": 0.12060546875,
|
| 15436 |
+
"learning_rate": 0.024,
|
| 15437 |
+
"loss": 2.333888053894043,
|
| 15438 |
+
"step": 4408
|
| 15439 |
+
},
|
| 15440 |
+
{
|
| 15441 |
+
"epoch": 0.147,
|
| 15442 |
+
"grad_norm": 0.1259765625,
|
| 15443 |
+
"learning_rate": 0.024,
|
| 15444 |
+
"loss": 2.3392157554626465,
|
| 15445 |
+
"step": 4410
|
| 15446 |
+
},
|
| 15447 |
+
{
|
| 15448 |
+
"epoch": 0.14706666666666668,
|
| 15449 |
+
"grad_norm": 0.125,
|
| 15450 |
+
"learning_rate": 0.024,
|
| 15451 |
+
"loss": 2.3787808418273926,
|
| 15452 |
+
"step": 4412
|
| 15453 |
+
},
|
| 15454 |
+
{
|
| 15455 |
+
"epoch": 0.14713333333333334,
|
| 15456 |
+
"grad_norm": 0.11767578125,
|
| 15457 |
+
"learning_rate": 0.024,
|
| 15458 |
+
"loss": 2.310211658477783,
|
| 15459 |
+
"step": 4414
|
| 15460 |
+
},
|
| 15461 |
+
{
|
| 15462 |
+
"epoch": 0.1472,
|
| 15463 |
+
"grad_norm": 0.1240234375,
|
| 15464 |
+
"learning_rate": 0.024,
|
| 15465 |
+
"loss": 2.3551604747772217,
|
| 15466 |
+
"step": 4416
|
| 15467 |
+
},
|
| 15468 |
+
{
|
| 15469 |
+
"epoch": 0.14726666666666666,
|
| 15470 |
+
"grad_norm": 0.12158203125,
|
| 15471 |
+
"learning_rate": 0.024,
|
| 15472 |
+
"loss": 2.371136426925659,
|
| 15473 |
+
"step": 4418
|
| 15474 |
+
},
|
| 15475 |
+
{
|
| 15476 |
+
"epoch": 0.14733333333333334,
|
| 15477 |
+
"grad_norm": 0.119140625,
|
| 15478 |
+
"learning_rate": 0.024,
|
| 15479 |
+
"loss": 2.324181079864502,
|
| 15480 |
+
"step": 4420
|
| 15481 |
+
},
|
| 15482 |
+
{
|
| 15483 |
+
"epoch": 0.1474,
|
| 15484 |
+
"grad_norm": 0.11767578125,
|
| 15485 |
+
"learning_rate": 0.024,
|
| 15486 |
+
"loss": 2.327481269836426,
|
| 15487 |
+
"step": 4422
|
| 15488 |
+
},
|
| 15489 |
+
{
|
| 15490 |
+
"epoch": 0.14746666666666666,
|
| 15491 |
+
"grad_norm": 0.1220703125,
|
| 15492 |
+
"learning_rate": 0.024,
|
| 15493 |
+
"loss": 2.3461403846740723,
|
| 15494 |
+
"step": 4424
|
| 15495 |
+
},
|
| 15496 |
+
{
|
| 15497 |
+
"epoch": 0.14753333333333332,
|
| 15498 |
+
"grad_norm": 0.10888671875,
|
| 15499 |
+
"learning_rate": 0.024,
|
| 15500 |
+
"loss": 2.317086935043335,
|
| 15501 |
+
"step": 4426
|
| 15502 |
+
},
|
| 15503 |
+
{
|
| 15504 |
+
"epoch": 0.1476,
|
| 15505 |
+
"grad_norm": 0.115234375,
|
| 15506 |
+
"learning_rate": 0.024,
|
| 15507 |
+
"loss": 2.3115646839141846,
|
| 15508 |
+
"step": 4428
|
| 15509 |
+
},
|
| 15510 |
+
{
|
| 15511 |
+
"epoch": 0.14766666666666667,
|
| 15512 |
+
"grad_norm": 0.1181640625,
|
| 15513 |
+
"learning_rate": 0.024,
|
| 15514 |
+
"loss": 2.320719003677368,
|
| 15515 |
+
"step": 4430
|
| 15516 |
+
},
|
| 15517 |
+
{
|
| 15518 |
+
"epoch": 0.14773333333333333,
|
| 15519 |
+
"grad_norm": 0.126953125,
|
| 15520 |
+
"learning_rate": 0.024,
|
| 15521 |
+
"loss": 2.33951473236084,
|
| 15522 |
+
"step": 4432
|
| 15523 |
+
},
|
| 15524 |
+
{
|
| 15525 |
+
"epoch": 0.1478,
|
| 15526 |
+
"grad_norm": 0.1318359375,
|
| 15527 |
+
"learning_rate": 0.024,
|
| 15528 |
+
"loss": 2.351905345916748,
|
| 15529 |
+
"step": 4434
|
| 15530 |
+
},
|
| 15531 |
+
{
|
| 15532 |
+
"epoch": 0.14786666666666667,
|
| 15533 |
+
"grad_norm": 0.126953125,
|
| 15534 |
+
"learning_rate": 0.024,
|
| 15535 |
+
"loss": 2.3300156593322754,
|
| 15536 |
+
"step": 4436
|
| 15537 |
+
},
|
| 15538 |
+
{
|
| 15539 |
+
"epoch": 0.14793333333333333,
|
| 15540 |
+
"grad_norm": 0.1279296875,
|
| 15541 |
+
"learning_rate": 0.024,
|
| 15542 |
+
"loss": 2.325958013534546,
|
| 15543 |
+
"step": 4438
|
| 15544 |
+
},
|
| 15545 |
+
{
|
| 15546 |
+
"epoch": 0.148,
|
| 15547 |
+
"grad_norm": 0.1259765625,
|
| 15548 |
+
"learning_rate": 0.024,
|
| 15549 |
+
"loss": 2.3221209049224854,
|
| 15550 |
+
"step": 4440
|
| 15551 |
+
},
|
| 15552 |
+
{
|
| 15553 |
+
"epoch": 0.14806666666666668,
|
| 15554 |
+
"grad_norm": 0.12451171875,
|
| 15555 |
+
"learning_rate": 0.024,
|
| 15556 |
+
"loss": 2.3375089168548584,
|
| 15557 |
+
"step": 4442
|
| 15558 |
+
},
|
| 15559 |
+
{
|
| 15560 |
+
"epoch": 0.14813333333333334,
|
| 15561 |
+
"grad_norm": 0.12060546875,
|
| 15562 |
+
"learning_rate": 0.024,
|
| 15563 |
+
"loss": 2.317953109741211,
|
| 15564 |
+
"step": 4444
|
| 15565 |
+
},
|
| 15566 |
+
{
|
| 15567 |
+
"epoch": 0.1482,
|
| 15568 |
+
"grad_norm": 0.11962890625,
|
| 15569 |
+
"learning_rate": 0.024,
|
| 15570 |
+
"loss": 2.3226099014282227,
|
| 15571 |
+
"step": 4446
|
| 15572 |
+
},
|
| 15573 |
+
{
|
| 15574 |
+
"epoch": 0.14826666666666666,
|
| 15575 |
+
"grad_norm": 0.1201171875,
|
| 15576 |
+
"learning_rate": 0.024,
|
| 15577 |
+
"loss": 2.302257537841797,
|
| 15578 |
+
"step": 4448
|
| 15579 |
+
},
|
| 15580 |
+
{
|
| 15581 |
+
"epoch": 0.14833333333333334,
|
| 15582 |
+
"grad_norm": 0.1220703125,
|
| 15583 |
+
"learning_rate": 0.024,
|
| 15584 |
+
"loss": 2.326132297515869,
|
| 15585 |
+
"step": 4450
|
| 15586 |
+
},
|
| 15587 |
+
{
|
| 15588 |
+
"epoch": 0.1484,
|
| 15589 |
+
"grad_norm": 0.1181640625,
|
| 15590 |
+
"learning_rate": 0.024,
|
| 15591 |
+
"loss": 2.3271889686584473,
|
| 15592 |
+
"step": 4452
|
| 15593 |
+
},
|
| 15594 |
+
{
|
| 15595 |
+
"epoch": 0.14846666666666666,
|
| 15596 |
+
"grad_norm": 0.11865234375,
|
| 15597 |
+
"learning_rate": 0.024,
|
| 15598 |
+
"loss": 2.3187763690948486,
|
| 15599 |
+
"step": 4454
|
| 15600 |
+
},
|
| 15601 |
+
{
|
| 15602 |
+
"epoch": 0.14853333333333332,
|
| 15603 |
+
"grad_norm": 0.1201171875,
|
| 15604 |
+
"learning_rate": 0.024,
|
| 15605 |
+
"loss": 2.3347959518432617,
|
| 15606 |
+
"step": 4456
|
| 15607 |
+
},
|
| 15608 |
+
{
|
| 15609 |
+
"epoch": 0.1486,
|
| 15610 |
+
"grad_norm": 0.11669921875,
|
| 15611 |
+
"learning_rate": 0.024,
|
| 15612 |
+
"loss": 2.331998348236084,
|
| 15613 |
+
"step": 4458
|
| 15614 |
+
},
|
| 15615 |
+
{
|
| 15616 |
+
"epoch": 0.14866666666666667,
|
| 15617 |
+
"grad_norm": 0.119140625,
|
| 15618 |
+
"learning_rate": 0.024,
|
| 15619 |
+
"loss": 2.337888717651367,
|
| 15620 |
+
"step": 4460
|
| 15621 |
+
},
|
| 15622 |
+
{
|
| 15623 |
+
"epoch": 0.14873333333333333,
|
| 15624 |
+
"grad_norm": 0.11572265625,
|
| 15625 |
+
"learning_rate": 0.024,
|
| 15626 |
+
"loss": 2.3315348625183105,
|
| 15627 |
+
"step": 4462
|
| 15628 |
+
},
|
| 15629 |
+
{
|
| 15630 |
+
"epoch": 0.1488,
|
| 15631 |
+
"grad_norm": 0.11767578125,
|
| 15632 |
+
"learning_rate": 0.024,
|
| 15633 |
+
"loss": 2.3312745094299316,
|
| 15634 |
+
"step": 4464
|
| 15635 |
+
},
|
| 15636 |
+
{
|
| 15637 |
+
"epoch": 0.14886666666666667,
|
| 15638 |
+
"grad_norm": 0.1201171875,
|
| 15639 |
+
"learning_rate": 0.024,
|
| 15640 |
+
"loss": 2.294875144958496,
|
| 15641 |
+
"step": 4466
|
| 15642 |
+
},
|
| 15643 |
+
{
|
| 15644 |
+
"epoch": 0.14893333333333333,
|
| 15645 |
+
"grad_norm": 0.12255859375,
|
| 15646 |
+
"learning_rate": 0.024,
|
| 15647 |
+
"loss": 2.3433821201324463,
|
| 15648 |
+
"step": 4468
|
| 15649 |
+
},
|
| 15650 |
+
{
|
| 15651 |
+
"epoch": 0.149,
|
| 15652 |
+
"grad_norm": 0.12109375,
|
| 15653 |
+
"learning_rate": 0.024,
|
| 15654 |
+
"loss": 2.3426616191864014,
|
| 15655 |
+
"step": 4470
|
| 15656 |
+
},
|
| 15657 |
+
{
|
| 15658 |
+
"epoch": 0.14906666666666665,
|
| 15659 |
+
"grad_norm": 0.11865234375,
|
| 15660 |
+
"learning_rate": 0.024,
|
| 15661 |
+
"loss": 2.3035764694213867,
|
| 15662 |
+
"step": 4472
|
| 15663 |
+
},
|
| 15664 |
+
{
|
| 15665 |
+
"epoch": 0.14913333333333334,
|
| 15666 |
+
"grad_norm": 0.119140625,
|
| 15667 |
+
"learning_rate": 0.024,
|
| 15668 |
+
"loss": 2.339334011077881,
|
| 15669 |
+
"step": 4474
|
| 15670 |
+
},
|
| 15671 |
+
{
|
| 15672 |
+
"epoch": 0.1492,
|
| 15673 |
+
"grad_norm": 0.12158203125,
|
| 15674 |
+
"learning_rate": 0.024,
|
| 15675 |
+
"loss": 2.3440170288085938,
|
| 15676 |
+
"step": 4476
|
| 15677 |
+
},
|
| 15678 |
+
{
|
| 15679 |
+
"epoch": 0.14926666666666666,
|
| 15680 |
+
"grad_norm": 0.12255859375,
|
| 15681 |
+
"learning_rate": 0.024,
|
| 15682 |
+
"loss": 2.341160297393799,
|
| 15683 |
+
"step": 4478
|
| 15684 |
+
},
|
| 15685 |
+
{
|
| 15686 |
+
"epoch": 0.14933333333333335,
|
| 15687 |
+
"grad_norm": 0.11767578125,
|
| 15688 |
+
"learning_rate": 0.024,
|
| 15689 |
+
"loss": 2.2926297187805176,
|
| 15690 |
+
"step": 4480
|
| 15691 |
+
},
|
| 15692 |
+
{
|
| 15693 |
+
"epoch": 0.1494,
|
| 15694 |
+
"grad_norm": 0.1142578125,
|
| 15695 |
+
"learning_rate": 0.024,
|
| 15696 |
+
"loss": 2.3161168098449707,
|
| 15697 |
+
"step": 4482
|
| 15698 |
+
},
|
| 15699 |
+
{
|
| 15700 |
+
"epoch": 0.14946666666666666,
|
| 15701 |
+
"grad_norm": 0.1259765625,
|
| 15702 |
+
"learning_rate": 0.024,
|
| 15703 |
+
"loss": 2.3305134773254395,
|
| 15704 |
+
"step": 4484
|
| 15705 |
+
},
|
| 15706 |
+
{
|
| 15707 |
+
"epoch": 0.14953333333333332,
|
| 15708 |
+
"grad_norm": 0.119140625,
|
| 15709 |
+
"learning_rate": 0.024,
|
| 15710 |
+
"loss": 2.3210959434509277,
|
| 15711 |
+
"step": 4486
|
| 15712 |
+
},
|
| 15713 |
+
{
|
| 15714 |
+
"epoch": 0.1496,
|
| 15715 |
+
"grad_norm": 0.1123046875,
|
| 15716 |
+
"learning_rate": 0.024,
|
| 15717 |
+
"loss": 2.336179256439209,
|
| 15718 |
+
"step": 4488
|
| 15719 |
+
},
|
| 15720 |
+
{
|
| 15721 |
+
"epoch": 0.14966666666666667,
|
| 15722 |
+
"grad_norm": 0.10546875,
|
| 15723 |
+
"learning_rate": 0.024,
|
| 15724 |
+
"loss": 2.308634042739868,
|
| 15725 |
+
"step": 4490
|
| 15726 |
+
},
|
| 15727 |
+
{
|
| 15728 |
+
"epoch": 0.14973333333333333,
|
| 15729 |
+
"grad_norm": 0.10498046875,
|
| 15730 |
+
"learning_rate": 0.024,
|
| 15731 |
+
"loss": 2.310300827026367,
|
| 15732 |
+
"step": 4492
|
| 15733 |
+
},
|
| 15734 |
+
{
|
| 15735 |
+
"epoch": 0.1498,
|
| 15736 |
+
"grad_norm": 0.1044921875,
|
| 15737 |
+
"learning_rate": 0.024,
|
| 15738 |
+
"loss": 2.3223447799682617,
|
| 15739 |
+
"step": 4494
|
| 15740 |
+
},
|
| 15741 |
+
{
|
| 15742 |
+
"epoch": 0.14986666666666668,
|
| 15743 |
+
"grad_norm": 0.11474609375,
|
| 15744 |
+
"learning_rate": 0.024,
|
| 15745 |
+
"loss": 2.3199844360351562,
|
| 15746 |
+
"step": 4496
|
| 15747 |
+
},
|
| 15748 |
+
{
|
| 15749 |
+
"epoch": 0.14993333333333334,
|
| 15750 |
+
"grad_norm": 0.134765625,
|
| 15751 |
+
"learning_rate": 0.024,
|
| 15752 |
+
"loss": 2.331547498703003,
|
| 15753 |
+
"step": 4498
|
| 15754 |
+
},
|
| 15755 |
+
{
|
| 15756 |
+
"epoch": 0.15,
|
| 15757 |
+
"grad_norm": 0.12890625,
|
| 15758 |
+
"learning_rate": 0.024,
|
| 15759 |
+
"loss": 2.3322529792785645,
|
| 15760 |
+
"step": 4500
|
| 15761 |
}
|
| 15762 |
],
|
| 15763 |
"logging_steps": 2,
|
|
|
|
| 15777 |
"attributes": {}
|
| 15778 |
}
|
| 15779 |
},
|
| 15780 |
+
"total_flos": 1.5903636621409386e+19,
|
| 15781 |
"train_batch_size": 4,
|
| 15782 |
"trial_name": null,
|
| 15783 |
"trial_params": null
|