Instructions to use AiAF/rp-2b with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use AiAF/rp-2b with PEFT:

from peft import PeftModel
from transformers import AutoModelForCausalLM

base_model = AutoModelForCausalLM.from_pretrained("google/gemma-2-2b-it")
model = PeftModel.from_pretrained(base_model, "AiAF/rp-2b")

Transformers

How to use AiAF/rp-2b with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="AiAF/rp-2b")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AiAF/rp-2b")
model = AutoModelForCausalLM.from_pretrained("AiAF/rp-2b")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use AiAF/rp-2b with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "AiAF/rp-2b"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "AiAF/rp-2b",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/AiAF/rp-2b

SGLang

How to use AiAF/rp-2b with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "AiAF/rp-2b" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "AiAF/rp-2b",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "AiAF/rp-2b" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "AiAF/rp-2b",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use AiAF/rp-2b with Docker Model Runner:
```
docker model run hf.co/AiAF/rp-2b
```

AiAF commited on Mar 30

Commit

4672c04

verified ·

1 Parent(s): 7e5d2d6

Training in progress, step 800, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/tokens_state.json +1 -1
last-checkpoint/trainer_state.json +715 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f145aad3e393aacb1ea6687fe5c794bd1505c6b68c50e5038c6eac34efa7e4d6
 size 102264160

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd804fe5a6a07ca92c0d9df3ee8901a99a952af466c85b5d67804f3b9b5754fc
 size 102264160

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:140bdab4eebed8c5ba2417db0ed65f56201fa6307a32fb787ad292b97ae34b13
 size 52162827

 version https://git-lfs.github.com/spec/v1
+oid sha256:cc0bed6cff1a4618fb4cd1381e691366f8ad28f8182c56da1f0df2fb19366078
 size 52162827

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4295d68f9590a1ee84490e5a76cd2d12d84f3c4e7c7542a7915be508cf875fe0
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f05bb1ddd76152fd645931407e88adee7bc96ff7799e0d5b2faef63c077f8ed
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6af5f150dbd15fa79794ceabe67cfe7018c07d61742eb73c3c6b041388c26d7c
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c0f6da37afd2d18fa5e85c27927c29b3e2c21ee39c49983ca41ec400e0b2cd5
 size 1465

last-checkpoint/tokens_state.json CHANGED Viewed

	@@ -1 +1 @@
1	- {"total": ~~10467328~~, "trainable": ~~4329291~~}


1	+ {"total": 11163776, "trainable": 4620168}

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.36580904767711253,
   "eval_steps": 50,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10700,6 +10700,718 @@
       "memory/max_active (GiB)": 11.76,
       "memory/max_allocated (GiB)": 11.76,
       "step": 750
     }
   ],
   "logging_steps": 1,
@@ -10719,7 +11431,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.287529657836503e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.39019631752225337,
   "eval_steps": 50,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "memory/max_active (GiB)": 11.76,
       "memory/max_allocated (GiB)": 11.76,
       "step": 750
+    },
+    {
+      "epoch": 0.36629679307401536,
+      "grad_norm": 0.13251733779907227,
+      "learning_rate": 3.102762227218957e-05,
+      "loss": 2.4578309059143066,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 11.67945,
+      "step": 751,
+      "tokens/total": 10483072,
+      "tokens/train_per_sec_per_gpu": 3532.64,
+      "tokens/trainable": 4337168
+    },
+    {
+      "epoch": 0.3667845384709182,
+      "grad_norm": 0.17637301981449127,
+      "learning_rate": 3.079347503220351e-05,
+      "loss": 2.6546099185943604,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 14.21944,
+      "step": 752,
+      "tokens/total": 10496896,
+      "tokens/train_per_sec_per_gpu": 1129.56,
+      "tokens/trainable": 4342196
+    },
+    {
+      "epoch": 0.367272283867821,
+      "grad_norm": 0.13249512016773224,
+      "learning_rate": 3.056005373591637e-05,
+      "loss": 2.4976649284362793,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.42,
+      "memory/max_allocated (GiB)": 16.42,
+      "ppl": 12.15408,
+      "step": 753,
+      "tokens/total": 10511232,
+      "tokens/train_per_sec_per_gpu": 2885.15,
+      "tokens/trainable": 4350017
+    },
+    {
+      "epoch": 0.3677600292647238,
+      "grad_norm": 0.1888270080089569,
+      "learning_rate": 3.032736083180716e-05,
+      "loss": 2.5618886947631836,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 13.85,
+      "memory/max_allocated (GiB)": 13.85,
+      "ppl": 12.96027,
+      "step": 754,
+      "tokens/total": 10523136,
+      "tokens/train_per_sec_per_gpu": 1028.47,
+      "tokens/trainable": 4353662
+    },
+    {
+      "epoch": 0.3682477746616266,
+      "grad_norm": 0.17043054103851318,
+      "learning_rate": 3.0095398760714267e-05,
+      "loss": 2.4277312755584717,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.42,
+      "memory/max_allocated (GiB)": 16.42,
+      "ppl": 11.33314,
+      "step": 755,
+      "tokens/total": 10535040,
+      "tokens/train_per_sec_per_gpu": 949.66,
+      "tokens/trainable": 4358548
+    },
+    {
+      "epoch": 0.36873552005852944,
+      "grad_norm": 0.1492493599653244,
+      "learning_rate": 2.9864169955810084e-05,
+      "loss": 2.565107583999634,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 13.00206,
+      "step": 756,
+      "tokens/total": 10549888,
+      "tokens/train_per_sec_per_gpu": 2031.11,
+      "tokens/trainable": 4364785
+    },
+    {
+      "epoch": 0.36922326545543227,
+      "grad_norm": 0.16900953650474548,
+      "learning_rate": 2.9633676842575387e-05,
+      "loss": 2.4396462440490723,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.46898,
+      "step": 757,
+      "tokens/total": 10563840,
+      "tokens/train_per_sec_per_gpu": 1820.3,
+      "tokens/trainable": 4369356
+    },
+    {
+      "epoch": 0.3697110108523351,
+      "grad_norm": 0.15214021503925323,
+      "learning_rate": 2.940392183877382e-05,
+      "loss": 2.6643388271331787,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.98,
+      "memory/max_allocated (GiB)": 15.98,
+      "ppl": 14.35845,
+      "step": 758,
+      "tokens/total": 10577536,
+      "tokens/train_per_sec_per_gpu": 1402.8,
+      "tokens/trainable": 4375453
+    },
+    {
+      "epoch": 0.37019875624923787,
+      "grad_norm": 0.15483756363391876,
+      "learning_rate": 2.9174907354426696e-05,
+      "loss": 2.4720706939697266,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.84695,
+      "step": 759,
+      "tokens/total": 10590848,
+      "tokens/train_per_sec_per_gpu": 1571.9,
+      "tokens/trainable": 4381149
+    },
+    {
+      "epoch": 0.3706865016461407,
+      "grad_norm": 0.14039497077465057,
+      "learning_rate": 2.8946635791787545e-05,
+      "loss": 2.5491788387298584,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 12.79659,
+      "step": 760,
+      "tokens/total": 10604800,
+      "tokens/train_per_sec_per_gpu": 1587.23,
+      "tokens/trainable": 4387980
+    },
+    {
+      "epoch": 0.3711742470430435,
+      "grad_norm": 0.12205954641103745,
+      "learning_rate": 2.8719109545317103e-05,
+      "loss": 2.476264476776123,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.89674,
+      "step": 761,
+      "tokens/total": 10620416,
+      "tokens/train_per_sec_per_gpu": 2379.38,
+      "tokens/trainable": 4397120
+    },
+    {
+      "epoch": 0.37166199243994635,
+      "grad_norm": 0.15171197056770325,
+      "learning_rate": 2.8492331001657945e-05,
+      "loss": 2.5069305896759033,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.54,
+      "memory/max_allocated (GiB)": 15.54,
+      "ppl": 12.26722,
+      "step": 762,
+      "tokens/total": 10633216,
+      "tokens/train_per_sec_per_gpu": 710.79,
+      "tokens/trainable": 4402732
+    },
+    {
+      "epoch": 0.3721497378368492,
+      "grad_norm": 0.13738340139389038,
+      "learning_rate": 2.8266302539609745e-05,
+      "loss": 2.423926830291748,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 11.29011,
+      "step": 763,
+      "tokens/total": 10647808,
+      "tokens/train_per_sec_per_gpu": 2262.63,
+      "tokens/trainable": 4409476
+    },
+    {
+      "epoch": 0.37263748323375195,
+      "grad_norm": 0.16071482002735138,
+      "learning_rate": 2.804102653010414e-05,
+      "loss": 2.723536252975464,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 15.2341,
+      "step": 764,
+      "tokens/total": 10662656,
+      "tokens/train_per_sec_per_gpu": 656.81,
+      "tokens/trainable": 4414619
+    },
+    {
+      "epoch": 0.3731252286306548,
+      "grad_norm": 0.1205301433801651,
+      "learning_rate": 2.7816505336179798e-05,
+      "loss": 2.4741783142089844,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.87195,
+      "step": 765,
+      "tokens/total": 10676992,
+      "tokens/train_per_sec_per_gpu": 2993.83,
+      "tokens/trainable": 4423601
+    },
+    {
+      "epoch": 0.3736129740275576,
+      "grad_norm": 0.13879121840000153,
+      "learning_rate": 2.759274131295787e-05,
+      "loss": 2.4349002838134766,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.42,
+      "memory/max_allocated (GiB)": 16.42,
+      "ppl": 11.41468,
+      "step": 766,
+      "tokens/total": 10692096,
+      "tokens/train_per_sec_per_gpu": 2115.95,
+      "tokens/trainable": 4430839
+    },
+    {
+      "epoch": 0.37410071942446044,
+      "grad_norm": 0.1562461405992508,
+      "learning_rate": 2.736973680761702e-05,
+      "loss": 2.4425415992736816,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.18,
+      "memory/max_allocated (GiB)": 15.18,
+      "ppl": 11.50224,
+      "step": 767,
+      "tokens/total": 10704768,
+      "tokens/train_per_sec_per_gpu": 2592.22,
+      "tokens/trainable": 4435996
+    },
+    {
+      "epoch": 0.37458846482136327,
+      "grad_norm": 0.1498877853155136,
+      "learning_rate": 2.7147494159369036e-05,
+      "loss": 2.5003294944763184,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 12.18651,
+      "step": 768,
+      "tokens/total": 10718848,
+      "tokens/train_per_sec_per_gpu": 1520.91,
+      "tokens/trainable": 4441847
+    },
+    {
+      "epoch": 0.3750762102182661,
+      "grad_norm": 0.15580855309963226,
+      "learning_rate": 2.6926015699434072e-05,
+      "loss": 2.697448253631592,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 14.84181,
+      "step": 769,
+      "tokens/total": 10732416,
+      "tokens/train_per_sec_per_gpu": 3266.58,
+      "tokens/trainable": 4447624
+    },
+    {
+      "epoch": 0.37556395561516887,
+      "grad_norm": 0.14440256357192993,
+      "learning_rate": 2.6705303751016408e-05,
+      "loss": 2.406161308288574,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.42,
+      "memory/max_allocated (GiB)": 16.42,
+      "ppl": 11.0913,
+      "step": 770,
+      "tokens/total": 10747392,
+      "tokens/train_per_sec_per_gpu": 3311.44,
+      "tokens/trainable": 4453204
+    },
+    {
+      "epoch": 0.3760517010120717,
+      "grad_norm": 0.14817574620246887,
+      "learning_rate": 2.6485360629279987e-05,
+      "loss": 2.578953981399536,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.18,
+      "memory/max_allocated (GiB)": 15.18,
+      "ppl": 13.18334,
+      "step": 771,
+      "tokens/total": 10761856,
+      "tokens/train_per_sec_per_gpu": 2836.99,
+      "tokens/trainable": 4460156
+    },
+    {
+      "epoch": 0.3765394464089745,
+      "grad_norm": 0.182297021150589,
+      "learning_rate": 2.6266188641323996e-05,
+      "loss": 2.5378308296203613,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.42,
+      "memory/max_allocated (GiB)": 16.42,
+      "ppl": 12.6522,
+      "step": 772,
+      "tokens/total": 10775424,
+      "tokens/train_per_sec_per_gpu": 1735.97,
+      "tokens/trainable": 4464199
+    },
+    {
+      "epoch": 0.37702719180587735,
+      "grad_norm": 0.1523345559835434,
+      "learning_rate": 2.6047790086158952e-05,
+      "loss": 2.4858243465423584,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.54,
+      "memory/max_allocated (GiB)": 15.54,
+      "ppl": 12.01102,
+      "step": 773,
+      "tokens/total": 10789248,
+      "tokens/train_per_sec_per_gpu": 1157.59,
+      "tokens/trainable": 4469950
+    },
+    {
+      "epoch": 0.3775149372027802,
+      "grad_norm": 0.13964441418647766,
+      "learning_rate": 2.5830167254682257e-05,
+      "loss": 2.5482704639434814,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.09,
+      "memory/max_allocated (GiB)": 15.09,
+      "ppl": 12.78497,
+      "step": 774,
+      "tokens/total": 10802944,
+      "tokens/train_per_sec_per_gpu": 1879.89,
+      "tokens/trainable": 4476738
+    },
+    {
+      "epoch": 0.37800268259968295,
+      "grad_norm": 0.16566026210784912,
+      "learning_rate": 2.5613322429654574e-05,
+      "loss": 2.579946279525757,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 13.19643,
+      "step": 775,
+      "tokens/total": 10816128,
+      "tokens/train_per_sec_per_gpu": 630.56,
+      "tokens/trainable": 4481633
+    },
+    {
+      "epoch": 0.3784904279965858,
+      "grad_norm": 0.18692387640476227,
+      "learning_rate": 2.5397257885675397e-05,
+      "loss": 2.35819411277771,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 10.57184,
+      "step": 776,
+      "tokens/total": 10829312,
+      "tokens/train_per_sec_per_gpu": 2158.15,
+      "tokens/trainable": 4486282
+    },
+    {
+      "epoch": 0.3789781733934886,
+      "grad_norm": 0.13402055203914642,
+      "learning_rate": 2.5181975889159615e-05,
+      "loss": 2.6000072956085205,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 13.46384,
+      "step": 777,
+      "tokens/total": 10843520,
+      "tokens/train_per_sec_per_gpu": 2489.19,
+      "tokens/trainable": 4493796
+    },
+    {
+      "epoch": 0.37946591879039143,
+      "grad_norm": 0.1505974680185318,
+      "learning_rate": 2.496747869831345e-05,
+      "loss": 2.4257397651672363,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.31059,
+      "step": 778,
+      "tokens/total": 10857984,
+      "tokens/train_per_sec_per_gpu": 2561.66,
+      "tokens/trainable": 4499804
+    },
+    {
+      "epoch": 0.37995366418729426,
+      "grad_norm": 0.13848432898521423,
+      "learning_rate": 2.475376856311097e-05,
+      "loss": 2.3233590126037598,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 10.20991,
+      "step": 779,
+      "tokens/total": 10872960,
+      "tokens/train_per_sec_per_gpu": 2813.77,
+      "tokens/trainable": 4506550
+    },
+    {
+      "epoch": 0.38044140958419703,
+      "grad_norm": 0.1617778092622757,
+      "learning_rate": 2.4540847725270378e-05,
+      "loss": 2.4378297328948975,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.42,
+      "memory/max_allocated (GiB)": 16.42,
+      "ppl": 11.44817,
+      "step": 780,
+      "tokens/total": 10887168,
+      "tokens/train_per_sec_per_gpu": 309.72,
+      "tokens/trainable": 4511183
+    },
+    {
+      "epoch": 0.38092915498109986,
+      "grad_norm": 0.1438380777835846,
+      "learning_rate": 2.432871841823047e-05,
+      "loss": 2.430607557296753,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.54,
+      "memory/max_allocated (GiB)": 15.54,
+      "ppl": 11.36579,
+      "step": 781,
+      "tokens/total": 10900608,
+      "tokens/train_per_sec_per_gpu": 1996.21,
+      "tokens/trainable": 4517458
+    },
+    {
+      "epoch": 0.3814169003780027,
+      "grad_norm": 0.14792795479297638,
+      "learning_rate": 2.411738286712735e-05,
+      "loss": 2.4632468223571777,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.18,
+      "memory/max_allocated (GiB)": 15.18,
+      "ppl": 11.74288,
+      "step": 782,
+      "tokens/total": 10913664,
+      "tokens/train_per_sec_per_gpu": 2785.12,
+      "tokens/trainable": 4524146
+    },
+    {
+      "epoch": 0.3819046457749055,
+      "grad_norm": 0.16730709373950958,
+      "learning_rate": 2.3906843288770886e-05,
+      "loss": 2.556550979614258,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 12.89128,
+      "step": 783,
+      "tokens/total": 10928128,
+      "tokens/train_per_sec_per_gpu": 672.37,
+      "tokens/trainable": 4528859
+    },
+    {
+      "epoch": 0.38239239117180834,
+      "grad_norm": 0.1668711155653,
+      "learning_rate": 2.3697101891621697e-05,
+      "loss": 2.1584508419036865,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 8.65772,
+      "step": 784,
+      "tokens/total": 10941824,
+      "tokens/train_per_sec_per_gpu": 134.14,
+      "tokens/trainable": 4533160
+    },
+    {
+      "epoch": 0.3828801365687111,
+      "grad_norm": 0.1528262495994568,
+      "learning_rate": 2.3488160875767717e-05,
+      "loss": 2.454880714416504,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.64504,
+      "step": 785,
+      "tokens/total": 10956288,
+      "tokens/train_per_sec_per_gpu": 1773.05,
+      "tokens/trainable": 4538778
+    },
+    {
+      "epoch": 0.38336788196561394,
+      "grad_norm": 0.1478903591632843,
+      "learning_rate": 2.3280022432901383e-05,
+      "loss": 2.1368329524993896,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.18,
+      "memory/max_allocated (GiB)": 15.18,
+      "ppl": 8.47256,
+      "step": 786,
+      "tokens/total": 10968960,
+      "tokens/train_per_sec_per_gpu": 394.55,
+      "tokens/trainable": 4544577
+    },
+    {
+      "epoch": 0.38385562736251677,
+      "grad_norm": 0.17052386701107025,
+      "learning_rate": 2.307268874629649e-05,
+      "loss": 2.4743740558624268,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 11.87427,
+      "step": 787,
+      "tokens/total": 10983936,
+      "tokens/train_per_sec_per_gpu": 2616.52,
+      "tokens/trainable": 4549516
+    },
+    {
+      "epoch": 0.3843433727594196,
+      "grad_norm": 0.1929779350757599,
+      "learning_rate": 2.2866161990785228e-05,
+      "loss": 2.54533314704895,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 12.74747,
+      "step": 788,
+      "tokens/total": 10997376,
+      "tokens/train_per_sec_per_gpu": 1739.04,
+      "tokens/trainable": 4553203
+    },
+    {
+      "epoch": 0.3848311181563224,
+      "grad_norm": 0.19457341730594635,
+      "learning_rate": 2.266044433273562e-05,
+      "loss": 2.3346762657165527,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 10.32612,
+      "step": 789,
+      "tokens/total": 11010688,
+      "tokens/train_per_sec_per_gpu": 2363.73,
+      "tokens/trainable": 4556841
+    },
+    {
+      "epoch": 0.3853188635532252,
+      "grad_norm": 0.12720970809459686,
+      "learning_rate": 2.245553793002849e-05,
+      "loss": 2.5888097286224365,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 13.31391,
+      "step": 790,
+      "tokens/total": 11026304,
+      "tokens/train_per_sec_per_gpu": 1456.55,
+      "tokens/trainable": 4566086
+    },
+    {
+      "epoch": 0.385806608950128,
+      "grad_norm": 0.15932175517082214,
+      "learning_rate": 2.2251444932035094e-05,
+      "loss": 2.7473325729370117,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 13.76,
+      "memory/max_allocated (GiB)": 13.76,
+      "ppl": 15.60096,
+      "step": 791,
+      "tokens/total": 11038592,
+      "tokens/train_per_sec_per_gpu": 1133.74,
+      "tokens/trainable": 4572237
+    },
+    {
+      "epoch": 0.38629435434703085,
+      "grad_norm": 0.15806850790977478,
+      "learning_rate": 2.204816747959434e-05,
+      "loss": 2.3397216796875,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.98,
+      "memory/max_allocated (GiB)": 15.98,
+      "ppl": 10.37835,
+      "step": 792,
+      "tokens/total": 11052800,
+      "tokens/train_per_sec_per_gpu": 1664.54,
+      "tokens/trainable": 4577892
+    },
+    {
+      "epoch": 0.3867820997439337,
+      "grad_norm": 0.16440050303936005,
+      "learning_rate": 2.184570770499056e-05,
+      "loss": 2.379885196685791,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 10.80366,
+      "step": 793,
+      "tokens/total": 11066112,
+      "tokens/train_per_sec_per_gpu": 2098.95,
+      "tokens/trainable": 4582681
+    },
+    {
+      "epoch": 0.3872698451408365,
+      "grad_norm": 0.14843714237213135,
+      "learning_rate": 2.1644067731931007e-05,
+      "loss": 2.3706493377685547,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 10.70434,
+      "step": 794,
+      "tokens/total": 11079552,
+      "tokens/train_per_sec_per_gpu": 182.87,
+      "tokens/trainable": 4588104
+    },
+    {
+      "epoch": 0.3877575905377393,
+      "grad_norm": 0.16309773921966553,
+      "learning_rate": 2.1443249675523536e-05,
+      "loss": 2.451366424560547,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.98,
+      "memory/max_allocated (GiB)": 15.98,
+      "ppl": 11.60419,
+      "step": 795,
+      "tokens/total": 11093632,
+      "tokens/train_per_sec_per_gpu": 182.4,
+      "tokens/trainable": 4593013
+    },
+    {
+      "epoch": 0.3882453359346421,
+      "grad_norm": 0.14842580258846283,
+      "learning_rate": 2.1243255642254578e-05,
+      "loss": 2.5915379524230957,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.63,
+      "memory/max_allocated (GiB)": 15.63,
+      "ppl": 13.35029,
+      "step": 796,
+      "tokens/total": 11107328,
+      "tokens/train_per_sec_per_gpu": 113.69,
+      "tokens/trainable": 4599134
+    },
+    {
+      "epoch": 0.38873308133154494,
+      "grad_norm": 0.14871464669704437,
+      "learning_rate": 2.1044087729966856e-05,
+      "loss": 2.5890448093414307,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.51,
+      "memory/max_allocated (GiB)": 16.51,
+      "ppl": 13.31705,
+      "step": 797,
+      "tokens/total": 11121792,
+      "tokens/train_per_sec_per_gpu": 1460.67,
+      "tokens/trainable": 4605136
+    },
+    {
+      "epoch": 0.38922082672844777,
+      "grad_norm": 0.18083694577217102,
+      "learning_rate": 2.0845748027837586e-05,
+      "loss": 2.543159008026123,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 15.18,
+      "memory/max_allocated (GiB)": 15.18,
+      "ppl": 12.71979,
+      "step": 798,
+      "tokens/total": 11135232,
+      "tokens/train_per_sec_per_gpu": 1358.54,
+      "tokens/trainable": 4609430
+    },
+    {
+      "epoch": 0.3897085721253506,
+      "grad_norm": 0.1697179079055786,
+      "learning_rate": 2.0648238616356332e-05,
+      "loss": 2.6967287063598633,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 16.07,
+      "memory/max_allocated (GiB)": 16.07,
+      "ppl": 14.83114,
+      "step": 799,
+      "tokens/total": 11150208,
+      "tokens/train_per_sec_per_gpu": 1863.18,
+      "tokens/trainable": 4614633
+    },
+    {
+      "epoch": 0.39019631752225337,
+      "grad_norm": 0.1563408523797989,
+      "learning_rate": 2.045156156730338e-05,
+      "loss": 2.489025354385376,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 14.74,
+      "memory/max_allocated (GiB)": 14.74,
+      "ppl": 12.04953,
+      "step": 800,
+      "tokens/total": 11163776,
+      "tokens/train_per_sec_per_gpu": 2263.21,
+      "tokens/trainable": 4620168
+    },
+    {
+      "epoch": 0.39019631752225337,
+      "eval_loss": 2.494191884994507,
+      "eval_ppl": 12.11194,
+      "eval_runtime": 6.1585,
+      "eval_samples_per_second": 32.475,
+      "eval_steps_per_second": 16.238,
+      "memory/device_reserved (GiB)": 29.55,
+      "memory/max_active (GiB)": 11.76,
+      "memory/max_allocated (GiB)": 11.76,
+      "step": 800
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.3731959764176077e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null