Instructions to use mjf-su/ADEn-CF with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use mjf-su/ADEn-CF with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("image-text-to-text", model="mjf-su/ADEn-CF")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
pipe(text=messages)

# Load model directly
from transformers import AutoProcessor, AutoModelForImageTextToText

processor = AutoProcessor.from_pretrained("mjf-su/ADEn-CF")
model = AutoModelForImageTextToText.from_pretrained("mjf-su/ADEn-CF")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
inputs = processor.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use mjf-su/ADEn-CF with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "mjf-su/ADEn-CF"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "mjf-su/ADEn-CF",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker

docker model run hf.co/mjf-su/ADEn-CF

SGLang

How to use mjf-su/ADEn-CF with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "mjf-su/ADEn-CF" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "mjf-su/ADEn-CF",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "mjf-su/ADEn-CF" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "mjf-su/ADEn-CF",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Docker Model Runner
How to use mjf-su/ADEn-CF with Docker Model Runner:
```
docker model run hf.co/mjf-su/ADEn-CF
```

mjf-su commited on 19 days ago

Commit

772ce8b

verified ·

1 Parent(s): 73b6d1f

Upload ADEn-CF model

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +202 -0
README.md +68 -0
added_tokens.json +28 -0
chat_template.jinja +110 -0
checkpoint-100/added_tokens.json +28 -0
checkpoint-100/chat_template.jinja +110 -0
checkpoint-100/config.json +68 -0
checkpoint-100/generation_config.json +12 -0
checkpoint-100/merges.txt +0 -0
checkpoint-100/model-00001-of-00002.safetensors +3 -0
checkpoint-100/model-00002-of-00002.safetensors +3 -0
checkpoint-100/model.safetensors.index.json +721 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state_0.pth +3 -0
checkpoint-100/rng_state_1.pth +3 -0
checkpoint-100/rng_state_2.pth +3 -0
checkpoint-100/rng_state_3.pth +3 -0
checkpoint-100/rng_state_4.pth +3 -0
checkpoint-100/rng_state_5.pth +3 -0
checkpoint-100/rng_state_6.pth +3 -0
checkpoint-100/rng_state_7.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/special_tokens_map.json +31 -0
checkpoint-100/tokenizer.json +3 -0
checkpoint-100/tokenizer_config.json +244 -0
checkpoint-100/trainer_state.json +364 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-100/vocab.json +0 -0
checkpoint-200/added_tokens.json +28 -0
checkpoint-200/chat_template.jinja +110 -0
checkpoint-200/config.json +68 -0
checkpoint-200/generation_config.json +12 -0
checkpoint-200/merges.txt +0 -0
checkpoint-200/model-00001-of-00002.safetensors +3 -0
checkpoint-200/model-00002-of-00002.safetensors +3 -0
checkpoint-200/model.safetensors.index.json +721 -0
checkpoint-200/optimizer.pt +3 -0
checkpoint-200/rng_state_0.pth +3 -0
checkpoint-200/rng_state_1.pth +3 -0
checkpoint-200/rng_state_2.pth +3 -0
checkpoint-200/rng_state_3.pth +3 -0
checkpoint-200/rng_state_4.pth +3 -0
checkpoint-200/rng_state_5.pth +3 -0
checkpoint-200/rng_state_6.pth +3 -0
checkpoint-200/rng_state_7.pth +3 -0
checkpoint-200/scheduler.pt +3 -0
checkpoint-200/special_tokens_map.json +31 -0
checkpoint-200/tokenizer.json +3 -0
checkpoint-200/tokenizer_config.json +244 -0
checkpoint-200/trainer_state.json +694 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,205 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+checkpoint-100/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-200/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+checkpoint-292/tokenizer.json filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0108__07f9f468-02ac-4ec6-b83b-1755edc5cdce__1999996.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0109__bbb36725-1b40-419e-9432-699b5bd0d6dc__10000051.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0110__1a95715d-4ce6-47af-a95b-75fec0b326ee__6999997.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0111__3935487c-e145-43a3-b54d-a220130db33d__3999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0111__3935487c-e145-43a3-b54d-a220130db33d__5000041.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0111__3935487c-e145-43a3-b54d-a220130db33d__7999972.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0112__3e75f81b-748f-4ee5-aa74-3bc331df175b__2999908.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0114__30a70a85-3cdf-4c02-ac15-0c92d1224b82__12000124.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0114__30a70a85-3cdf-4c02-ac15-0c92d1224b82__2000001.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0114__b7cf7e0e-dba6-4551-9a13-596297df1bba__8000088.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0117__e785f4d9-8121-4ccb-a171-fb9c7277a316__9999629.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0118__0c1a7bec-2ff6-4e5a-bf0e-2d766231ca5d__12000067.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0118__1f23fc05-0eca-436d-b04e-fc6af9e10952__7999502.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0120__2ad625e0-db47-4837-ac85-5c7868750021__12000141.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0120__2ad625e0-db47-4837-ac85-5c7868750021__14000130.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0120__2ad625e0-db47-4837-ac85-5c7868750021__9000080.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0124__144495bb-8e60-4491-a587-869656f71b47__8999977.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0126__2cd6a7c7-646d-4104-91f7-fd4ae19a4d51__3999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0128__027a4871-e99c-4aae-be61-bce56cff84e6__7999983.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0129__514963ec-4e0b-43c8-b620-a7187a63c997__3000003.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0129__6c41ed3d-def2-4db3-95f2-325b80e97d41__5999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0129__a6af5b85-cd62-4062-89e1-c5fd114bbbff__3999992.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0129__a6af5b85-cd62-4062-89e1-c5fd114bbbff__5999990.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0131__11271cef-d09e-4e46-8356-b546e35f1d22__3999966.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0134__6759cd27-efbe-4835-a5f4-c0d8adf02243__11999986.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0134__b03cdc34-a47b-414e-872a-bab168d55ba0__7999996.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0134__b16f483e-ee72-4608-abf2-5c8239b8c46d__6000016.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0135__82a0e604-bb05-41fb-8ad6-f24b3488494a__10000007.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0255__384ae427-068b-4608-8ad2-274b19e21c50__10000162.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0255__d964da47-9126-4a0d-81b5-447ff3d2f5ea__12000023.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0256__b5fb222f-994d-46ca-ba64-d58ab0d9e552__5000038.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0257__64672e20-c5cd-450f-af63-02e099a37ea0__8000105.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0257__91b8ec37-00f9-4cfe-84b2-393e5ff8761f__11000090.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0257__b019775a-94e7-485a-95d7-0aa1c631273a__13000080.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0257__d346d1f8-a675-4323-865d-90f0a376d47d__1999924.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0258__174f5269-71ad-4ff5-8c52-93fcd22bca08__12000160.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0260__31db2104-7783-46c1-b2d0-76c841af9b65__11999976.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0260__79262cc6-06dc-4f0f-a80a-7b85ba5d15ed__7000002.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0261__fe440ea7-4a09-4467-9994-2430d735f5a9__8999977.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0263__7a6fbf54-d533-428c-a182-557fef36cdcf__9999999.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0265__af94a1d4-4786-4013-84d2-ae4900b6fe31__10999970.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0347__174422ad-96a8-4808-9109-666a916d7db4__13000031.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0347__1db9bc8f-6771-4c39-b4bd-6e752c376ce0__4999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0347__6b7eb06a-3111-41ea-a93f-16b4b8aa38ff__6000009.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0351__089aac8c-d8a8-4f17-bc5d-2ce4771a62b4__12999959.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0352__80e59d8e-6543-4c24-bc11-34e50ef8dd5b__7999992.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0586__a7763237-2ae2-4e9c-96b2-6664243c76ff__10000122.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0587__51e2316b-30b9-4623-a177-2cd3b7999b6d__7999973.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0588__472e7533-ffa0-4828-bb98-b9e679e4ff4f__11000101.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0591__bcde195a-d402-4d71-90aa-84000183d3b4__5999999.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0591__c2184364-65bc-47a3-9f39-c4586a1776d7__8999995.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0592__f367b3f6-df4c-4084-b748-56dc21638a3f__11999996.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0592__f367b3f6-df4c-4084-b748-56dc21638a3f__4999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0593__a8425540-13aa-487c-8a4d-43df90e434f0__5999995.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0595__485567af-f9fd-4ebd-aae8-67d9d684db49__3999957.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0595__58828c5e-6104-4386-8aa2-3536c32894dc__6000002.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0596__2b7fa081-c8ec-4083-80e9-4afb629ac707__1999991.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0597__095856fb-112d-4d1c-bb53-5250a0f5cb76__11000014.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0597__ee260900-1c26-4841-821e-435aeac9cfd3__8999979.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0600__c0dfaa0c-58fb-4f6e-a806-3cced7170abc__8999956.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0601__64d0502c-8a63-4e20-93e7-90cd5aa700d8__8000021.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0601__b4754eda-96b8-4680-b980-c4dcaba7b43e__12000083.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0602__5008d1f9-2f19-429c-8fc8-6c8652312504__8999996.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0604__69fc21e8-6faf-487b-806f-1d24654805ce__4999984.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0604__c97f7dda-b4d5-4db3-887b-03c489fd2650__8999995.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0606__e3bf1780-f4eb-4f7f-99a6-e60f470ba734__2000007.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0606__e3bf1780-f4eb-4f7f-99a6-e60f470ba734__9000140.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0608__45731110-2cf7-46f3-bfc8-ca5f19c93537__6999993.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0608__82371c52-7bd3-490d-93c4-f92974349435__9000012.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0609__917f7182-f87f-428b-90ea-7c02153a2aa5__11000012.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0618__99c62f9c-fbd5-4a06-ab6c-ad966e18d6c5__13999985.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0618__b8516847-a9d3-45d6-81af-ac66942d9852__8999980.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0618__fb343576-5115-472e-9f6b-37444e63b893__2000002.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0621__459f0a6b-316e-4431-aefb-94277bb77a66__5000068.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0621__8729f8f9-2f76-472f-99b1-ca9cffb37bb7__11999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0622__178e7df8-9f8b-49a6-9cb4-35c26ebf0d78__2999989.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0623__b2604a77-65f2-4dd4-b753-8062da42a174__12000129.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0623__b2604a77-65f2-4dd4-b753-8062da42a174__8000113.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0623__eddf79af-0642-45e7-838e-0235b1789628__7999973.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0624__f8dfa81e-7c03-43a5-8380-291d8236958a__8999997.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0625__03e18e8c-c261-4d2e-88a8-c04d94f53d0e__4000038.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0625__03e18e8c-c261-4d2e-88a8-c04d94f53d0e__9000015.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0627__184c1a92-7b7f-43b0-bca5-2282a7b757f6__12000012.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0630__366299fa-20ac-4833-bce3-b8bc4e4d582f__2999985.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0630__ac7fdf05-cfdb-4a6f-af3c-309ccef3b4f5__10999967.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0630__d2a93ea6-012c-4b4e-a6f6-0ec5b419d28a__2999978.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0632__438c37a2-6b39-400d-97de-06b5d5ae2995__6000003.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0633__dfbbf996-f5d2-40e2-89f6-86566020d958__3999999.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0635__9ee5b39a-a131-4160-9bf4-6439968d43a9__7000011.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0635__e3153da1-65be-4eba-aa0a-ed28eb39493d__2000039.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0637__98a1a789-378d-4cd1-964c-10e862268bd4__12000009.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0638__25df96c1-62d4-46c6-b161-2ccef138945f__13999990.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0640__0c210498-a149-4f4b-b372-e27227d2d5a1__7999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0640__3725a28e-aefd-4efc-8507-8a23707e0aa7__13000039.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0642__42c04a80-f888-4ae3-8dab-2e144a5ae305__13000023.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0642__afe297e4-e866-46e9-804b-1bf3c41a2ff0__12999985.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0642__be26ec39-4f58-478c-80a8-b9a709f80881__13000024.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0643__cd62fa76-6efe-49d8-99a0-379e2782a6ad__2000016.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0643__d25f9074-ee0b-4424-a4f5-dff6d6fc8890__7000001.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0644__686912e3-8629-4589-a1ae-729d4714eea3__9999986.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0648__0341e45a-e60a-4831-9976-23e113c0839c__9999972.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0648__cfe53f5b-f0f1-4c70-b0d3-b722473f1d72__3000011.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0649__73761faa-8f5e-4f41-b1f1-978b35429983__12000014.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0652__2ef367e1-448e-45d1-8958-f94a7f3765dc__6000000.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0652__c7a18f3e-e919-4c3c-99d2-adf63e396339__2999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0652__d2909b0b-dac0-48dd-9cd1-4976b41a0ffd__10000029.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0653__16a0ea82-dcea-4802-9f36-d335e4d47a93__10999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0654__184727ec-0fc0-44df-8ba6-c821f2651363__13999997.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0654__184727ec-0fc0-44df-8ba6-c821f2651363__4000010.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0655__bd31d697-1c77-41ab-b740-dc6d46b55139__8999992.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0655__d7e22e4f-9937-47cf-a3e2-cba399f9e436__5000021.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0656__e62ae5fa-fcc2-4e43-bf74-81f6efe95fea__9000015.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0657__2136a539-0e22-4382-8406-b9c646344aea__10999999.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0657__4de6cb20-de4e-4006-8a75-e29153ac5abf__4999959.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0661__7602813e-ff78-422b-b999-099cf222835c__9000026.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0664__c0f0a4d4-98a7-411a-8697-765f3bf8a572__5000006.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0664__e570c983-50f7-4544-85da-52b5176592b8__9000009.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0666__10eddfef-8346-48cd-8f59-cab3df04f950__13999779.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0666__4596da55-0671-46d4-b843-2c8299fd87aa__4000016.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0668__38c69311-d520-41e3-befe-98ef3932f6ef__6999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0668__38c69311-d520-41e3-befe-98ef3932f6ef__8999991.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_0671__a09199fa-a1d4-4eb0-a950-4ab55b4196a6__3999998.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1057__43ad0fe8-9f11-4c34-bb2f-607fc5452c0a__7000007.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1057__c99feaf4-1f8c-4fd7-b89e-06d63a935996__13000005.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1059__06a68a48-2bfb-4673-a9d3-039fd62ff13d__2999986.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1059__cb060b90-369f-40ce-85da-11f94dcb0b59__3999992.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1059__f53afcd9-5f33-4b98-a40a-7e14ba667969__10999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1063__7fc0c615-6e87-4efc-8000-98a59904c2c7__10999983.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1064__00f79de8-de3f-4153-bc0d-490e0d8633a9__9999979.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1064__952a3c9b-54e8-427a-87b8-486d8b76e4bd__10999984.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1066__1af5e4de-606c-4759-b516-f383f1962f48__6000012.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1066__76a36af4-0486-4ca5-b4a6-4dca980f627b__7999987.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1066__9ece6473-5520-4b5f-9a15-13ac9576e005__7999945.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1066__e3efea50-1cda-45ce-a23a-1fd7e21b96f7__13999996.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1067__2e72746e-12f3-4d1c-acae-0fa677567b48__8999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1067__e6838c21-2c66-4569-97eb-374be6418db2__4999981.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1070__38fd4fd1-16d0-445d-bb26-850f3c395ae0__11000005.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1070__38fd4fd1-16d0-445d-bb26-850f3c395ae0__7999992.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1070__6ad73485-5c49-4b7d-8d77-f5da88d21b9c__6999990.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1071__79a7d106-aaec-4b13-ae27-62db2abf274f__7999989.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1071__f96e2317-e91f-4d02-8c56-e4d53d67dc8e__6999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1073__63f4b7d2-ac47-4c8a-8e63-bcfaa4fb0c0e__9999978.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1076__423b597a-90cf-4c16-984f-7c245aceed8e__2999998.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1079__fce10c54-03a8-4b3f-964d-52060bd354ee__5999999.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1080__e7f947ae-8c90-49a5-a5e3-04e32476a3ea__5999971.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1081__c0e4f144-eef3-4be4-855d-672062369aa9__7000013.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1082__f9eb98a0-5d14-44f1-ac97-f585ac2a39b3__13000028.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1085__7ca38136-485f-44e9-804f-5f3936350402__9999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1085__dd6c9afd-7fdb-4499-b724-122cbf402eb8__10999985.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1086__4e8cbffd-f20d-43ee-af9e-14abb0c172ad__10000000.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1087__8268bbad-94e1-4dd7-ad8b-f0023c4ad558__9999991.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1089__d78d5e65-f00e-4dc4-8365-8ce810ac06dc__6999973.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1091__166b1e4e-1c73-4835-b0be-c7781a103c86__11000003.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1091__ccb5acd0-778a-4fc5-92ce-3ea86e31caf1__13999987.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1091__fd994f87-3c39-4ff4-a1f8-0f1e5f4c6575__2000018.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1092__265e9592-5b24-4f96-9b6f-38ce95a75d1d__12999968.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1092__265e9592-5b24-4f96-9b6f-38ce95a75d1d__3999990.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1094__49225bce-c30c-48b3-82a9-82b50b682997__8999994.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1094__bb9354fd-394d-45a4-b980-00a3b2bf12d1__7999777.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1095__130ffa81-5524-4ea6-a434-50a1e100c7b4__12999963.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1095__130ffa81-5524-4ea6-a434-50a1e100c7b4__9999976.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1098__d38a8e3a-175e-4042-a609-467459cb0a76__11000013.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1102__a8eb19ea-88eb-43a3-a916-4d500dc205e7__13000013.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1103__583582a6-c323-4bfb-b461-53f175805dc3__13999981.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_1103__f3dd9de0-ddfe-4052-9fc5-862f549ee9ab__14000347.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2771__59f384c5-8a39-47ca-a922-13a1f348ea4c__12000038.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2772__7b468eaf-05aa-4a34-820f-74a82e94d24a__12999975.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2773__7de88e93-719b-4afd-a647-6477bb12932d__8999987.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2774__4c4403a0-bca1-4dbb-8862-9feb046f9cb8__3000011.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2776__35582a89-49cf-4ed7-8c7f-518f58eda4c9__13000006.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2777__52a1e79f-39bf-4ffd-bec7-d1bd9e6ea667__10999989.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2777__8847117c-066a-476c-889b-3940d6ca178b__8999975.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2778__66e38562-7434-42c8-b97c-210afbf97016__9000010.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2779__44df6d40-5f86-4ecc-8432-265e2beeac7e__10999850.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2779__81967a46-b230-45f6-a56f-730a70ddf7b5__10000000.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2780__d573ca03-a457-446a-8243-433a28d910d0__9000008.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2794__e8f8ed0b-abd0-40fc-9889-512f9eebfa2c__8000013.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2795__07233c4b-9fab-481c-847c-4867513586c0__9999997.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2796__eb87b038-404e-4f00-b638-98ff7b40ac00__2000001.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2797__365c37a2-94cd-40de-b94b-1674e0ef408c__13000090.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2798__39bd6901-3a99-47dc-992e-e364346247a0__1999997.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2799__29c4cd40-d260-488e-9d1d-f8a3cf952c2a__11000008.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_2799__29c4cd40-d260-488e-9d1d-f8a3cf952c2a__7000012.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3020__203421ee-e75c-41c4-9dbe-34f2f7adf79c__10999997.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3020__56f16fff-6c63-4511-a971-ca043d18a4aa__10999988.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3020__b4239ff9-aaac-4f0e-b307-fdbe53a94d11__6000006.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3021__a54f8f11-fab1-4add-94e6-4236ee63cee9__12000006.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3021__aea860ff-6b70-456d-beba-d0a83ecd0bd9__4999991.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3022__1df7dea7-061b-4edf-8fcd-48296dbb2287__12999975.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3080__62fe5e69-b0f8-446c-bd4b-1e5b19f1981e__3999996.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3080__d6b6653b-77cb-4bf2-a751-f82be313ff56__9999978.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3081__4024607b-3590-4316-8c55-8e644c70b3a7__5999998.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3081__44f595a6-e638-456c-92ca-fd8b7e2a631b__8999936.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3082__29b1de86-ca2e-47e5-9f4b-846892485ec4__6000114.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3083__e0fd41f6-1e4b-4a1e-a1ea-7ac0d0b3e1a0__14000108.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3084__76712ddc-0849-4345-89ce-2354c1e26612__12000056.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3084__9f5ff8ae-5e43-4116-94e1-202906ee17bd__8001827.png filter=lfs diff=lfs merge=lfs -text
+eval_image_cache/chunk_3087__c44bb8ad-a913-494d-88a1-987b6e8bfdf3__8000142.png filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: mjf-su/PhysicalAI-reason-VLA-MetaAction-1e
+library_name: transformers
+model_name: ADEn-CF
+tags:
+- generated_from_trainer
+- trl
+- grpo
+licence: license
+---
+# Model Card for ADEn-CF
+This model is a fine-tuned version of [mjf-su/PhysicalAI-reason-VLA-MetaAction-1e](https://huggingface.co/mjf-su/PhysicalAI-reason-VLA-MetaAction-1e).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/mjf-su-stanford-university/GRPO-faithfulness/runs/vuqukbk5)
+This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).
+### Framework versions
+- TRL: 0.26.1
+- Transformers: 4.57.6
+- Pytorch: 2.10.0
+- Datasets: 4.4.1
+- Tokenizers: 0.22.1
+## Citations
+Cite GRPO as:
+```bibtex
+@article{shao2024deepseekmath,
+    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
+    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
+    year         = 2024,
+    eprint       = {arXiv:2402.03300},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,110 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- else %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                <|vision_start|><|image_pad|><|vision_end|>
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                <|vision_start|><|video_pad|><|vision_end|>
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- endif %}
+        {%- endfor %}
+    {%- endif %}
+{%- endmacro %}
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- render_content(messages[0].content, false) + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + render_content(messages[0].content, false) + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false) %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content, True) %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

checkpoint-100/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-100/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,110 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- else %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                <|vision_start|><|image_pad|><|vision_end|>
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                <|vision_start|><|video_pad|><|vision_end|>
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- endif %}
+        {%- endfor %}
+    {%- endif %}
+{%- endmacro %}
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- render_content(messages[0].content, false) + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + render_content(messages[0].content, false) + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false) %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content, True) %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3VLForConditionalGeneration"
+  ],
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "image_token_id": 151655,
+  "model_type": "qwen3_vl",
+  "pad_token_id": 151643,
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2560,
+    "initializer_range": 0.02,
+    "intermediate_size": 9728,
+    "max_position_embeddings": 262144,
+    "model_type": "qwen3_vl_text",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_interleaved": true,
+      "mrope_section": [
+        24,
+        20,
+        20
+      ],
+      "rope_type": "default"
+    },
+    "rope_theta": 5000000,
+    "tie_word_embeddings": true,
+    "use_cache": true,
+    "vocab_size": 151936
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.6",
+  "use_cache": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "deepstack_visual_indexes": [
+      5,
+      11,
+      17
+    ],
+    "depth": 24,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1024,
+    "in_channels": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "model_type": "qwen3_vl",
+    "num_heads": 16,
+    "num_position_embeddings": 2304,
+    "out_hidden_size": 2560,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652
+}

checkpoint-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.6"
+}

checkpoint-100/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-100/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6cee7128fce18ef8f93c2333621418faf1e930061ee9877956cd2db18d1ba4ef
+size 4990497880

checkpoint-100/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4037c38bb5be8bf20c2562bbe1a0d2763bdc4bfbad2f52d29e66e0ec5c727147
+size 3885221448

checkpoint-100/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,721 @@

+{
+  "metadata": {
+    "total_parameters": 4437815808,
+    "total_size": 8875631616
+  },
+  "weight_map": {
+    "model.language_model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.norm.weight": "model-00002-of-00002.safetensors",
+    "model.visual.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.merger.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.merger.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.pos_embed.weight": "model-00001-of-00002.safetensors"
+  }
+}

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:82e07719cdd5075282999bcadcebbe26123a17c7c51cf5543ef8348a3ca357c7
+size 16090226537

checkpoint-100/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d7ea0e782fcc37154fceec21c0c0e6fb3f3ca05fd436d71d1fd402d1c0f85d00
+size 16389

checkpoint-100/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:195a0b972c99c7cadf44f727840601969853ce0b6f3edbd2b322dbc08fe72231
+size 16389

checkpoint-100/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca1e3315a727844284e75d2ccfff29f0688b3ac41b08cafd0c3de0cd3ef8eed6
+size 16389

checkpoint-100/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7372d2572569ccf8f384b2b86f72b53a8fe65840a69dace54637ad10e06f97f
+size 16389

checkpoint-100/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e66752eb3fd9179e12f00564489ad79a9fd43555cb2633cf2621eb3a4ba2e034
+size 16389

checkpoint-100/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:016259621f0336816733cb8c59ac231a4590c032ac86782c18ea20139fc3ed18
+size 16389

checkpoint-100/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5bff5b6b71d123b16a696375a5f44c97230a9ae4cd2225b75d636c5e0d104d8d
+size 16325

checkpoint-100/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c89906b4d5c28efb8bd4e2e3ef37ea5a6feb5ddd51d8ad2d8708b807e698a429
+size 16325

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2c64505c5b36da3be59e9e5daa60039a6fba9dc5c33f06140c82afef8dd3fe60
+size 1465

checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-100/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21f6994642cfbd8473e43b4fae1d60d4a953aea1419dc28b4ae3f41778cd0924
+size 11422922

checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "max_length": null,
+  "model_max_length": 262144,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|endoftext|>",
+  "pad_token_type_id": 0,
+  "padding_side": "left",
+  "processor_class": "Qwen3VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,364 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.021431633090441493,
+  "eval_steps": 72,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 730.3,
+      "completions/max_terminated_length": 730.3,
+      "completions/mean_length": 690.8416809082031,
+      "completions/mean_terminated_length": 690.8416809082031,
+      "completions/min_length": 650.1,
+      "completions/min_terminated_length": 650.1,
+      "entropy": 0.5259245783090591,
+      "epoch": 0.0021431633090441492,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0625,
+      "kl": 0.0010002208990044891,
+      "learning_rate": 9.691780821917808e-07,
+      "loss": 0.0005,
+      "num_tokens": 997652.0,
+      "reward": -0.05529220774769783,
+      "reward_std": 0.19234093129634858,
+      "rewards/ADEnReward/mean": 0.014569692267104983,
+      "rewards/ADEnReward/std": 0.03744967300444842,
+      "rewards/CounterfactualJustificationReward/mean": -0.06986189670860768,
+      "rewards/CounterfactualJustificationReward/std": 0.19594104290008546,
+      "step": 10,
+      "step_time": 81.29126892481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 729.7,
+      "completions/max_terminated_length": 729.7,
+      "completions/mean_length": 690.3000122070313,
+      "completions/mean_terminated_length": 690.3000122070313,
+      "completions/min_length": 654.5,
+      "completions/min_terminated_length": 654.5,
+      "entropy": 0.517106008529663,
+      "epoch": 0.0042863266180882984,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8359375,
+      "kl": 0.0012238919618539513,
+      "learning_rate": 9.349315068493149e-07,
+      "loss": -0.0001,
+      "num_tokens": 1995124.0,
+      "reward": -0.027896507806144655,
+      "reward_std": 0.17558082714676856,
+      "rewards/ADEnReward/mean": 0.0253107822034508,
+      "rewards/ADEnReward/std": 0.0644984919577837,
+      "rewards/CounterfactualJustificationReward/mean": -0.053207287564873695,
+      "rewards/CounterfactualJustificationReward/std": 0.1726567417383194,
+      "step": 20,
+      "step_time": 81.71605963667389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 721.8,
+      "completions/max_terminated_length": 721.8,
+      "completions/mean_length": 686.0833557128906,
+      "completions/mean_terminated_length": 686.0833557128906,
+      "completions/min_length": 649.7,
+      "completions/min_terminated_length": 649.7,
+      "entropy": 0.5082765579223633,
+      "epoch": 0.006429489927132447,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.953125,
+      "kl": 0.0011653728026431054,
+      "learning_rate": 9.006849315068494e-07,
+      "loss": -0.0008,
+      "num_tokens": 2989948.0,
+      "reward": -0.05444782162085175,
+      "reward_std": 0.1796041376888752,
+      "rewards/ADEnReward/mean": 0.01767429718747735,
+      "rewards/ADEnReward/std": 0.05163812395185232,
+      "rewards/CounterfactualJustificationReward/mean": -0.07212211415171624,
+      "rewards/CounterfactualJustificationReward/std": 0.1749571017920971,
+      "step": 30,
+      "step_time": 81.41574159800075
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.6,
+      "completions/max_terminated_length": 727.6,
+      "completions/mean_length": 689.9958557128906,
+      "completions/mean_terminated_length": 689.9958557128906,
+      "completions/min_length": 655.0,
+      "completions/min_terminated_length": 655.0,
+      "entropy": 0.515069180727005,
+      "epoch": 0.008572653236176597,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0703125,
+      "kl": 0.0012260964780580253,
+      "learning_rate": 8.664383561643836e-07,
+      "loss": 0.0004,
+      "num_tokens": 3987258.0,
+      "reward": -0.04568901769816876,
+      "reward_std": 0.18353844434022903,
+      "rewards/ADEnReward/mean": 0.019147896161302923,
+      "rewards/ADEnReward/std": 0.052971506491303444,
+      "rewards/CounterfactualJustificationReward/mean": -0.06483691139146686,
+      "rewards/CounterfactualJustificationReward/std": 0.1846533253788948,
+      "step": 40,
+      "step_time": 82.82574949238915
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.002083333395421505,
+      "completions/max_length": 756.5,
+      "completions/max_terminated_length": 725.3,
+      "completions/mean_length": 687.070849609375,
+      "completions/mean_terminated_length": 686.3661926269531,
+      "completions/min_length": 650.7,
+      "completions/min_terminated_length": 650.7,
+      "entropy": 0.5215059638023376,
+      "epoch": 0.010715816545220747,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.890625,
+      "kl": 0.0009404134296346455,
+      "learning_rate": 8.321917808219178e-07,
+      "loss": 0.0015,
+      "num_tokens": 4982988.0,
+      "reward": -0.04204942379146814,
+      "reward_std": 0.20795765966176988,
+      "rewards/ADEnReward/mean": 0.029544483649078756,
+      "rewards/ADEnReward/std": 0.07722634137608111,
+      "rewards/CounterfactualJustificationReward/mean": -0.07159390421584248,
+      "rewards/CounterfactualJustificationReward/std": 0.19619639962911606,
+      "step": 50,
+      "step_time": 83.84037971522193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 729.0,
+      "completions/max_terminated_length": 729.0,
+      "completions/mean_length": 689.208349609375,
+      "completions/mean_terminated_length": 689.208349609375,
+      "completions/min_length": 651.2,
+      "completions/min_terminated_length": 651.2,
+      "entropy": 0.5390423834323883,
+      "epoch": 0.012858979854264894,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.95703125,
+      "kl": 0.0008504414116032421,
+      "learning_rate": 7.97945205479452e-07,
+      "loss": -0.0007,
+      "num_tokens": 5979744.0,
+      "reward": -0.05117050064727664,
+      "reward_std": 0.18210893943905831,
+      "rewards/ADEnReward/mean": 0.01950117121450603,
+      "rewards/ADEnReward/std": 0.05314132794737816,
+      "rewards/CounterfactualJustificationReward/mean": -0.070671671256423,
+      "rewards/CounterfactualJustificationReward/std": 0.17721710205078126,
+      "step": 60,
+      "step_time": 81.49333748922217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.0,
+      "completions/max_terminated_length": 727.0,
+      "completions/mean_length": 689.4562744140625,
+      "completions/mean_terminated_length": 689.4562744140625,
+      "completions/min_length": 646.8,
+      "completions/min_terminated_length": 646.8,
+      "entropy": 0.5186286389827728,
+      "epoch": 0.015002143163309044,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.87109375,
+      "kl": 0.0007503302826080471,
+      "learning_rate": 7.636986301369863e-07,
+      "loss": -0.0014,
+      "num_tokens": 6976875.0,
+      "reward": -0.0408426059409976,
+      "reward_std": 0.18270696997642516,
+      "rewards/ADEnReward/mean": 0.020953925559297204,
+      "rewards/ADEnReward/std": 0.05901451129466295,
+      "rewards/CounterfactualJustificationReward/mean": -0.06179652884602547,
+      "rewards/CounterfactualJustificationReward/std": 0.18194008320569993,
+      "step": 70,
+      "step_time": 82.15259210669902
+    },
+    {
+      "epoch": 0.015430775825117874,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 739.6,
+      "eval_completions/max_terminated_length": 739.6,
+      "eval_completions/mean_length": 691.8846875,
+      "eval_completions/mean_terminated_length": 691.8846875,
+      "eval_completions/min_length": 652.64,
+      "eval_completions/min_terminated_length": 652.64,
+      "eval_entropy": 0.538739503622055,
+      "eval_frac_reward_zero_std": 0.0,
+      "eval_kl": 0.000771390360314399,
+      "eval_loss": -0.00099662016145885,
+      "eval_num_tokens": 7175723.0,
+      "eval_reward": -0.06712276641279459,
+      "eval_reward_std": 0.22664598613977432,
+      "eval_rewards/ADEnReward/mean": 0.014218600359745323,
+      "eval_rewards/ADEnReward/std": 0.041265594381839035,
+      "eval_rewards/CounterfactualJustificationReward/mean": -0.08134136645123363,
+      "eval_rewards/CounterfactualJustificationReward/std": 0.22910964041948317,
+      "eval_runtime": 2461.5208,
+      "eval_samples_per_second": 0.081,
+      "eval_steps_per_second": 0.002,
+      "step": 72
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.002083333395421505,
+      "completions/max_length": 755.2,
+      "completions/max_terminated_length": 723.5,
+      "completions/mean_length": 685.8583557128907,
+      "completions/mean_terminated_length": 685.1368957519531,
+      "completions/min_length": 650.2,
+      "completions/min_terminated_length": 650.2,
+      "entropy": 0.5175796210765838,
+      "epoch": 0.017145306472353194,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.90625,
+      "kl": 0.0007016626186668873,
+      "learning_rate": 7.294520547945205e-07,
+      "loss": 0.0018,
+      "num_tokens": 7971639.0,
+      "reward": -0.02842245055362582,
+      "reward_std": 0.17683795988559722,
+      "rewards/ADEnReward/mean": 0.025887727085500956,
+      "rewards/ADEnReward/std": 0.07314108908176423,
+      "rewards/CounterfactualJustificationReward/mean": -0.05431017465889454,
+      "rewards/CounterfactualJustificationReward/std": 0.16526853740215303,
+      "step": 80,
+      "step_time": 82.75342047731392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 722.0,
+      "completions/max_terminated_length": 722.0,
+      "completions/mean_length": 689.920849609375,
+      "completions/mean_terminated_length": 689.920849609375,
+      "completions/min_length": 660.9,
+      "completions/min_terminated_length": 660.9,
+      "entropy": 0.5094373643398284,
+      "epoch": 0.01928846978139734,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.984375,
+      "kl": 0.0007417205604724586,
+      "learning_rate": 6.952054794520548e-07,
+      "loss": 0.0002,
+      "num_tokens": 8969489.0,
+      "reward": -0.006052215956151486,
+      "reward_std": 0.15987753868103027,
+      "rewards/ADEnReward/mean": 0.030044296936830507,
+      "rewards/ADEnReward/std": 0.05966232712380588,
+      "rewards/CounterfactualJustificationReward/mean": -0.03609651296865195,
+      "rewards/CounterfactualJustificationReward/std": 0.14858957529067993,
+      "step": 90,
+      "step_time": 80.45382214533166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 724.6,
+      "completions/max_terminated_length": 724.6,
+      "completions/mean_length": 688.264599609375,
+      "completions/mean_terminated_length": 688.264599609375,
+      "completions/min_length": 654.7,
+      "completions/min_terminated_length": 654.7,
+      "entropy": 0.5224536150693894,
+      "epoch": 0.021431633090441493,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.28125,
+      "kl": 0.000767859979532659,
+      "learning_rate": 6.60958904109589e-07,
+      "loss": 0.0009,
+      "num_tokens": 9966000.0,
+      "reward": -0.04011087082326412,
+      "reward_std": 0.19260659217834472,
+      "rewards/ADEnReward/mean": 0.028357878886163236,
+      "rewards/ADEnReward/std": 0.06866513956338167,
+      "rewards/CounterfactualJustificationReward/mean": -0.06846874691545964,
+      "rewards/CounterfactualJustificationReward/std": 0.19127010107040404,
+      "step": 100,
+      "step_time": 81.74371462997514
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 292,
+  "num_input_tokens_seen": 9966000,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ae0ea73231180f957f0674735532ee1353c14f9cf33847ef1cbd7b3f988699dc
+size 7569

checkpoint-100/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-200/added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_response>": 151666,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_response>": 151665,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

checkpoint-200/chat_template.jinja ADDED Viewed

	@@ -0,0 +1,110 @@

+{%- set image_count = namespace(value=0) %}
+{%- set video_count = namespace(value=0) %}
+{%- macro render_content(content, do_vision_count) %}
+    {%- if content is string %}
+        {{- content }}
+    {%- else %}
+        {%- for item in content %}
+            {%- if 'image' in item or 'image_url' in item or item.type == 'image' %}
+                {%- if do_vision_count %}
+                    {%- set image_count.value = image_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}Picture {{ image_count.value }}: {% endif -%}
+                <|vision_start|><|image_pad|><|vision_end|>
+            {%- elif 'video' in item or item.type == 'video' %}
+                {%- if do_vision_count %}
+                    {%- set video_count.value = video_count.value + 1 %}
+                {%- endif %}
+                {%- if add_vision_id %}Video {{ video_count.value }}: {% endif -%}
+                <|vision_start|><|video_pad|><|vision_end|>
+            {%- elif 'text' in item %}
+                {{- item.text }}
+            {%- endif %}
+        {%- endfor %}
+    {%- endif %}
+{%- endmacro %}
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- render_content(messages[0].content, false) + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + render_content(messages[0].content, false) + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" %}
+        {%- set content = render_content(message.content, false) %}
+        {%- if not(content.startswith('<tool_response>') and content.endswith('</tool_response>')) %}
+            {%- set ns.multi_step_tool = false %}
+            {%- set ns.last_query_index = index %}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content, True) %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+{%- endif %}

checkpoint-200/config.json ADDED Viewed

	@@ -0,0 +1,68 @@

+{
+  "architectures": [
+    "Qwen3VLForConditionalGeneration"
+  ],
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "image_token_id": 151655,
+  "model_type": "qwen3_vl",
+  "pad_token_id": 151643,
+  "text_config": {
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "dtype": "bfloat16",
+    "eos_token_id": 151645,
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 2560,
+    "initializer_range": 0.02,
+    "intermediate_size": 9728,
+    "max_position_embeddings": 262144,
+    "model_type": "qwen3_vl_text",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": {
+      "mrope_interleaved": true,
+      "mrope_section": [
+        24,
+        20,
+        20
+      ],
+      "rope_type": "default"
+    },
+    "rope_theta": 5000000,
+    "tie_word_embeddings": true,
+    "use_cache": true,
+    "vocab_size": 151936
+  },
+  "tie_word_embeddings": true,
+  "transformers_version": "4.57.6",
+  "use_cache": false,
+  "video_token_id": 151656,
+  "vision_config": {
+    "deepstack_visual_indexes": [
+      5,
+      11,
+      17
+    ],
+    "depth": 24,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 1024,
+    "in_channels": 3,
+    "initializer_range": 0.02,
+    "intermediate_size": 4096,
+    "model_type": "qwen3_vl",
+    "num_heads": 16,
+    "num_position_embeddings": 2304,
+    "out_hidden_size": 2560,
+    "patch_size": 16,
+    "spatial_merge_size": 2,
+    "temporal_patch_size": 2
+  },
+  "vision_end_token_id": 151653,
+  "vision_start_token_id": 151652
+}

checkpoint-200/generation_config.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "4.57.6"
+}

checkpoint-200/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-200/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47c43e917c573a13ffab8ae4805ed4b9b6855ae8e283168c9b30a0eadcb3c3ee
+size 4990497880

checkpoint-200/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f5f55e41fcafd45a4dbd70972e81babccc32684496c3547d1037eb021b564e1
+size 3885221448

checkpoint-200/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,721 @@

+{
+  "metadata": {
+    "total_parameters": 4437815808,
+    "total_size": 8875631616
+  },
+  "weight_map": {
+    "model.language_model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.0.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.1.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.10.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.11.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.12.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.13.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.14.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.15.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.16.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.16.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.16.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.17.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.17.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.18.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.19.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.2.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.20.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.20.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.21.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.22.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.23.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.24.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.25.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.26.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.27.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.28.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.29.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.3.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.30.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.31.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.32.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.33.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.34.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.mlp.gate_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.mlp.up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.k_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.k_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.q_norm.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.q_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.35.self_attn.v_proj.weight": "model-00002-of-00002.safetensors",
+    "model.language_model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.4.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.5.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.6.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.7.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.8.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.mlp.gate_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.mlp.up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.k_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.k_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.q_norm.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.q_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.layers.9.self_attn.v_proj.weight": "model-00001-of-00002.safetensors",
+    "model.language_model.norm.weight": "model-00002-of-00002.safetensors",
+    "model.visual.blocks.0.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.0.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.1.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.10.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.11.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.12.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.13.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.14.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.15.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.16.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.17.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.18.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.19.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.2.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.20.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.21.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.22.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.23.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.3.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.4.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.5.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.6.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.7.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.8.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.qkv.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.attn.qkv.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.mlp.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.blocks.9.norm2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.0.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.1.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.deepstack_merger_list.2.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc1.bias": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc1.weight": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc2.bias": "model-00001-of-00002.safetensors",
+    "model.visual.merger.linear_fc2.weight": "model-00001-of-00002.safetensors",
+    "model.visual.merger.norm.bias": "model-00001-of-00002.safetensors",
+    "model.visual.merger.norm.weight": "model-00001-of-00002.safetensors",
+    "model.visual.patch_embed.proj.bias": "model-00001-of-00002.safetensors",
+    "model.visual.patch_embed.proj.weight": "model-00001-of-00002.safetensors",
+    "model.visual.pos_embed.weight": "model-00001-of-00002.safetensors"
+  }
+}

checkpoint-200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e60d9a9cc066e3b5d0549d9a84942f9492de1a2e493032aaa6ab0a8390d61bea
+size 16090226537

checkpoint-200/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c67d8557a3c86471f643fa40d51463a1023ddb005b1e93aac4ee2bc8cf4cb3b3
+size 16389

checkpoint-200/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e08a1a316ec0b6bf7333198bb806df600c59283f2e94e46d56ed4f74d037fe9a
+size 16325

checkpoint-200/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3d764cded5ebda60327a76fbd79a08bef4da60f45279fccaabbf85e9a4cdf37c
+size 16389

checkpoint-200/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:54f3ac31edee12df2ab1e798d0e57105ae760ad0b18ec0bfd913f4fbe951b597
+size 16389

checkpoint-200/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:01ffbfb1098626e7d24f8be67428825d8d6102666be17f18d45bbd66e4b97e01
+size 16389

checkpoint-200/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5464b5d00d581acf1b529a1dcc1b4e72cf48d1a3c8f3a8400cae6de26f4aa281
+size 16389

checkpoint-200/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ed52d5b01ae638c3a065007caa25c8746b11c317e7b602089b5335a6457112b
+size 16325

checkpoint-200/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b83d8e8891c3082aa2e0902cd389e7de82c53cbac98bb596832f8f790c4606fd
+size 16389

checkpoint-200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:58f22504a9a9649f4dc5ccb3e17d22d4cecfea1c126fee54296e90a97f833ed1
+size 1465

checkpoint-200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-200/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:21f6994642cfbd8473e43b4fae1d60d4a953aea1419dc28b4ae3f41778cd0924
+size 11422922

checkpoint-200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "max_length": null,
+  "model_max_length": 262144,
+  "pad_to_multiple_of": null,
+  "pad_token": "<|endoftext|>",
+  "pad_token_type_id": 0,
+  "padding_side": "left",
+  "processor_class": "Qwen3VLProcessor",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

checkpoint-200/trainer_state.json ADDED Viewed

	@@ -0,0 +1,694 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.042863266180882986,
+  "eval_steps": 72,
+  "global_step": 200,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 730.3,
+      "completions/max_terminated_length": 730.3,
+      "completions/mean_length": 690.8416809082031,
+      "completions/mean_terminated_length": 690.8416809082031,
+      "completions/min_length": 650.1,
+      "completions/min_terminated_length": 650.1,
+      "entropy": 0.5259245783090591,
+      "epoch": 0.0021431633090441492,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0625,
+      "kl": 0.0010002208990044891,
+      "learning_rate": 9.691780821917808e-07,
+      "loss": 0.0005,
+      "num_tokens": 997652.0,
+      "reward": -0.05529220774769783,
+      "reward_std": 0.19234093129634858,
+      "rewards/ADEnReward/mean": 0.014569692267104983,
+      "rewards/ADEnReward/std": 0.03744967300444842,
+      "rewards/CounterfactualJustificationReward/mean": -0.06986189670860768,
+      "rewards/CounterfactualJustificationReward/std": 0.19594104290008546,
+      "step": 10,
+      "step_time": 81.29126892481
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 729.7,
+      "completions/max_terminated_length": 729.7,
+      "completions/mean_length": 690.3000122070313,
+      "completions/mean_terminated_length": 690.3000122070313,
+      "completions/min_length": 654.5,
+      "completions/min_terminated_length": 654.5,
+      "entropy": 0.517106008529663,
+      "epoch": 0.0042863266180882984,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8359375,
+      "kl": 0.0012238919618539513,
+      "learning_rate": 9.349315068493149e-07,
+      "loss": -0.0001,
+      "num_tokens": 1995124.0,
+      "reward": -0.027896507806144655,
+      "reward_std": 0.17558082714676856,
+      "rewards/ADEnReward/mean": 0.0253107822034508,
+      "rewards/ADEnReward/std": 0.0644984919577837,
+      "rewards/CounterfactualJustificationReward/mean": -0.053207287564873695,
+      "rewards/CounterfactualJustificationReward/std": 0.1726567417383194,
+      "step": 20,
+      "step_time": 81.71605963667389
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 721.8,
+      "completions/max_terminated_length": 721.8,
+      "completions/mean_length": 686.0833557128906,
+      "completions/mean_terminated_length": 686.0833557128906,
+      "completions/min_length": 649.7,
+      "completions/min_terminated_length": 649.7,
+      "entropy": 0.5082765579223633,
+      "epoch": 0.006429489927132447,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.953125,
+      "kl": 0.0011653728026431054,
+      "learning_rate": 9.006849315068494e-07,
+      "loss": -0.0008,
+      "num_tokens": 2989948.0,
+      "reward": -0.05444782162085175,
+      "reward_std": 0.1796041376888752,
+      "rewards/ADEnReward/mean": 0.01767429718747735,
+      "rewards/ADEnReward/std": 0.05163812395185232,
+      "rewards/CounterfactualJustificationReward/mean": -0.07212211415171624,
+      "rewards/CounterfactualJustificationReward/std": 0.1749571017920971,
+      "step": 30,
+      "step_time": 81.41574159800075
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.6,
+      "completions/max_terminated_length": 727.6,
+      "completions/mean_length": 689.9958557128906,
+      "completions/mean_terminated_length": 689.9958557128906,
+      "completions/min_length": 655.0,
+      "completions/min_terminated_length": 655.0,
+      "entropy": 0.515069180727005,
+      "epoch": 0.008572653236176597,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.0703125,
+      "kl": 0.0012260964780580253,
+      "learning_rate": 8.664383561643836e-07,
+      "loss": 0.0004,
+      "num_tokens": 3987258.0,
+      "reward": -0.04568901769816876,
+      "reward_std": 0.18353844434022903,
+      "rewards/ADEnReward/mean": 0.019147896161302923,
+      "rewards/ADEnReward/std": 0.052971506491303444,
+      "rewards/CounterfactualJustificationReward/mean": -0.06483691139146686,
+      "rewards/CounterfactualJustificationReward/std": 0.1846533253788948,
+      "step": 40,
+      "step_time": 82.82574949238915
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.002083333395421505,
+      "completions/max_length": 756.5,
+      "completions/max_terminated_length": 725.3,
+      "completions/mean_length": 687.070849609375,
+      "completions/mean_terminated_length": 686.3661926269531,
+      "completions/min_length": 650.7,
+      "completions/min_terminated_length": 650.7,
+      "entropy": 0.5215059638023376,
+      "epoch": 0.010715816545220747,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.890625,
+      "kl": 0.0009404134296346455,
+      "learning_rate": 8.321917808219178e-07,
+      "loss": 0.0015,
+      "num_tokens": 4982988.0,
+      "reward": -0.04204942379146814,
+      "reward_std": 0.20795765966176988,
+      "rewards/ADEnReward/mean": 0.029544483649078756,
+      "rewards/ADEnReward/std": 0.07722634137608111,
+      "rewards/CounterfactualJustificationReward/mean": -0.07159390421584248,
+      "rewards/CounterfactualJustificationReward/std": 0.19619639962911606,
+      "step": 50,
+      "step_time": 83.84037971522193
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 729.0,
+      "completions/max_terminated_length": 729.0,
+      "completions/mean_length": 689.208349609375,
+      "completions/mean_terminated_length": 689.208349609375,
+      "completions/min_length": 651.2,
+      "completions/min_terminated_length": 651.2,
+      "entropy": 0.5390423834323883,
+      "epoch": 0.012858979854264894,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.95703125,
+      "kl": 0.0008504414116032421,
+      "learning_rate": 7.97945205479452e-07,
+      "loss": -0.0007,
+      "num_tokens": 5979744.0,
+      "reward": -0.05117050064727664,
+      "reward_std": 0.18210893943905831,
+      "rewards/ADEnReward/mean": 0.01950117121450603,
+      "rewards/ADEnReward/std": 0.05314132794737816,
+      "rewards/CounterfactualJustificationReward/mean": -0.070671671256423,
+      "rewards/CounterfactualJustificationReward/std": 0.17721710205078126,
+      "step": 60,
+      "step_time": 81.49333748922217
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.0,
+      "completions/max_terminated_length": 727.0,
+      "completions/mean_length": 689.4562744140625,
+      "completions/mean_terminated_length": 689.4562744140625,
+      "completions/min_length": 646.8,
+      "completions/min_terminated_length": 646.8,
+      "entropy": 0.5186286389827728,
+      "epoch": 0.015002143163309044,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.87109375,
+      "kl": 0.0007503302826080471,
+      "learning_rate": 7.636986301369863e-07,
+      "loss": -0.0014,
+      "num_tokens": 6976875.0,
+      "reward": -0.0408426059409976,
+      "reward_std": 0.18270696997642516,
+      "rewards/ADEnReward/mean": 0.020953925559297204,
+      "rewards/ADEnReward/std": 0.05901451129466295,
+      "rewards/CounterfactualJustificationReward/mean": -0.06179652884602547,
+      "rewards/CounterfactualJustificationReward/std": 0.18194008320569993,
+      "step": 70,
+      "step_time": 82.15259210669902
+    },
+    {
+      "epoch": 0.015430775825117874,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 739.6,
+      "eval_completions/max_terminated_length": 739.6,
+      "eval_completions/mean_length": 691.8846875,
+      "eval_completions/mean_terminated_length": 691.8846875,
+      "eval_completions/min_length": 652.64,
+      "eval_completions/min_terminated_length": 652.64,
+      "eval_entropy": 0.538739503622055,
+      "eval_frac_reward_zero_std": 0.0,
+      "eval_kl": 0.000771390360314399,
+      "eval_loss": -0.00099662016145885,
+      "eval_num_tokens": 7175723.0,
+      "eval_reward": -0.06712276641279459,
+      "eval_reward_std": 0.22664598613977432,
+      "eval_rewards/ADEnReward/mean": 0.014218600359745323,
+      "eval_rewards/ADEnReward/std": 0.041265594381839035,
+      "eval_rewards/CounterfactualJustificationReward/mean": -0.08134136645123363,
+      "eval_rewards/CounterfactualJustificationReward/std": 0.22910964041948317,
+      "eval_runtime": 2461.5208,
+      "eval_samples_per_second": 0.081,
+      "eval_steps_per_second": 0.002,
+      "step": 72
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.002083333395421505,
+      "completions/max_length": 755.2,
+      "completions/max_terminated_length": 723.5,
+      "completions/mean_length": 685.8583557128907,
+      "completions/mean_terminated_length": 685.1368957519531,
+      "completions/min_length": 650.2,
+      "completions/min_terminated_length": 650.2,
+      "entropy": 0.5175796210765838,
+      "epoch": 0.017145306472353194,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.90625,
+      "kl": 0.0007016626186668873,
+      "learning_rate": 7.294520547945205e-07,
+      "loss": 0.0018,
+      "num_tokens": 7971639.0,
+      "reward": -0.02842245055362582,
+      "reward_std": 0.17683795988559722,
+      "rewards/ADEnReward/mean": 0.025887727085500956,
+      "rewards/ADEnReward/std": 0.07314108908176423,
+      "rewards/CounterfactualJustificationReward/mean": -0.05431017465889454,
+      "rewards/CounterfactualJustificationReward/std": 0.16526853740215303,
+      "step": 80,
+      "step_time": 82.75342047731392
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 722.0,
+      "completions/max_terminated_length": 722.0,
+      "completions/mean_length": 689.920849609375,
+      "completions/mean_terminated_length": 689.920849609375,
+      "completions/min_length": 660.9,
+      "completions/min_terminated_length": 660.9,
+      "entropy": 0.5094373643398284,
+      "epoch": 0.01928846978139734,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.984375,
+      "kl": 0.0007417205604724586,
+      "learning_rate": 6.952054794520548e-07,
+      "loss": 0.0002,
+      "num_tokens": 8969489.0,
+      "reward": -0.006052215956151486,
+      "reward_std": 0.15987753868103027,
+      "rewards/ADEnReward/mean": 0.030044296936830507,
+      "rewards/ADEnReward/std": 0.05966232712380588,
+      "rewards/CounterfactualJustificationReward/mean": -0.03609651296865195,
+      "rewards/CounterfactualJustificationReward/std": 0.14858957529067993,
+      "step": 90,
+      "step_time": 80.45382214533166
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 724.6,
+      "completions/max_terminated_length": 724.6,
+      "completions/mean_length": 688.264599609375,
+      "completions/mean_terminated_length": 688.264599609375,
+      "completions/min_length": 654.7,
+      "completions/min_terminated_length": 654.7,
+      "entropy": 0.5224536150693894,
+      "epoch": 0.021431633090441493,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 1.28125,
+      "kl": 0.000767859979532659,
+      "learning_rate": 6.60958904109589e-07,
+      "loss": 0.0009,
+      "num_tokens": 9966000.0,
+      "reward": -0.04011087082326412,
+      "reward_std": 0.19260659217834472,
+      "rewards/ADEnReward/mean": 0.028357878886163236,
+      "rewards/ADEnReward/std": 0.06866513956338167,
+      "rewards/CounterfactualJustificationReward/mean": -0.06846874691545964,
+      "rewards/CounterfactualJustificationReward/std": 0.19127010107040404,
+      "step": 100,
+      "step_time": 81.74371462997514
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 729.8,
+      "completions/max_terminated_length": 729.8,
+      "completions/mean_length": 690.6083557128907,
+      "completions/mean_terminated_length": 690.6083557128907,
+      "completions/min_length": 655.3,
+      "completions/min_terminated_length": 655.3,
+      "entropy": 0.5260041147470474,
+      "epoch": 0.02357479639948564,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.94140625,
+      "kl": 0.0007802531530614942,
+      "learning_rate": 6.267123287671232e-07,
+      "loss": 0.0011,
+      "num_tokens": 10964036.0,
+      "reward": -0.06195855727419257,
+      "reward_std": 0.18693682849407195,
+      "rewards/ADEnReward/mean": 0.013794297073036432,
+      "rewards/ADEnReward/std": 0.03635634700767696,
+      "rewards/CounterfactualJustificationReward/mean": -0.07575285211205482,
+      "rewards/CounterfactualJustificationReward/std": 0.18818814158439637,
+      "step": 110,
+      "step_time": 81.1307809022721
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 723.3,
+      "completions/max_terminated_length": 723.3,
+      "completions/mean_length": 686.5354370117187,
+      "completions/mean_terminated_length": 686.5354370117187,
+      "completions/min_length": 651.4,
+      "completions/min_terminated_length": 651.4,
+      "entropy": 0.5031964689493179,
+      "epoch": 0.02571795970852979,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.9453125,
+      "kl": 0.0007412101840600371,
+      "learning_rate": 5.924657534246575e-07,
+      "loss": 0.0015,
+      "num_tokens": 11958773.0,
+      "reward": -0.04003175523248501,
+      "reward_std": 0.19262428656220437,
+      "rewards/ADEnReward/mean": 0.02257377510832157,
+      "rewards/ADEnReward/std": 0.060529673739802094,
+      "rewards/CounterfactualJustificationReward/mean": -0.06260552871972322,
+      "rewards/CounterfactualJustificationReward/std": 0.18227247670292854,
+      "step": 120,
+      "step_time": 82.24694072972052
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.6,
+      "completions/max_terminated_length": 727.6,
+      "completions/mean_length": 688.0896057128906,
+      "completions/mean_terminated_length": 688.0896057128906,
+      "completions/min_length": 650.8,
+      "completions/min_terminated_length": 650.8,
+      "entropy": 0.5174502521753311,
+      "epoch": 0.02786112301757394,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.984375,
+      "kl": 0.0007847865461371839,
+      "learning_rate": 5.582191780821918e-07,
+      "loss": 0.0009,
+      "num_tokens": 12954832.0,
+      "reward": -0.04746196130290627,
+      "reward_std": 0.18210720419883727,
+      "rewards/ADEnReward/mean": 0.01746841239510104,
+      "rewards/ADEnReward/std": 0.04987657715100795,
+      "rewards/CounterfactualJustificationReward/mean": -0.06493037026375532,
+      "rewards/CounterfactualJustificationReward/std": 0.17622884586453438,
+      "step": 130,
+      "step_time": 82.40857856380754
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 728.1,
+      "completions/max_terminated_length": 728.1,
+      "completions/mean_length": 688.752099609375,
+      "completions/mean_terminated_length": 688.752099609375,
+      "completions/min_length": 656.1,
+      "completions/min_terminated_length": 656.1,
+      "entropy": 0.517569613456726,
+      "epoch": 0.03000428632661809,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.84765625,
+      "kl": 0.0007958322006743401,
+      "learning_rate": 5.23972602739726e-07,
+      "loss": 0.0002,
+      "num_tokens": 13951705.0,
+      "reward": -0.0369538254570216,
+      "reward_std": 0.19810427576303483,
+      "rewards/ADEnReward/mean": 0.023867947747930884,
+      "rewards/ADEnReward/std": 0.06791103053838014,
+      "rewards/CounterfactualJustificationReward/mean": -0.0608217716217041,
+      "rewards/CounterfactualJustificationReward/std": 0.19354926347732543,
+      "step": 140,
+      "step_time": 81.95946166641079
+    },
+    {
+      "epoch": 0.030861551650235748,
+      "eval_clip_ratio/high_max": 0.0,
+      "eval_clip_ratio/high_mean": 0.0,
+      "eval_clip_ratio/low_mean": 0.0,
+      "eval_clip_ratio/low_min": 0.0,
+      "eval_clip_ratio/region_mean": 0.0,
+      "eval_completions/clipped_ratio": 0.0,
+      "eval_completions/max_length": 732.42,
+      "eval_completions/max_terminated_length": 732.42,
+      "eval_completions/mean_length": 691.2503125,
+      "eval_completions/mean_terminated_length": 691.2503125,
+      "eval_completions/min_length": 652.8,
+      "eval_completions/min_terminated_length": 652.8,
+      "eval_entropy": 0.5356296545267105,
+      "eval_frac_reward_zero_std": 0.0,
+      "eval_kl": 0.0008121493237558753,
+      "eval_loss": 0.0010239487746730447,
+      "eval_num_tokens": 14349731.0,
+      "eval_reward": -0.04773021267727017,
+      "eval_reward_std": 0.23761509954929352,
+      "eval_rewards/ADEnReward/mean": 0.013827656316570937,
+      "eval_rewards/ADEnReward/std": 0.04115318328142166,
+      "eval_rewards/CounterfactualJustificationReward/mean": -0.061557868719100954,
+      "eval_rewards/CounterfactualJustificationReward/std": 0.23916515618562698,
+      "eval_runtime": 2440.7379,
+      "eval_samples_per_second": 0.082,
+      "eval_steps_per_second": 0.002,
+      "step": 144
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 726.8,
+      "completions/max_terminated_length": 726.8,
+      "completions/mean_length": 687.8812622070312,
+      "completions/mean_terminated_length": 687.8812622070312,
+      "completions/min_length": 655.6,
+      "completions/min_terminated_length": 655.6,
+      "entropy": 0.5291590631008148,
+      "epoch": 0.03214744963566224,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.82421875,
+      "kl": 0.0007574121234938502,
+      "learning_rate": 4.897260273972603e-07,
+      "loss": 0.0006,
+      "num_tokens": 14947936.0,
+      "reward": -0.04578794672852382,
+      "reward_std": 0.18227489590644835,
+      "rewards/ADEnReward/mean": 0.021304778184276073,
+      "rewards/ADEnReward/std": 0.05860598608851433,
+      "rewards/CounterfactualJustificationReward/mean": -0.06709272470325231,
+      "rewards/CounterfactualJustificationReward/std": 0.1762250319123268,
+      "step": 150,
+      "step_time": 81.37211056482047
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.0,
+      "completions/max_terminated_length": 727.0,
+      "completions/mean_length": 688.1041931152344,
+      "completions/mean_terminated_length": 688.1041931152344,
+      "completions/min_length": 651.3,
+      "completions/min_terminated_length": 651.3,
+      "entropy": 0.5072847545146942,
+      "epoch": 0.03429061294470639,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.98046875,
+      "kl": 0.0007554442039690912,
+      "learning_rate": 4.554794520547945e-07,
+      "loss": -0.0001,
+      "num_tokens": 15944402.0,
+      "reward": -0.024778509372845293,
+      "reward_std": 0.17613640129566194,
+      "rewards/ADEnReward/mean": 0.025769201340153813,
+      "rewards/ADEnReward/std": 0.07141963019967079,
+      "rewards/CounterfactualJustificationReward/mean": -0.05054771201685071,
+      "rewards/CounterfactualJustificationReward/std": 0.16544838324189187,
+      "step": 160,
+      "step_time": 81.86358285117895
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.2,
+      "completions/max_terminated_length": 727.2,
+      "completions/mean_length": 687.420849609375,
+      "completions/mean_terminated_length": 687.420849609375,
+      "completions/min_length": 649.6,
+      "completions/min_terminated_length": 649.6,
+      "entropy": 0.5145486533641815,
+      "epoch": 0.036433776253750536,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.90234375,
+      "kl": 0.0007621193304657936,
+      "learning_rate": 4.212328767123288e-07,
+      "loss": 0.001,
+      "num_tokens": 16940076.0,
+      "reward": -0.03716548038646579,
+      "reward_std": 0.1746891751885414,
+      "rewards/ADEnReward/mean": 0.026661362359300257,
+      "rewards/ADEnReward/std": 0.06765615195035934,
+      "rewards/CounterfactualJustificationReward/mean": -0.06382684204727411,
+      "rewards/CounterfactualJustificationReward/std": 0.17030213475227357,
+      "step": 170,
+      "step_time": 81.92455543158576
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 728.0,
+      "completions/max_terminated_length": 728.0,
+      "completions/mean_length": 688.5812683105469,
+      "completions/mean_terminated_length": 688.5812683105469,
+      "completions/min_length": 657.1,
+      "completions/min_terminated_length": 657.1,
+      "entropy": 0.5157632052898407,
+      "epoch": 0.03857693956279468,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.953125,
+      "kl": 0.0007366880308836699,
+      "learning_rate": 3.86986301369863e-07,
+      "loss": 0.0019,
+      "num_tokens": 17936611.0,
+      "reward": -0.024594769021496175,
+      "reward_std": 0.1477217637002468,
+      "rewards/ADEnReward/mean": 0.020442616660147905,
+      "rewards/ADEnReward/std": 0.05065577439963818,
+      "rewards/CounterfactualJustificationReward/mean": -0.045037384261377156,
+      "rewards/CounterfactualJustificationReward/std": 0.14162354916334152,
+      "step": 180,
+      "step_time": 82.11658984159585
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 727.6,
+      "completions/max_terminated_length": 727.6,
+      "completions/mean_length": 689.0791809082032,
+      "completions/mean_terminated_length": 689.0791809082032,
+      "completions/min_length": 650.1,
+      "completions/min_terminated_length": 650.1,
+      "entropy": 0.5125674337148667,
+      "epoch": 0.04072010287183883,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.8046875,
+      "kl": 0.0007767295406665653,
+      "learning_rate": 3.5273972602739726e-07,
+      "loss": 0.001,
+      "num_tokens": 18933817.0,
+      "reward": -0.03204548424109817,
+      "reward_std": 0.16783239170908928,
+      "rewards/ADEnReward/mean": 0.018252474965993314,
+      "rewards/ADEnReward/std": 0.04386611166410148,
+      "rewards/CounterfactualJustificationReward/mean": -0.05029795817099512,
+      "rewards/CounterfactualJustificationReward/std": 0.16456858292222024,
+      "step": 190,
+      "step_time": 82.36279394095763
+    },
+    {
+      "clip_ratio/high_max": 0.0,
+      "clip_ratio/high_mean": 0.0,
+      "clip_ratio/low_mean": 0.0,
+      "clip_ratio/low_min": 0.0,
+      "clip_ratio/region_mean": 0.0,
+      "completions/clipped_ratio": 0.0,
+      "completions/max_length": 728.6,
+      "completions/max_terminated_length": 728.6,
+      "completions/mean_length": 688.8166809082031,
+      "completions/mean_terminated_length": 688.8166809082031,
+      "completions/min_length": 656.4,
+      "completions/min_terminated_length": 656.4,
+      "entropy": 0.5080289810895919,
+      "epoch": 0.042863266180882986,
+      "frac_reward_zero_std": 0.0,
+      "grad_norm": 0.890625,
+      "kl": 0.0007236057950649411,
+      "learning_rate": 3.1849315068493147e-07,
+      "loss": 0.001,
+      "num_tokens": 19930337.0,
+      "reward": 0.0031591907725669445,
+      "reward_std": 0.16190036088228227,
+      "rewards/ADEnReward/mean": 0.03064822070300579,
+      "rewards/ADEnReward/std": 0.07941867671906948,
+      "rewards/CounterfactualJustificationReward/mean": -0.02748902861494571,
+      "rewards/CounterfactualJustificationReward/std": 0.15277981385588646,
+      "step": 200,
+      "step_time": 82.02340174033307
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 292,
+  "num_input_tokens_seen": 19930337,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 6,
+  "trial_name": null,
+  "trial_params": null
+}