bytedance-research
/

Valley2.5

Safetensors

valley

custom_code

Model card Files Files and versions

xet

Community

Hyggge commited on Oct 26, 2025

Commit

1afb52f

1 Parent(s): fd4e4b2

feat: update config.json

Browse files

Files changed (2) hide show

.gitattributes +1 -11
config.json +107 -3

.gitattributes CHANGED Viewed

@@ -33,25 +33,15 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
-added_tokens.json filter=lfs diff=lfs merge=lfs -text
 merges.txt filter=lfs diff=lfs merge=lfs -text
 model-00001-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 modeling_valley.py filter=lfs diff=lfs merge=lfs -text
-chat_template.json filter=lfs diff=lfs merge=lfs -text
-config.json filter=lfs diff=lfs merge=lfs -text
-generation_config.json filter=lfs diff=lfs merge=lfs -text
 modeling_projector.py filter=lfs diff=lfs merge=lfs -text
-model.safetensors.index.json filter=lfs diff=lfs merge=lfs -text
-preprocessor_config.json filter=lfs diff=lfs merge=lfs -text
 processing_valley.py filter=lfs diff=lfs merge=lfs -text
-README.md filter=lfs diff=lfs merge=lfs -text
-tokenizer.json filter=lfs diff=lfs merge=lfs -text
 model-00004-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
-special_tokens_map.json filter=lfs diff=lfs merge=lfs -text
-tokenizer_config.json filter=lfs diff=lfs merge=lfs -text
 utils.py filter=lfs diff=lfs merge=lfs -text
-vocab.json filter=lfs diff=lfs merge=lfs -text
 chat_template.jinja filter=lfs diff=lfs merge=lfs -text
 model-00002-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 model-00003-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 modeling_vision_tower.py filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 merges.txt filter=lfs diff=lfs merge=lfs -text
 model-00001-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 modeling_valley.py filter=lfs diff=lfs merge=lfs -text
 modeling_projector.py filter=lfs diff=lfs merge=lfs -text
 processing_valley.py filter=lfs diff=lfs merge=lfs -text
 model-00004-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 utils.py filter=lfs diff=lfs merge=lfs -text
 chat_template.jinja filter=lfs diff=lfs merge=lfs -text
 model-00002-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 model-00003-of-00004.safetensors filter=lfs diff=lfs merge=lfs -text
 modeling_vision_tower.py filter=lfs diff=lfs merge=lfs -text
+valley_structure.png filter=lfs diff=lfs merge=lfs -text

config.json CHANGED Viewed

@@ -1,3 +1,107 @@
-version https://git-lfs.github.com/spec/v1
-oid sha256:023ba46111c581b2cd8354b892172fea471d4aff3c53d75e41fcb60e4e579ef4
-size 2830

+{
+  "anyres": false,
+  "architectures": [
+    "ValleyQwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "modeling_valley.ValleyConfig",
+    "AutoModel": "modeling_valley.ValleyQwen3ForCausalLM",
+    "AutoModelForCausalLM": "modeling_valley.ValleyQwen3ForCausalLM"
+  },
+  "dtype": "bfloat16",
+  "eagle_vision_tower": "Qwen/Qwen2-VL-7B-Instruct",
+  "enable_thinking": false,
+  "eos_token_id": 151645,
+  "frame_max_pixels": 153664,
+  "grid_pinpoints": "(1x1),...,(3x3)",
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "image_aspect_ratio": null,
+  "image_grid_pinpoints": null,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "language": "english",
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "llm_name": "qwen3",
+  "max_pixels": 1536640,
+  "max_position_embeddings": 32768,
+  "max_tile_num": 9,
+  "max_vision_token": 100000,
+  "max_window_layers": 36,
+  "min_tile_num": 1,
+  "mlp_hidden_dim": null,
+  "mm_hidden_size": null,
+  "mm_projector_type": "ovis_conv_adapter_navit",
+  "mm_use_im_patch_token": false,
+  "mm_use_im_start_end": false,
+  "mm_vision_select_feature": "cls_patch",
+  "mm_vision_select_layer": -2,
+  "mm_vision_tower": "navit",
+  "model_class": "valley-product",
+  "model_type": "valley",
+  "navit_merger_hidden_dim": 65536,
+  "navit_use_mm_projector": false,
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "only_crop_single_image": true,
+  "only_navit": true,
+  "pad_token_id": 151643,
+  "pixelshuffle_downsample_ratio": 3,
+  "pool_out_size": 8,
+  "pooling_stride": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 1000000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "tokenize_function": "softmax",
+  "torch_dtype": "bfloat16",
+  "training_stage": "stage2",
+  "transformers_version": "4.54.0",
+  "tune_mm_mlp_adapter": false,
+  "use_cache": false,
+  "use_sliding_window": false,
+  "use_special_start_end_token": true,
+  "vocab_size": 151675
+}