HorizonRobotics
/

MonoDream

Safetensors

llava_llama

Model card Files Files and versions

xet

Community

shuowangmark commited on Nov 27, 2025

Commit

2889130

verified ·

1 Parent(s): c9ec924

Update config.json

Browse files

Files changed (1) hide show

config.json +0 -12

config.json CHANGED Viewed

@@ -1,7 +1,6 @@
 {
   "Ubit": 100,
   "_attn_implementation_autoset": true,
-  "_name_or_path": "/horizon-bucket/robot_lab/users/shuo03.wang/nips2025/sft_2B_model/step3_aux_qwen/tmp-checkpoint-25000",
   "architectures": [
     "LlavaLlamaModel"
   ],
@@ -26,13 +25,9 @@
   "group_size": -1,
   "hidden_size": 1536,
   "image_aspect_ratio": "dynamic",
-  "image_encoder": {
-    "_target_": "robo_orchard_lab.models.monodream.multimodal_encoder.BasicImageEncoder"
-  },
   "interpolate_mode": "linear",
   "llm_cfg": {
     "_attn_implementation_autoset": false,
-    "_name_or_path": "/horizon-bucket/robot_lab/users/shuo03.wang/nips2025/sft_2B_model/step3_aux_qwen/tmp-checkpoint-25000/llm",
     "add_cross_attention": false,
     "architectures": [
       "Qwen2ForCausalLM"
@@ -125,7 +120,6 @@
   "mm_projector": "mlp_downsample_3x3_fix",
   "mm_projector_cfg": {
     "_attn_implementation_autoset": false,
-    "_name_or_path": "/horizon-bucket/robot_lab/users/shuo03.wang/nips2025/sft_2B_model/step3_aux_qwen/tmp-checkpoint-25000/mm_projector",
     "add_cross_attention": false,
     "architectures": [
       "MultimodalProjector"
@@ -196,7 +190,6 @@
   "mm_vision_select_feature": "cls_patch",
   "mm_vision_select_layer": -2,
   "model_dtype": "torch.bfloat16",
-  "model_name_or_path": "/bucket/input/robot_lab/users/shuo03.wang/NVILA-Lite-2B",
   "model_type": "llava_llama",
   "num_time_tokens": 0,
   "num_video_frames": 8,
@@ -213,7 +206,6 @@
   "refine_mlp_blocksize": false,
   "refine_residual_fp": false,
   "refine_row_blocksize": 4,
-  "resume_path": "/bucket/input/robot_lab/users/shuo03.wang/NVILA-Lite-2B",
   "row_blocksize": -1,
   "row_blocksize_optimizer": 1,
   "s2": false,
@@ -232,14 +224,10 @@
   "tune_vision_tower": true,
   "use_quantize_optimizer": false,
   "version": "auto",
-  "video_encoder": {
-    "_target_": "robo_orchard_lab.models.monodream.multimodal_encoder.BasicVideoEncoder"
-  },
   "vision_resolution": -1,
   "vision_tower": "Efficient-Large-Model/paligemma-siglip-so400m-patch14-448",
   "vision_tower_cfg": {
     "_attn_implementation_autoset": false,
-    "_name_or_path": "/horizon-bucket/robot_lab/users/shuo03.wang/nips2025/sft_2B_model/step3_aux_qwen/tmp-checkpoint-25000/vision_tower",
     "add_cross_attention": false,
     "architectures": [
       "SiglipVisionModel"

 {
   "Ubit": 100,
   "_attn_implementation_autoset": true,
   "architectures": [
     "LlavaLlamaModel"
   ],
   "group_size": -1,
   "hidden_size": 1536,
   "image_aspect_ratio": "dynamic",
   "interpolate_mode": "linear",
   "llm_cfg": {
     "_attn_implementation_autoset": false,
     "add_cross_attention": false,
     "architectures": [
       "Qwen2ForCausalLM"
   "mm_projector": "mlp_downsample_3x3_fix",
   "mm_projector_cfg": {
     "_attn_implementation_autoset": false,
     "add_cross_attention": false,
     "architectures": [
       "MultimodalProjector"
   "mm_vision_select_feature": "cls_patch",
   "mm_vision_select_layer": -2,
   "model_dtype": "torch.bfloat16",
   "model_type": "llava_llama",
   "num_time_tokens": 0,
   "num_video_frames": 8,
   "refine_mlp_blocksize": false,
   "refine_residual_fp": false,
   "refine_row_blocksize": 4,
   "row_blocksize": -1,
   "row_blocksize_optimizer": 1,
   "s2": false,
   "tune_vision_tower": true,
   "use_quantize_optimizer": false,
   "version": "auto",
   "vision_resolution": -1,
   "vision_tower": "Efficient-Large-Model/paligemma-siglip-so400m-patch14-448",
   "vision_tower_cfg": {
     "_attn_implementation_autoset": false,
     "add_cross_attention": false,
     "architectures": [
       "SiglipVisionModel"