ScienceOne-AI
/

S1-Omni-Image-Preview

Model card Files Files and versions

S1-Omni-Image-Preview / config.json

ScienceOne-AI's picture

Upload folder using huggingface_hub

8a9befd verified 29 days ago

history blame contribute delete

4.49 kB

	{
	"model_type": "s1-omni-image",
	"architectures": [
	"S1OmniImageModel"
	],
	"prefixes": {
	"qwen3_vl": "qwen3_vl.",
	"transformer": "transformer.",
	"vae": "vae.",
	"alignment_mlp": "alignment_mlp."
	},
	"qwen3_vl_config": {
	"architectures": [
	"Qwen3VLForConditionalGeneration"
	],
	"dtype": "bfloat16",
	"eos_token_id": 151645,
	"hidden_size": 4096,
	"image_token_id": 151655,
	"model_type": "qwen3_vl",
	"pad_token_id": 151643,
	"text_config": {
	"attention_bias": false,
	"attention_dropout": 0.0,
	"bos_token_id": 151643,
	"dtype": "bfloat16",
	"eos_token_id": 151645,
	"head_dim": 128,
	"hidden_act": "silu",
	"hidden_size": 4096,
	"initializer_range": 0.02,
	"intermediate_size": 12288,
	"max_position_embeddings": 262144,
	"model_type": "qwen3_vl_text",
	"num_attention_heads": 32,
	"num_hidden_layers": 36,
	"num_key_value_heads": 8,
	"pad_token_id": 151643,
	"rms_norm_eps": 1e-06,
	"rope_scaling": {
	"mrope_interleaved": true,
	"mrope_section": [
	24,
	20,
	20
	],
	"rope_type": "default"
	},
	"rope_theta": 5000000,
	"use_cache": false,
	"vocab_size": 151936
	},
	"tie_word_embeddings": false,
	"transformers_version": "4.57.6",
	"video_token_id": 151656,
	"vision_config": {
	"deepstack_visual_indexes": [
	8,
	16,
	24
	],
	"depth": 27,
	"dtype": "bfloat16",
	"hidden_act": "gelu_pytorch_tanh",
	"hidden_size": 1152,
	"in_channels": 3,
	"initializer_range": 0.02,
	"intermediate_size": 4304,
	"model_type": "qwen3_vl",
	"num_heads": 16,
	"num_position_embeddings": 2304,
	"out_hidden_size": 4096,
	"pad_token_id": 151643,
	"patch_size": 16,
	"spatial_merge_size": 2,
	"temporal_patch_size": 2
	},
	"vision_end_token_id": 151653,
	"vision_start_token_id": 151652
	},
	"transformer_config": {
	"_class_name": "QwenImageTransformer2DModel",
	"_diffusers_version": "0.36.0.dev0",
	"attention_head_dim": 128,
	"axes_dims_rope": [
	16,
	56,
	56
	],
	"guidance_embeds": false,
	"in_channels": 64,
	"joint_attention_dim": 3584,
	"num_attention_heads": 24,
	"num_layers": 60,
	"out_channels": 16,
	"patch_size": 2,
	"zero_cond_t": true
	},
	"vae_config": {
	"_class_name": "AutoencoderKLQwenImage",
	"_diffusers_version": "0.36.0.dev0",
	"attn_scales": [],
	"base_dim": 96,
	"dim_mult": [
	1,
	2,
	4,
	4
	],
	"dropout": 0.0,
	"latents_mean": [
	-0.7571,
	-0.7089,
	-0.9113,
	0.1075,
	-0.1745,
	0.9653,
	-0.1517,
	1.5508,
	0.4134,
	-0.0715,
	0.5517,
	-0.3632,
	-0.1922,
	-0.9497,
	0.2503,
	-0.2921
	],
	"latents_std": [
	2.8184,
	1.4541,
	2.3275,
	2.6558,
	1.2196,
	1.7708,
	2.6052,
	2.0743,
	3.2687,
	2.1526,
	2.8652,
	1.5579,
	1.6382,
	1.1253,
	2.8251,
	1.916
	],
	"num_res_blocks": 2,
	"temperal_downsample": [
	false,
	true,
	true
	],
	"z_dim": 16
	},
	"scheduler_config": {
	"_class_name": "FlowMatchEulerDiscreteScheduler",
	"_diffusers_version": "0.36.0.dev0",
	"base_image_seq_len": 256,
	"base_shift": 0.5,
	"invert_sigmas": false,
	"max_image_seq_len": 8192,
	"max_shift": 0.9,
	"num_train_timesteps": 1000,
	"shift": 1.0,
	"shift_terminal": 0.02,
	"stochastic_sampling": false,
	"time_shift_type": "exponential",
	"use_beta_sigmas": false,
	"use_dynamic_shifting": true,
	"use_exponential_sigmas": false,
	"use_karras_sigmas": false
	},
	"alignment_mlp": {
	"input_dim": 4096,
	"output_dim": 3584,
	"hidden_dim": 4096,
	"type": "mlp"
	},
	"special_tokens": {
	"think_start": "<think>",
	"think_end": "</think>",
	"image_gen_start": "<image_gen>",
	"image_gen_end": "</image_gen>",
	"image_edit_start": "<image_edit>",
	"image_edit_end": "</image_edit>"
	},
	"generation": {
	"max_new_tokens": 2048,
	"temperature": 0.7,
	"top_p": 0.9,
	"do_sample": true
	},
	"image_generation": {
	"default_height": 1024,
	"default_width": 1024,
	"num_inference_steps": 50,
	"guidance_scale": 1.0,
	"true_cfg_scale": 4.0
	}
	}