keras
/

qwen3_coder_instruct_30b_a3b_en

Text Generation

Model card Files Files and versions

qwen3_coder_instruct_30b_a3b_en / config.json

prasadsachin's picture

Upload folder using huggingface_hub

2f57005 verified 29 days ago

history blame contribute delete

1.11 kB

	{
	"module": "keras_hub.src.models.qwen3_moe.qwen3_moe_backbone",
	"class_name": "Qwen3MoeBackbone",
	"config": {
	"name": "qwen3_moe_backbone",
	"trainable": true,
	"dtype": {
	"module": "keras",
	"class_name": "DTypePolicy",
	"config": {
	"name": "float32"
	},
	"registered_name": null
	},
	"vocabulary_size": 151936,
	"num_layers": 48,
	"num_query_heads": 32,
	"head_dim": 128,
	"hidden_dim": 2048,
	"intermediate_dim": 6144,
	"moe_intermediate_dim": 768,
	"rope_max_wavelength": 10000000,
	"num_key_value_heads": 4,
	"rope_scaling_factor": 1.0,
	"layer_norm_epsilon": 1e-06,
	"dropout": 0,
	"tie_word_embeddings": false,
	"sliding_window_size": null,
	"num_experts": 128,
	"top_k": 8,
	"norm_top_k_prob": true,
	"decoder_sparse_step": 1,
	"mlp_only_layers": [],
	"router_aux_loss_coefficient": 0.001
	},
	"registered_name": "keras_hub>Qwen3MoeBackbone"
	}