bartpho-large-normalizer-mix100 / state_dict_report.json

Upload ViSoNorm trained model

781c3b4 6 months ago

2.01 kB

	{
	"base_model": "bartpho",
	"total_params": 531,
	"expected_heads_present": {
	"cls_decoder.weight": false,
	"cls_decoder.bias": false,
	"cls_dense.weight": false,
	"cls_dense.bias": false,
	"cls_layer_norm.weight": false,
	"cls_layer_norm.bias": false,
	"mask_n_predictor.mask_predictor_dense.weight": true,
	"mask_n_predictor.mask_predictor_dense.bias": true,
	"mask_n_predictor.mask_predictor_proj.weight": true,
	"mask_n_predictor.mask_predictor_proj.bias": true,
	"nsw_detector.dense.weight": true,
	"nsw_detector.dense.bias": true,
	"nsw_detector.predictor.weight": true,
	"nsw_detector.predictor.bias": true
	},
	"alt_common_heads_present": {
	"lm_head.weight": false,
	"lm_head.bias": false,
	"cls.decoder.weight": true,
	"cls.decoder.bias": true,
	"cls.dense.weight": true,
	"cls.dense.bias": true,
	"cls.layer_norm.weight": true,
	"cls.layer_norm.bias": true
	},
	"aux_heads_present": {
	"nsw_detector.": true,
	"mask_n_predictor.": true
	},
	"example_keys": [
	"bart.shared.weight",
	"bart.encoder.embed_tokens.weight",
	"bart.encoder.embed_positions.weight",
	"bart.encoder.layers.0.self_attn.k_proj.weight",
	"bart.encoder.layers.0.self_attn.k_proj.bias",
	"bart.encoder.layers.0.self_attn.v_proj.weight",
	"bart.encoder.layers.0.self_attn.v_proj.bias",
	"bart.encoder.layers.0.self_attn.q_proj.weight",
	"bart.encoder.layers.0.self_attn.q_proj.bias",
	"bart.encoder.layers.0.self_attn.out_proj.weight",
	"bart.encoder.layers.0.self_attn.out_proj.bias",
	"bart.encoder.layers.0.self_attn_layer_norm.weight",
	"bart.encoder.layers.0.self_attn_layer_norm.bias",
	"bart.encoder.layers.0.fc1.weight",
	"bart.encoder.layers.0.fc1.bias",
	"bart.encoder.layers.0.fc2.weight",
	"bart.encoder.layers.0.fc2.bias",
	"bart.encoder.layers.0.final_layer_norm.weight",
	"bart.encoder.layers.0.final_layer_norm.bias",
	"bart.encoder.layers.1.self_attn.k_proj.weight"
	]
	}