comethrusws commited on
Commit
da9a02e
·
verified ·
1 Parent(s): a4f7fd9

Upload config.json with huggingface_hub

Browse files
Files changed (1) hide show
  1. config.json +49 -49
config.json CHANGED
@@ -17,104 +17,104 @@
17
  "intermediate_size": 2688,
18
  "layer_norm_epsilon": 1e-05,
19
  "layers_block_type": [
20
- "mamba",
21
  "moe",
22
- "mamba",
23
  "moe",
24
- "mamba",
25
  "moe",
26
- "mamba",
27
  "attention",
28
  "moe",
29
- "mamba",
30
  "moe",
31
- "mamba",
32
  "moe",
33
- "mamba",
34
  "moe",
35
- "mamba",
36
  "attention",
37
  "moe",
38
- "mamba",
39
  "moe",
40
- "mamba",
41
  "moe",
42
- "mamba",
43
  "moe",
44
- "mamba",
45
  "attention",
46
  "moe",
47
- "mamba",
48
  "moe",
49
- "mamba",
50
  "moe",
51
- "mamba",
52
  "moe",
53
- "mamba",
54
  "moe",
55
- "mamba",
56
  "attention",
57
  "moe",
58
- "mamba",
59
  "moe",
60
- "mamba",
61
  "moe",
62
- "mamba",
63
  "moe",
64
- "mamba",
65
  "moe",
66
- "mamba",
67
  "attention",
68
  "moe",
69
- "mamba",
70
  "moe",
71
- "mamba",
72
  "moe",
73
- "mamba",
74
  "moe",
75
- "mamba",
76
  "moe",
77
- "mamba",
78
  "attention",
79
  "moe",
80
- "mamba",
81
  "moe",
82
- "mamba",
83
  "moe",
84
- "mamba",
85
  "moe",
86
- "mamba",
87
  "moe",
88
- "mamba",
89
  "attention",
90
  "moe",
91
- "mamba",
92
  "moe",
93
- "mamba",
94
  "moe",
95
- "mamba",
96
  "moe",
97
- "mamba",
98
  "attention",
99
  "moe",
100
- "mamba",
101
  "moe",
102
- "mamba",
103
  "moe",
104
- "mamba",
105
  "moe",
106
- "mamba",
107
  "moe"
108
  ],
109
- "mamba_head_dim": 64,
110
- "mamba_hidden_act": "silu",
111
- "mamba_num_heads": 128,
112
- "mamba_proj_bias": false,
113
- "mamba_ssm_cache_dtype": "float32",
114
  "max_position_embeddings": 262144,
115
  "mlp_bias": false,
116
  "mlp_hidden_act": "relu2",
117
- "model_name": "/model-cache/sage-magnus",
118
  "model_type": "sage",
119
  "moe_intermediate_size": 2688,
120
  "moe_latent_size": 1024,
@@ -159,7 +159,7 @@
159
  "use_bias": false,
160
  "use_cache": true,
161
  "use_conv_bias": true,
162
- "use_mamba_kernels": true,
163
  "vocab_size": 131072,
164
  "quantization_config": {
165
  "config_groups": {
@@ -224,9 +224,9 @@
224
  ],
225
  "quant_algo": "FP8",
226
  "producer": {
227
- "name": "modelopt",
228
  "version": "0.42.0"
229
  },
230
- "quant_method": "modelopt"
231
  }
232
  }
 
17
  "intermediate_size": 2688,
18
  "layer_norm_epsilon": 1e-05,
19
  "layers_block_type": [
20
+ "ssm",
21
  "moe",
22
+ "ssm",
23
  "moe",
24
+ "ssm",
25
  "moe",
26
+ "ssm",
27
  "attention",
28
  "moe",
29
+ "ssm",
30
  "moe",
31
+ "ssm",
32
  "moe",
33
+ "ssm",
34
  "moe",
35
+ "ssm",
36
  "attention",
37
  "moe",
38
+ "ssm",
39
  "moe",
40
+ "ssm",
41
  "moe",
42
+ "ssm",
43
  "moe",
44
+ "ssm",
45
  "attention",
46
  "moe",
47
+ "ssm",
48
  "moe",
49
+ "ssm",
50
  "moe",
51
+ "ssm",
52
  "moe",
53
+ "ssm",
54
  "moe",
55
+ "ssm",
56
  "attention",
57
  "moe",
58
+ "ssm",
59
  "moe",
60
+ "ssm",
61
  "moe",
62
+ "ssm",
63
  "moe",
64
+ "ssm",
65
  "moe",
66
+ "ssm",
67
  "attention",
68
  "moe",
69
+ "ssm",
70
  "moe",
71
+ "ssm",
72
  "moe",
73
+ "ssm",
74
  "moe",
75
+ "ssm",
76
  "moe",
77
+ "ssm",
78
  "attention",
79
  "moe",
80
+ "ssm",
81
  "moe",
82
+ "ssm",
83
  "moe",
84
+ "ssm",
85
  "moe",
86
+ "ssm",
87
  "moe",
88
+ "ssm",
89
  "attention",
90
  "moe",
91
+ "ssm",
92
  "moe",
93
+ "ssm",
94
  "moe",
95
+ "ssm",
96
  "moe",
97
+ "ssm",
98
  "attention",
99
  "moe",
100
+ "ssm",
101
  "moe",
102
+ "ssm",
103
  "moe",
104
+ "ssm",
105
  "moe",
106
+ "ssm",
107
  "moe"
108
  ],
109
+ "ssm_head_dim": 64,
110
+ "ssm_hidden_act": "silu",
111
+ "ssm_num_heads": 128,
112
+ "ssm_proj_bias": false,
113
+ "ssm_ssm_cache_dtype": "float32",
114
  "max_position_embeddings": 262144,
115
  "mlp_bias": false,
116
  "mlp_hidden_act": "relu2",
117
+ "model_name": "/model-cache/sage-120b",
118
  "model_type": "sage",
119
  "moe_intermediate_size": 2688,
120
  "moe_latent_size": 1024,
 
159
  "use_bias": false,
160
  "use_cache": true,
161
  "use_conv_bias": true,
162
+ "use_ssm_kernels": true,
163
  "vocab_size": 131072,
164
  "quantization_config": {
165
  "config_groups": {
 
224
  ],
225
  "quant_algo": "FP8",
226
  "producer": {
227
+ "name": "sagea_quant",
228
  "version": "0.42.0"
229
  },
230
+ "quant_method": "sagea_quant"
231
  }
232
  }