bert-base-squadv1 / layer_wise_sparsity_global_rate_0.00.md

Chua, Vui Seng

Add collaterals

d96569c over 4 years ago

27.9 kB

	layer_id	layer_type	param_type	shape	nparam	nnz
0	bert.embeddings.word_embeddings	Embedding	weight	[30522, 768]	23440896	23440896
1	bert.embeddings.position_embeddings	Embedding	weight	[512, 768]	393216	393216
2	bert.embeddings.token_type_embeddings	Embedding	weight	[2, 768]	1536	1536
3	bert.embeddings.LayerNorm	LayerNorm	weight	[768]	768	768
4	bert.embeddings.LayerNorm	LayerNorm	bias	[768]	768	768
5	bert.encoder.layer.0.attention.self.query	Linear	weight	[768, 768]	589824	589824
6	bert.encoder.layer.0.attention.self.query	Linear	bias	[768]	768	768
7	bert.encoder.layer.0.attention.self.key	Linear	weight	[768, 768]	589824	589824
8	bert.encoder.layer.0.attention.self.key	Linear	bias	[768]	768	768
9	bert.encoder.layer.0.attention.self.value	Linear	weight	[768, 768]	589824	589824
10	bert.encoder.layer.0.attention.self.value	Linear	bias	[768]	768	768
11	bert.encoder.layer.0.attention.output.dense	Linear	weight	[768, 768]	589824	589824
12	bert.encoder.layer.0.attention.output.dense	Linear	bias	[768]	768	768
13	bert.encoder.layer.0.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
14	bert.encoder.layer.0.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
15	bert.encoder.layer.0.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
16	bert.encoder.layer.0.intermediate.dense	Linear	bias	[3072]	3072	3072
17	bert.encoder.layer.0.output.dense	Linear	weight	[768, 3072]	2359296	2359296
18	bert.encoder.layer.0.output.dense	Linear	bias	[768]	768	768
19	bert.encoder.layer.0.output.LayerNorm	LayerNorm	weight	[768]	768	768
20	bert.encoder.layer.0.output.LayerNorm	LayerNorm	bias	[768]	768	768
21	bert.encoder.layer.1.attention.self.query	Linear	weight	[768, 768]	589824	589824
22	bert.encoder.layer.1.attention.self.query	Linear	bias	[768]	768	768
23	bert.encoder.layer.1.attention.self.key	Linear	weight	[768, 768]	589824	589824
24	bert.encoder.layer.1.attention.self.key	Linear	bias	[768]	768	768
25	bert.encoder.layer.1.attention.self.value	Linear	weight	[768, 768]	589824	589824
26	bert.encoder.layer.1.attention.self.value	Linear	bias	[768]	768	768
27	bert.encoder.layer.1.attention.output.dense	Linear	weight	[768, 768]	589824	589824
28	bert.encoder.layer.1.attention.output.dense	Linear	bias	[768]	768	768
29	bert.encoder.layer.1.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
30	bert.encoder.layer.1.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
31	bert.encoder.layer.1.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
32	bert.encoder.layer.1.intermediate.dense	Linear	bias	[3072]	3072	3072
33	bert.encoder.layer.1.output.dense	Linear	weight	[768, 3072]	2359296	2359296
34	bert.encoder.layer.1.output.dense	Linear	bias	[768]	768	768
35	bert.encoder.layer.1.output.LayerNorm	LayerNorm	weight	[768]	768	768
36	bert.encoder.layer.1.output.LayerNorm	LayerNorm	bias	[768]	768	768
37	bert.encoder.layer.2.attention.self.query	Linear	weight	[768, 768]	589824	589824
38	bert.encoder.layer.2.attention.self.query	Linear	bias	[768]	768	768
39	bert.encoder.layer.2.attention.self.key	Linear	weight	[768, 768]	589824	589824
40	bert.encoder.layer.2.attention.self.key	Linear	bias	[768]	768	768
41	bert.encoder.layer.2.attention.self.value	Linear	weight	[768, 768]	589824	589824
42	bert.encoder.layer.2.attention.self.value	Linear	bias	[768]	768	768
43	bert.encoder.layer.2.attention.output.dense	Linear	weight	[768, 768]	589824	589824
44	bert.encoder.layer.2.attention.output.dense	Linear	bias	[768]	768	768
45	bert.encoder.layer.2.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
46	bert.encoder.layer.2.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
47	bert.encoder.layer.2.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
48	bert.encoder.layer.2.intermediate.dense	Linear	bias	[3072]	3072	3072
49	bert.encoder.layer.2.output.dense	Linear	weight	[768, 3072]	2359296	2359296
50	bert.encoder.layer.2.output.dense	Linear	bias	[768]	768	768
51	bert.encoder.layer.2.output.LayerNorm	LayerNorm	weight	[768]	768	768
52	bert.encoder.layer.2.output.LayerNorm	LayerNorm	bias	[768]	768	768
53	bert.encoder.layer.3.attention.self.query	Linear	weight	[768, 768]	589824	589824
54	bert.encoder.layer.3.attention.self.query	Linear	bias	[768]	768	768
55	bert.encoder.layer.3.attention.self.key	Linear	weight	[768, 768]	589824	589824
56	bert.encoder.layer.3.attention.self.key	Linear	bias	[768]	768	768
57	bert.encoder.layer.3.attention.self.value	Linear	weight	[768, 768]	589824	589824
58	bert.encoder.layer.3.attention.self.value	Linear	bias	[768]	768	768
59	bert.encoder.layer.3.attention.output.dense	Linear	weight	[768, 768]	589824	589824
60	bert.encoder.layer.3.attention.output.dense	Linear	bias	[768]	768	768
61	bert.encoder.layer.3.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
62	bert.encoder.layer.3.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
63	bert.encoder.layer.3.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
64	bert.encoder.layer.3.intermediate.dense	Linear	bias	[3072]	3072	3072
65	bert.encoder.layer.3.output.dense	Linear	weight	[768, 3072]	2359296	2359296
66	bert.encoder.layer.3.output.dense	Linear	bias	[768]	768	768
67	bert.encoder.layer.3.output.LayerNorm	LayerNorm	weight	[768]	768	768
68	bert.encoder.layer.3.output.LayerNorm	LayerNorm	bias	[768]	768	768
69	bert.encoder.layer.4.attention.self.query	Linear	weight	[768, 768]	589824	589824
70	bert.encoder.layer.4.attention.self.query	Linear	bias	[768]	768	768
71	bert.encoder.layer.4.attention.self.key	Linear	weight	[768, 768]	589824	589824
72	bert.encoder.layer.4.attention.self.key	Linear	bias	[768]	768	768
73	bert.encoder.layer.4.attention.self.value	Linear	weight	[768, 768]	589824	589824
74	bert.encoder.layer.4.attention.self.value	Linear	bias	[768]	768	768
75	bert.encoder.layer.4.attention.output.dense	Linear	weight	[768, 768]	589824	589824
76	bert.encoder.layer.4.attention.output.dense	Linear	bias	[768]	768	768
77	bert.encoder.layer.4.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
78	bert.encoder.layer.4.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
79	bert.encoder.layer.4.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
80	bert.encoder.layer.4.intermediate.dense	Linear	bias	[3072]	3072	3072
81	bert.encoder.layer.4.output.dense	Linear	weight	[768, 3072]	2359296	2359296
82	bert.encoder.layer.4.output.dense	Linear	bias	[768]	768	768
83	bert.encoder.layer.4.output.LayerNorm	LayerNorm	weight	[768]	768	768
84	bert.encoder.layer.4.output.LayerNorm	LayerNorm	bias	[768]	768	768
85	bert.encoder.layer.5.attention.self.query	Linear	weight	[768, 768]	589824	589824
86	bert.encoder.layer.5.attention.self.query	Linear	bias	[768]	768	768
87	bert.encoder.layer.5.attention.self.key	Linear	weight	[768, 768]	589824	589824
88	bert.encoder.layer.5.attention.self.key	Linear	bias	[768]	768	768
89	bert.encoder.layer.5.attention.self.value	Linear	weight	[768, 768]	589824	589824
90	bert.encoder.layer.5.attention.self.value	Linear	bias	[768]	768	768
91	bert.encoder.layer.5.attention.output.dense	Linear	weight	[768, 768]	589824	589824
92	bert.encoder.layer.5.attention.output.dense	Linear	bias	[768]	768	768
93	bert.encoder.layer.5.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
94	bert.encoder.layer.5.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
95	bert.encoder.layer.5.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
96	bert.encoder.layer.5.intermediate.dense	Linear	bias	[3072]	3072	3072
97	bert.encoder.layer.5.output.dense	Linear	weight	[768, 3072]	2359296	2359296
98	bert.encoder.layer.5.output.dense	Linear	bias	[768]	768	768
99	bert.encoder.layer.5.output.LayerNorm	LayerNorm	weight	[768]	768	768
100	bert.encoder.layer.5.output.LayerNorm	LayerNorm	bias	[768]	768	768
101	bert.encoder.layer.6.attention.self.query	Linear	weight	[768, 768]	589824	589824
102	bert.encoder.layer.6.attention.self.query	Linear	bias	[768]	768	768
103	bert.encoder.layer.6.attention.self.key	Linear	weight	[768, 768]	589824	589824
104	bert.encoder.layer.6.attention.self.key	Linear	bias	[768]	768	768
105	bert.encoder.layer.6.attention.self.value	Linear	weight	[768, 768]	589824	589824
106	bert.encoder.layer.6.attention.self.value	Linear	bias	[768]	768	768
107	bert.encoder.layer.6.attention.output.dense	Linear	weight	[768, 768]	589824	589824
108	bert.encoder.layer.6.attention.output.dense	Linear	bias	[768]	768	768
109	bert.encoder.layer.6.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
110	bert.encoder.layer.6.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
111	bert.encoder.layer.6.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
112	bert.encoder.layer.6.intermediate.dense	Linear	bias	[3072]	3072	3072
113	bert.encoder.layer.6.output.dense	Linear	weight	[768, 3072]	2359296	2359296
114	bert.encoder.layer.6.output.dense	Linear	bias	[768]	768	768
115	bert.encoder.layer.6.output.LayerNorm	LayerNorm	weight	[768]	768	768
116	bert.encoder.layer.6.output.LayerNorm	LayerNorm	bias	[768]	768	768
117	bert.encoder.layer.7.attention.self.query	Linear	weight	[768, 768]	589824	589824
118	bert.encoder.layer.7.attention.self.query	Linear	bias	[768]	768	768
119	bert.encoder.layer.7.attention.self.key	Linear	weight	[768, 768]	589824	589824
120	bert.encoder.layer.7.attention.self.key	Linear	bias	[768]	768	768
121	bert.encoder.layer.7.attention.self.value	Linear	weight	[768, 768]	589824	589824
122	bert.encoder.layer.7.attention.self.value	Linear	bias	[768]	768	768
123	bert.encoder.layer.7.attention.output.dense	Linear	weight	[768, 768]	589824	589824
124	bert.encoder.layer.7.attention.output.dense	Linear	bias	[768]	768	768
125	bert.encoder.layer.7.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
126	bert.encoder.layer.7.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
127	bert.encoder.layer.7.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
128	bert.encoder.layer.7.intermediate.dense	Linear	bias	[3072]	3072	3072
129	bert.encoder.layer.7.output.dense	Linear	weight	[768, 3072]	2359296	2359296
130	bert.encoder.layer.7.output.dense	Linear	bias	[768]	768	768
131	bert.encoder.layer.7.output.LayerNorm	LayerNorm	weight	[768]	768	768
132	bert.encoder.layer.7.output.LayerNorm	LayerNorm	bias	[768]	768	768
133	bert.encoder.layer.8.attention.self.query	Linear	weight	[768, 768]	589824	589824
134	bert.encoder.layer.8.attention.self.query	Linear	bias	[768]	768	768
135	bert.encoder.layer.8.attention.self.key	Linear	weight	[768, 768]	589824	589824
136	bert.encoder.layer.8.attention.self.key	Linear	bias	[768]	768	768
137	bert.encoder.layer.8.attention.self.value	Linear	weight	[768, 768]	589824	589824
138	bert.encoder.layer.8.attention.self.value	Linear	bias	[768]	768	768
139	bert.encoder.layer.8.attention.output.dense	Linear	weight	[768, 768]	589824	589824
140	bert.encoder.layer.8.attention.output.dense	Linear	bias	[768]	768	768
141	bert.encoder.layer.8.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
142	bert.encoder.layer.8.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
143	bert.encoder.layer.8.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
144	bert.encoder.layer.8.intermediate.dense	Linear	bias	[3072]	3072	3072
145	bert.encoder.layer.8.output.dense	Linear	weight	[768, 3072]	2359296	2359296
146	bert.encoder.layer.8.output.dense	Linear	bias	[768]	768	768
147	bert.encoder.layer.8.output.LayerNorm	LayerNorm	weight	[768]	768	768
148	bert.encoder.layer.8.output.LayerNorm	LayerNorm	bias	[768]	768	768
149	bert.encoder.layer.9.attention.self.query	Linear	weight	[768, 768]	589824	589824
150	bert.encoder.layer.9.attention.self.query	Linear	bias	[768]	768	768
151	bert.encoder.layer.9.attention.self.key	Linear	weight	[768, 768]	589824	589824
152	bert.encoder.layer.9.attention.self.key	Linear	bias	[768]	768	768
153	bert.encoder.layer.9.attention.self.value	Linear	weight	[768, 768]	589824	589824
154	bert.encoder.layer.9.attention.self.value	Linear	bias	[768]	768	768
155	bert.encoder.layer.9.attention.output.dense	Linear	weight	[768, 768]	589824	589824
156	bert.encoder.layer.9.attention.output.dense	Linear	bias	[768]	768	768
157	bert.encoder.layer.9.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
158	bert.encoder.layer.9.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
159	bert.encoder.layer.9.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
160	bert.encoder.layer.9.intermediate.dense	Linear	bias	[3072]	3072	3072
161	bert.encoder.layer.9.output.dense	Linear	weight	[768, 3072]	2359296	2359296
162	bert.encoder.layer.9.output.dense	Linear	bias	[768]	768	768
163	bert.encoder.layer.9.output.LayerNorm	LayerNorm	weight	[768]	768	768
164	bert.encoder.layer.9.output.LayerNorm	LayerNorm	bias	[768]	768	768
165	bert.encoder.layer.10.attention.self.query	Linear	weight	[768, 768]	589824	589824
166	bert.encoder.layer.10.attention.self.query	Linear	bias	[768]	768	768
167	bert.encoder.layer.10.attention.self.key	Linear	weight	[768, 768]	589824	589824
168	bert.encoder.layer.10.attention.self.key	Linear	bias	[768]	768	768
169	bert.encoder.layer.10.attention.self.value	Linear	weight	[768, 768]	589824	589824
170	bert.encoder.layer.10.attention.self.value	Linear	bias	[768]	768	768
171	bert.encoder.layer.10.attention.output.dense	Linear	weight	[768, 768]	589824	589824
172	bert.encoder.layer.10.attention.output.dense	Linear	bias	[768]	768	768
173	bert.encoder.layer.10.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
174	bert.encoder.layer.10.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
175	bert.encoder.layer.10.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
176	bert.encoder.layer.10.intermediate.dense	Linear	bias	[3072]	3072	3072
177	bert.encoder.layer.10.output.dense	Linear	weight	[768, 3072]	2359296	2359296
178	bert.encoder.layer.10.output.dense	Linear	bias	[768]	768	768
179	bert.encoder.layer.10.output.LayerNorm	LayerNorm	weight	[768]	768	768
180	bert.encoder.layer.10.output.LayerNorm	LayerNorm	bias	[768]	768	768
181	bert.encoder.layer.11.attention.self.query	Linear	weight	[768, 768]	589824	589824
182	bert.encoder.layer.11.attention.self.query	Linear	bias	[768]	768	768
183	bert.encoder.layer.11.attention.self.key	Linear	weight	[768, 768]	589824	589824
184	bert.encoder.layer.11.attention.self.key	Linear	bias	[768]	768	768
185	bert.encoder.layer.11.attention.self.value	Linear	weight	[768, 768]	589824	589824
186	bert.encoder.layer.11.attention.self.value	Linear	bias	[768]	768	768
187	bert.encoder.layer.11.attention.output.dense	Linear	weight	[768, 768]	589824	589824
188	bert.encoder.layer.11.attention.output.dense	Linear	bias	[768]	768	768
189	bert.encoder.layer.11.attention.output.LayerNorm	LayerNorm	weight	[768]	768	768
190	bert.encoder.layer.11.attention.output.LayerNorm	LayerNorm	bias	[768]	768	768
191	bert.encoder.layer.11.intermediate.dense	Linear	weight	[3072, 768]	2359296	2359296
192	bert.encoder.layer.11.intermediate.dense	Linear	bias	[3072]	3072	3072
193	bert.encoder.layer.11.output.dense	Linear	weight	[768, 3072]	2359296	2359296
194	bert.encoder.layer.11.output.dense	Linear	bias	[768]	768	768
195	bert.encoder.layer.11.output.LayerNorm	LayerNorm	weight	[768]	768	768
196	bert.encoder.layer.11.output.LayerNorm	LayerNorm	bias	[768]	768	768
197	qa_outputs	Linear	weight	[2, 768]	1536	1536
198	qa_outputs	Linear	bias	[2]	2	2