mkleinegger commited on
Commit
20f6579
·
verified ·
1 Parent(s): da72c26

Upload folder using huggingface_hub

Browse files
This view is limited to 50 files because it contains too many changes.   See raw diff
Files changed (50) hide show
  1. evo-kl-configuration-2.5-v2.txt +224 -0
  2. evo-kl-configuration-2.75-v2.txt +224 -0
  3. evo-kl-configuration-3.0-v2.txt +224 -0
  4. evo-kl-configuration-3.25-v2.txt +224 -0
  5. evo-kl-configuration-3.5-v2.txt +224 -0
  6. evo-kl-configuration-3.75-v2.txt +224 -0
  7. model.layers.0.mlp.down_proj/data.pt +3 -0
  8. model.layers.0.mlp.gate_proj/data.pt +3 -0
  9. model.layers.0.mlp.up_proj/data.pt +3 -0
  10. model.layers.0.self_attn.k_proj/data.pt +3 -0
  11. model.layers.0.self_attn.o_proj/data.pt +3 -0
  12. model.layers.0.self_attn.q_proj/data.pt +3 -0
  13. model.layers.0.self_attn.v_proj/data.pt +3 -0
  14. model.layers.1.mlp.down_proj/data.pt +3 -0
  15. model.layers.1.mlp.gate_proj/data.pt +3 -0
  16. model.layers.1.mlp.up_proj/data.pt +3 -0
  17. model.layers.1.self_attn.k_proj/data.pt +3 -0
  18. model.layers.1.self_attn.o_proj/data.pt +3 -0
  19. model.layers.1.self_attn.q_proj/data.pt +3 -0
  20. model.layers.1.self_attn.v_proj/data.pt +3 -0
  21. model.layers.10.mlp.down_proj/data.pt +3 -0
  22. model.layers.10.mlp.gate_proj/data.pt +3 -0
  23. model.layers.10.mlp.up_proj/data.pt +3 -0
  24. model.layers.10.self_attn.k_proj/data.pt +3 -0
  25. model.layers.10.self_attn.o_proj/data.pt +3 -0
  26. model.layers.10.self_attn.q_proj/data.pt +3 -0
  27. model.layers.10.self_attn.v_proj/data.pt +3 -0
  28. model.layers.11.mlp.down_proj/data.pt +3 -0
  29. model.layers.11.mlp.gate_proj/data.pt +3 -0
  30. model.layers.11.mlp.up_proj/data.pt +3 -0
  31. model.layers.11.self_attn.k_proj/data.pt +3 -0
  32. model.layers.11.self_attn.o_proj/data.pt +3 -0
  33. model.layers.11.self_attn.q_proj/data.pt +3 -0
  34. model.layers.11.self_attn.v_proj/data.pt +3 -0
  35. model.layers.12.mlp.down_proj/data.pt +3 -0
  36. model.layers.12.mlp.gate_proj/data.pt +3 -0
  37. model.layers.12.mlp.up_proj/data.pt +3 -0
  38. model.layers.12.self_attn.k_proj/data.pt +3 -0
  39. model.layers.12.self_attn.o_proj/data.pt +3 -0
  40. model.layers.12.self_attn.q_proj/data.pt +3 -0
  41. model.layers.12.self_attn.v_proj/data.pt +3 -0
  42. model.layers.13.mlp.down_proj/data.pt +3 -0
  43. model.layers.13.mlp.gate_proj/data.pt +3 -0
  44. model.layers.13.mlp.up_proj/data.pt +3 -0
  45. model.layers.13.self_attn.k_proj/data.pt +3 -0
  46. model.layers.13.self_attn.o_proj/data.pt +3 -0
  47. model.layers.13.self_attn.q_proj/data.pt +3 -0
  48. model.layers.13.self_attn.v_proj/data.pt +3 -0
  49. model.layers.14.mlp.down_proj/data.pt +3 -0
  50. model.layers.14.mlp.gate_proj/data.pt +3 -0
evo-kl-configuration-2.5-v2.txt ADDED
@@ -0,0 +1,224 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model.layers.0.mlp.down_proj: 4
2
+ model.layers.0.mlp.gate_proj: 2
3
+ model.layers.0.mlp.up_proj: 3
4
+ model.layers.1.mlp.down_proj: 4
5
+ model.layers.1.mlp.gate_proj: 3
6
+ model.layers.1.mlp.up_proj: 3
7
+ model.layers.2.mlp.down_proj: 3
8
+ model.layers.2.mlp.gate_proj: 2
9
+ model.layers.2.mlp.up_proj: 3
10
+ model.layers.3.mlp.down_proj: 3
11
+ model.layers.3.mlp.gate_proj: 2
12
+ model.layers.3.mlp.up_proj: 3
13
+ model.layers.4.mlp.down_proj: 3
14
+ model.layers.4.mlp.gate_proj: 2
15
+ model.layers.4.mlp.up_proj: 3
16
+ model.layers.5.mlp.down_proj: 3
17
+ model.layers.5.mlp.gate_proj: 2
18
+ model.layers.5.mlp.up_proj: 3
19
+ model.layers.6.mlp.down_proj: 3
20
+ model.layers.6.mlp.gate_proj: 2
21
+ model.layers.6.mlp.up_proj: 3
22
+ model.layers.7.mlp.down_proj: 3
23
+ model.layers.7.mlp.gate_proj: 2
24
+ model.layers.7.mlp.up_proj: 2
25
+ model.layers.8.mlp.down_proj: 3
26
+ model.layers.8.mlp.gate_proj: 2
27
+ model.layers.8.mlp.up_proj: 3
28
+ model.layers.9.mlp.down_proj: 3
29
+ model.layers.9.mlp.gate_proj: 2
30
+ model.layers.9.mlp.up_proj: 3
31
+ model.layers.10.mlp.down_proj: 2
32
+ model.layers.10.mlp.gate_proj: 2
33
+ model.layers.10.mlp.up_proj: 3
34
+ model.layers.11.mlp.down_proj: 2
35
+ model.layers.11.mlp.gate_proj: 2
36
+ model.layers.11.mlp.up_proj: 2
37
+ model.layers.12.mlp.down_proj: 3
38
+ model.layers.12.mlp.gate_proj: 2
39
+ model.layers.12.mlp.up_proj: 2
40
+ model.layers.13.mlp.down_proj: 3
41
+ model.layers.13.mlp.gate_proj: 3
42
+ model.layers.13.mlp.up_proj: 3
43
+ model.layers.14.mlp.down_proj: 3
44
+ model.layers.14.mlp.gate_proj: 2
45
+ model.layers.14.mlp.up_proj: 3
46
+ model.layers.15.mlp.down_proj: 3
47
+ model.layers.15.mlp.gate_proj: 2
48
+ model.layers.15.mlp.up_proj: 3
49
+ model.layers.16.mlp.down_proj: 3
50
+ model.layers.16.mlp.gate_proj: 2
51
+ model.layers.16.mlp.up_proj: 3
52
+ model.layers.17.mlp.down_proj: 3
53
+ model.layers.17.mlp.gate_proj: 2
54
+ model.layers.17.mlp.up_proj: 3
55
+ model.layers.18.mlp.down_proj: 3
56
+ model.layers.18.mlp.gate_proj: 2
57
+ model.layers.18.mlp.up_proj: 3
58
+ model.layers.19.mlp.down_proj: 2
59
+ model.layers.19.mlp.gate_proj: 2
60
+ model.layers.19.mlp.up_proj: 3
61
+ model.layers.20.mlp.down_proj: 2
62
+ model.layers.20.mlp.gate_proj: 2
63
+ model.layers.20.mlp.up_proj: 2
64
+ model.layers.21.mlp.down_proj: 3
65
+ model.layers.21.mlp.gate_proj: 2
66
+ model.layers.21.mlp.up_proj: 2
67
+ model.layers.22.mlp.down_proj: 2
68
+ model.layers.22.mlp.gate_proj: 2
69
+ model.layers.22.mlp.up_proj: 2
70
+ model.layers.23.mlp.down_proj: 2
71
+ model.layers.23.mlp.gate_proj: 2
72
+ model.layers.23.mlp.up_proj: 2
73
+ model.layers.24.mlp.down_proj: 2
74
+ model.layers.24.mlp.gate_proj: 2
75
+ model.layers.24.mlp.up_proj: 3
76
+ model.layers.25.mlp.down_proj: 2
77
+ model.layers.25.mlp.gate_proj: 2
78
+ model.layers.25.mlp.up_proj: 2
79
+ model.layers.26.mlp.down_proj: 2
80
+ model.layers.26.mlp.gate_proj: 2
81
+ model.layers.26.mlp.up_proj: 2
82
+ model.layers.27.mlp.down_proj: 2
83
+ model.layers.27.mlp.gate_proj: 3
84
+ model.layers.27.mlp.up_proj: 2
85
+ model.layers.28.mlp.down_proj: 2
86
+ model.layers.28.mlp.gate_proj: 2
87
+ model.layers.28.mlp.up_proj: 2
88
+ model.layers.29.mlp.down_proj: 2
89
+ model.layers.29.mlp.gate_proj: 2
90
+ model.layers.29.mlp.up_proj: 2
91
+ model.layers.30.mlp.down_proj: 3
92
+ model.layers.30.mlp.gate_proj: 2
93
+ model.layers.30.mlp.up_proj: 2
94
+ model.layers.31.mlp.down_proj: 3
95
+ model.layers.31.mlp.gate_proj: 2
96
+ model.layers.31.mlp.up_proj: 3
97
+ model.layers.0.self_attn.k_proj: 2
98
+ model.layers.0.self_attn.v_proj: 3
99
+ model.layers.1.self_attn.k_proj: 3
100
+ model.layers.1.self_attn.v_proj: 6
101
+ model.layers.2.self_attn.k_proj: 3
102
+ model.layers.2.self_attn.v_proj: 3
103
+ model.layers.3.self_attn.k_proj: 3
104
+ model.layers.3.self_attn.v_proj: 2
105
+ model.layers.4.self_attn.k_proj: 3
106
+ model.layers.4.self_attn.v_proj: 3
107
+ model.layers.5.self_attn.k_proj: 3
108
+ model.layers.5.self_attn.v_proj: 3
109
+ model.layers.6.self_attn.k_proj: 3
110
+ model.layers.6.self_attn.v_proj: 3
111
+ model.layers.7.self_attn.k_proj: 3
112
+ model.layers.7.self_attn.v_proj: 2
113
+ model.layers.8.self_attn.k_proj: 3
114
+ model.layers.8.self_attn.v_proj: 3
115
+ model.layers.9.self_attn.k_proj: 3
116
+ model.layers.9.self_attn.v_proj: 3
117
+ model.layers.10.self_attn.k_proj: 3
118
+ model.layers.10.self_attn.v_proj: 3
119
+ model.layers.11.self_attn.k_proj: 3
120
+ model.layers.11.self_attn.v_proj: 3
121
+ model.layers.12.self_attn.k_proj: 2
122
+ model.layers.12.self_attn.v_proj: 3
123
+ model.layers.13.self_attn.k_proj: 3
124
+ model.layers.13.self_attn.v_proj: 3
125
+ model.layers.14.self_attn.k_proj: 3
126
+ model.layers.14.self_attn.v_proj: 2
127
+ model.layers.15.self_attn.k_proj: 3
128
+ model.layers.15.self_attn.v_proj: 3
129
+ model.layers.16.self_attn.k_proj: 2
130
+ model.layers.16.self_attn.v_proj: 3
131
+ model.layers.17.self_attn.k_proj: 2
132
+ model.layers.17.self_attn.v_proj: 3
133
+ model.layers.18.self_attn.k_proj: 2
134
+ model.layers.18.self_attn.v_proj: 3
135
+ model.layers.19.self_attn.k_proj: 2
136
+ model.layers.19.self_attn.v_proj: 2
137
+ model.layers.20.self_attn.k_proj: 2
138
+ model.layers.20.self_attn.v_proj: 2
139
+ model.layers.21.self_attn.k_proj: 2
140
+ model.layers.21.self_attn.v_proj: 3
141
+ model.layers.22.self_attn.k_proj: 2
142
+ model.layers.22.self_attn.v_proj: 2
143
+ model.layers.23.self_attn.k_proj: 2
144
+ model.layers.23.self_attn.v_proj: 2
145
+ model.layers.24.self_attn.k_proj: 2
146
+ model.layers.24.self_attn.v_proj: 2
147
+ model.layers.25.self_attn.k_proj: 2
148
+ model.layers.25.self_attn.v_proj: 2
149
+ model.layers.26.self_attn.k_proj: 2
150
+ model.layers.26.self_attn.v_proj: 2
151
+ model.layers.27.self_attn.k_proj: 2
152
+ model.layers.27.self_attn.v_proj: 2
153
+ model.layers.28.self_attn.k_proj: 2
154
+ model.layers.28.self_attn.v_proj: 2
155
+ model.layers.29.self_attn.k_proj: 2
156
+ model.layers.29.self_attn.v_proj: 2
157
+ model.layers.30.self_attn.k_proj: 2
158
+ model.layers.30.self_attn.v_proj: 2
159
+ model.layers.31.self_attn.k_proj: 3
160
+ model.layers.31.self_attn.v_proj: 3
161
+ model.layers.0.self_attn.o_proj: 3
162
+ model.layers.0.self_attn.q_proj: 2
163
+ model.layers.1.self_attn.o_proj: 3
164
+ model.layers.1.self_attn.q_proj: 2
165
+ model.layers.2.self_attn.o_proj: 3
166
+ model.layers.2.self_attn.q_proj: 3
167
+ model.layers.3.self_attn.o_proj: 3
168
+ model.layers.3.self_attn.q_proj: 4
169
+ model.layers.4.self_attn.o_proj: 4
170
+ model.layers.4.self_attn.q_proj: 3
171
+ model.layers.5.self_attn.o_proj: 3
172
+ model.layers.5.self_attn.q_proj: 3
173
+ model.layers.6.self_attn.o_proj: 3
174
+ model.layers.6.self_attn.q_proj: 3
175
+ model.layers.7.self_attn.o_proj: 3
176
+ model.layers.7.self_attn.q_proj: 3
177
+ model.layers.8.self_attn.o_proj: 3
178
+ model.layers.8.self_attn.q_proj: 3
179
+ model.layers.9.self_attn.o_proj: 4
180
+ model.layers.9.self_attn.q_proj: 3
181
+ model.layers.10.self_attn.o_proj: 3
182
+ model.layers.10.self_attn.q_proj: 3
183
+ model.layers.11.self_attn.o_proj: 3
184
+ model.layers.11.self_attn.q_proj: 3
185
+ model.layers.12.self_attn.o_proj: 3
186
+ model.layers.12.self_attn.q_proj: 2
187
+ model.layers.13.self_attn.o_proj: 3
188
+ model.layers.13.self_attn.q_proj: 2
189
+ model.layers.14.self_attn.o_proj: 3
190
+ model.layers.14.self_attn.q_proj: 3
191
+ model.layers.15.self_attn.o_proj: 3
192
+ model.layers.15.self_attn.q_proj: 3
193
+ model.layers.16.self_attn.o_proj: 3
194
+ model.layers.16.self_attn.q_proj: 3
195
+ model.layers.17.self_attn.o_proj: 3
196
+ model.layers.17.self_attn.q_proj: 2
197
+ model.layers.18.self_attn.o_proj: 2
198
+ model.layers.18.self_attn.q_proj: 2
199
+ model.layers.19.self_attn.o_proj: 2
200
+ model.layers.19.self_attn.q_proj: 3
201
+ model.layers.20.self_attn.o_proj: 2
202
+ model.layers.20.self_attn.q_proj: 2
203
+ model.layers.21.self_attn.o_proj: 3
204
+ model.layers.21.self_attn.q_proj: 2
205
+ model.layers.22.self_attn.o_proj: 3
206
+ model.layers.22.self_attn.q_proj: 2
207
+ model.layers.23.self_attn.o_proj: 2
208
+ model.layers.23.self_attn.q_proj: 2
209
+ model.layers.24.self_attn.o_proj: 2
210
+ model.layers.24.self_attn.q_proj: 2
211
+ model.layers.25.self_attn.o_proj: 2
212
+ model.layers.25.self_attn.q_proj: 2
213
+ model.layers.26.self_attn.o_proj: 2
214
+ model.layers.26.self_attn.q_proj: 2
215
+ model.layers.27.self_attn.o_proj: 3
216
+ model.layers.27.self_attn.q_proj: 2
217
+ model.layers.28.self_attn.o_proj: 2
218
+ model.layers.28.self_attn.q_proj: 2
219
+ model.layers.29.self_attn.o_proj: 2
220
+ model.layers.29.self_attn.q_proj: 3
221
+ model.layers.30.self_attn.o_proj: 3
222
+ model.layers.30.self_attn.q_proj: 2
223
+ model.layers.31.self_attn.o_proj: 3
224
+ model.layers.31.self_attn.q_proj: 2
evo-kl-configuration-2.75-v2.txt ADDED
@@ -0,0 +1,224 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model.layers.0.mlp.down_proj: 3
2
+ model.layers.0.mlp.gate_proj: 3
3
+ model.layers.0.mlp.up_proj: 3
4
+ model.layers.1.mlp.down_proj: 4
5
+ model.layers.1.mlp.gate_proj: 2
6
+ model.layers.1.mlp.up_proj: 3
7
+ model.layers.2.mlp.down_proj: 3
8
+ model.layers.2.mlp.gate_proj: 2
9
+ model.layers.2.mlp.up_proj: 3
10
+ model.layers.3.mlp.down_proj: 3
11
+ model.layers.3.mlp.gate_proj: 2
12
+ model.layers.3.mlp.up_proj: 3
13
+ model.layers.4.mlp.down_proj: 3
14
+ model.layers.4.mlp.gate_proj: 3
15
+ model.layers.4.mlp.up_proj: 3
16
+ model.layers.5.mlp.down_proj: 3
17
+ model.layers.5.mlp.gate_proj: 2
18
+ model.layers.5.mlp.up_proj: 3
19
+ model.layers.6.mlp.down_proj: 3
20
+ model.layers.6.mlp.gate_proj: 2
21
+ model.layers.6.mlp.up_proj: 3
22
+ model.layers.7.mlp.down_proj: 3
23
+ model.layers.7.mlp.gate_proj: 3
24
+ model.layers.7.mlp.up_proj: 3
25
+ model.layers.8.mlp.down_proj: 3
26
+ model.layers.8.mlp.gate_proj: 3
27
+ model.layers.8.mlp.up_proj: 3
28
+ model.layers.9.mlp.down_proj: 3
29
+ model.layers.9.mlp.gate_proj: 2
30
+ model.layers.9.mlp.up_proj: 3
31
+ model.layers.10.mlp.down_proj: 3
32
+ model.layers.10.mlp.gate_proj: 2
33
+ model.layers.10.mlp.up_proj: 3
34
+ model.layers.11.mlp.down_proj: 3
35
+ model.layers.11.mlp.gate_proj: 2
36
+ model.layers.11.mlp.up_proj: 3
37
+ model.layers.12.mlp.down_proj: 3
38
+ model.layers.12.mlp.gate_proj: 3
39
+ model.layers.12.mlp.up_proj: 3
40
+ model.layers.13.mlp.down_proj: 3
41
+ model.layers.13.mlp.gate_proj: 2
42
+ model.layers.13.mlp.up_proj: 3
43
+ model.layers.14.mlp.down_proj: 3
44
+ model.layers.14.mlp.gate_proj: 3
45
+ model.layers.14.mlp.up_proj: 3
46
+ model.layers.15.mlp.down_proj: 3
47
+ model.layers.15.mlp.gate_proj: 2
48
+ model.layers.15.mlp.up_proj: 3
49
+ model.layers.16.mlp.down_proj: 3
50
+ model.layers.16.mlp.gate_proj: 2
51
+ model.layers.16.mlp.up_proj: 3
52
+ model.layers.17.mlp.down_proj: 3
53
+ model.layers.17.mlp.gate_proj: 2
54
+ model.layers.17.mlp.up_proj: 3
55
+ model.layers.18.mlp.down_proj: 3
56
+ model.layers.18.mlp.gate_proj: 2
57
+ model.layers.18.mlp.up_proj: 3
58
+ model.layers.19.mlp.down_proj: 3
59
+ model.layers.19.mlp.gate_proj: 2
60
+ model.layers.19.mlp.up_proj: 3
61
+ model.layers.20.mlp.down_proj: 3
62
+ model.layers.20.mlp.gate_proj: 2
63
+ model.layers.20.mlp.up_proj: 3
64
+ model.layers.21.mlp.down_proj: 3
65
+ model.layers.21.mlp.gate_proj: 3
66
+ model.layers.21.mlp.up_proj: 3
67
+ model.layers.22.mlp.down_proj: 3
68
+ model.layers.22.mlp.gate_proj: 2
69
+ model.layers.22.mlp.up_proj: 3
70
+ model.layers.23.mlp.down_proj: 3
71
+ model.layers.23.mlp.gate_proj: 2
72
+ model.layers.23.mlp.up_proj: 3
73
+ model.layers.24.mlp.down_proj: 2
74
+ model.layers.24.mlp.gate_proj: 2
75
+ model.layers.24.mlp.up_proj: 3
76
+ model.layers.25.mlp.down_proj: 3
77
+ model.layers.25.mlp.gate_proj: 2
78
+ model.layers.25.mlp.up_proj: 3
79
+ model.layers.26.mlp.down_proj: 2
80
+ model.layers.26.mlp.gate_proj: 2
81
+ model.layers.26.mlp.up_proj: 2
82
+ model.layers.27.mlp.down_proj: 3
83
+ model.layers.27.mlp.gate_proj: 3
84
+ model.layers.27.mlp.up_proj: 3
85
+ model.layers.28.mlp.down_proj: 3
86
+ model.layers.28.mlp.gate_proj: 2
87
+ model.layers.28.mlp.up_proj: 2
88
+ model.layers.29.mlp.down_proj: 3
89
+ model.layers.29.mlp.gate_proj: 2
90
+ model.layers.29.mlp.up_proj: 2
91
+ model.layers.30.mlp.down_proj: 3
92
+ model.layers.30.mlp.gate_proj: 3
93
+ model.layers.30.mlp.up_proj: 3
94
+ model.layers.31.mlp.down_proj: 3
95
+ model.layers.31.mlp.gate_proj: 2
96
+ model.layers.31.mlp.up_proj: 3
97
+ model.layers.0.self_attn.k_proj: 3
98
+ model.layers.0.self_attn.v_proj: 3
99
+ model.layers.1.self_attn.k_proj: 3
100
+ model.layers.1.self_attn.v_proj: 6
101
+ model.layers.2.self_attn.k_proj: 3
102
+ model.layers.2.self_attn.v_proj: 3
103
+ model.layers.3.self_attn.k_proj: 3
104
+ model.layers.3.self_attn.v_proj: 3
105
+ model.layers.4.self_attn.k_proj: 3
106
+ model.layers.4.self_attn.v_proj: 4
107
+ model.layers.5.self_attn.k_proj: 3
108
+ model.layers.5.self_attn.v_proj: 4
109
+ model.layers.6.self_attn.k_proj: 3
110
+ model.layers.6.self_attn.v_proj: 3
111
+ model.layers.7.self_attn.k_proj: 3
112
+ model.layers.7.self_attn.v_proj: 2
113
+ model.layers.8.self_attn.k_proj: 3
114
+ model.layers.8.self_attn.v_proj: 3
115
+ model.layers.9.self_attn.k_proj: 3
116
+ model.layers.9.self_attn.v_proj: 3
117
+ model.layers.10.self_attn.k_proj: 3
118
+ model.layers.10.self_attn.v_proj: 4
119
+ model.layers.11.self_attn.k_proj: 3
120
+ model.layers.11.self_attn.v_proj: 3
121
+ model.layers.12.self_attn.k_proj: 3
122
+ model.layers.12.self_attn.v_proj: 3
123
+ model.layers.13.self_attn.k_proj: 3
124
+ model.layers.13.self_attn.v_proj: 3
125
+ model.layers.14.self_attn.k_proj: 3
126
+ model.layers.14.self_attn.v_proj: 3
127
+ model.layers.15.self_attn.k_proj: 3
128
+ model.layers.15.self_attn.v_proj: 3
129
+ model.layers.16.self_attn.k_proj: 2
130
+ model.layers.16.self_attn.v_proj: 3
131
+ model.layers.17.self_attn.k_proj: 2
132
+ model.layers.17.self_attn.v_proj: 3
133
+ model.layers.18.self_attn.k_proj: 3
134
+ model.layers.18.self_attn.v_proj: 2
135
+ model.layers.19.self_attn.k_proj: 3
136
+ model.layers.19.self_attn.v_proj: 2
137
+ model.layers.20.self_attn.k_proj: 2
138
+ model.layers.20.self_attn.v_proj: 3
139
+ model.layers.21.self_attn.k_proj: 2
140
+ model.layers.21.self_attn.v_proj: 3
141
+ model.layers.22.self_attn.k_proj: 2
142
+ model.layers.22.self_attn.v_proj: 2
143
+ model.layers.23.self_attn.k_proj: 2
144
+ model.layers.23.self_attn.v_proj: 2
145
+ model.layers.24.self_attn.k_proj: 2
146
+ model.layers.24.self_attn.v_proj: 2
147
+ model.layers.25.self_attn.k_proj: 2
148
+ model.layers.25.self_attn.v_proj: 2
149
+ model.layers.26.self_attn.k_proj: 2
150
+ model.layers.26.self_attn.v_proj: 3
151
+ model.layers.27.self_attn.k_proj: 3
152
+ model.layers.27.self_attn.v_proj: 3
153
+ model.layers.28.self_attn.k_proj: 3
154
+ model.layers.28.self_attn.v_proj: 3
155
+ model.layers.29.self_attn.k_proj: 3
156
+ model.layers.29.self_attn.v_proj: 2
157
+ model.layers.30.self_attn.k_proj: 3
158
+ model.layers.30.self_attn.v_proj: 3
159
+ model.layers.31.self_attn.k_proj: 3
160
+ model.layers.31.self_attn.v_proj: 3
161
+ model.layers.0.self_attn.o_proj: 3
162
+ model.layers.0.self_attn.q_proj: 2
163
+ model.layers.1.self_attn.o_proj: 4
164
+ model.layers.1.self_attn.q_proj: 2
165
+ model.layers.2.self_attn.o_proj: 3
166
+ model.layers.2.self_attn.q_proj: 3
167
+ model.layers.3.self_attn.o_proj: 3
168
+ model.layers.3.self_attn.q_proj: 3
169
+ model.layers.4.self_attn.o_proj: 3
170
+ model.layers.4.self_attn.q_proj: 3
171
+ model.layers.5.self_attn.o_proj: 3
172
+ model.layers.5.self_attn.q_proj: 4
173
+ model.layers.6.self_attn.o_proj: 3
174
+ model.layers.6.self_attn.q_proj: 3
175
+ model.layers.7.self_attn.o_proj: 3
176
+ model.layers.7.self_attn.q_proj: 3
177
+ model.layers.8.self_attn.o_proj: 4
178
+ model.layers.8.self_attn.q_proj: 3
179
+ model.layers.9.self_attn.o_proj: 3
180
+ model.layers.9.self_attn.q_proj: 3
181
+ model.layers.10.self_attn.o_proj: 3
182
+ model.layers.10.self_attn.q_proj: 3
183
+ model.layers.11.self_attn.o_proj: 3
184
+ model.layers.11.self_attn.q_proj: 4
185
+ model.layers.12.self_attn.o_proj: 3
186
+ model.layers.12.self_attn.q_proj: 3
187
+ model.layers.13.self_attn.o_proj: 3
188
+ model.layers.13.self_attn.q_proj: 3
189
+ model.layers.14.self_attn.o_proj: 3
190
+ model.layers.14.self_attn.q_proj: 3
191
+ model.layers.15.self_attn.o_proj: 4
192
+ model.layers.15.self_attn.q_proj: 3
193
+ model.layers.16.self_attn.o_proj: 4
194
+ model.layers.16.self_attn.q_proj: 3
195
+ model.layers.17.self_attn.o_proj: 3
196
+ model.layers.17.self_attn.q_proj: 2
197
+ model.layers.18.self_attn.o_proj: 3
198
+ model.layers.18.self_attn.q_proj: 2
199
+ model.layers.19.self_attn.o_proj: 2
200
+ model.layers.19.self_attn.q_proj: 3
201
+ model.layers.20.self_attn.o_proj: 3
202
+ model.layers.20.self_attn.q_proj: 3
203
+ model.layers.21.self_attn.o_proj: 3
204
+ model.layers.21.self_attn.q_proj: 3
205
+ model.layers.22.self_attn.o_proj: 2
206
+ model.layers.22.self_attn.q_proj: 3
207
+ model.layers.23.self_attn.o_proj: 2
208
+ model.layers.23.self_attn.q_proj: 3
209
+ model.layers.24.self_attn.o_proj: 2
210
+ model.layers.24.self_attn.q_proj: 2
211
+ model.layers.25.self_attn.o_proj: 3
212
+ model.layers.25.self_attn.q_proj: 3
213
+ model.layers.26.self_attn.o_proj: 2
214
+ model.layers.26.self_attn.q_proj: 2
215
+ model.layers.27.self_attn.o_proj: 2
216
+ model.layers.27.self_attn.q_proj: 2
217
+ model.layers.28.self_attn.o_proj: 3
218
+ model.layers.28.self_attn.q_proj: 2
219
+ model.layers.29.self_attn.o_proj: 2
220
+ model.layers.29.self_attn.q_proj: 3
221
+ model.layers.30.self_attn.o_proj: 3
222
+ model.layers.30.self_attn.q_proj: 2
223
+ model.layers.31.self_attn.o_proj: 3
224
+ model.layers.31.self_attn.q_proj: 2
evo-kl-configuration-3.0-v2.txt ADDED
@@ -0,0 +1,224 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model.layers.0.mlp.down_proj: 4
2
+ model.layers.0.mlp.gate_proj: 3
3
+ model.layers.0.mlp.up_proj: 3
4
+ model.layers.1.mlp.down_proj: 4
5
+ model.layers.1.mlp.gate_proj: 3
6
+ model.layers.1.mlp.up_proj: 3
7
+ model.layers.2.mlp.down_proj: 3
8
+ model.layers.2.mlp.gate_proj: 3
9
+ model.layers.2.mlp.up_proj: 3
10
+ model.layers.3.mlp.down_proj: 4
11
+ model.layers.3.mlp.gate_proj: 3
12
+ model.layers.3.mlp.up_proj: 3
13
+ model.layers.4.mlp.down_proj: 3
14
+ model.layers.4.mlp.gate_proj: 3
15
+ model.layers.4.mlp.up_proj: 4
16
+ model.layers.5.mlp.down_proj: 3
17
+ model.layers.5.mlp.gate_proj: 2
18
+ model.layers.5.mlp.up_proj: 3
19
+ model.layers.6.mlp.down_proj: 3
20
+ model.layers.6.mlp.gate_proj: 3
21
+ model.layers.6.mlp.up_proj: 3
22
+ model.layers.7.mlp.down_proj: 3
23
+ model.layers.7.mlp.gate_proj: 3
24
+ model.layers.7.mlp.up_proj: 3
25
+ model.layers.8.mlp.down_proj: 3
26
+ model.layers.8.mlp.gate_proj: 3
27
+ model.layers.8.mlp.up_proj: 3
28
+ model.layers.9.mlp.down_proj: 3
29
+ model.layers.9.mlp.gate_proj: 3
30
+ model.layers.9.mlp.up_proj: 3
31
+ model.layers.10.mlp.down_proj: 3
32
+ model.layers.10.mlp.gate_proj: 3
33
+ model.layers.10.mlp.up_proj: 3
34
+ model.layers.11.mlp.down_proj: 3
35
+ model.layers.11.mlp.gate_proj: 3
36
+ model.layers.11.mlp.up_proj: 3
37
+ model.layers.12.mlp.down_proj: 3
38
+ model.layers.12.mlp.gate_proj: 3
39
+ model.layers.12.mlp.up_proj: 3
40
+ model.layers.13.mlp.down_proj: 3
41
+ model.layers.13.mlp.gate_proj: 3
42
+ model.layers.13.mlp.up_proj: 3
43
+ model.layers.14.mlp.down_proj: 3
44
+ model.layers.14.mlp.gate_proj: 3
45
+ model.layers.14.mlp.up_proj: 3
46
+ model.layers.15.mlp.down_proj: 3
47
+ model.layers.15.mlp.gate_proj: 3
48
+ model.layers.15.mlp.up_proj: 3
49
+ model.layers.16.mlp.down_proj: 3
50
+ model.layers.16.mlp.gate_proj: 2
51
+ model.layers.16.mlp.up_proj: 3
52
+ model.layers.17.mlp.down_proj: 3
53
+ model.layers.17.mlp.gate_proj: 3
54
+ model.layers.17.mlp.up_proj: 3
55
+ model.layers.18.mlp.down_proj: 3
56
+ model.layers.18.mlp.gate_proj: 2
57
+ model.layers.18.mlp.up_proj: 3
58
+ model.layers.19.mlp.down_proj: 3
59
+ model.layers.19.mlp.gate_proj: 3
60
+ model.layers.19.mlp.up_proj: 3
61
+ model.layers.20.mlp.down_proj: 3
62
+ model.layers.20.mlp.gate_proj: 3
63
+ model.layers.20.mlp.up_proj: 3
64
+ model.layers.21.mlp.down_proj: 3
65
+ model.layers.21.mlp.gate_proj: 3
66
+ model.layers.21.mlp.up_proj: 3
67
+ model.layers.22.mlp.down_proj: 2
68
+ model.layers.22.mlp.gate_proj: 3
69
+ model.layers.22.mlp.up_proj: 3
70
+ model.layers.23.mlp.down_proj: 3
71
+ model.layers.23.mlp.gate_proj: 3
72
+ model.layers.23.mlp.up_proj: 3
73
+ model.layers.24.mlp.down_proj: 3
74
+ model.layers.24.mlp.gate_proj: 2
75
+ model.layers.24.mlp.up_proj: 3
76
+ model.layers.25.mlp.down_proj: 3
77
+ model.layers.25.mlp.gate_proj: 3
78
+ model.layers.25.mlp.up_proj: 3
79
+ model.layers.26.mlp.down_proj: 3
80
+ model.layers.26.mlp.gate_proj: 2
81
+ model.layers.26.mlp.up_proj: 3
82
+ model.layers.27.mlp.down_proj: 3
83
+ model.layers.27.mlp.gate_proj: 3
84
+ model.layers.27.mlp.up_proj: 3
85
+ model.layers.28.mlp.down_proj: 3
86
+ model.layers.28.mlp.gate_proj: 3
87
+ model.layers.28.mlp.up_proj: 3
88
+ model.layers.29.mlp.down_proj: 3
89
+ model.layers.29.mlp.gate_proj: 3
90
+ model.layers.29.mlp.up_proj: 3
91
+ model.layers.30.mlp.down_proj: 3
92
+ model.layers.30.mlp.gate_proj: 3
93
+ model.layers.30.mlp.up_proj: 3
94
+ model.layers.31.mlp.down_proj: 4
95
+ model.layers.31.mlp.gate_proj: 3
96
+ model.layers.31.mlp.up_proj: 3
97
+ model.layers.0.self_attn.k_proj: 3
98
+ model.layers.0.self_attn.v_proj: 3
99
+ model.layers.1.self_attn.k_proj: 3
100
+ model.layers.1.self_attn.v_proj: 6
101
+ model.layers.2.self_attn.k_proj: 3
102
+ model.layers.2.self_attn.v_proj: 3
103
+ model.layers.3.self_attn.k_proj: 4
104
+ model.layers.3.self_attn.v_proj: 3
105
+ model.layers.4.self_attn.k_proj: 3
106
+ model.layers.4.self_attn.v_proj: 4
107
+ model.layers.5.self_attn.k_proj: 3
108
+ model.layers.5.self_attn.v_proj: 3
109
+ model.layers.6.self_attn.k_proj: 3
110
+ model.layers.6.self_attn.v_proj: 3
111
+ model.layers.7.self_attn.k_proj: 3
112
+ model.layers.7.self_attn.v_proj: 4
113
+ model.layers.8.self_attn.k_proj: 3
114
+ model.layers.8.self_attn.v_proj: 4
115
+ model.layers.9.self_attn.k_proj: 4
116
+ model.layers.9.self_attn.v_proj: 3
117
+ model.layers.10.self_attn.k_proj: 3
118
+ model.layers.10.self_attn.v_proj: 3
119
+ model.layers.11.self_attn.k_proj: 4
120
+ model.layers.11.self_attn.v_proj: 4
121
+ model.layers.12.self_attn.k_proj: 3
122
+ model.layers.12.self_attn.v_proj: 3
123
+ model.layers.13.self_attn.k_proj: 3
124
+ model.layers.13.self_attn.v_proj: 3
125
+ model.layers.14.self_attn.k_proj: 3
126
+ model.layers.14.self_attn.v_proj: 3
127
+ model.layers.15.self_attn.k_proj: 3
128
+ model.layers.15.self_attn.v_proj: 3
129
+ model.layers.16.self_attn.k_proj: 3
130
+ model.layers.16.self_attn.v_proj: 4
131
+ model.layers.17.self_attn.k_proj: 3
132
+ model.layers.17.self_attn.v_proj: 3
133
+ model.layers.18.self_attn.k_proj: 2
134
+ model.layers.18.self_attn.v_proj: 3
135
+ model.layers.19.self_attn.k_proj: 3
136
+ model.layers.19.self_attn.v_proj: 3
137
+ model.layers.20.self_attn.k_proj: 2
138
+ model.layers.20.self_attn.v_proj: 3
139
+ model.layers.21.self_attn.k_proj: 2
140
+ model.layers.21.self_attn.v_proj: 3
141
+ model.layers.22.self_attn.k_proj: 3
142
+ model.layers.22.self_attn.v_proj: 2
143
+ model.layers.23.self_attn.k_proj: 3
144
+ model.layers.23.self_attn.v_proj: 2
145
+ model.layers.24.self_attn.k_proj: 3
146
+ model.layers.24.self_attn.v_proj: 2
147
+ model.layers.25.self_attn.k_proj: 3
148
+ model.layers.25.self_attn.v_proj: 2
149
+ model.layers.26.self_attn.k_proj: 2
150
+ model.layers.26.self_attn.v_proj: 2
151
+ model.layers.27.self_attn.k_proj: 2
152
+ model.layers.27.self_attn.v_proj: 3
153
+ model.layers.28.self_attn.k_proj: 3
154
+ model.layers.28.self_attn.v_proj: 4
155
+ model.layers.29.self_attn.k_proj: 2
156
+ model.layers.29.self_attn.v_proj: 3
157
+ model.layers.30.self_attn.k_proj: 3
158
+ model.layers.30.self_attn.v_proj: 3
159
+ model.layers.31.self_attn.k_proj: 3
160
+ model.layers.31.self_attn.v_proj: 3
161
+ model.layers.0.self_attn.o_proj: 3
162
+ model.layers.0.self_attn.q_proj: 2
163
+ model.layers.1.self_attn.o_proj: 4
164
+ model.layers.1.self_attn.q_proj: 4
165
+ model.layers.2.self_attn.o_proj: 3
166
+ model.layers.2.self_attn.q_proj: 3
167
+ model.layers.3.self_attn.o_proj: 3
168
+ model.layers.3.self_attn.q_proj: 3
169
+ model.layers.4.self_attn.o_proj: 3
170
+ model.layers.4.self_attn.q_proj: 3
171
+ model.layers.5.self_attn.o_proj: 3
172
+ model.layers.5.self_attn.q_proj: 4
173
+ model.layers.6.self_attn.o_proj: 3
174
+ model.layers.6.self_attn.q_proj: 3
175
+ model.layers.7.self_attn.o_proj: 3
176
+ model.layers.7.self_attn.q_proj: 4
177
+ model.layers.8.self_attn.o_proj: 4
178
+ model.layers.8.self_attn.q_proj: 3
179
+ model.layers.9.self_attn.o_proj: 4
180
+ model.layers.9.self_attn.q_proj: 3
181
+ model.layers.10.self_attn.o_proj: 3
182
+ model.layers.10.self_attn.q_proj: 3
183
+ model.layers.11.self_attn.o_proj: 3
184
+ model.layers.11.self_attn.q_proj: 3
185
+ model.layers.12.self_attn.o_proj: 3
186
+ model.layers.12.self_attn.q_proj: 4
187
+ model.layers.13.self_attn.o_proj: 4
188
+ model.layers.13.self_attn.q_proj: 3
189
+ model.layers.14.self_attn.o_proj: 4
190
+ model.layers.14.self_attn.q_proj: 3
191
+ model.layers.15.self_attn.o_proj: 3
192
+ model.layers.15.self_attn.q_proj: 3
193
+ model.layers.16.self_attn.o_proj: 3
194
+ model.layers.16.self_attn.q_proj: 3
195
+ model.layers.17.self_attn.o_proj: 3
196
+ model.layers.17.self_attn.q_proj: 3
197
+ model.layers.18.self_attn.o_proj: 3
198
+ model.layers.18.self_attn.q_proj: 3
199
+ model.layers.19.self_attn.o_proj: 3
200
+ model.layers.19.self_attn.q_proj: 3
201
+ model.layers.20.self_attn.o_proj: 3
202
+ model.layers.20.self_attn.q_proj: 3
203
+ model.layers.21.self_attn.o_proj: 3
204
+ model.layers.21.self_attn.q_proj: 3
205
+ model.layers.22.self_attn.o_proj: 3
206
+ model.layers.22.self_attn.q_proj: 2
207
+ model.layers.23.self_attn.o_proj: 3
208
+ model.layers.23.self_attn.q_proj: 2
209
+ model.layers.24.self_attn.o_proj: 2
210
+ model.layers.24.self_attn.q_proj: 2
211
+ model.layers.25.self_attn.o_proj: 2
212
+ model.layers.25.self_attn.q_proj: 3
213
+ model.layers.26.self_attn.o_proj: 2
214
+ model.layers.26.self_attn.q_proj: 3
215
+ model.layers.27.self_attn.o_proj: 3
216
+ model.layers.27.self_attn.q_proj: 2
217
+ model.layers.28.self_attn.o_proj: 3
218
+ model.layers.28.self_attn.q_proj: 2
219
+ model.layers.29.self_attn.o_proj: 3
220
+ model.layers.29.self_attn.q_proj: 3
221
+ model.layers.30.self_attn.o_proj: 3
222
+ model.layers.30.self_attn.q_proj: 3
223
+ model.layers.31.self_attn.o_proj: 3
224
+ model.layers.31.self_attn.q_proj: 3
evo-kl-configuration-3.25-v2.txt ADDED
@@ -0,0 +1,224 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model.layers.0.mlp.down_proj: 4
2
+ model.layers.0.mlp.gate_proj: 3
3
+ model.layers.0.mlp.up_proj: 3
4
+ model.layers.1.mlp.down_proj: 4
5
+ model.layers.1.mlp.gate_proj: 3
6
+ model.layers.1.mlp.up_proj: 3
7
+ model.layers.2.mlp.down_proj: 3
8
+ model.layers.2.mlp.gate_proj: 3
9
+ model.layers.2.mlp.up_proj: 3
10
+ model.layers.3.mlp.down_proj: 3
11
+ model.layers.3.mlp.gate_proj: 3
12
+ model.layers.3.mlp.up_proj: 4
13
+ model.layers.4.mlp.down_proj: 3
14
+ model.layers.4.mlp.gate_proj: 3
15
+ model.layers.4.mlp.up_proj: 4
16
+ model.layers.5.mlp.down_proj: 3
17
+ model.layers.5.mlp.gate_proj: 3
18
+ model.layers.5.mlp.up_proj: 4
19
+ model.layers.6.mlp.down_proj: 3
20
+ model.layers.6.mlp.gate_proj: 2
21
+ model.layers.6.mlp.up_proj: 3
22
+ model.layers.7.mlp.down_proj: 4
23
+ model.layers.7.mlp.gate_proj: 3
24
+ model.layers.7.mlp.up_proj: 3
25
+ model.layers.8.mlp.down_proj: 4
26
+ model.layers.8.mlp.gate_proj: 3
27
+ model.layers.8.mlp.up_proj: 3
28
+ model.layers.9.mlp.down_proj: 3
29
+ model.layers.9.mlp.gate_proj: 3
30
+ model.layers.9.mlp.up_proj: 3
31
+ model.layers.10.mlp.down_proj: 3
32
+ model.layers.10.mlp.gate_proj: 3
33
+ model.layers.10.mlp.up_proj: 3
34
+ model.layers.11.mlp.down_proj: 3
35
+ model.layers.11.mlp.gate_proj: 3
36
+ model.layers.11.mlp.up_proj: 3
37
+ model.layers.12.mlp.down_proj: 3
38
+ model.layers.12.mlp.gate_proj: 3
39
+ model.layers.12.mlp.up_proj: 3
40
+ model.layers.13.mlp.down_proj: 3
41
+ model.layers.13.mlp.gate_proj: 3
42
+ model.layers.13.mlp.up_proj: 4
43
+ model.layers.14.mlp.down_proj: 3
44
+ model.layers.14.mlp.gate_proj: 3
45
+ model.layers.14.mlp.up_proj: 3
46
+ model.layers.15.mlp.down_proj: 3
47
+ model.layers.15.mlp.gate_proj: 3
48
+ model.layers.15.mlp.up_proj: 3
49
+ model.layers.16.mlp.down_proj: 4
50
+ model.layers.16.mlp.gate_proj: 3
51
+ model.layers.16.mlp.up_proj: 3
52
+ model.layers.17.mlp.down_proj: 4
53
+ model.layers.17.mlp.gate_proj: 3
54
+ model.layers.17.mlp.up_proj: 3
55
+ model.layers.18.mlp.down_proj: 4
56
+ model.layers.18.mlp.gate_proj: 3
57
+ model.layers.18.mlp.up_proj: 3
58
+ model.layers.19.mlp.down_proj: 3
59
+ model.layers.19.mlp.gate_proj: 3
60
+ model.layers.19.mlp.up_proj: 3
61
+ model.layers.20.mlp.down_proj: 3
62
+ model.layers.20.mlp.gate_proj: 3
63
+ model.layers.20.mlp.up_proj: 3
64
+ model.layers.21.mlp.down_proj: 3
65
+ model.layers.21.mlp.gate_proj: 3
66
+ model.layers.21.mlp.up_proj: 4
67
+ model.layers.22.mlp.down_proj: 4
68
+ model.layers.22.mlp.gate_proj: 3
69
+ model.layers.22.mlp.up_proj: 3
70
+ model.layers.23.mlp.down_proj: 3
71
+ model.layers.23.mlp.gate_proj: 3
72
+ model.layers.23.mlp.up_proj: 3
73
+ model.layers.24.mlp.down_proj: 3
74
+ model.layers.24.mlp.gate_proj: 3
75
+ model.layers.24.mlp.up_proj: 3
76
+ model.layers.25.mlp.down_proj: 3
77
+ model.layers.25.mlp.gate_proj: 3
78
+ model.layers.25.mlp.up_proj: 3
79
+ model.layers.26.mlp.down_proj: 3
80
+ model.layers.26.mlp.gate_proj: 3
81
+ model.layers.26.mlp.up_proj: 3
82
+ model.layers.27.mlp.down_proj: 3
83
+ model.layers.27.mlp.gate_proj: 3
84
+ model.layers.27.mlp.up_proj: 3
85
+ model.layers.28.mlp.down_proj: 3
86
+ model.layers.28.mlp.gate_proj: 3
87
+ model.layers.28.mlp.up_proj: 3
88
+ model.layers.29.mlp.down_proj: 3
89
+ model.layers.29.mlp.gate_proj: 3
90
+ model.layers.29.mlp.up_proj: 3
91
+ model.layers.30.mlp.down_proj: 4
92
+ model.layers.30.mlp.gate_proj: 3
93
+ model.layers.30.mlp.up_proj: 4
94
+ model.layers.31.mlp.down_proj: 4
95
+ model.layers.31.mlp.gate_proj: 4
96
+ model.layers.31.mlp.up_proj: 6
97
+ model.layers.0.self_attn.k_proj: 3
98
+ model.layers.0.self_attn.v_proj: 4
99
+ model.layers.1.self_attn.k_proj: 3
100
+ model.layers.1.self_attn.v_proj: 8
101
+ model.layers.2.self_attn.k_proj: 3
102
+ model.layers.2.self_attn.v_proj: 4
103
+ model.layers.3.self_attn.k_proj: 3
104
+ model.layers.3.self_attn.v_proj: 6
105
+ model.layers.4.self_attn.k_proj: 3
106
+ model.layers.4.self_attn.v_proj: 4
107
+ model.layers.5.self_attn.k_proj: 4
108
+ model.layers.5.self_attn.v_proj: 3
109
+ model.layers.6.self_attn.k_proj: 3
110
+ model.layers.6.self_attn.v_proj: 3
111
+ model.layers.7.self_attn.k_proj: 3
112
+ model.layers.7.self_attn.v_proj: 4
113
+ model.layers.8.self_attn.k_proj: 4
114
+ model.layers.8.self_attn.v_proj: 4
115
+ model.layers.9.self_attn.k_proj: 6
116
+ model.layers.9.self_attn.v_proj: 3
117
+ model.layers.10.self_attn.k_proj: 4
118
+ model.layers.10.self_attn.v_proj: 3
119
+ model.layers.11.self_attn.k_proj: 4
120
+ model.layers.11.self_attn.v_proj: 3
121
+ model.layers.12.self_attn.k_proj: 4
122
+ model.layers.12.self_attn.v_proj: 3
123
+ model.layers.13.self_attn.k_proj: 4
124
+ model.layers.13.self_attn.v_proj: 3
125
+ model.layers.14.self_attn.k_proj: 3
126
+ model.layers.14.self_attn.v_proj: 3
127
+ model.layers.15.self_attn.k_proj: 4
128
+ model.layers.15.self_attn.v_proj: 6
129
+ model.layers.16.self_attn.k_proj: 4
130
+ model.layers.16.self_attn.v_proj: 3
131
+ model.layers.17.self_attn.k_proj: 3
132
+ model.layers.17.self_attn.v_proj: 3
133
+ model.layers.18.self_attn.k_proj: 3
134
+ model.layers.18.self_attn.v_proj: 4
135
+ model.layers.19.self_attn.k_proj: 4
136
+ model.layers.19.self_attn.v_proj: 3
137
+ model.layers.20.self_attn.k_proj: 3
138
+ model.layers.20.self_attn.v_proj: 3
139
+ model.layers.21.self_attn.k_proj: 3
140
+ model.layers.21.self_attn.v_proj: 3
141
+ model.layers.22.self_attn.k_proj: 4
142
+ model.layers.22.self_attn.v_proj: 3
143
+ model.layers.23.self_attn.k_proj: 3
144
+ model.layers.23.self_attn.v_proj: 2
145
+ model.layers.24.self_attn.k_proj: 3
146
+ model.layers.24.self_attn.v_proj: 3
147
+ model.layers.25.self_attn.k_proj: 3
148
+ model.layers.25.self_attn.v_proj: 2
149
+ model.layers.26.self_attn.k_proj: 3
150
+ model.layers.26.self_attn.v_proj: 3
151
+ model.layers.27.self_attn.k_proj: 3
152
+ model.layers.27.self_attn.v_proj: 3
153
+ model.layers.28.self_attn.k_proj: 3
154
+ model.layers.28.self_attn.v_proj: 2
155
+ model.layers.29.self_attn.k_proj: 3
156
+ model.layers.29.self_attn.v_proj: 4
157
+ model.layers.30.self_attn.k_proj: 3
158
+ model.layers.30.self_attn.v_proj: 4
159
+ model.layers.31.self_attn.k_proj: 3
160
+ model.layers.31.self_attn.v_proj: 3
161
+ model.layers.0.self_attn.o_proj: 6
162
+ model.layers.0.self_attn.q_proj: 3
163
+ model.layers.1.self_attn.o_proj: 4
164
+ model.layers.1.self_attn.q_proj: 4
165
+ model.layers.2.self_attn.o_proj: 4
166
+ model.layers.2.self_attn.q_proj: 3
167
+ model.layers.3.self_attn.o_proj: 3
168
+ model.layers.3.self_attn.q_proj: 4
169
+ model.layers.4.self_attn.o_proj: 4
170
+ model.layers.4.self_attn.q_proj: 3
171
+ model.layers.5.self_attn.o_proj: 3
172
+ model.layers.5.self_attn.q_proj: 4
173
+ model.layers.6.self_attn.o_proj: 3
174
+ model.layers.6.self_attn.q_proj: 4
175
+ model.layers.7.self_attn.o_proj: 4
176
+ model.layers.7.self_attn.q_proj: 4
177
+ model.layers.8.self_attn.o_proj: 4
178
+ model.layers.8.self_attn.q_proj: 3
179
+ model.layers.9.self_attn.o_proj: 4
180
+ model.layers.9.self_attn.q_proj: 3
181
+ model.layers.10.self_attn.o_proj: 4
182
+ model.layers.10.self_attn.q_proj: 3
183
+ model.layers.11.self_attn.o_proj: 4
184
+ model.layers.11.self_attn.q_proj: 4
185
+ model.layers.12.self_attn.o_proj: 4
186
+ model.layers.12.self_attn.q_proj: 4
187
+ model.layers.13.self_attn.o_proj: 4
188
+ model.layers.13.self_attn.q_proj: 4
189
+ model.layers.14.self_attn.o_proj: 4
190
+ model.layers.14.self_attn.q_proj: 4
191
+ model.layers.15.self_attn.o_proj: 4
192
+ model.layers.15.self_attn.q_proj: 3
193
+ model.layers.16.self_attn.o_proj: 3
194
+ model.layers.16.self_attn.q_proj: 3
195
+ model.layers.17.self_attn.o_proj: 3
196
+ model.layers.17.self_attn.q_proj: 3
197
+ model.layers.18.self_attn.o_proj: 3
198
+ model.layers.18.self_attn.q_proj: 3
199
+ model.layers.19.self_attn.o_proj: 3
200
+ model.layers.19.self_attn.q_proj: 3
201
+ model.layers.20.self_attn.o_proj: 3
202
+ model.layers.20.self_attn.q_proj: 3
203
+ model.layers.21.self_attn.o_proj: 4
204
+ model.layers.21.self_attn.q_proj: 3
205
+ model.layers.22.self_attn.o_proj: 3
206
+ model.layers.22.self_attn.q_proj: 3
207
+ model.layers.23.self_attn.o_proj: 2
208
+ model.layers.23.self_attn.q_proj: 3
209
+ model.layers.24.self_attn.o_proj: 2
210
+ model.layers.24.self_attn.q_proj: 3
211
+ model.layers.25.self_attn.o_proj: 3
212
+ model.layers.25.self_attn.q_proj: 3
213
+ model.layers.26.self_attn.o_proj: 4
214
+ model.layers.26.self_attn.q_proj: 2
215
+ model.layers.27.self_attn.o_proj: 3
216
+ model.layers.27.self_attn.q_proj: 3
217
+ model.layers.28.self_attn.o_proj: 6
218
+ model.layers.28.self_attn.q_proj: 2
219
+ model.layers.29.self_attn.o_proj: 3
220
+ model.layers.29.self_attn.q_proj: 4
221
+ model.layers.30.self_attn.o_proj: 3
222
+ model.layers.30.self_attn.q_proj: 4
223
+ model.layers.31.self_attn.o_proj: 3
224
+ model.layers.31.self_attn.q_proj: 3
evo-kl-configuration-3.5-v2.txt ADDED
@@ -0,0 +1,224 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model.layers.0.mlp.down_proj: 4
2
+ model.layers.0.mlp.gate_proj: 3
3
+ model.layers.0.mlp.up_proj: 3
4
+ model.layers.1.mlp.down_proj: 4
5
+ model.layers.1.mlp.gate_proj: 4
6
+ model.layers.1.mlp.up_proj: 3
7
+ model.layers.2.mlp.down_proj: 4
8
+ model.layers.2.mlp.gate_proj: 3
9
+ model.layers.2.mlp.up_proj: 3
10
+ model.layers.3.mlp.down_proj: 4
11
+ model.layers.3.mlp.gate_proj: 3
12
+ model.layers.3.mlp.up_proj: 4
13
+ model.layers.4.mlp.down_proj: 4
14
+ model.layers.4.mlp.gate_proj: 4
15
+ model.layers.4.mlp.up_proj: 4
16
+ model.layers.5.mlp.down_proj: 4
17
+ model.layers.5.mlp.gate_proj: 3
18
+ model.layers.5.mlp.up_proj: 4
19
+ model.layers.6.mlp.down_proj: 4
20
+ model.layers.6.mlp.gate_proj: 3
21
+ model.layers.6.mlp.up_proj: 3
22
+ model.layers.7.mlp.down_proj: 4
23
+ model.layers.7.mlp.gate_proj: 3
24
+ model.layers.7.mlp.up_proj: 3
25
+ model.layers.8.mlp.down_proj: 4
26
+ model.layers.8.mlp.gate_proj: 4
27
+ model.layers.8.mlp.up_proj: 3
28
+ model.layers.9.mlp.down_proj: 4
29
+ model.layers.9.mlp.gate_proj: 3
30
+ model.layers.9.mlp.up_proj: 4
31
+ model.layers.10.mlp.down_proj: 4
32
+ model.layers.10.mlp.gate_proj: 3
33
+ model.layers.10.mlp.up_proj: 3
34
+ model.layers.11.mlp.down_proj: 3
35
+ model.layers.11.mlp.gate_proj: 3
36
+ model.layers.11.mlp.up_proj: 4
37
+ model.layers.12.mlp.down_proj: 4
38
+ model.layers.12.mlp.gate_proj: 4
39
+ model.layers.12.mlp.up_proj: 4
40
+ model.layers.13.mlp.down_proj: 4
41
+ model.layers.13.mlp.gate_proj: 3
42
+ model.layers.13.mlp.up_proj: 4
43
+ model.layers.14.mlp.down_proj: 3
44
+ model.layers.14.mlp.gate_proj: 3
45
+ model.layers.14.mlp.up_proj: 3
46
+ model.layers.15.mlp.down_proj: 3
47
+ model.layers.15.mlp.gate_proj: 3
48
+ model.layers.15.mlp.up_proj: 4
49
+ model.layers.16.mlp.down_proj: 3
50
+ model.layers.16.mlp.gate_proj: 3
51
+ model.layers.16.mlp.up_proj: 3
52
+ model.layers.17.mlp.down_proj: 4
53
+ model.layers.17.mlp.gate_proj: 3
54
+ model.layers.17.mlp.up_proj: 3
55
+ model.layers.18.mlp.down_proj: 4
56
+ model.layers.18.mlp.gate_proj: 3
57
+ model.layers.18.mlp.up_proj: 4
58
+ model.layers.19.mlp.down_proj: 3
59
+ model.layers.19.mlp.gate_proj: 3
60
+ model.layers.19.mlp.up_proj: 4
61
+ model.layers.20.mlp.down_proj: 4
62
+ model.layers.20.mlp.gate_proj: 4
63
+ model.layers.20.mlp.up_proj: 3
64
+ model.layers.21.mlp.down_proj: 4
65
+ model.layers.21.mlp.gate_proj: 3
66
+ model.layers.21.mlp.up_proj: 3
67
+ model.layers.22.mlp.down_proj: 4
68
+ model.layers.22.mlp.gate_proj: 3
69
+ model.layers.22.mlp.up_proj: 3
70
+ model.layers.23.mlp.down_proj: 3
71
+ model.layers.23.mlp.gate_proj: 3
72
+ model.layers.23.mlp.up_proj: 4
73
+ model.layers.24.mlp.down_proj: 3
74
+ model.layers.24.mlp.gate_proj: 3
75
+ model.layers.24.mlp.up_proj: 3
76
+ model.layers.25.mlp.down_proj: 4
77
+ model.layers.25.mlp.gate_proj: 3
78
+ model.layers.25.mlp.up_proj: 3
79
+ model.layers.26.mlp.down_proj: 3
80
+ model.layers.26.mlp.gate_proj: 3
81
+ model.layers.26.mlp.up_proj: 4
82
+ model.layers.27.mlp.down_proj: 3
83
+ model.layers.27.mlp.gate_proj: 4
84
+ model.layers.27.mlp.up_proj: 4
85
+ model.layers.28.mlp.down_proj: 4
86
+ model.layers.28.mlp.gate_proj: 3
87
+ model.layers.28.mlp.up_proj: 3
88
+ model.layers.29.mlp.down_proj: 3
89
+ model.layers.29.mlp.gate_proj: 3
90
+ model.layers.29.mlp.up_proj: 3
91
+ model.layers.30.mlp.down_proj: 4
92
+ model.layers.30.mlp.gate_proj: 3
93
+ model.layers.30.mlp.up_proj: 4
94
+ model.layers.31.mlp.down_proj: 4
95
+ model.layers.31.mlp.gate_proj: 4
96
+ model.layers.31.mlp.up_proj: 4
97
+ model.layers.0.self_attn.k_proj: 3
98
+ model.layers.0.self_attn.v_proj: 8
99
+ model.layers.1.self_attn.k_proj: 4
100
+ model.layers.1.self_attn.v_proj: 6
101
+ model.layers.2.self_attn.k_proj: 6
102
+ model.layers.2.self_attn.v_proj: 6
103
+ model.layers.3.self_attn.k_proj: 4
104
+ model.layers.3.self_attn.v_proj: 4
105
+ model.layers.4.self_attn.k_proj: 4
106
+ model.layers.4.self_attn.v_proj: 4
107
+ model.layers.5.self_attn.k_proj: 4
108
+ model.layers.5.self_attn.v_proj: 3
109
+ model.layers.6.self_attn.k_proj: 3
110
+ model.layers.6.self_attn.v_proj: 4
111
+ model.layers.7.self_attn.k_proj: 3
112
+ model.layers.7.self_attn.v_proj: 3
113
+ model.layers.8.self_attn.k_proj: 4
114
+ model.layers.8.self_attn.v_proj: 4
115
+ model.layers.9.self_attn.k_proj: 4
116
+ model.layers.9.self_attn.v_proj: 3
117
+ model.layers.10.self_attn.k_proj: 3
118
+ model.layers.10.self_attn.v_proj: 4
119
+ model.layers.11.self_attn.k_proj: 4
120
+ model.layers.11.self_attn.v_proj: 4
121
+ model.layers.12.self_attn.k_proj: 4
122
+ model.layers.12.self_attn.v_proj: 4
123
+ model.layers.13.self_attn.k_proj: 4
124
+ model.layers.13.self_attn.v_proj: 3
125
+ model.layers.14.self_attn.k_proj: 3
126
+ model.layers.14.self_attn.v_proj: 3
127
+ model.layers.15.self_attn.k_proj: 4
128
+ model.layers.15.self_attn.v_proj: 6
129
+ model.layers.16.self_attn.k_proj: 3
130
+ model.layers.16.self_attn.v_proj: 4
131
+ model.layers.17.self_attn.k_proj: 3
132
+ model.layers.17.self_attn.v_proj: 3
133
+ model.layers.18.self_attn.k_proj: 3
134
+ model.layers.18.self_attn.v_proj: 4
135
+ model.layers.19.self_attn.k_proj: 3
136
+ model.layers.19.self_attn.v_proj: 4
137
+ model.layers.20.self_attn.k_proj: 3
138
+ model.layers.20.self_attn.v_proj: 4
139
+ model.layers.21.self_attn.k_proj: 3
140
+ model.layers.21.self_attn.v_proj: 4
141
+ model.layers.22.self_attn.k_proj: 3
142
+ model.layers.22.self_attn.v_proj: 3
143
+ model.layers.23.self_attn.k_proj: 3
144
+ model.layers.23.self_attn.v_proj: 3
145
+ model.layers.24.self_attn.k_proj: 3
146
+ model.layers.24.self_attn.v_proj: 3
147
+ model.layers.25.self_attn.k_proj: 3
148
+ model.layers.25.self_attn.v_proj: 3
149
+ model.layers.26.self_attn.k_proj: 3
150
+ model.layers.26.self_attn.v_proj: 4
151
+ model.layers.27.self_attn.k_proj: 3
152
+ model.layers.27.self_attn.v_proj: 4
153
+ model.layers.28.self_attn.k_proj: 3
154
+ model.layers.28.self_attn.v_proj: 4
155
+ model.layers.29.self_attn.k_proj: 3
156
+ model.layers.29.self_attn.v_proj: 4
157
+ model.layers.30.self_attn.k_proj: 3
158
+ model.layers.30.self_attn.v_proj: 3
159
+ model.layers.31.self_attn.k_proj: 3
160
+ model.layers.31.self_attn.v_proj: 3
161
+ model.layers.0.self_attn.o_proj: 6
162
+ model.layers.0.self_attn.q_proj: 3
163
+ model.layers.1.self_attn.o_proj: 4
164
+ model.layers.1.self_attn.q_proj: 3
165
+ model.layers.2.self_attn.o_proj: 4
166
+ model.layers.2.self_attn.q_proj: 4
167
+ model.layers.3.self_attn.o_proj: 4
168
+ model.layers.3.self_attn.q_proj: 4
169
+ model.layers.4.self_attn.o_proj: 4
170
+ model.layers.4.self_attn.q_proj: 4
171
+ model.layers.5.self_attn.o_proj: 3
172
+ model.layers.5.self_attn.q_proj: 4
173
+ model.layers.6.self_attn.o_proj: 3
174
+ model.layers.6.self_attn.q_proj: 4
175
+ model.layers.7.self_attn.o_proj: 4
176
+ model.layers.7.self_attn.q_proj: 4
177
+ model.layers.8.self_attn.o_proj: 6
178
+ model.layers.8.self_attn.q_proj: 3
179
+ model.layers.9.self_attn.o_proj: 4
180
+ model.layers.9.self_attn.q_proj: 4
181
+ model.layers.10.self_attn.o_proj: 4
182
+ model.layers.10.self_attn.q_proj: 4
183
+ model.layers.11.self_attn.o_proj: 3
184
+ model.layers.11.self_attn.q_proj: 4
185
+ model.layers.12.self_attn.o_proj: 4
186
+ model.layers.12.self_attn.q_proj: 4
187
+ model.layers.13.self_attn.o_proj: 8
188
+ model.layers.13.self_attn.q_proj: 4
189
+ model.layers.14.self_attn.o_proj: 4
190
+ model.layers.14.self_attn.q_proj: 4
191
+ model.layers.15.self_attn.o_proj: 4
192
+ model.layers.15.self_attn.q_proj: 3
193
+ model.layers.16.self_attn.o_proj: 3
194
+ model.layers.16.self_attn.q_proj: 4
195
+ model.layers.17.self_attn.o_proj: 3
196
+ model.layers.17.self_attn.q_proj: 3
197
+ model.layers.18.self_attn.o_proj: 3
198
+ model.layers.18.self_attn.q_proj: 3
199
+ model.layers.19.self_attn.o_proj: 3
200
+ model.layers.19.self_attn.q_proj: 3
201
+ model.layers.20.self_attn.o_proj: 3
202
+ model.layers.20.self_attn.q_proj: 3
203
+ model.layers.21.self_attn.o_proj: 3
204
+ model.layers.21.self_attn.q_proj: 3
205
+ model.layers.22.self_attn.o_proj: 3
206
+ model.layers.22.self_attn.q_proj: 3
207
+ model.layers.23.self_attn.o_proj: 4
208
+ model.layers.23.self_attn.q_proj: 3
209
+ model.layers.24.self_attn.o_proj: 3
210
+ model.layers.24.self_attn.q_proj: 3
211
+ model.layers.25.self_attn.o_proj: 4
212
+ model.layers.25.self_attn.q_proj: 3
213
+ model.layers.26.self_attn.o_proj: 3
214
+ model.layers.26.self_attn.q_proj: 4
215
+ model.layers.27.self_attn.o_proj: 3
216
+ model.layers.27.self_attn.q_proj: 3
217
+ model.layers.28.self_attn.o_proj: 3
218
+ model.layers.28.self_attn.q_proj: 3
219
+ model.layers.29.self_attn.o_proj: 4
220
+ model.layers.29.self_attn.q_proj: 4
221
+ model.layers.30.self_attn.o_proj: 3
222
+ model.layers.30.self_attn.q_proj: 4
223
+ model.layers.31.self_attn.o_proj: 3
224
+ model.layers.31.self_attn.q_proj: 3
evo-kl-configuration-3.75-v2.txt ADDED
@@ -0,0 +1,224 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ model.layers.0.mlp.down_proj: 4
2
+ model.layers.0.mlp.gate_proj: 3
3
+ model.layers.0.mlp.up_proj: 4
4
+ model.layers.1.mlp.down_proj: 4
5
+ model.layers.1.mlp.gate_proj: 4
6
+ model.layers.1.mlp.up_proj: 4
7
+ model.layers.2.mlp.down_proj: 4
8
+ model.layers.2.mlp.gate_proj: 4
9
+ model.layers.2.mlp.up_proj: 4
10
+ model.layers.3.mlp.down_proj: 4
11
+ model.layers.3.mlp.gate_proj: 3
12
+ model.layers.3.mlp.up_proj: 4
13
+ model.layers.4.mlp.down_proj: 4
14
+ model.layers.4.mlp.gate_proj: 3
15
+ model.layers.4.mlp.up_proj: 4
16
+ model.layers.5.mlp.down_proj: 4
17
+ model.layers.5.mlp.gate_proj: 3
18
+ model.layers.5.mlp.up_proj: 4
19
+ model.layers.6.mlp.down_proj: 4
20
+ model.layers.6.mlp.gate_proj: 3
21
+ model.layers.6.mlp.up_proj: 4
22
+ model.layers.7.mlp.down_proj: 4
23
+ model.layers.7.mlp.gate_proj: 3
24
+ model.layers.7.mlp.up_proj: 4
25
+ model.layers.8.mlp.down_proj: 4
26
+ model.layers.8.mlp.gate_proj: 3
27
+ model.layers.8.mlp.up_proj: 4
28
+ model.layers.9.mlp.down_proj: 3
29
+ model.layers.9.mlp.gate_proj: 3
30
+ model.layers.9.mlp.up_proj: 4
31
+ model.layers.10.mlp.down_proj: 3
32
+ model.layers.10.mlp.gate_proj: 3
33
+ model.layers.10.mlp.up_proj: 3
34
+ model.layers.11.mlp.down_proj: 4
35
+ model.layers.11.mlp.gate_proj: 4
36
+ model.layers.11.mlp.up_proj: 3
37
+ model.layers.12.mlp.down_proj: 4
38
+ model.layers.12.mlp.gate_proj: 4
39
+ model.layers.12.mlp.up_proj: 4
40
+ model.layers.13.mlp.down_proj: 4
41
+ model.layers.13.mlp.gate_proj: 4
42
+ model.layers.13.mlp.up_proj: 4
43
+ model.layers.14.mlp.down_proj: 4
44
+ model.layers.14.mlp.gate_proj: 3
45
+ model.layers.14.mlp.up_proj: 4
46
+ model.layers.15.mlp.down_proj: 4
47
+ model.layers.15.mlp.gate_proj: 3
48
+ model.layers.15.mlp.up_proj: 3
49
+ model.layers.16.mlp.down_proj: 4
50
+ model.layers.16.mlp.gate_proj: 3
51
+ model.layers.16.mlp.up_proj: 4
52
+ model.layers.17.mlp.down_proj: 4
53
+ model.layers.17.mlp.gate_proj: 4
54
+ model.layers.17.mlp.up_proj: 4
55
+ model.layers.18.mlp.down_proj: 4
56
+ model.layers.18.mlp.gate_proj: 4
57
+ model.layers.18.mlp.up_proj: 4
58
+ model.layers.19.mlp.down_proj: 4
59
+ model.layers.19.mlp.gate_proj: 4
60
+ model.layers.19.mlp.up_proj: 4
61
+ model.layers.20.mlp.down_proj: 4
62
+ model.layers.20.mlp.gate_proj: 4
63
+ model.layers.20.mlp.up_proj: 4
64
+ model.layers.21.mlp.down_proj: 4
65
+ model.layers.21.mlp.gate_proj: 3
66
+ model.layers.21.mlp.up_proj: 4
67
+ model.layers.22.mlp.down_proj: 4
68
+ model.layers.22.mlp.gate_proj: 4
69
+ model.layers.22.mlp.up_proj: 4
70
+ model.layers.23.mlp.down_proj: 4
71
+ model.layers.23.mlp.gate_proj: 4
72
+ model.layers.23.mlp.up_proj: 4
73
+ model.layers.24.mlp.down_proj: 3
74
+ model.layers.24.mlp.gate_proj: 4
75
+ model.layers.24.mlp.up_proj: 4
76
+ model.layers.25.mlp.down_proj: 4
77
+ model.layers.25.mlp.gate_proj: 3
78
+ model.layers.25.mlp.up_proj: 3
79
+ model.layers.26.mlp.down_proj: 3
80
+ model.layers.26.mlp.gate_proj: 3
81
+ model.layers.26.mlp.up_proj: 4
82
+ model.layers.27.mlp.down_proj: 3
83
+ model.layers.27.mlp.gate_proj: 4
84
+ model.layers.27.mlp.up_proj: 4
85
+ model.layers.28.mlp.down_proj: 4
86
+ model.layers.28.mlp.gate_proj: 3
87
+ model.layers.28.mlp.up_proj: 3
88
+ model.layers.29.mlp.down_proj: 4
89
+ model.layers.29.mlp.gate_proj: 4
90
+ model.layers.29.mlp.up_proj: 3
91
+ model.layers.30.mlp.down_proj: 4
92
+ model.layers.30.mlp.gate_proj: 4
93
+ model.layers.30.mlp.up_proj: 4
94
+ model.layers.31.mlp.down_proj: 4
95
+ model.layers.31.mlp.gate_proj: 4
96
+ model.layers.31.mlp.up_proj: 4
97
+ model.layers.0.self_attn.k_proj: 4
98
+ model.layers.0.self_attn.v_proj: 6
99
+ model.layers.1.self_attn.k_proj: 3
100
+ model.layers.1.self_attn.v_proj: 8
101
+ model.layers.2.self_attn.k_proj: 4
102
+ model.layers.2.self_attn.v_proj: 4
103
+ model.layers.3.self_attn.k_proj: 4
104
+ model.layers.3.self_attn.v_proj: 6
105
+ model.layers.4.self_attn.k_proj: 3
106
+ model.layers.4.self_attn.v_proj: 4
107
+ model.layers.5.self_attn.k_proj: 4
108
+ model.layers.5.self_attn.v_proj: 3
109
+ model.layers.6.self_attn.k_proj: 4
110
+ model.layers.6.self_attn.v_proj: 4
111
+ model.layers.7.self_attn.k_proj: 4
112
+ model.layers.7.self_attn.v_proj: 4
113
+ model.layers.8.self_attn.k_proj: 6
114
+ model.layers.8.self_attn.v_proj: 3
115
+ model.layers.9.self_attn.k_proj: 6
116
+ model.layers.9.self_attn.v_proj: 4
117
+ model.layers.10.self_attn.k_proj: 4
118
+ model.layers.10.self_attn.v_proj: 3
119
+ model.layers.11.self_attn.k_proj: 4
120
+ model.layers.11.self_attn.v_proj: 4
121
+ model.layers.12.self_attn.k_proj: 4
122
+ model.layers.12.self_attn.v_proj: 4
123
+ model.layers.13.self_attn.k_proj: 4
124
+ model.layers.13.self_attn.v_proj: 3
125
+ model.layers.14.self_attn.k_proj: 3
126
+ model.layers.14.self_attn.v_proj: 6
127
+ model.layers.15.self_attn.k_proj: 4
128
+ model.layers.15.self_attn.v_proj: 6
129
+ model.layers.16.self_attn.k_proj: 4
130
+ model.layers.16.self_attn.v_proj: 6
131
+ model.layers.17.self_attn.k_proj: 4
132
+ model.layers.17.self_attn.v_proj: 3
133
+ model.layers.18.self_attn.k_proj: 3
134
+ model.layers.18.self_attn.v_proj: 4
135
+ model.layers.19.self_attn.k_proj: 4
136
+ model.layers.19.self_attn.v_proj: 3
137
+ model.layers.20.self_attn.k_proj: 3
138
+ model.layers.20.self_attn.v_proj: 6
139
+ model.layers.21.self_attn.k_proj: 3
140
+ model.layers.21.self_attn.v_proj: 4
141
+ model.layers.22.self_attn.k_proj: 3
142
+ model.layers.22.self_attn.v_proj: 3
143
+ model.layers.23.self_attn.k_proj: 3
144
+ model.layers.23.self_attn.v_proj: 3
145
+ model.layers.24.self_attn.k_proj: 4
146
+ model.layers.24.self_attn.v_proj: 3
147
+ model.layers.25.self_attn.k_proj: 4
148
+ model.layers.25.self_attn.v_proj: 3
149
+ model.layers.26.self_attn.k_proj: 3
150
+ model.layers.26.self_attn.v_proj: 3
151
+ model.layers.27.self_attn.k_proj: 3
152
+ model.layers.27.self_attn.v_proj: 4
153
+ model.layers.28.self_attn.k_proj: 4
154
+ model.layers.28.self_attn.v_proj: 4
155
+ model.layers.29.self_attn.k_proj: 3
156
+ model.layers.29.self_attn.v_proj: 4
157
+ model.layers.30.self_attn.k_proj: 3
158
+ model.layers.30.self_attn.v_proj: 3
159
+ model.layers.31.self_attn.k_proj: 3
160
+ model.layers.31.self_attn.v_proj: 4
161
+ model.layers.0.self_attn.o_proj: 4
162
+ model.layers.0.self_attn.q_proj: 3
163
+ model.layers.1.self_attn.o_proj: 4
164
+ model.layers.1.self_attn.q_proj: 4
165
+ model.layers.2.self_attn.o_proj: 4
166
+ model.layers.2.self_attn.q_proj: 4
167
+ model.layers.3.self_attn.o_proj: 3
168
+ model.layers.3.self_attn.q_proj: 4
169
+ model.layers.4.self_attn.o_proj: 4
170
+ model.layers.4.self_attn.q_proj: 4
171
+ model.layers.5.self_attn.o_proj: 4
172
+ model.layers.5.self_attn.q_proj: 4
173
+ model.layers.6.self_attn.o_proj: 4
174
+ model.layers.6.self_attn.q_proj: 3
175
+ model.layers.7.self_attn.o_proj: 4
176
+ model.layers.7.self_attn.q_proj: 4
177
+ model.layers.8.self_attn.o_proj: 4
178
+ model.layers.8.self_attn.q_proj: 4
179
+ model.layers.9.self_attn.o_proj: 6
180
+ model.layers.9.self_attn.q_proj: 4
181
+ model.layers.10.self_attn.o_proj: 4
182
+ model.layers.10.self_attn.q_proj: 4
183
+ model.layers.11.self_attn.o_proj: 4
184
+ model.layers.11.self_attn.q_proj: 4
185
+ model.layers.12.self_attn.o_proj: 4
186
+ model.layers.12.self_attn.q_proj: 4
187
+ model.layers.13.self_attn.o_proj: 4
188
+ model.layers.13.self_attn.q_proj: 4
189
+ model.layers.14.self_attn.o_proj: 4
190
+ model.layers.14.self_attn.q_proj: 6
191
+ model.layers.15.self_attn.o_proj: 4
192
+ model.layers.15.self_attn.q_proj: 6
193
+ model.layers.16.self_attn.o_proj: 6
194
+ model.layers.16.self_attn.q_proj: 4
195
+ model.layers.17.self_attn.o_proj: 4
196
+ model.layers.17.self_attn.q_proj: 3
197
+ model.layers.18.self_attn.o_proj: 4
198
+ model.layers.18.self_attn.q_proj: 4
199
+ model.layers.19.self_attn.o_proj: 3
200
+ model.layers.19.self_attn.q_proj: 4
201
+ model.layers.20.self_attn.o_proj: 4
202
+ model.layers.20.self_attn.q_proj: 3
203
+ model.layers.21.self_attn.o_proj: 3
204
+ model.layers.21.self_attn.q_proj: 4
205
+ model.layers.22.self_attn.o_proj: 3
206
+ model.layers.22.self_attn.q_proj: 4
207
+ model.layers.23.self_attn.o_proj: 3
208
+ model.layers.23.self_attn.q_proj: 3
209
+ model.layers.24.self_attn.o_proj: 3
210
+ model.layers.24.self_attn.q_proj: 3
211
+ model.layers.25.self_attn.o_proj: 4
212
+ model.layers.25.self_attn.q_proj: 3
213
+ model.layers.26.self_attn.o_proj: 4
214
+ model.layers.26.self_attn.q_proj: 3
215
+ model.layers.27.self_attn.o_proj: 3
216
+ model.layers.27.self_attn.q_proj: 3
217
+ model.layers.28.self_attn.o_proj: 3
218
+ model.layers.28.self_attn.q_proj: 4
219
+ model.layers.29.self_attn.o_proj: 4
220
+ model.layers.29.self_attn.q_proj: 4
221
+ model.layers.30.self_attn.o_proj: 3
222
+ model.layers.30.self_attn.q_proj: 3
223
+ model.layers.31.self_attn.o_proj: 4
224
+ model.layers.31.self_attn.q_proj: 4
model.layers.0.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ad6aa9e4b39941e4e390b0957c5b4614e3e36f577d4b0be4eb05dfa121219159
3
+ size 60556799
model.layers.0.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d3a87ff8c119c3a45703c2ca10a1d23158fb6172acabc37b6afea6a75affbc9f
3
+ size 60556799
model.layers.0.mlp.up_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ef91108126e433801c55ec845d801b1f510e0e5b3612c5c73da2f358d9debcea
3
+ size 60556799
model.layers.0.self_attn.k_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:69219628c4e06ef22ee516f0744f3c845b5eb2ef6b19e0566488d9dcda6beffb
3
+ size 4326911
model.layers.0.self_attn.o_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d25cd01037f67475ac9cfc02f79316cb734ad6315f3735cdab8dcb00df710f86
3
+ size 17303039
model.layers.0.self_attn.q_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fc37d678f205dc7572d5b45ea003564766621bc1d5e2d8991a2166bec541bbb7
3
+ size 17303039
model.layers.0.self_attn.v_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4136b4f26f55f90133ffe450df9061d8cc929451a81e2e5ba327ca9fd15610a2
3
+ size 4326911
model.layers.1.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8f8506138944972ce1ce86e2874ed5b48043db3e916c29200640fc58cc9f1f80
3
+ size 60556799
model.layers.1.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:28bc549fc51bde6275acc36d6a383334dfa48d6df621dfbf3a451729e2297550
3
+ size 60556799
model.layers.1.mlp.up_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:613cef1546c328228b2a3a7bdca0bb47ae61a1d8c37d865bc64f8a52ff82171e
3
+ size 60556799
model.layers.1.self_attn.k_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dd28c601bed4c42b9ba24e8ee3ef6f5845595645cb0698f64497b022677109f2
3
+ size 4326911
model.layers.1.self_attn.o_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3b3688c5140990d724b46fbc97ada1ade768f02c507d527fba0df105aa17c13c
3
+ size 17303039
model.layers.1.self_attn.q_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:eaad8244238fe5b18dff2a7ac969e8f1dbd5df412f929d51ffa60979326317b5
3
+ size 17303039
model.layers.1.self_attn.v_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b7df87f6c9eb0ae98529beb7dc1373e468867e1687e9060edbcf0b7e8b79982f
3
+ size 4326911
model.layers.10.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:243c19abfa02999c1d2ad49aa7dce2522417b4d8e16ecef2e8f32060abf6278a
3
+ size 60556799
model.layers.10.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ae86a1ac47c33ef20bbe828a112714843d5dec5be9f6b7f673fd693f13048578
3
+ size 60556799
model.layers.10.mlp.up_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e33cb27b2264cdf9422b7b7ab00b7ed0a6ae965e586bf7bda4249ba290c0f91f
3
+ size 60556799
model.layers.10.self_attn.k_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:86677d3fa841674e0e79186783efb7e060c7b6f65412f56545dd4320879c569b
3
+ size 4326911
model.layers.10.self_attn.o_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:308dbe77986e4f695c80b2ce5410a772916af810532ae7d5270bbdf72812b6b3
3
+ size 17303039
model.layers.10.self_attn.q_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:50b6baff34468e1bc0b26c01dfb276c7ed2feb3b104f1e9af8d009356f883bf6
3
+ size 17303039
model.layers.10.self_attn.v_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18e4f4c879f587f50e6fd2f209f994fb5bfb347bf1acd21e3dd111cd824ea0ff
3
+ size 4326911
model.layers.11.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:be3ed2fc6a78c20913e7610df54a2c17c6fe163257529205530a62db6f5219e6
3
+ size 60556799
model.layers.11.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6da931c576c895e1a56e421c13a550306eebd531b93fb6a5e3be2342da7b531c
3
+ size 60556799
model.layers.11.mlp.up_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cf34c29def6ea4d8164ab23fd6292ef3524e80bbb416fd66e56531343f93aede
3
+ size 60556799
model.layers.11.self_attn.k_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e61e19a09eafc2326c9b9645bb1ad51495607278aa8e276ca98da256ccd1adc7
3
+ size 4326911
model.layers.11.self_attn.o_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8c38d8e5e656603a2dbb983a2686cdad46212723ba784b778b83b824df5a6e55
3
+ size 17303039
model.layers.11.self_attn.q_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ec66fa51b9bd8df856565a07a648a93b37700ea0151f2b45a68194b4bdf857cd
3
+ size 17303039
model.layers.11.self_attn.v_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a458551e4f3e02f05a8f1af0659332235c68c065903be4288800a395b97447e0
3
+ size 4326911
model.layers.12.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:63c76878012a75b2861349157727dbdad88c8970663f37115b116c2d61430b82
3
+ size 60556799
model.layers.12.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:09f3cb4e9357e8cb2507126857b7c63fd06b793181e9b44e56c167b22782a741
3
+ size 60556799
model.layers.12.mlp.up_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3c3cacd78883f82e9676a6d62a574a39a65d8459354aa1b08cde24e636470224
3
+ size 60556799
model.layers.12.self_attn.k_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ce15c46f5e7a65d351a14ff288ec70c51c873c4ab050e4ccc81f2e44ed1651a4
3
+ size 4326911
model.layers.12.self_attn.o_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f9d1a16eb11665a8cfc46b448ff209cd8aa3e40191e52693b84e7d4bea9f6e0e
3
+ size 17303039
model.layers.12.self_attn.q_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7cef05f7c22632f5af5e120700891d4f3480b6cfd7321d27bb5e27d764936923
3
+ size 17303039
model.layers.12.self_attn.v_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6f5d93830d5d103f9089ebcd7fe12a937341944e018d13263acd971404f16fb4
3
+ size 4326911
model.layers.13.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21285378eb6996927308669a95117cd7d695dd8fcd5ae5169eb1696ae180682f
3
+ size 60556799
model.layers.13.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e6f44023613bc05892cd189615b29371a0ff987f5b1da45ff8b7f175b5ca98d7
3
+ size 60556799
model.layers.13.mlp.up_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8c18145b24457bc01e766b3c32edae9d3dd73733891a9888212682d8c3a2007d
3
+ size 60556799
model.layers.13.self_attn.k_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:588f53f9d02bd00c739e70d42c93d8a483e83e713af60e3ac51a386537a690c4
3
+ size 4326911
model.layers.13.self_attn.o_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:adfdeba39e52806bf0ce4f42e0216ca19ad306b5b89e267dfb5d0618712fab79
3
+ size 17303039
model.layers.13.self_attn.q_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ab47c49f09963f5e43777386186791d3f4b269b6f709329ec4fe1b16bd28bd7d
3
+ size 17303039
model.layers.13.self_attn.v_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d548dcbde5cda08a6ae29c4d42c5fdbcba27090821ad99462982391cf557f6ef
3
+ size 4326911
model.layers.14.mlp.down_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7f64d63e1e5a09f17838fe81206e115a01417c75758587314cdd5e7f67b27085
3
+ size 60556799
model.layers.14.mlp.gate_proj/data.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ff0ff883c0324cb5157be7aec14cfbc0810b6752fc966222cbf2de97d0f73e52
3
+ size 60556799