AbstractPhil commited on
Commit
f4db6c7
·
verified ·
1 Parent(s): d9c724a

Ablation H-LOW-H2_linear_matched-s1

Browse files
H/LOW/H2_linear_matched/seed1/epoch_1_checkpoint.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:552694c1589079bdd5eee08c89358a398da5d1d5eafcf9e55fe4c42b99ddab1a
3
+ size 15654967
H/LOW/H2_linear_matched/seed1/final_report.json ADDED
@@ -0,0 +1,577 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "config": {
3
+ "group": "H",
4
+ "variant": "H2_linear_matched",
5
+ "band": "LOW",
6
+ "seed": 1,
7
+ "phase": 2,
8
+ "num_epochs": 1,
9
+ "batch_size": 256,
10
+ "overrides": {
11
+ "svd": "none",
12
+ "linear_readout": true,
13
+ "match_params": true
14
+ },
15
+ "description": "H-LOW-H2_linear_matched-s1"
16
+ },
17
+ "run_config": {
18
+ "matrix_v": 64,
19
+ "D": 16,
20
+ "patch_size": 16,
21
+ "hidden": 64,
22
+ "depth": 1,
23
+ "n_cross_layers": 1,
24
+ "n_heads": 4,
25
+ "max_alpha": 0.2,
26
+ "alpha_init": -2.0,
27
+ "img_size": 64,
28
+ "batch_size": 128,
29
+ "lr": 0.0001,
30
+ "epochs": 1,
31
+ "weight_decay": 0.0,
32
+ "use_cv_ema": true,
33
+ "cv_ema_alpha": 0.01,
34
+ "cv_alignment_epochs": 0,
35
+ "cv_measure_every": 50,
36
+ "cv_sigma_scale": 0.3,
37
+ "boost": 0.5,
38
+ "cross_attn_clip": 0.5,
39
+ "allowed_types": [
40
+ 0,
41
+ 1,
42
+ 2,
43
+ 3,
44
+ 4,
45
+ 5,
46
+ 6,
47
+ 7,
48
+ 8,
49
+ 9,
50
+ 10,
51
+ 11,
52
+ 12,
53
+ 13,
54
+ 14,
55
+ 15
56
+ ],
57
+ "train_size": 1000000,
58
+ "val_size": 10000,
59
+ "num_workers": 2,
60
+ "report_every": 100,
61
+ "major_report_every": 10,
62
+ "save_every": 5,
63
+ "seed": 1,
64
+ "hf_repo": "AbstractPhil/geolip-svae-batteries",
65
+ "upload": false
66
+ },
67
+ "cv_ema_final": 0.20367453164962965,
68
+ "cv_last": 0.19768833410298278,
69
+ "predicted_band": "LOW",
70
+ "expected_band": "LOW",
71
+ "band_match": true,
72
+ "test_mse": 0.917594313621521,
73
+ "recon_ema": 0.9209555062521835,
74
+ "S0": 4.609011650085449,
75
+ "SD": 1.8048101663589478,
76
+ "ratio": 2.5537376231907896,
77
+ "erank": 13.31027603149414,
78
+ "observed_sphere_cv": 0.20912327598218228,
79
+ "uniform_sphere_cv_prediction": 0.19536415806695984,
80
+ "band_deviation": 0.01375911791522244,
81
+ "params_finite": true,
82
+ "num_epochs_run": 1,
83
+ "start_epoch": 0,
84
+ "per_epoch_metrics": [
85
+ {
86
+ "epoch": 1,
87
+ "test_mse": 0.917594313621521,
88
+ "cv_ema": 0.20367453164962965,
89
+ "observed_sphere_cv": 0.20912327598218228,
90
+ "band_deviation": 0.01375911791522244,
91
+ "erank": 13.31027603149414,
92
+ "params_finite": true,
93
+ "wallclock_seconds": 33.36464023590088,
94
+ "checkpoint_path": "/content/ablations_phase2/H/LOW/H2_linear_matched_s1/epoch_1_checkpoint.pt"
95
+ }
96
+ ],
97
+ "params_count": 1299811,
98
+ "wallclock_seconds": 33.36606764793396,
99
+ "batches_completed": 3906,
100
+ "batch_limit": 3906,
101
+ "cv_trajectory": [
102
+ {
103
+ "batch": 0,
104
+ "cv": 0.20279410385616262,
105
+ "cv_ema": 0.20279410385616262,
106
+ "recon": 1.5710442066192627
107
+ },
108
+ {
109
+ "batch": 50,
110
+ "cv": 0.18050166382622904,
111
+ "cv_ema": 0.20257117945586328,
112
+ "recon": 1.454594373703003
113
+ },
114
+ {
115
+ "batch": 100,
116
+ "cv": 0.190336501233769,
117
+ "cv_ema": 0.20244883267364233,
118
+ "recon": 1.4161641597747803
119
+ },
120
+ {
121
+ "batch": 150,
122
+ "cv": 0.2096892383035242,
123
+ "cv_ema": 0.20252123672994113,
124
+ "recon": 1.2878855466842651
125
+ },
126
+ {
127
+ "batch": 200,
128
+ "cv": 0.21540331507280677,
129
+ "cv_ema": 0.20265005751336979,
130
+ "recon": 1.154016375541687
131
+ },
132
+ {
133
+ "batch": 250,
134
+ "cv": 0.19117897212166335,
135
+ "cv_ema": 0.20253534665945272,
136
+ "recon": 0.9191238284111023
137
+ },
138
+ {
139
+ "batch": 300,
140
+ "cv": 0.2163400462446127,
141
+ "cv_ema": 0.20267339365530432,
142
+ "recon": 1.179428219795227
143
+ },
144
+ {
145
+ "batch": 350,
146
+ "cv": 0.19420488769878194,
147
+ "cv_ema": 0.2025887085957391,
148
+ "recon": 0.8945938944816589
149
+ },
150
+ {
151
+ "batch": 400,
152
+ "cv": 0.2088072813342201,
153
+ "cv_ema": 0.20265089432312391,
154
+ "recon": 1.0878673791885376
155
+ },
156
+ {
157
+ "batch": 450,
158
+ "cv": 0.2139873329285802,
159
+ "cv_ema": 0.20276425870917847,
160
+ "recon": 1.0601011514663696
161
+ },
162
+ {
163
+ "batch": 500,
164
+ "cv": 0.21066693137544665,
165
+ "cv_ema": 0.20284328543584115,
166
+ "recon": 0.9947635531425476
167
+ },
168
+ {
169
+ "batch": 550,
170
+ "cv": 0.1768227261215882,
171
+ "cv_ema": 0.20258307984269863,
172
+ "recon": 0.9308227300643921
173
+ },
174
+ {
175
+ "batch": 600,
176
+ "cv": 0.19914514446571946,
177
+ "cv_ema": 0.20254870048892884,
178
+ "recon": 0.9740899801254272
179
+ },
180
+ {
181
+ "batch": 650,
182
+ "cv": 0.21337427978372203,
183
+ "cv_ema": 0.20265695628187674,
184
+ "recon": 1.0109542608261108
185
+ },
186
+ {
187
+ "batch": 700,
188
+ "cv": 0.2030164032608857,
189
+ "cv_ema": 0.20266055075166683,
190
+ "recon": 0.946753203868866
191
+ },
192
+ {
193
+ "batch": 750,
194
+ "cv": 0.18296584974474103,
195
+ "cv_ema": 0.20246360374159755,
196
+ "recon": 0.8447837829589844
197
+ },
198
+ {
199
+ "batch": 800,
200
+ "cv": 0.1895999324642128,
201
+ "cv_ema": 0.2023349670288237,
202
+ "recon": 1.0242376327514648
203
+ },
204
+ {
205
+ "batch": 850,
206
+ "cv": 0.20984850555584897,
207
+ "cv_ema": 0.20241010241409393,
208
+ "recon": 0.9213861227035522
209
+ },
210
+ {
211
+ "batch": 900,
212
+ "cv": 0.19451985270892092,
213
+ "cv_ema": 0.2023311999170422,
214
+ "recon": 0.9866952300071716
215
+ },
216
+ {
217
+ "batch": 950,
218
+ "cv": 0.22110476005421026,
219
+ "cv_ema": 0.2025189355184139,
220
+ "recon": 0.9083592295646667
221
+ },
222
+ {
223
+ "batch": 1000,
224
+ "cv": 0.22133698384124967,
225
+ "cv_ema": 0.20270711600164226,
226
+ "recon": 1.1132922172546387
227
+ },
228
+ {
229
+ "batch": 1050,
230
+ "cv": 0.19522501930680597,
231
+ "cv_ema": 0.20263229503469388,
232
+ "recon": 0.8500981330871582
233
+ },
234
+ {
235
+ "batch": 1100,
236
+ "cv": 0.19447442077468827,
237
+ "cv_ema": 0.2025507162920938,
238
+ "recon": 0.9747983813285828
239
+ },
240
+ {
241
+ "batch": 1150,
242
+ "cv": 0.20197373851564704,
243
+ "cv_ema": 0.20254494651432936,
244
+ "recon": 1.023856520652771
245
+ },
246
+ {
247
+ "batch": 1200,
248
+ "cv": 0.1836286352646296,
249
+ "cv_ema": 0.20235578340183236,
250
+ "recon": 1.089536190032959
251
+ },
252
+ {
253
+ "batch": 1250,
254
+ "cv": 0.19972702136500914,
255
+ "cv_ema": 0.2023294957814641,
256
+ "recon": 0.9986073970794678
257
+ },
258
+ {
259
+ "batch": 1300,
260
+ "cv": 0.210346732354965,
261
+ "cv_ema": 0.20240966814719913,
262
+ "recon": 1.1190333366394043
263
+ },
264
+ {
265
+ "batch": 1350,
266
+ "cv": 0.1839205905593916,
267
+ "cv_ema": 0.20222477737132105,
268
+ "recon": 1.0011969804763794
269
+ },
270
+ {
271
+ "batch": 1400,
272
+ "cv": 0.19111492451199283,
273
+ "cv_ema": 0.20211367884272777,
274
+ "recon": 0.8736008405685425
275
+ },
276
+ {
277
+ "batch": 1450,
278
+ "cv": 0.19775780605478127,
279
+ "cv_ema": 0.20207012011484832,
280
+ "recon": 1.1187751293182373
281
+ },
282
+ {
283
+ "batch": 1500,
284
+ "cv": 0.19391761058408005,
285
+ "cv_ema": 0.20198859501954064,
286
+ "recon": 1.0767979621887207
287
+ },
288
+ {
289
+ "batch": 1550,
290
+ "cv": 0.21692963895183787,
291
+ "cv_ema": 0.2021380054588636,
292
+ "recon": 0.9733794927597046
293
+ },
294
+ {
295
+ "batch": 1600,
296
+ "cv": 0.19783347368440335,
297
+ "cv_ema": 0.202094960141119,
298
+ "recon": 1.0434722900390625
299
+ },
300
+ {
301
+ "batch": 1650,
302
+ "cv": 0.21427140556425273,
303
+ "cv_ema": 0.20221672459535034,
304
+ "recon": 0.8944458365440369
305
+ },
306
+ {
307
+ "batch": 1700,
308
+ "cv": 0.2002242538257692,
309
+ "cv_ema": 0.20219679988765454,
310
+ "recon": 0.8843838572502136
311
+ },
312
+ {
313
+ "batch": 1750,
314
+ "cv": 0.20879969549009697,
315
+ "cv_ema": 0.20226282884367897,
316
+ "recon": 0.8614327311515808
317
+ },
318
+ {
319
+ "batch": 1800,
320
+ "cv": 0.20880032250753083,
321
+ "cv_ema": 0.20232820378031746,
322
+ "recon": 0.9757286906242371
323
+ },
324
+ {
325
+ "batch": 1850,
326
+ "cv": 0.19065391960791733,
327
+ "cv_ema": 0.20221146093859346,
328
+ "recon": 0.7997710704803467
329
+ },
330
+ {
331
+ "batch": 1900,
332
+ "cv": 0.19664658200865326,
333
+ "cv_ema": 0.20215581214929404,
334
+ "recon": 1.0631450414657593
335
+ },
336
+ {
337
+ "batch": 1950,
338
+ "cv": 0.23559674555841673,
339
+ "cv_ema": 0.20249022148338527,
340
+ "recon": 0.868992269039154
341
+ },
342
+ {
343
+ "batch": 2000,
344
+ "cv": 0.21999953862634916,
345
+ "cv_ema": 0.2026653146548149,
346
+ "recon": 0.8108587265014648
347
+ },
348
+ {
349
+ "batch": 2050,
350
+ "cv": 0.20574011294715244,
351
+ "cv_ema": 0.2026960626377383,
352
+ "recon": 0.9802052974700928
353
+ },
354
+ {
355
+ "batch": 2100,
356
+ "cv": 0.19665998028832415,
357
+ "cv_ema": 0.20263570181424415,
358
+ "recon": 0.8703858256340027
359
+ },
360
+ {
361
+ "batch": 2150,
362
+ "cv": 0.18516520150590718,
363
+ "cv_ema": 0.20246099681116078,
364
+ "recon": 0.9410673379898071
365
+ },
366
+ {
367
+ "batch": 2200,
368
+ "cv": 0.20761988470950998,
369
+ "cv_ema": 0.20251258569014427,
370
+ "recon": 0.9659246206283569
371
+ },
372
+ {
373
+ "batch": 2250,
374
+ "cv": 0.18976660339570478,
375
+ "cv_ema": 0.20238512586719987,
376
+ "recon": 0.9867178797721863
377
+ },
378
+ {
379
+ "batch": 2300,
380
+ "cv": 0.19455026823485075,
381
+ "cv_ema": 0.20230677729087637,
382
+ "recon": 0.8420087695121765
383
+ },
384
+ {
385
+ "batch": 2350,
386
+ "cv": 0.198313328451403,
387
+ "cv_ema": 0.20226684280248164,
388
+ "recon": 0.9899368286132812
389
+ },
390
+ {
391
+ "batch": 2400,
392
+ "cv": 0.21484590175692764,
393
+ "cv_ema": 0.2023926333920261,
394
+ "recon": 0.9262598752975464
395
+ },
396
+ {
397
+ "batch": 2450,
398
+ "cv": 0.18934460466134467,
399
+ "cv_ema": 0.2022621531047193,
400
+ "recon": 1.1416093111038208
401
+ },
402
+ {
403
+ "batch": 2500,
404
+ "cv": 0.21885843399001334,
405
+ "cv_ema": 0.2024281159135722,
406
+ "recon": 0.9207026362419128
407
+ },
408
+ {
409
+ "batch": 2550,
410
+ "cv": 0.20098570927000978,
411
+ "cv_ema": 0.2024136918471366,
412
+ "recon": 0.8992809653282166
413
+ },
414
+ {
415
+ "batch": 2600,
416
+ "cv": 0.21490964073171107,
417
+ "cv_ema": 0.20253865133598234,
418
+ "recon": 0.9626827239990234
419
+ },
420
+ {
421
+ "batch": 2650,
422
+ "cv": 0.2042383187936844,
423
+ "cv_ema": 0.20255564801055936,
424
+ "recon": 1.020715594291687
425
+ },
426
+ {
427
+ "batch": 2700,
428
+ "cv": 0.20564897594324313,
429
+ "cv_ema": 0.2025865812898862,
430
+ "recon": 0.8365278244018555
431
+ },
432
+ {
433
+ "batch": 2750,
434
+ "cv": 0.20457880708077478,
435
+ "cv_ema": 0.20260650354779505,
436
+ "recon": 0.8644766807556152
437
+ },
438
+ {
439
+ "batch": 2800,
440
+ "cv": 0.19529408040737015,
441
+ "cv_ema": 0.20253337931639082,
442
+ "recon": 1.1754791736602783
443
+ },
444
+ {
445
+ "batch": 2850,
446
+ "cv": 0.2053570497517154,
447
+ "cv_ema": 0.20256161602074405,
448
+ "recon": 0.8598877787590027
449
+ },
450
+ {
451
+ "batch": 2900,
452
+ "cv": 0.2310774014064792,
453
+ "cv_ema": 0.2028467738746014,
454
+ "recon": 0.8108085989952087
455
+ },
456
+ {
457
+ "batch": 2950,
458
+ "cv": 0.2155838676157652,
459
+ "cv_ema": 0.20297414481201304,
460
+ "recon": 1.0341849327087402
461
+ },
462
+ {
463
+ "batch": 3000,
464
+ "cv": 0.2073388983332724,
465
+ "cv_ema": 0.20301779234722564,
466
+ "recon": 0.8336083889007568
467
+ },
468
+ {
469
+ "batch": 3050,
470
+ "cv": 0.23143981464794713,
471
+ "cv_ema": 0.20330201257023284,
472
+ "recon": 0.9275856018066406
473
+ },
474
+ {
475
+ "batch": 3100,
476
+ "cv": 0.21645295387442243,
477
+ "cv_ema": 0.20343352198327472,
478
+ "recon": 0.8206052780151367
479
+ },
480
+ {
481
+ "batch": 3150,
482
+ "cv": 0.20084416182163412,
483
+ "cv_ema": 0.2034076283816583,
484
+ "recon": 0.972702145576477
485
+ },
486
+ {
487
+ "batch": 3200,
488
+ "cv": 0.20457947166515852,
489
+ "cv_ema": 0.2034193468144933,
490
+ "recon": 1.0501266717910767
491
+ },
492
+ {
493
+ "batch": 3250,
494
+ "cv": 0.20900950380656616,
495
+ "cv_ema": 0.20347524838441403,
496
+ "recon": 0.845183789730072
497
+ },
498
+ {
499
+ "batch": 3300,
500
+ "cv": 0.217857756930122,
501
+ "cv_ema": 0.20361907346987113,
502
+ "recon": 0.8862435221672058
503
+ },
504
+ {
505
+ "batch": 3350,
506
+ "cv": 0.20276235392930045,
507
+ "cv_ema": 0.20361050627446542,
508
+ "recon": 0.948415994644165
509
+ },
510
+ {
511
+ "batch": 3400,
512
+ "cv": 0.1980902729255466,
513
+ "cv_ema": 0.20355530394097623,
514
+ "recon": 0.9581121206283569
515
+ },
516
+ {
517
+ "batch": 3450,
518
+ "cv": 0.18863089647483058,
519
+ "cv_ema": 0.20340605986631477,
520
+ "recon": 0.9819919466972351
521
+ },
522
+ {
523
+ "batch": 3500,
524
+ "cv": 0.22245494416144398,
525
+ "cv_ema": 0.20359654870926605,
526
+ "recon": 1.0316858291625977
527
+ },
528
+ {
529
+ "batch": 3550,
530
+ "cv": 0.21914169335933695,
531
+ "cv_ema": 0.20375200015576675,
532
+ "recon": 0.903692901134491
533
+ },
534
+ {
535
+ "batch": 3600,
536
+ "cv": 0.20924886744232227,
537
+ "cv_ema": 0.2038069688286323,
538
+ "recon": 0.7624915838241577
539
+ },
540
+ {
541
+ "batch": 3650,
542
+ "cv": 0.20556641095892556,
543
+ "cv_ema": 0.20382456324993525,
544
+ "recon": 0.9379287958145142
545
+ },
546
+ {
547
+ "batch": 3700,
548
+ "cv": 0.20715162715236576,
549
+ "cv_ema": 0.20385783388895956,
550
+ "recon": 1.042091965675354
551
+ },
552
+ {
553
+ "batch": 3750,
554
+ "cv": 0.21411242031032712,
555
+ "cv_ema": 0.20396037975317324,
556
+ "recon": 1.0892471075057983
557
+ },
558
+ {
559
+ "batch": 3800,
560
+ "cv": 0.18568799609051895,
561
+ "cv_ema": 0.2037776559165467,
562
+ "recon": 0.8917360305786133
563
+ },
564
+ {
565
+ "batch": 3850,
566
+ "cv": 0.199511893413374,
567
+ "cv_ema": 0.20373499829151498,
568
+ "recon": 0.7880491614341736
569
+ },
570
+ {
571
+ "batch": 3900,
572
+ "cv": 0.19768833410298278,
573
+ "cv_ema": 0.20367453164962965,
574
+ "recon": 0.9134202003479004
575
+ }
576
+ ]
577
+ }
H/LOW/H2_linear_matched/seed1/tensorboard/events.out.tfevents.1776796998.52b79b2c7612.4109.46 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2f4dad8641a61b1e43554c3a28e60e015124a49bf383e318fd02caba10ce2bc9
3
+ size 612125