amirali1985 commited on
Commit
b7f8434
·
verified ·
1 Parent(s): 320521a

Upload add_sub_baseline_25K

Browse files
add_sub_baseline_25K/metrics.json CHANGED
@@ -159,478 +159,478 @@
159
  7800
160
  ],
161
  "loss": [
162
- 9.4371337890625,
163
- 7.074652671813965,
164
- 6.122837543487549,
165
- 4.6825385093688965,
166
- 3.0381083488464355,
167
- 2.0917437076568604,
168
- 1.882021188735962,
169
- 1.9029165506362915,
170
- 1.7700093984603882,
171
- 1.6935831308364868,
172
- 1.5817426443099976,
173
- 1.4419691562652588,
174
- 1.0461561679840088,
175
- 0.7932643294334412,
176
- 0.6623935699462891,
177
- 0.5456612706184387,
178
- 0.5513021349906921,
179
- 0.4767663776874542,
180
- 0.38498836755752563,
181
- 0.4133641719818115,
182
- 0.31893685460090637,
183
- 0.3751819133758545,
184
- 0.31682610511779785,
185
- 0.3113398253917694,
186
- 0.2859819829463959,
187
- 0.30192962288856506,
188
- 0.2594987452030182,
189
- 0.19506025314331055,
190
- 0.23191870748996735,
191
- 0.2392965406179428,
192
- 0.2253739833831787,
193
- 0.17677058279514313,
194
- 0.21856749057769775,
195
- 0.1249561682343483,
196
- 0.17712180316448212,
197
- 0.1823340654373169,
198
- 0.19931195676326752,
199
- 0.17808902263641357,
200
- 0.11950694024562836,
201
- 0.17866145074367523,
202
- 0.17124225199222565,
203
- 0.112669937312603,
204
- 0.19379594922065735,
205
- 0.1307276040315628,
206
- 0.17944271862506866,
207
- 0.14239387214183807,
208
- 0.15844760835170746,
209
- 0.13379694521427155,
210
- 0.09916692227125168,
211
- 0.1193651482462883,
212
- 0.12891770899295807,
213
- 0.17134933173656464,
214
- 0.11273209750652313,
215
- 0.14026163518428802,
216
- 0.1875033676624298,
217
- 0.10574714094400406,
218
- 0.1429772675037384,
219
- 0.12849411368370056,
220
- 0.14711573719978333,
221
- 0.13475127518177032,
222
- 0.09672373533248901,
223
- 0.10411882400512695,
224
- 0.11657597869634628,
225
- 0.10133056342601776,
226
- 0.11380661278963089,
227
- 0.10492556542158127,
228
- 0.07867716252803802,
229
- 0.11208102852106094,
230
- 0.12357942014932632,
231
- 0.09030698239803314,
232
- 0.11589111387729645,
233
- 0.07594970613718033,
234
- 0.08090318739414215,
235
- 0.08280433714389801,
236
- 0.06660598516464233,
237
- 0.11626514047384262,
238
- 0.08782225102186203,
239
- 0.07667553424835205,
240
- 0.0659191906452179,
241
- 0.06984346359968185,
242
- 0.07098687440156937,
243
- 0.10126902908086777,
244
- 0.09939603507518768,
245
- 0.08991016447544098,
246
- 0.07744383811950684,
247
- 0.06926203519105911,
248
- 0.06146344915032387,
249
- 0.09036505222320557,
250
- 0.08489241451025009,
251
- 0.062018830329179764,
252
- 0.05275828391313553,
253
- 0.07086634635925293,
254
- 0.06931327283382416,
255
- 0.09127948433160782,
256
- 0.07429345697164536,
257
- 0.08549024164676666,
258
- 0.06286706030368805,
259
- 0.05378304794430733,
260
- 0.044635117053985596,
261
- 0.05906063690781593,
262
- 0.053794749081134796,
263
- 0.0547708198428154,
264
- 0.02951294183731079,
265
- 0.049380701035261154,
266
- 0.06013629585504532,
267
- 0.042153794318437576,
268
- 0.059404365718364716,
269
- 0.057506877928972244,
270
- 0.0508505143225193,
271
- 0.046686530113220215,
272
- 0.07300496101379395,
273
- 0.035853564739227295,
274
- 0.04073333367705345,
275
- 0.04065943509340286,
276
- 0.045939598232507706,
277
- 0.052995141595602036,
278
- 0.049060072749853134,
279
- 0.03872013837099075,
280
- 0.043473295867443085,
281
- 0.03402497619390488,
282
- 0.05528164654970169,
283
- 0.0507243312895298,
284
- 0.05915408954024315,
285
- 0.04674220830202103,
286
- 0.051885757595300674,
287
- 0.040509335696697235,
288
- 0.03638586029410362,
289
- 0.025626471266150475,
290
- 0.02101641520857811,
291
- 0.033242858946323395,
292
- 0.027668897062540054,
293
- 0.03064912185072899,
294
- 0.035983264446258545,
295
- 0.04090739041566849,
296
- 0.02467496506869793,
297
- 0.03506144881248474,
298
- 0.023822205141186714,
299
- 0.024419376626610756,
300
- 0.029216334223747253,
301
- 0.03664829209446907,
302
- 0.033825285732746124,
303
- 0.0254127848893404,
304
- 0.029008716344833374,
305
- 0.032890621572732925,
306
- 0.036917805671691895,
307
- 0.03223109617829323,
308
- 0.02562890388071537,
309
- 0.029643472284078598,
310
- 0.03162688761949539,
311
- 0.04186885803937912,
312
- 0.028349589556455612,
313
- 0.03455352038145065,
314
- 0.027812888845801353,
315
- 0.024674389511346817,
316
- 0.03943091258406639,
317
- 0.022551996633410454
318
  ],
319
  "base_loss": [
320
- 9.4371337890625,
321
- 7.074652671813965,
322
- 6.122837543487549,
323
- 4.6825385093688965,
324
- 3.0381083488464355,
325
- 2.0917437076568604,
326
- 1.882021188735962,
327
- 1.9029165506362915,
328
- 1.7700093984603882,
329
- 1.6935831308364868,
330
- 1.5817426443099976,
331
- 1.4419691562652588,
332
- 1.0461561679840088,
333
- 0.7932643294334412,
334
- 0.6623935699462891,
335
- 0.5456612706184387,
336
- 0.5513021349906921,
337
- 0.4767663776874542,
338
- 0.38498836755752563,
339
- 0.4133641719818115,
340
- 0.31893685460090637,
341
- 0.3751819133758545,
342
- 0.31682610511779785,
343
- 0.3113398253917694,
344
- 0.2859819829463959,
345
- 0.30192962288856506,
346
- 0.2594987452030182,
347
- 0.19506025314331055,
348
- 0.23191870748996735,
349
- 0.2392965406179428,
350
- 0.2253739833831787,
351
- 0.17677058279514313,
352
- 0.21856749057769775,
353
- 0.1249561682343483,
354
- 0.17712180316448212,
355
- 0.1823340654373169,
356
- 0.19931195676326752,
357
- 0.17808902263641357,
358
- 0.11950694024562836,
359
- 0.17866145074367523,
360
- 0.17124225199222565,
361
- 0.112669937312603,
362
- 0.19379594922065735,
363
- 0.1307276040315628,
364
- 0.17944271862506866,
365
- 0.14239387214183807,
366
- 0.15844760835170746,
367
- 0.13379694521427155,
368
- 0.09916692227125168,
369
- 0.1193651482462883,
370
- 0.12891770899295807,
371
- 0.17134933173656464,
372
- 0.11273209750652313,
373
- 0.14026163518428802,
374
- 0.1875033676624298,
375
- 0.10574714094400406,
376
- 0.1429772675037384,
377
- 0.12849411368370056,
378
- 0.14711573719978333,
379
- 0.13475127518177032,
380
- 0.09672373533248901,
381
- 0.10411882400512695,
382
- 0.11657597869634628,
383
- 0.10133056342601776,
384
- 0.11380661278963089,
385
- 0.10492556542158127,
386
- 0.07867716252803802,
387
- 0.11208102852106094,
388
- 0.12357942014932632,
389
- 0.09030698239803314,
390
- 0.11589111387729645,
391
- 0.07594970613718033,
392
- 0.08090318739414215,
393
- 0.08280433714389801,
394
- 0.06660598516464233,
395
- 0.11626514047384262,
396
- 0.08782225102186203,
397
- 0.07667553424835205,
398
- 0.0659191906452179,
399
- 0.06984346359968185,
400
- 0.07098687440156937,
401
- 0.10126902908086777,
402
- 0.09939603507518768,
403
- 0.08991016447544098,
404
- 0.07744383811950684,
405
- 0.06926203519105911,
406
- 0.06146344915032387,
407
- 0.09036505222320557,
408
- 0.08489241451025009,
409
- 0.062018830329179764,
410
- 0.05275828391313553,
411
- 0.07086634635925293,
412
- 0.06931327283382416,
413
- 0.09127948433160782,
414
- 0.07429345697164536,
415
- 0.08549024164676666,
416
- 0.06286706030368805,
417
- 0.05378304794430733,
418
- 0.044635117053985596,
419
- 0.05906063690781593,
420
- 0.053794749081134796,
421
- 0.0547708198428154,
422
- 0.02951294183731079,
423
- 0.049380701035261154,
424
- 0.06013629585504532,
425
- 0.042153794318437576,
426
- 0.059404365718364716,
427
- 0.057506877928972244,
428
- 0.0508505143225193,
429
- 0.046686530113220215,
430
- 0.07300496101379395,
431
- 0.035853564739227295,
432
- 0.04073333367705345,
433
- 0.04065943509340286,
434
- 0.045939598232507706,
435
- 0.052995141595602036,
436
- 0.049060072749853134,
437
- 0.03872013837099075,
438
- 0.043473295867443085,
439
- 0.03402497619390488,
440
- 0.05528164654970169,
441
- 0.0507243312895298,
442
- 0.05915408954024315,
443
- 0.04674220830202103,
444
- 0.051885757595300674,
445
- 0.040509335696697235,
446
- 0.03638586029410362,
447
- 0.025626471266150475,
448
- 0.02101641520857811,
449
- 0.033242858946323395,
450
- 0.027668897062540054,
451
- 0.03064912185072899,
452
- 0.035983264446258545,
453
- 0.04090739041566849,
454
- 0.02467496506869793,
455
- 0.03506144881248474,
456
- 0.023822205141186714,
457
- 0.024419376626610756,
458
- 0.029216334223747253,
459
- 0.03664829209446907,
460
- 0.033825285732746124,
461
- 0.0254127848893404,
462
- 0.029008716344833374,
463
- 0.032890621572732925,
464
- 0.036917805671691895,
465
- 0.03223109617829323,
466
- 0.02562890388071537,
467
- 0.029643472284078598,
468
- 0.03162688761949539,
469
- 0.04186885803937912,
470
- 0.028349589556455612,
471
- 0.03455352038145065,
472
- 0.027812888845801353,
473
- 0.024674389511346817,
474
- 0.03943091258406639,
475
- 0.022551996633410454
476
  ],
477
  "lr": [
478
- 8.376068376068378e-06,
479
- 1.6923076923076924e-05,
480
- 2.5470085470085475e-05,
481
- 3.401709401709402e-05,
482
- 3.99996141174052e-05,
483
- 3.9992754396617386e-05,
484
- 3.997732289238075e-05,
485
- 3.9953326220867826e-05,
486
- 3.99207746705195e-05,
487
- 3.987968219763389e-05,
488
- 3.9830066420382645e-05,
489
- 3.97719486112573e-05,
490
- 3.9705353687948734e-05,
491
- 3.9630310202663935e-05,
492
- 3.9546850329884316e-05,
493
- 3.945500985257116e-05,
494
- 3.9354828146823805e-05,
495
- 3.924634816499739e-05,
496
- 3.9129616417287294e-05,
497
- 3.900468295178809e-05,
498
- 3.887160133303572e-05,
499
- 3.8730428619042037e-05,
500
- 3.858122533683144e-05,
501
- 3.842405545649026e-05,
502
- 3.825898636373997e-05,
503
- 3.808608883104587e-05,
504
- 3.790543698727386e-05,
505
- 3.7717108285908e-05,
506
- 3.752118347184284e-05,
507
- 3.7317746546764446e-05,
508
- 3.710688473313514e-05,
509
- 3.688868843679738e-05,
510
- 3.666325120821272e-05,
511
- 3.643066970235256e-05,
512
- 3.619104363725791e-05,
513
- 3.5944475751285765e-05,
514
- 3.569107175906064e-05,
515
- 3.5430940306149985e-05,
516
- 3.516419292248301e-05,
517
- 3.489094397453285e-05,
518
- 3.461131061628253e-05,
519
- 3.4325412738995875e-05,
520
- 3.403337291981479e-05,
521
- 3.373531636920496e-05,
522
- 3.343137087727258e-05,
523
- 3.3121666758975014e-05,
524
- 3.280633679824903e-05,
525
- 3.248551619108036e-05,
526
- 3.21593424875392e-05,
527
- 3.1827955532806334e-05,
528
- 3.149149740721537e-05,
529
- 3.115011236533647e-05,
530
- 3.080394677412806e-05,
531
- 3.045314905018279e-05,
532
- 3.0097869596094755e-05,
533
- 2.9738260735975154e-05,
534
- 2.9374476650144227e-05,
535
- 2.9006673309027263e-05,
536
- 2.8635008406283132e-05,
537
- 2.8259641291194015e-05,
538
- 2.7880732900345262e-05,
539
- 2.7498445688624725e-05,
540
- 2.711294355957111e-05,
541
- 2.6724391795101242e-05,
542
- 2.633295698464635e-05,
543
- 2.5938806953727778e-05,
544
- 2.5542110692002687e-05,
545
- 2.5143038280810704e-05,
546
- 2.4741760820252464e-05,
547
- 2.433845035583137e-05,
548
- 2.3933279804690064e-05,
549
- 2.352642288147312e-05,
550
- 2.3118054023847876e-05,
551
- 2.2708348317715223e-05,
552
- 2.2297481422142487e-05,
553
- 2.188562949405059e-05,
554
- 2.1472969112687716e-05,
555
- 2.1059677203921957e-05,
556
- 2.064593096438528e-05,
557
- 2.0231907785501493e-05,
558
- 1.9817785177430605e-05,
559
- 1.9403740692962372e-05,
560
- 1.898995185139145e-05,
561
- 1.8576596062407023e-05,
562
- 1.816385055002938e-05,
563
- 1.7751892276626043e-05,
564
- 1.7340897867040178e-05,
565
- 1.6931043532863625e-05,
566
- 1.6522504996887168e-05,
567
- 1.611545741776037e-05,
568
- 1.5710075314893218e-05,
569
- 1.5306532493631954e-05,
570
- 1.4905001970740918e-05,
571
- 1.4505655900222602e-05,
572
- 1.4108665499507574e-05,
573
- 1.371420097604592e-05,
574
- 1.332243145433177e-05,
575
- 1.2933524903392054e-05,
576
- 1.2547648064770774e-05,
577
- 1.2164966381039404e-05,
578
- 1.178564392486436e-05,
579
- 1.140984332866172e-05,
580
- 1.1037725714869483e-05,
581
- 1.066945062686719e-05,
582
- 1.0305175960572616e-05,
583
- 9.945057896744699e-06,
584
- 9.589250834021969e-06,
585
- 9.237907322724944e-06,
586
- 8.891177999451028e-06,
587
- 8.549211522489898e-06,
588
- 8.212154508087055e-06,
589
- 7.88015146758299e-06,
590
- 7.553344745454641e-06,
591
- 7.231874458286057e-06,
592
- 6.915878434694157e-06,
593
- 6.605492156235467e-06,
594
- 6.30084869931916e-06,
595
- 6.002078678151244e-06,
596
- 5.709310188734507e-06,
597
- 5.422668753947975e-06,
598
- 5.14227726972974e-06,
599
- 4.868255952385965e-06,
600
- 4.600722287048818e-06,
601
- 4.339790977305362e-06,
602
- 4.085573896019013e-06,
603
- 3.838180037364703e-06,
604
- 3.5977154700981752e-06,
605
- 3.364283292079631e-06,
606
- 3.137983586071065e-06,
607
- 2.9189133768263488e-06,
608
- 2.707166589492387e-06,
609
- 2.5028340093392257e-06,
610
- 2.3060032428363876e-06,
611
- 2.1167586800920613e-06,
612
- 1.9351814586713113e-06,
613
- 1.7613494288088008e-06,
614
- 1.5953371200309199e-06,
615
- 1.437215709201667e-06,
616
- 1.2870529900059636e-06,
617
- 1.1449133438834802e-06,
618
- 1.0108577124254482e-06,
619
- 8.849435712462972e-07,
620
- 7.67224905341275e-07,
621
- 6.57752185940721e-07,
622
- 5.565723488707586e-07,
623
- 4.637287744298502e-07,
624
- 3.79261268789719e-07,
625
- 3.032060469286724e-07,
626
- 2.3559571710463747e-07,
627
- 1.7645926687452908e-07,
628
- 1.2582205066603127e-07,
629
- 8.370577890698173e-08,
630
- 5.012850871717989e-08,
631
- 2.5104636166479735e-08,
632
- 8.64489010255598e-09,
633
- 7.563275509769874e-10
634
  ],
635
  "eval_step": [
636
  390,
@@ -678,28 +678,28 @@
678
  ],
679
  "eval_accuracy": [
680
  0.0044444444444444444,
681
- 0.07111111111111111,
682
- 0.3566666666666667,
683
- 0.5133333333333333,
684
- 0.6433333333333333,
685
- 0.6266666666666667,
686
- 0.6777777777777778,
687
- 0.6422222222222222,
688
- 0.6966666666666667,
689
- 0.7366666666666667,
690
- 0.75,
691
- 0.7633333333333333,
692
- 0.7722222222222223,
693
  0.7922222222222223,
694
- 0.8388888888888889,
695
- 0.8188888888888889,
696
- 0.84,
697
- 0.8522222222222222,
698
  0.8511111111111112,
699
- 0.8488888888888889
 
 
 
 
 
 
 
 
 
700
  ]
701
  },
702
- "final_accuracy": 0.8179166666666666,
703
  "sft_eval": {
704
  "config": {
705
  "ops": "add_sub",
@@ -710,11 +710,11 @@
710
  },
711
  "splits": {
712
  "add_S0": {
713
- "full_accuracy": 0.95,
714
  "n_examples": 100,
715
  "per_subtask": {
716
  "SA": {
717
- "accuracy": 0.9917355371900827,
718
  "count": 605
719
  },
720
  "SS": {
@@ -724,11 +724,11 @@
724
  }
725
  },
726
  "add_S1": {
727
- "full_accuracy": 1.0,
728
  "n_examples": 100,
729
  "per_subtask": {
730
  "SA": {
731
- "accuracy": 1.0,
732
  "count": 204
733
  },
734
  "SC": {
@@ -746,15 +746,15 @@
746
  }
747
  },
748
  "add_S2": {
749
- "full_accuracy": 0.91,
750
  "n_examples": 100,
751
  "per_subtask": {
752
  "SA": {
753
- "accuracy": 0.9938650306748467,
754
  "count": 163
755
  },
756
  "SC": {
757
- "accuracy": 0.9923076923076923,
758
  "count": 130
759
  },
760
  "SS": {
@@ -762,7 +762,7 @@
762
  "count": 87
763
  },
764
  "UC": {
765
- "accuracy": 0.9655172413793104,
766
  "count": 203
767
  },
768
  "US": {
@@ -772,7 +772,7 @@
772
  }
773
  },
774
  "add_S3": {
775
- "full_accuracy": 0.87,
776
  "n_examples": 100,
777
  "per_subtask": {
778
  "SA": {
@@ -788,17 +788,17 @@
788
  "count": 49
789
  },
790
  "UC": {
791
- "accuracy": 0.9354838709677419,
792
  "count": 186
793
  },
794
  "US": {
795
- "accuracy": 0.9820627802690582,
796
  "count": 223
797
  }
798
  }
799
  },
800
  "add_S4": {
801
- "full_accuracy": 0.71,
802
  "n_examples": 100,
803
  "per_subtask": {
804
  "SA": {
@@ -814,17 +814,17 @@
814
  "count": 23
815
  },
816
  "UC": {
817
- "accuracy": 0.85,
818
  "count": 160
819
  },
820
  "US": {
821
- "accuracy": 0.9641693811074918,
822
  "count": 307
823
  }
824
  }
825
  },
826
  "add_S5": {
827
- "full_accuracy": 0.59,
828
  "n_examples": 100,
829
  "per_subtask": {
830
  "SA": {
@@ -836,17 +836,17 @@
836
  "count": 100
837
  },
838
  "UC": {
839
- "accuracy": 0.72,
840
  "count": 100
841
  },
842
  "US": {
843
- "accuracy": 0.8775,
844
  "count": 400
845
  }
846
  }
847
  },
848
  "add_S6": {
849
- "full_accuracy": 0.74,
850
  "n_examples": 100,
851
  "per_subtask": {
852
  "SC": {
@@ -854,25 +854,25 @@
854
  "count": 100
855
  },
856
  "UC": {
857
- "accuracy": 0.85,
858
  "count": 100
859
  },
860
  "US": {
861
- "accuracy": 0.882,
862
  "count": 500
863
  }
864
  }
865
  },
866
  "add_random": {
867
- "full_accuracy": 0.95,
868
  "n_examples": 200,
869
  "per_subtask": {
870
  "SA": {
871
- "accuracy": 0.9865771812080537,
872
  "count": 447
873
  },
874
  "SC": {
875
- "accuracy": 0.996875,
876
  "count": 320
877
  },
878
  "SS": {
@@ -880,7 +880,7 @@
880
  "count": 56
881
  },
882
  "UC": {
883
- "accuracy": 0.9924385633270322,
884
  "count": 529
885
  },
886
  "US": {
@@ -890,7 +890,7 @@
890
  }
891
  },
892
  "add_C3": {
893
- "full_accuracy": 0.84,
894
  "n_examples": 100,
895
  "per_subtask": {
896
  "SA": {
@@ -902,7 +902,7 @@
902
  "count": 100
903
  },
904
  "UC": {
905
- "accuracy": 0.917098445595855,
906
  "count": 193
907
  },
908
  "US": {
@@ -912,7 +912,7 @@
912
  }
913
  },
914
  "add_C4": {
915
- "full_accuracy": 0.9,
916
  "n_examples": 100,
917
  "per_subtask": {
918
  "SA": {
@@ -924,7 +924,7 @@
924
  "count": 100
925
  },
926
  "UC": {
927
- "accuracy": 0.9609375,
928
  "count": 256
929
  },
930
  "US": {
@@ -934,7 +934,7 @@
934
  }
935
  },
936
  "add_C5": {
937
- "full_accuracy": 0.89,
938
  "n_examples": 100,
939
  "per_subtask": {
940
  "SA": {
@@ -946,17 +946,17 @@
946
  "count": 100
947
  },
948
  "UC": {
949
- "accuracy": 0.9640522875816994,
950
  "count": 306
951
  },
952
  "US": {
953
- "accuracy": 1.0,
954
  "count": 194
955
  }
956
  }
957
  },
958
  "add_C6": {
959
- "full_accuracy": 0.9,
960
  "n_examples": 100,
961
  "per_subtask": {
962
  "SC": {
@@ -964,21 +964,21 @@
964
  "count": 100
965
  },
966
  "UC": {
967
- "accuracy": 0.9754098360655737,
968
  "count": 366
969
  },
970
  "US": {
971
- "accuracy": 0.9957264957264957,
972
  "count": 234
973
  }
974
  }
975
  },
976
  "sub_M0": {
977
- "full_accuracy": 0.99,
978
  "n_examples": 100,
979
  "per_subtask": {
980
  "MD": {
981
- "accuracy": 0.9983361064891847,
982
  "count": 601
983
  },
984
  "ME": {
@@ -988,15 +988,15 @@
988
  }
989
  },
990
  "sub_M1": {
991
- "full_accuracy": 0.98,
992
  "n_examples": 100,
993
  "per_subtask": {
994
  "MD": {
995
- "accuracy": 0.996415770609319,
996
  "count": 279
997
  },
998
  "MB": {
999
- "accuracy": 0.993103448275862,
1000
  "count": 145
1001
  },
1002
  "ME": {
@@ -1010,15 +1010,15 @@
1010
  }
1011
  },
1012
  "sub_M2": {
1013
- "full_accuracy": 0.92,
1014
  "n_examples": 100,
1015
  "per_subtask": {
1016
  "MD": {
1017
- "accuracy": 0.9953051643192489,
1018
  "count": 213
1019
  },
1020
  "MB": {
1021
- "accuracy": 0.9911504424778761,
1022
  "count": 113
1023
  },
1024
  "ME": {
@@ -1026,7 +1026,7 @@
1026
  "count": 85
1027
  },
1028
  "UB": {
1029
- "accuracy": 0.9668508287292817,
1030
  "count": 181
1031
  },
1032
  "UD": {
@@ -1036,7 +1036,7 @@
1036
  }
1037
  },
1038
  "sub_M3": {
1039
- "full_accuracy": 0.8,
1040
  "n_examples": 100,
1041
  "per_subtask": {
1042
  "MD": {
@@ -1052,7 +1052,7 @@
1052
  "count": 56
1053
  },
1054
  "UB": {
1055
- "accuracy": 0.8657718120805369,
1056
  "count": 149
1057
  },
1058
  "UD": {
@@ -1062,7 +1062,7 @@
1062
  }
1063
  },
1064
  "sub_M4": {
1065
- "full_accuracy": 0.4,
1066
  "n_examples": 100,
1067
  "per_subtask": {
1068
  "MD": {
@@ -1074,17 +1074,17 @@
1074
  "count": 100
1075
  },
1076
  "UB": {
1077
- "accuracy": 0.44,
1078
  "count": 100
1079
  },
1080
  "UD": {
1081
- "accuracy": 0.97,
1082
  "count": 300
1083
  }
1084
  }
1085
  },
1086
  "sub_M5": {
1087
- "full_accuracy": 0.08,
1088
  "n_examples": 100,
1089
  "per_subtask": {
1090
  "MD": {
@@ -1096,25 +1096,25 @@
1096
  "count": 100
1097
  },
1098
  "UB": {
1099
- "accuracy": 0.25,
1100
  "count": 100
1101
  },
1102
  "UD": {
1103
- "accuracy": 0.6875,
1104
  "count": 400
1105
  }
1106
  }
1107
  },
1108
  "sub_random": {
1109
- "full_accuracy": 0.965,
1110
  "n_examples": 200,
1111
  "per_subtask": {
1112
  "MD": {
1113
- "accuracy": 0.9983333333333333,
1114
  "count": 600
1115
  },
1116
  "MB": {
1117
- "accuracy": 0.9925093632958801,
1118
  "count": 267
1119
  },
1120
  "ME": {
@@ -1122,7 +1122,7 @@
1122
  "count": 53
1123
  },
1124
  "UB": {
1125
- "accuracy": 0.9908883826879271,
1126
  "count": 439
1127
  },
1128
  "UD": {
@@ -1132,11 +1132,11 @@
1132
  }
1133
  },
1134
  "sub_B3": {
1135
- "full_accuracy": 0.89,
1136
  "n_examples": 100,
1137
  "per_subtask": {
1138
  "MD": {
1139
- "accuracy": 0.9966666666666667,
1140
  "count": 300
1141
  },
1142
  "MB": {
@@ -1144,7 +1144,7 @@
1144
  "count": 100
1145
  },
1146
  "UB": {
1147
- "accuracy": 0.949238578680203,
1148
  "count": 197
1149
  },
1150
  "UD": {
@@ -1154,11 +1154,11 @@
1154
  }
1155
  },
1156
  "sub_B4": {
1157
- "full_accuracy": 0.74,
1158
  "n_examples": 100,
1159
  "per_subtask": {
1160
  "MD": {
1161
- "accuracy": 1.0,
1162
  "count": 200
1163
  },
1164
  "MB": {
@@ -1166,17 +1166,17 @@
1166
  "count": 100
1167
  },
1168
  "UB": {
1169
- "accuracy": 0.8947368421052632,
1170
  "count": 247
1171
  },
1172
  "UD": {
1173
- "accuracy": 0.9934640522875817,
1174
  "count": 153
1175
  }
1176
  }
1177
  },
1178
  "sub_B5": {
1179
- "full_accuracy": 0.7,
1180
  "n_examples": 100,
1181
  "per_subtask": {
1182
  "MD": {
@@ -1188,18 +1188,18 @@
1188
  "count": 100
1189
  },
1190
  "UB": {
1191
- "accuracy": 0.9060402684563759,
1192
  "count": 298
1193
  },
1194
  "UD": {
1195
- "accuracy": 0.9653465346534653,
1196
  "count": 202
1197
  }
1198
  }
1199
  }
1200
  },
1201
  "summary": {
1202
- "overall_accuracy": 0.8179166666666666,
1203
  "total_examples": 2400,
1204
  "n_splits": 22
1205
  }
 
159
  7800
160
  ],
161
  "loss": [
162
+ 8.176465034484863,
163
+ 6.147647380828857,
164
+ 4.317177772521973,
165
+ 2.2636711597442627,
166
+ 1.9471255540847778,
167
+ 1.854894995689392,
168
+ 1.7520498037338257,
169
+ 1.734231948852539,
170
+ 1.5133311748504639,
171
+ 0.8570901155471802,
172
+ 0.5889905095100403,
173
+ 0.4950922429561615,
174
+ 0.3594833016395569,
175
+ 0.2747909128665924,
176
+ 0.2981800138950348,
177
+ 0.24328947067260742,
178
+ 0.23415543138980865,
179
+ 0.17787854373455048,
180
+ 0.15139569342136383,
181
+ 0.1316671222448349,
182
+ 0.11477090418338776,
183
+ 0.18589679896831512,
184
+ 0.13625285029411316,
185
+ 0.17548833787441254,
186
+ 0.15588627755641937,
187
+ 0.11858738958835602,
188
+ 0.12255451828241348,
189
+ 0.0896950513124466,
190
+ 0.13146252930164337,
191
+ 0.11455433070659637,
192
+ 0.1151663064956665,
193
+ 0.06363785266876221,
194
+ 0.14567652344703674,
195
+ 0.0746074840426445,
196
+ 0.12438829988241196,
197
+ 0.07398975640535355,
198
+ 0.09149198234081268,
199
+ 0.09169436991214752,
200
+ 0.08420047909021378,
201
+ 0.0836501345038414,
202
+ 0.0648670420050621,
203
+ 0.049085583537817,
204
+ 0.05017789825797081,
205
+ 0.06522161513566971,
206
+ 0.06036243587732315,
207
+ 0.04033808037638664,
208
+ 0.05645652487874031,
209
+ 0.034583259373903275,
210
+ 0.06515158712863922,
211
+ 0.03591739013791084,
212
+ 0.061068642884492874,
213
+ 0.09913851320743561,
214
+ 0.06813834607601166,
215
+ 0.04658734053373337,
216
+ 0.1296006441116333,
217
+ 0.030722280964255333,
218
+ 0.045777130872011185,
219
+ 0.039223652333021164,
220
+ 0.046433109790086746,
221
+ 0.038826730102300644,
222
+ 0.044974811375141144,
223
+ 0.0360710583627224,
224
+ 0.03967965766787529,
225
+ 0.03325542435050011,
226
+ 0.02867959998548031,
227
+ 0.04904448240995407,
228
+ 0.033731549978256226,
229
+ 0.042733609676361084,
230
+ 0.03133813291788101,
231
+ 0.024248523637652397,
232
+ 0.04543988034129143,
233
+ 0.017340853810310364,
234
+ 0.015571562573313713,
235
+ 0.026198627427220345,
236
+ 0.01237435918301344,
237
+ 0.050374116748571396,
238
+ 0.026407893747091293,
239
+ 0.027872929349541664,
240
+ 0.012572596780955791,
241
+ 0.032835423946380615,
242
+ 0.03447069972753525,
243
+ 0.027926044538617134,
244
+ 0.024645937606692314,
245
+ 0.0438305139541626,
246
+ 0.03098066709935665,
247
+ 0.028938667848706245,
248
+ 0.019119232892990112,
249
+ 0.041621122509241104,
250
+ 0.0408143475651741,
251
+ 0.019923286512494087,
252
+ 0.03286880999803543,
253
+ 0.049878351390361786,
254
+ 0.01593688689172268,
255
+ 0.028832128271460533,
256
+ 0.03344333916902542,
257
+ 0.01330149918794632,
258
+ 0.011513492092490196,
259
+ 0.018006816506385803,
260
+ 0.010299280285835266,
261
+ 0.023564040660858154,
262
+ 0.019022012129426003,
263
+ 0.02632061578333378,
264
+ 0.0068031614646315575,
265
+ 0.020888177677989006,
266
+ 0.0216990914195776,
267
+ 0.011892527341842651,
268
+ 0.027240386232733727,
269
+ 0.012803243473172188,
270
+ 0.018175678327679634,
271
+ 0.015969112515449524,
272
+ 0.014878385700285435,
273
+ 0.012554225511848927,
274
+ 0.016249483451247215,
275
+ 0.008588625118136406,
276
+ 0.0071478309109807014,
277
+ 0.015623864717781544,
278
+ 0.0068113231100142,
279
+ 0.01285618357360363,
280
+ 0.0049651567824184895,
281
+ 0.0020557695534080267,
282
+ 0.009064031764864922,
283
+ 0.00883619673550129,
284
+ 0.0074000284075737,
285
+ 0.017076730728149414,
286
+ 0.028946170583367348,
287
+ 0.010714277625083923,
288
+ 0.007734171114861965,
289
+ 0.009620459750294685,
290
+ 0.001654217834584415,
291
+ 0.001388624426908791,
292
+ 0.0022322500590234995,
293
+ 0.004631389398127794,
294
+ 0.003576897317543626,
295
+ 0.014710391871631145,
296
+ 0.009100036695599556,
297
+ 0.007004507817327976,
298
+ 0.003731115022674203,
299
+ 0.0012912886450067163,
300
+ 0.005086787976324558,
301
+ 0.002756895497441292,
302
+ 0.003515108721330762,
303
+ 0.004262362606823444,
304
+ 0.000853787234518677,
305
+ 0.0030297988560050726,
306
+ 0.00271863816305995,
307
+ 0.0032161420676857233,
308
+ 0.009415960870683193,
309
+ 0.0025729541666805744,
310
+ 0.007850371301174164,
311
+ 0.005563906393945217,
312
+ 0.005385746713727713,
313
+ 0.004481953103095293,
314
+ 0.010044674389064312,
315
+ 0.001978748943656683,
316
+ 0.015501720830798149,
317
+ 0.004191714338958263
318
  ],
319
  "base_loss": [
320
+ 8.176465034484863,
321
+ 6.147647380828857,
322
+ 4.317177772521973,
323
+ 2.2636711597442627,
324
+ 1.9471255540847778,
325
+ 1.854894995689392,
326
+ 1.7520498037338257,
327
+ 1.734231948852539,
328
+ 1.5133311748504639,
329
+ 0.8570901155471802,
330
+ 0.5889905095100403,
331
+ 0.4950922429561615,
332
+ 0.3594833016395569,
333
+ 0.2747909128665924,
334
+ 0.2981800138950348,
335
+ 0.24328947067260742,
336
+ 0.23415543138980865,
337
+ 0.17787854373455048,
338
+ 0.15139569342136383,
339
+ 0.1316671222448349,
340
+ 0.11477090418338776,
341
+ 0.18589679896831512,
342
+ 0.13625285029411316,
343
+ 0.17548833787441254,
344
+ 0.15588627755641937,
345
+ 0.11858738958835602,
346
+ 0.12255451828241348,
347
+ 0.0896950513124466,
348
+ 0.13146252930164337,
349
+ 0.11455433070659637,
350
+ 0.1151663064956665,
351
+ 0.06363785266876221,
352
+ 0.14567652344703674,
353
+ 0.0746074840426445,
354
+ 0.12438829988241196,
355
+ 0.07398975640535355,
356
+ 0.09149198234081268,
357
+ 0.09169436991214752,
358
+ 0.08420047909021378,
359
+ 0.0836501345038414,
360
+ 0.0648670420050621,
361
+ 0.049085583537817,
362
+ 0.05017789825797081,
363
+ 0.06522161513566971,
364
+ 0.06036243587732315,
365
+ 0.04033808037638664,
366
+ 0.05645652487874031,
367
+ 0.034583259373903275,
368
+ 0.06515158712863922,
369
+ 0.03591739013791084,
370
+ 0.061068642884492874,
371
+ 0.09913851320743561,
372
+ 0.06813834607601166,
373
+ 0.04658734053373337,
374
+ 0.1296006441116333,
375
+ 0.030722280964255333,
376
+ 0.045777130872011185,
377
+ 0.039223652333021164,
378
+ 0.046433109790086746,
379
+ 0.038826730102300644,
380
+ 0.044974811375141144,
381
+ 0.0360710583627224,
382
+ 0.03967965766787529,
383
+ 0.03325542435050011,
384
+ 0.02867959998548031,
385
+ 0.04904448240995407,
386
+ 0.033731549978256226,
387
+ 0.042733609676361084,
388
+ 0.03133813291788101,
389
+ 0.024248523637652397,
390
+ 0.04543988034129143,
391
+ 0.017340853810310364,
392
+ 0.015571562573313713,
393
+ 0.026198627427220345,
394
+ 0.01237435918301344,
395
+ 0.050374116748571396,
396
+ 0.026407893747091293,
397
+ 0.027872929349541664,
398
+ 0.012572596780955791,
399
+ 0.032835423946380615,
400
+ 0.03447069972753525,
401
+ 0.027926044538617134,
402
+ 0.024645937606692314,
403
+ 0.0438305139541626,
404
+ 0.03098066709935665,
405
+ 0.028938667848706245,
406
+ 0.019119232892990112,
407
+ 0.041621122509241104,
408
+ 0.0408143475651741,
409
+ 0.019923286512494087,
410
+ 0.03286880999803543,
411
+ 0.049878351390361786,
412
+ 0.01593688689172268,
413
+ 0.028832128271460533,
414
+ 0.03344333916902542,
415
+ 0.01330149918794632,
416
+ 0.011513492092490196,
417
+ 0.018006816506385803,
418
+ 0.010299280285835266,
419
+ 0.023564040660858154,
420
+ 0.019022012129426003,
421
+ 0.02632061578333378,
422
+ 0.0068031614646315575,
423
+ 0.020888177677989006,
424
+ 0.0216990914195776,
425
+ 0.011892527341842651,
426
+ 0.027240386232733727,
427
+ 0.012803243473172188,
428
+ 0.018175678327679634,
429
+ 0.015969112515449524,
430
+ 0.014878385700285435,
431
+ 0.012554225511848927,
432
+ 0.016249483451247215,
433
+ 0.008588625118136406,
434
+ 0.0071478309109807014,
435
+ 0.015623864717781544,
436
+ 0.0068113231100142,
437
+ 0.01285618357360363,
438
+ 0.0049651567824184895,
439
+ 0.0020557695534080267,
440
+ 0.009064031764864922,
441
+ 0.00883619673550129,
442
+ 0.0074000284075737,
443
+ 0.017076730728149414,
444
+ 0.028946170583367348,
445
+ 0.010714277625083923,
446
+ 0.007734171114861965,
447
+ 0.009620459750294685,
448
+ 0.001654217834584415,
449
+ 0.001388624426908791,
450
+ 0.0022322500590234995,
451
+ 0.004631389398127794,
452
+ 0.003576897317543626,
453
+ 0.014710391871631145,
454
+ 0.009100036695599556,
455
+ 0.007004507817327976,
456
+ 0.003731115022674203,
457
+ 0.0012912886450067163,
458
+ 0.005086787976324558,
459
+ 0.002756895497441292,
460
+ 0.003515108721330762,
461
+ 0.004262362606823444,
462
+ 0.000853787234518677,
463
+ 0.0030297988560050726,
464
+ 0.00271863816305995,
465
+ 0.0032161420676857233,
466
+ 0.009415960870683193,
467
+ 0.0025729541666805744,
468
+ 0.007850371301174164,
469
+ 0.005563906393945217,
470
+ 0.005385746713727713,
471
+ 0.004481953103095293,
472
+ 0.010044674389064312,
473
+ 0.001978748943656683,
474
+ 0.015501720830798149,
475
+ 0.004191714338958263
476
  ],
477
  "lr": [
478
+ 1.6752136752136756e-05,
479
+ 3.384615384615385e-05,
480
+ 5.094017094017095e-05,
481
+ 6.803418803418804e-05,
482
+ 7.99992282348104e-05,
483
+ 7.998550879323477e-05,
484
+ 7.99546457847615e-05,
485
+ 7.990665244173565e-05,
486
+ 7.9841549341039e-05,
487
+ 7.975936439526778e-05,
488
+ 7.966013284076529e-05,
489
+ 7.95438972225146e-05,
490
+ 7.941070737589747e-05,
491
+ 7.926062040532787e-05,
492
+ 7.909370065976863e-05,
493
+ 7.891001970514232e-05,
494
+ 7.870965629364761e-05,
495
+ 7.849269632999478e-05,
496
+ 7.825923283457459e-05,
497
+ 7.800936590357617e-05,
498
+ 7.774320266607144e-05,
499
+ 7.746085723808407e-05,
500
+ 7.716245067366288e-05,
501
+ 7.684811091298052e-05,
502
+ 7.651797272747994e-05,
503
+ 7.617217766209175e-05,
504
+ 7.581087397454772e-05,
505
+ 7.5434216571816e-05,
506
+ 7.504236694368569e-05,
507
+ 7.463549309352889e-05,
508
+ 7.421376946627028e-05,
509
+ 7.377737687359476e-05,
510
+ 7.332650241642543e-05,
511
+ 7.286133940470513e-05,
512
+ 7.238208727451582e-05,
513
+ 7.188895150257153e-05,
514
+ 7.138214351812129e-05,
515
+ 7.086188061229997e-05,
516
+ 7.032838584496603e-05,
517
+ 6.97818879490657e-05,
518
+ 6.922262123256506e-05,
519
+ 6.865082547799175e-05,
520
+ 6.806674583962958e-05,
521
+ 6.747063273840991e-05,
522
+ 6.686274175454515e-05,
523
+ 6.624333351795003e-05,
524
+ 6.561267359649806e-05,
525
+ 6.497103238216073e-05,
526
+ 6.43186849750784e-05,
527
+ 6.365591106561267e-05,
528
+ 6.298299481443074e-05,
529
+ 6.230022473067294e-05,
530
+ 6.160789354825612e-05,
531
+ 6.090629810036558e-05,
532
+ 6.019573919218951e-05,
533
+ 5.947652147195031e-05,
534
+ 5.8748953300288454e-05,
535
+ 5.8013346618054525e-05,
536
+ 5.7270016812566265e-05,
537
+ 5.651928258238803e-05,
538
+ 5.5761465800690523e-05,
539
+ 5.499689137724945e-05,
540
+ 5.422588711914222e-05,
541
+ 5.3448783590202484e-05,
542
+ 5.26659139692927e-05,
543
+ 5.1877613907455556e-05,
544
+ 5.1084221384005374e-05,
545
+ 5.028607656162141e-05,
546
+ 4.948352164050493e-05,
547
+ 4.867690071166274e-05,
548
+ 4.786655960938013e-05,
549
+ 4.705284576294624e-05,
550
+ 4.623610804769575e-05,
551
+ 4.541669663543045e-05,
552
+ 4.4594962844284974e-05,
553
+ 4.377125898810118e-05,
554
+ 4.294593822537543e-05,
555
+ 4.2119354407843914e-05,
556
+ 4.129186192877056e-05,
557
+ 4.046381557100299e-05,
558
+ 3.963557035486121e-05,
559
+ 3.8807481385924744e-05,
560
+ 3.79799037027829e-05,
561
+ 3.7153192124814045e-05,
562
+ 3.632770110005876e-05,
563
+ 3.5503784553252085e-05,
564
+ 3.4681795734080355e-05,
565
+ 3.386208706572725e-05,
566
+ 3.3045009993774335e-05,
567
+ 3.223091483552074e-05,
568
+ 3.1420150629786436e-05,
569
+ 3.061306498726391e-05,
570
+ 2.9810003941481836e-05,
571
+ 2.9011311800445205e-05,
572
+ 2.8217330999015148e-05,
573
+ 2.742840195209184e-05,
574
+ 2.664486290866354e-05,
575
+ 2.586704980678411e-05,
576
+ 2.509529612954155e-05,
577
+ 2.432993276207881e-05,
578
+ 2.357128784972872e-05,
579
+ 2.281968665732344e-05,
580
+ 2.2075451429738966e-05,
581
+ 2.133890125373438e-05,
582
+ 2.061035192114523e-05,
583
+ 1.9890115793489398e-05,
584
+ 1.9178501668043937e-05,
585
+ 1.847581464544989e-05,
586
+ 1.7782355998902056e-05,
587
+ 1.7098423044979796e-05,
588
+ 1.642430901617411e-05,
589
+ 1.576030293516598e-05,
590
+ 1.5106689490909282e-05,
591
+ 1.4463748916572114e-05,
592
+ 1.3831756869388313e-05,
593
+ 1.3210984312470934e-05,
594
+ 1.260169739863832e-05,
595
+ 1.2004157356302488e-05,
596
+ 1.1418620377469014e-05,
597
+ 1.084533750789595e-05,
598
+ 1.028455453945948e-05,
599
+ 9.73651190477193e-06,
600
+ 9.201444574097636e-06,
601
+ 8.679581954610725e-06,
602
+ 8.171147792038026e-06,
603
+ 7.676360074729406e-06,
604
+ 7.1954309401963505e-06,
605
+ 6.728566584159262e-06,
606
+ 6.27596717214213e-06,
607
+ 5.8378267536526975e-06,
608
+ 5.414333178984774e-06,
609
+ 5.005668018678451e-06,
610
+ 4.612006485672775e-06,
611
+ 4.233517360184123e-06,
612
+ 3.870362917342623e-06,
613
+ 3.5226988576176015e-06,
614
+ 3.1906742400618397e-06,
615
+ 2.874431418403334e-06,
616
+ 2.5741059800119272e-06,
617
+ 2.2898266877669604e-06,
618
+ 2.0217154248508964e-06,
619
+ 1.7698871424925945e-06,
620
+ 1.53444981068255e-06,
621
+ 1.315504371881442e-06,
622
+ 1.1131446977415172e-06,
623
+ 9.274575488597004e-07,
624
+ 7.58522537579438e-07,
625
+ 6.064120938573448e-07,
626
+ 4.7119143420927493e-07,
627
+ 3.5291853374905817e-07,
628
+ 2.5164410133206253e-07,
629
+ 1.6741155781396346e-07,
630
+ 1.0025701743435978e-07,
631
+ 5.020927233295947e-08,
632
+ 1.728978020511196e-08,
633
+ 1.5126551019539748e-09
634
  ],
635
  "eval_step": [
636
  390,
 
678
  ],
679
  "eval_accuracy": [
680
  0.0044444444444444444,
681
+ 0.57,
682
+ 0.67,
683
+ 0.7711111111111111,
684
+ 0.7088888888888889,
685
+ 0.7577777777777778,
686
+ 0.7988888888888889,
687
+ 0.7866666666666666,
 
 
 
 
 
688
  0.7922222222222223,
 
 
 
 
689
  0.8511111111111112,
690
+ 0.8588888888888889,
691
+ 0.8533333333333334,
692
+ 0.8755555555555555,
693
+ 0.9044444444444445,
694
+ 0.9244444444444444,
695
+ 0.9144444444444444,
696
+ 0.9288888888888889,
697
+ 0.9311111111111111,
698
+ 0.9388888888888889,
699
+ 0.9444444444444444
700
  ]
701
  },
702
+ "final_accuracy": 0.91625,
703
  "sft_eval": {
704
  "config": {
705
  "ops": "add_sub",
 
710
  },
711
  "splits": {
712
  "add_S0": {
713
+ "full_accuracy": 1.0,
714
  "n_examples": 100,
715
  "per_subtask": {
716
  "SA": {
717
+ "accuracy": 1.0,
718
  "count": 605
719
  },
720
  "SS": {
 
724
  }
725
  },
726
  "add_S1": {
727
+ "full_accuracy": 0.99,
728
  "n_examples": 100,
729
  "per_subtask": {
730
  "SA": {
731
+ "accuracy": 0.9950980392156863,
732
  "count": 204
733
  },
734
  "SC": {
 
746
  }
747
  },
748
  "add_S2": {
749
+ "full_accuracy": 1.0,
750
  "n_examples": 100,
751
  "per_subtask": {
752
  "SA": {
753
+ "accuracy": 1.0,
754
  "count": 163
755
  },
756
  "SC": {
757
+ "accuracy": 1.0,
758
  "count": 130
759
  },
760
  "SS": {
 
762
  "count": 87
763
  },
764
  "UC": {
765
+ "accuracy": 1.0,
766
  "count": 203
767
  },
768
  "US": {
 
772
  }
773
  },
774
  "add_S3": {
775
+ "full_accuracy": 0.98,
776
  "n_examples": 100,
777
  "per_subtask": {
778
  "SA": {
 
788
  "count": 49
789
  },
790
  "UC": {
791
+ "accuracy": 0.989247311827957,
792
  "count": 186
793
  },
794
  "US": {
795
+ "accuracy": 1.0,
796
  "count": 223
797
  }
798
  }
799
  },
800
  "add_S4": {
801
+ "full_accuracy": 0.88,
802
  "n_examples": 100,
803
  "per_subtask": {
804
  "SA": {
 
814
  "count": 23
815
  },
816
  "UC": {
817
+ "accuracy": 0.925,
818
  "count": 160
819
  },
820
  "US": {
821
+ "accuracy": 1.0,
822
  "count": 307
823
  }
824
  }
825
  },
826
  "add_S5": {
827
+ "full_accuracy": 0.54,
828
  "n_examples": 100,
829
  "per_subtask": {
830
  "SA": {
 
836
  "count": 100
837
  },
838
  "UC": {
839
+ "accuracy": 0.66,
840
  "count": 100
841
  },
842
  "US": {
843
+ "accuracy": 0.89,
844
  "count": 400
845
  }
846
  }
847
  },
848
  "add_S6": {
849
+ "full_accuracy": 0.98,
850
  "n_examples": 100,
851
  "per_subtask": {
852
  "SC": {
 
854
  "count": 100
855
  },
856
  "UC": {
857
+ "accuracy": 0.99,
858
  "count": 100
859
  },
860
  "US": {
861
+ "accuracy": 0.994,
862
  "count": 500
863
  }
864
  }
865
  },
866
  "add_random": {
867
+ "full_accuracy": 1.0,
868
  "n_examples": 200,
869
  "per_subtask": {
870
  "SA": {
871
+ "accuracy": 1.0,
872
  "count": 447
873
  },
874
  "SC": {
875
+ "accuracy": 1.0,
876
  "count": 320
877
  },
878
  "SS": {
 
880
  "count": 56
881
  },
882
  "UC": {
883
+ "accuracy": 1.0,
884
  "count": 529
885
  },
886
  "US": {
 
890
  }
891
  },
892
  "add_C3": {
893
+ "full_accuracy": 1.0,
894
  "n_examples": 100,
895
  "per_subtask": {
896
  "SA": {
 
902
  "count": 100
903
  },
904
  "UC": {
905
+ "accuracy": 1.0,
906
  "count": 193
907
  },
908
  "US": {
 
912
  }
913
  },
914
  "add_C4": {
915
+ "full_accuracy": 0.95,
916
  "n_examples": 100,
917
  "per_subtask": {
918
  "SA": {
 
924
  "count": 100
925
  },
926
  "UC": {
927
+ "accuracy": 0.98046875,
928
  "count": 256
929
  },
930
  "US": {
 
934
  }
935
  },
936
  "add_C5": {
937
+ "full_accuracy": 0.91,
938
  "n_examples": 100,
939
  "per_subtask": {
940
  "SA": {
 
946
  "count": 100
947
  },
948
  "UC": {
949
+ "accuracy": 0.9738562091503268,
950
  "count": 306
951
  },
952
  "US": {
953
+ "accuracy": 0.9896907216494846,
954
  "count": 194
955
  }
956
  }
957
  },
958
  "add_C6": {
959
+ "full_accuracy": 1.0,
960
  "n_examples": 100,
961
  "per_subtask": {
962
  "SC": {
 
964
  "count": 100
965
  },
966
  "UC": {
967
+ "accuracy": 1.0,
968
  "count": 366
969
  },
970
  "US": {
971
+ "accuracy": 1.0,
972
  "count": 234
973
  }
974
  }
975
  },
976
  "sub_M0": {
977
+ "full_accuracy": 1.0,
978
  "n_examples": 100,
979
  "per_subtask": {
980
  "MD": {
981
+ "accuracy": 1.0,
982
  "count": 601
983
  },
984
  "ME": {
 
988
  }
989
  },
990
  "sub_M1": {
991
+ "full_accuracy": 1.0,
992
  "n_examples": 100,
993
  "per_subtask": {
994
  "MD": {
995
+ "accuracy": 1.0,
996
  "count": 279
997
  },
998
  "MB": {
999
+ "accuracy": 1.0,
1000
  "count": 145
1001
  },
1002
  "ME": {
 
1010
  }
1011
  },
1012
  "sub_M2": {
1013
+ "full_accuracy": 1.0,
1014
  "n_examples": 100,
1015
  "per_subtask": {
1016
  "MD": {
1017
+ "accuracy": 1.0,
1018
  "count": 213
1019
  },
1020
  "MB": {
1021
+ "accuracy": 1.0,
1022
  "count": 113
1023
  },
1024
  "ME": {
 
1026
  "count": 85
1027
  },
1028
  "UB": {
1029
+ "accuracy": 1.0,
1030
  "count": 181
1031
  },
1032
  "UD": {
 
1036
  }
1037
  },
1038
  "sub_M3": {
1039
+ "full_accuracy": 1.0,
1040
  "n_examples": 100,
1041
  "per_subtask": {
1042
  "MD": {
 
1052
  "count": 56
1053
  },
1054
  "UB": {
1055
+ "accuracy": 1.0,
1056
  "count": 149
1057
  },
1058
  "UD": {
 
1062
  }
1063
  },
1064
  "sub_M4": {
1065
+ "full_accuracy": 0.56,
1066
  "n_examples": 100,
1067
  "per_subtask": {
1068
  "MD": {
 
1074
  "count": 100
1075
  },
1076
  "UB": {
1077
+ "accuracy": 0.57,
1078
  "count": 100
1079
  },
1080
  "UD": {
1081
+ "accuracy": 0.9933333333333333,
1082
  "count": 300
1083
  }
1084
  }
1085
  },
1086
  "sub_M5": {
1087
+ "full_accuracy": 0.34,
1088
  "n_examples": 100,
1089
  "per_subtask": {
1090
  "MD": {
 
1096
  "count": 100
1097
  },
1098
  "UB": {
1099
+ "accuracy": 0.57,
1100
  "count": 100
1101
  },
1102
  "UD": {
1103
+ "accuracy": 0.87,
1104
  "count": 400
1105
  }
1106
  }
1107
  },
1108
  "sub_random": {
1109
+ "full_accuracy": 1.0,
1110
  "n_examples": 200,
1111
  "per_subtask": {
1112
  "MD": {
1113
+ "accuracy": 1.0,
1114
  "count": 600
1115
  },
1116
  "MB": {
1117
+ "accuracy": 1.0,
1118
  "count": 267
1119
  },
1120
  "ME": {
 
1122
  "count": 53
1123
  },
1124
  "UB": {
1125
+ "accuracy": 1.0,
1126
  "count": 439
1127
  },
1128
  "UD": {
 
1132
  }
1133
  },
1134
  "sub_B3": {
1135
+ "full_accuracy": 0.98,
1136
  "n_examples": 100,
1137
  "per_subtask": {
1138
  "MD": {
1139
+ "accuracy": 0.9933333333333333,
1140
  "count": 300
1141
  },
1142
  "MB": {
 
1144
  "count": 100
1145
  },
1146
  "UB": {
1147
+ "accuracy": 1.0,
1148
  "count": 197
1149
  },
1150
  "UD": {
 
1154
  }
1155
  },
1156
  "sub_B4": {
1157
+ "full_accuracy": 0.93,
1158
  "n_examples": 100,
1159
  "per_subtask": {
1160
  "MD": {
1161
+ "accuracy": 0.995,
1162
  "count": 200
1163
  },
1164
  "MB": {
 
1166
  "count": 100
1167
  },
1168
  "UB": {
1169
+ "accuracy": 0.9757085020242915,
1170
  "count": 247
1171
  },
1172
  "UD": {
1173
+ "accuracy": 1.0,
1174
  "count": 153
1175
  }
1176
  }
1177
  },
1178
  "sub_B5": {
1179
+ "full_accuracy": 0.95,
1180
  "n_examples": 100,
1181
  "per_subtask": {
1182
  "MD": {
 
1188
  "count": 100
1189
  },
1190
  "UB": {
1191
+ "accuracy": 0.9832214765100671,
1192
  "count": 298
1193
  },
1194
  "UD": {
1195
+ "accuracy": 0.9900990099009901,
1196
  "count": 202
1197
  }
1198
  }
1199
  }
1200
  },
1201
  "summary": {
1202
+ "overall_accuracy": 0.91625,
1203
  "total_examples": 2400,
1204
  "n_splits": 22
1205
  }
add_sub_baseline_25K/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:795da9d34e3babd627a021a17d4593d73d1e588cccc1e221657909955751d349
3
  size 650266922
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9d7ab48f0344d25830b9a8818aa6cf65292c8bc68b1f095b24821da0db40daaa
3
  size 650266922
add_sub_baseline_25K/train_config.json CHANGED
@@ -17,7 +17,7 @@
17
  "target_vocab_util": 0.8,
18
  "min_abs_ppl": 0.0,
19
  "zipf_alpha": 1.0,
20
- "lr": 4e-05,
21
  "emb_lr_mult": 1.0,
22
  "weight_decay": 0.01,
23
  "warmup_steps": 234,
@@ -69,16 +69,16 @@
69
  "no_wandb": false,
70
  "n_params": 162490082,
71
  "run_name": "add_sub_baseline_25K",
72
- "git_commit": "78d46f8665a87f4b44bd5894bd34f393f2dea51f",
73
- "timestamp": "2026-04-12T08:59:11.035906+00:00",
74
  "tokenizer": "Qwen/Qwen3-0.6B",
75
  "dataset_repo": "thoughtworks/arithmetic-sorl-data",
76
  "dataset_config": "add_sub_6digit",
77
  "model_repo": "thoughtworks/arithmetic-sorl",
78
  "trainer_version": "sft",
79
- "wandb_run_id": "4f30dkzf",
80
- "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/4f30dkzf",
81
- "final_accuracy": 0.8179166666666666,
82
- "sft_accuracy": 0.8179166666666666,
83
  "eval_method": "ArithmeticEvaluator"
84
  }
 
17
  "target_vocab_util": 0.8,
18
  "min_abs_ppl": 0.0,
19
  "zipf_alpha": 1.0,
20
+ "lr": 8e-05,
21
  "emb_lr_mult": 1.0,
22
  "weight_decay": 0.01,
23
  "warmup_steps": 234,
 
69
  "no_wandb": false,
70
  "n_params": 162490082,
71
  "run_name": "add_sub_baseline_25K",
72
+ "git_commit": "8d5ee5420119746ef4e2c87570eb250c9718f643",
73
+ "timestamp": "2026-04-12T20:43:04.597818+00:00",
74
  "tokenizer": "Qwen/Qwen3-0.6B",
75
  "dataset_repo": "thoughtworks/arithmetic-sorl-data",
76
  "dataset_config": "add_sub_6digit",
77
  "model_repo": "thoughtworks/arithmetic-sorl",
78
  "trainer_version": "sft",
79
+ "wandb_run_id": "qsa0vus4",
80
+ "wandb_url": "https://wandb.ai/nlp_and_interpretability/sorl-arithmetic/runs/qsa0vus4",
81
+ "final_accuracy": 0.91625,
82
+ "sft_accuracy": 0.91625,
83
  "eval_method": "ArithmeticEvaluator"
84
  }