Continual / results /table.md
natmin322's picture
new v3
9de5c3c

specroute v2 (ROUGE-L)

yelp amazon mnli cb copa qqp rte imdb sst2 dbpedia agnews yahoo multirc boolq wic
yelp 70.9518
amazon 68.9671 67.6754
mnli 66.0417 64.4759 33.8816
cb 65.6689 64.3311 31.0263 3.5714
copa 63.432 63.1557 13.8816 0.0 54.0
qqp 62.943 62.6623 7.8947 0.0 56.0 76.6053
rte 62.9474 62.6316 7.6579 0.0 55.0 76.6447 6.4982
imdb 62.9342 61.2807 7.5921 0.0 53.0 76.6579 6.4982 1.8114
sst2 62.4474 49.1754 6.1579 0.0 54.0 76.5395 6.4982 10.4035 7.9128
dbpedia 62.4342 49.3026 5.3026 0.0 54.0 76.5395 6.1372 9.693 7.2248 30.8371
agnews 62.4342 49.3158 5.3026 0.0 54.0 76.5263 5.7762 9.5219 7.1101 33.0367 36.6687
yahoo 48.7522 30.5702 4.5395 0.0 59.0 74.6491 7.2202 6.7456 6.1927 31.5812 36.4073 3.6411
multirc 48.8136 30.6404 3.9079 0.0 57.0 74.7149 7.2202 6.6535 5.7339 31.6773 36.3994 3.2744 46.7616
boolq 49.0022 31.0614 3.7368 0.0 56.0 74.7412 7.2202 6.614 5.7339 31.4345 36.5626 3.2481 46.7616 51.9776
wic 53.2522 33.2939 1.7982 0.0 53.0 74.4386 18.4116 5.7588 5.2752 32.3429 42.3672 3.0473 47.731 51.7023 1.7241

Phân tích hiệu năng SpecRoute v2 (ROUGE-L)

Dựa trên bảng kết quả (sử dụng metrics ROUGE-L), ta thấy:

1. Hiện tượng Quên (Catastrophic Forgetting)

  • Mức độ Forget cao: Phù hợp với nhận định ban đầu, điểm số ROUGE-L tuy cao hơn Exact Match nhưng vẫn sụt giảm mạnh.
    • yelp: 70.95 (init) -> 53.25 (final). Giảm ~17.7 điểm.
    • amazon: 67.67 (init) -> 33.29 (final). Giảm ~34.4 điểm!
    • mnli: 33.88 (init) -> 1.79 (final). Collapse hoàn toàn.
  • amazon bị quên nặng hơn yelp, có thể do yelp là task đầu tiên nên có "ưu thế" trong subspace ban đầu.

2. Backward Transfer tích cực trên RTE

  • Một điểm đáng chú ý là rte (Task 7) ban đầu chỉ đạt 6.49, nhưng sau khi học Task 15 (wic), điểm số lại tăng lên 18.41.
  • Điều này cho thấy có sự chia sẻ tri thức (Shared Subspace) có lợi từ các task sau về cho rte, mặc dù cơ chế bảo vệ của v2 vẫn còn lỏng lẻo.

3. Learning Collapse trên các Task trung bình/nhỏ

  • Các task như cb, imdb, sst2, wic, yahoo đều có điểm số khởi đầu cực thấp.
  • cb (Task 4) đạt 3.57 ban đầu và ngay lập tức về 0.0 sau task 5.
  • wic (Task 15) chỉ đạt 1.72.

4. Kết luận

SpecRoute v2 gặp vấn đề nghiêm trọng với các task cùng domain (yelp/amazon/imdb) và các task suy luận (mnli/cb/rte). Mặc dù ROUGE-L cho thấy điểm số "đẹp" hơn Exact Match ở các task phân loại, nhưng xu hướng quên và collapse vẫn rất rõ ràng. Cần áp dụng CPI và OAP (như mô tả trong IDEA_Overall) để cải thiện khả năng phân biệt routing và chia sẻ kiến thức an toàn.