specroute v2 (ROUGE-L)
| yelp | amazon | mnli | cb | copa | qqp | rte | imdb | sst2 | dbpedia | agnews | yahoo | multirc | boolq | wic | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| yelp | 70.9518 | ||||||||||||||
| amazon | 68.9671 | 67.6754 | |||||||||||||
| mnli | 66.0417 | 64.4759 | 33.8816 | ||||||||||||
| cb | 65.6689 | 64.3311 | 31.0263 | 3.5714 | |||||||||||
| copa | 63.432 | 63.1557 | 13.8816 | 0.0 | 54.0 | ||||||||||
| qqp | 62.943 | 62.6623 | 7.8947 | 0.0 | 56.0 | 76.6053 | |||||||||
| rte | 62.9474 | 62.6316 | 7.6579 | 0.0 | 55.0 | 76.6447 | 6.4982 | ||||||||
| imdb | 62.9342 | 61.2807 | 7.5921 | 0.0 | 53.0 | 76.6579 | 6.4982 | 1.8114 | |||||||
| sst2 | 62.4474 | 49.1754 | 6.1579 | 0.0 | 54.0 | 76.5395 | 6.4982 | 10.4035 | 7.9128 | ||||||
| dbpedia | 62.4342 | 49.3026 | 5.3026 | 0.0 | 54.0 | 76.5395 | 6.1372 | 9.693 | 7.2248 | 30.8371 | |||||
| agnews | 62.4342 | 49.3158 | 5.3026 | 0.0 | 54.0 | 76.5263 | 5.7762 | 9.5219 | 7.1101 | 33.0367 | 36.6687 | ||||
| yahoo | 48.7522 | 30.5702 | 4.5395 | 0.0 | 59.0 | 74.6491 | 7.2202 | 6.7456 | 6.1927 | 31.5812 | 36.4073 | 3.6411 | |||
| multirc | 48.8136 | 30.6404 | 3.9079 | 0.0 | 57.0 | 74.7149 | 7.2202 | 6.6535 | 5.7339 | 31.6773 | 36.3994 | 3.2744 | 46.7616 | ||
| boolq | 49.0022 | 31.0614 | 3.7368 | 0.0 | 56.0 | 74.7412 | 7.2202 | 6.614 | 5.7339 | 31.4345 | 36.5626 | 3.2481 | 46.7616 | 51.9776 | |
| wic | 53.2522 | 33.2939 | 1.7982 | 0.0 | 53.0 | 74.4386 | 18.4116 | 5.7588 | 5.2752 | 32.3429 | 42.3672 | 3.0473 | 47.731 | 51.7023 | 1.7241 |
Phân tích hiệu năng SpecRoute v2 (ROUGE-L)
Dựa trên bảng kết quả (sử dụng metrics ROUGE-L), ta thấy:
1. Hiện tượng Quên (Catastrophic Forgetting)
- Mức độ Forget cao: Phù hợp với nhận định ban đầu, điểm số ROUGE-L tuy cao hơn Exact Match nhưng vẫn sụt giảm mạnh.
yelp: 70.95 (init) -> 53.25 (final). Giảm ~17.7 điểm.amazon: 67.67 (init) -> 33.29 (final). Giảm ~34.4 điểm!mnli: 33.88 (init) -> 1.79 (final). Collapse hoàn toàn.
amazonbị quên nặng hơnyelp, có thể doyelplà task đầu tiên nên có "ưu thế" trong subspace ban đầu.
2. Backward Transfer tích cực trên RTE
- Một điểm đáng chú ý là
rte(Task 7) ban đầu chỉ đạt 6.49, nhưng sau khi học Task 15 (wic), điểm số lại tăng lên 18.41. - Điều này cho thấy có sự chia sẻ tri thức (Shared Subspace) có lợi từ các task sau về cho
rte, mặc dù cơ chế bảo vệ của v2 vẫn còn lỏng lẻo.
3. Learning Collapse trên các Task trung bình/nhỏ
- Các task như
cb,imdb,sst2,wic,yahoođều có điểm số khởi đầu cực thấp. cb(Task 4) đạt 3.57 ban đầu và ngay lập tức về 0.0 sau task 5.wic(Task 15) chỉ đạt 1.72.
4. Kết luận
SpecRoute v2 gặp vấn đề nghiêm trọng với các task cùng domain (yelp/amazon/imdb) và các task suy luận (mnli/cb/rte). Mặc dù ROUGE-L cho thấy điểm số "đẹp" hơn Exact Match ở các task phân loại, nhưng xu hướng quên và collapse vẫn rất rõ ràng. Cần áp dụng CPI và OAP (như mô tả trong IDEA_Overall) để cải thiện khả năng phân biệt routing và chia sẻ kiến thức an toàn.