specroute v2 (ROUGE-L)

	yelp	amazon	mnli	cb	copa	qqp	rte	imdb	sst2	dbpedia	agnews	yahoo	multirc	boolq	wic
yelp	70.9518
amazon	68.9671	67.6754
mnli	66.0417	64.4759	33.8816
cb	65.6689	64.3311	31.0263	3.5714
copa	63.432	63.1557	13.8816	0.0	54.0
qqp	62.943	62.6623	7.8947	0.0	56.0	76.6053
rte	62.9474	62.6316	7.6579	0.0	55.0	76.6447	6.4982
imdb	62.9342	61.2807	7.5921	0.0	53.0	76.6579	6.4982	1.8114
sst2	62.4474	49.1754	6.1579	0.0	54.0	76.5395	6.4982	10.4035	7.9128
dbpedia	62.4342	49.3026	5.3026	0.0	54.0	76.5395	6.1372	9.693	7.2248	30.8371
agnews	62.4342	49.3158	5.3026	0.0	54.0	76.5263	5.7762	9.5219	7.1101	33.0367	36.6687
yahoo	48.7522	30.5702	4.5395	0.0	59.0	74.6491	7.2202	6.7456	6.1927	31.5812	36.4073	3.6411
multirc	48.8136	30.6404	3.9079	0.0	57.0	74.7149	7.2202	6.6535	5.7339	31.6773	36.3994	3.2744	46.7616
boolq	49.0022	31.0614	3.7368	0.0	56.0	74.7412	7.2202	6.614	5.7339	31.4345	36.5626	3.2481	46.7616	51.9776
wic	53.2522	33.2939	1.7982	0.0	53.0	74.4386	18.4116	5.7588	5.2752	32.3429	42.3672	3.0473	47.731	51.7023	1.7241

Phân tích hiệu năng SpecRoute v2 (ROUGE-L)

Dựa trên bảng kết quả (sử dụng metrics ROUGE-L), ta thấy:

1. Hiện tượng Quên (Catastrophic Forgetting)

Mức độ Forget cao: Phù hợp với nhận định ban đầu, điểm số ROUGE-L tuy cao hơn Exact Match nhưng vẫn sụt giảm mạnh.
- yelp: 70.95 (init) -> 53.25 (final). Giảm ~17.7 điểm.
- amazon: 67.67 (init) -> 33.29 (final). Giảm ~34.4 điểm!
- mnli: 33.88 (init) -> 1.79 (final). Collapse hoàn toàn.
amazon bị quên nặng hơn yelp, có thể do yelp là task đầu tiên nên có "ưu thế" trong subspace ban đầu.

2. Backward Transfer tích cực trên RTE

Một điểm đáng chú ý là rte (Task 7) ban đầu chỉ đạt 6.49, nhưng sau khi học Task 15 (wic), điểm số lại tăng lên 18.41.
Điều này cho thấy có sự chia sẻ tri thức (Shared Subspace) có lợi từ các task sau về cho rte, mặc dù cơ chế bảo vệ của v2 vẫn còn lỏng lẻo.

3. Learning Collapse trên các Task trung bình/nhỏ

Các task như cb, imdb, sst2, wic, yahoo đều có điểm số khởi đầu cực thấp.
cb (Task 4) đạt 3.57 ban đầu và ngay lập tức về 0.0 sau task 5.
wic (Task 15) chỉ đạt 1.72.

4. Kết luận

SpecRoute v2 gặp vấn đề nghiêm trọng với các task cùng domain (yelp/amazon/imdb) và các task suy luận (mnli/cb/rte). Mặc dù ROUGE-L cho thấy điểm số "đẹp" hơn Exact Match ở các task phân loại, nhưng xu hướng quên và collapse vẫn rất rõ ràng. Cần áp dụng CPI và OAP (như mô tả trong IDEA_Overall) để cải thiện khả năng phân biệt routing và chia sẻ kiến thức an toàn.