natmin322
/

Continual

natmin322 commited on Mar 28

Commit

9f858c3

1 Parent(s): 2c4cffd

rls t5 large

Files changed (2) hide show

improve_gainlora/src/run_t5.py CHANGED Viewed

@@ -1132,7 +1132,19 @@ def main():
         all_metrics.update(metrics)
         if training_args.model_name in ['inflora', 'gainlora_inflora', 'gainlora_olora', 'specroute']:
-            trainer.get_repsentation()
     # Evaluation
     results = {}

         all_metrics.update(metrics)
         if training_args.model_name in ['inflora', 'gainlora_inflora', 'gainlora_olora', 'specroute']:
+            try:
+                print("[GPM] Starting get_repsentation()...")
+                sys.stdout.flush()
+                trainer.get_repsentation()
+                print("[GPM] get_repsentation() completed successfully.")
+                sys.stdout.flush()
+            except Exception as _gpm_exc:
+                import traceback
+                print(f"\n[GPM ERROR] get_repsentation() FAILED (task {cur_task_id}, {cur_task}):")
+                print(f"  {type(_gpm_exc).__name__}: {_gpm_exc}")
+                traceback.print_exc(file=sys.stdout)
+                print("[GPM] Continuing to predict block despite GPM error...\n")
+                sys.stdout.flush()
     # Evaluation
     results = {}

improve_gainlora/src/t5_specroute.py CHANGED Viewed

@@ -308,8 +308,13 @@ class T5Stack(T5PreTrainedModel):
             if self.routing_mode == "rls":
                 # V11: Analytical Ridge Regression Routing
-                rls_expansion_dim = prompt_config.get("rls_expansion_dim", 2048)
                 rls_lambda = prompt_config.get("rls_lambda", 0.1)
                 self.rls_router = RLSRouter(
                     d_model=config.d_model,
                     expansion_dim=rls_expansion_dim,

             if self.routing_mode == "rls":
                 # V11: Analytical Ridge Regression Routing
+                # expansion_dim scales with d_model to maintain 4x expansion ratio
+                # across all model sizes (T5-small: 512->2048, T5-large: 1024->4096, etc.)
+                _user_expansion_dim = prompt_config.get("rls_expansion_dim", 2048)
+                rls_expansion_dim = max(_user_expansion_dim, 4 * config.d_model)
                 rls_lambda = prompt_config.get("rls_lambda", 0.1)
+                print(f"[RLS] d_model={config.d_model}, expansion_dim={rls_expansion_dim} "
+                      f"(ratio={rls_expansion_dim/config.d_model:.1f}x, user_requested={_user_expansion_dim})")
                 self.rls_router = RLSRouter(
                     d_model=config.d_model,
                     expansion_dim=rls_expansion_dim,