Spaces:

ExplainabiliyForAATeam
/

explainability-tool-for-aa

Sleeping

App Files Files Community

Anisha Bhatnagar commited on Oct 29, 2025

Commit

08f53a7

1 Parent(s): 258c7f3

fixed logging; ensured Reddit data files are correctly downloaded

Browse files

Files changed (1) hide show

precompute_caches.py +24 -13

precompute_caches.py CHANGED Viewed

@@ -8,18 +8,30 @@ import pandas as pd
 from datetime import datetime
 import yaml
-# Import your actual modules exactly as app.py does
-from utils.visualizations import get_instances, load_interp_space, trigger_precomputed_region, handle_zoom_with_retries
-from utils.ui import update_task_display
 def load_config(path="config/config.yaml"):
     with open(path, "r") as f:
         return yaml.safe_load(f)
 def precompute_all_caches(
     models_to_test=None,
     instances_to_process=None,
-    config_path="config/config.yaml"
 ):
     """
     Precompute all cache files using the EXACT same methods as app.py.
@@ -34,16 +46,12 @@ def precompute_all_caches(
             'AnnaWegmann/Style-Embedding'
         ]
-    print("=" * 60)
     print("CACHE PRECOMPUTATION STARTED")
     print(f"Timestamp: {datetime.now()}")
     print(f"Models to test: {len(models_to_test)}")
     print("=" * 60)
-    # Load configuration and instances EXACTLY like app.py
-    cfg = load_config(config_path)
-    print(f"Configuration loaded from {config_path}")
-    print(f"config : \n{cfg}")
     instances, instance_ids = get_instances(cfg['instances_to_explain_path'])
     # interp = load_interp_space(cfg)
     # clustered_authors_df = interp['clustered_authors_df']
@@ -72,7 +80,9 @@ def precompute_all_caches(
         for instance_id in tqdm(instances_to_process, desc=f"Processing instances for {model_name.split('/')[-1]}"):
             current_combination += 1
             try:
-                print(f"\n[{current_combination}/{total_combinations}] Processing Instance {instance_id}")
                 # STEP 1: Replicate the exact flow from load_button.click()
                 print("  → Replicating load_button.click() flow...")
@@ -82,7 +92,7 @@ def precompute_all_caches(
                 # Call update_task_display EXACTLY like app.py does
                 task_results = update_task_display(
-                    mode="Predefined HRS Task",  # Always use predefined for caching
                     iid=f"Task {instance_id}",
                     instances=instances,
                     background_df=clustered_authors_df,
@@ -137,6 +147,7 @@ def precompute_all_caches(
                 if precomputed_regions_state:
                     regions_dict = ast.literal_eval(precomputed_regions_state)
                     test_regions = list(regions_dict.keys())
                     for region_name in test_regions:
                         try:
@@ -194,7 +205,7 @@ from utils.visualizations import visualize_clusters_plotly
 if __name__ == "__main__":
     # Test with a small subset first
-    instances=[i for i in range(10)]  # First 20 instances for testing
     cache_stats = precompute_all_caches(
         models_to_test=[
              'AnnaWegmann/Style-Embedding'

 from datetime import datetime
 import yaml
+CONFIG_PATH="config/config.yaml"
 def load_config(path="config/config.yaml"):
     with open(path, "r") as f:
         return yaml.safe_load(f)
+# Load configuration and instances EXACTLY like app.py
+cfg = load_config(CONFIG_PATH)
+print(f"Configuration loaded from {CONFIG_PATH}")
+print(f"config : \n{cfg}")
+# Import your actual modules exactly as app.py does
+from utils.file_download import download_file_override
+download_file_override(cfg.get('background_authors_df_url'), cfg.get('background_authors_df_path'))
+download_file_override(cfg.get('instances_to_explain_url'), cfg.get('instances_to_explain_path'))
+download_file_override(cfg.get('gram2vec_feats_url'), cfg.get('gram2vec_feats_path'))
+from utils.visualizations import get_instances, trigger_precomputed_region, handle_zoom_with_retries
+from utils.ui import update_task_display
 def precompute_all_caches(
     models_to_test=None,
     instances_to_process=None,
 ):
     """
     Precompute all cache files using the EXACT same methods as app.py.
             'AnnaWegmann/Style-Embedding'
         ]
+    print("\n\n" + "=" * 60)
     print("CACHE PRECOMPUTATION STARTED")
     print(f"Timestamp: {datetime.now()}")
     print(f"Models to test: {len(models_to_test)}")
     print("=" * 60)
     instances, instance_ids = get_instances(cfg['instances_to_explain_path'])
     # interp = load_interp_space(cfg)
     # clustered_authors_df = interp['clustered_authors_df']
         for instance_id in tqdm(instances_to_process, desc=f"Processing instances for {model_name.split('/')[-1]}"):
             current_combination += 1
             try:
+                # print(f"\n\n\n[{current_combination}/{total_combinations}] Processing Instance {instance_id}")
+                print(f"\n\n\n\033[1m\033[93m>>> [{current_combination}/{total_combinations}] Processing Instance {instance_id} <<<\033[0m\n")
                 # STEP 1: Replicate the exact flow from load_button.click()
                 print("  → Replicating load_button.click() flow...")
                 # Call update_task_display EXACTLY like app.py does
                 task_results = update_task_display(
+                    mode="Predefined Reddit Task",  # Always use predefined for caching
                     iid=f"Task {instance_id}",
                     instances=instances,
                     background_df=clustered_authors_df,
                 if precomputed_regions_state:
                     regions_dict = ast.literal_eval(precomputed_regions_state)
                     test_regions = list(regions_dict.keys())
+                    print(f"    → Found {len(test_regions)} regions to test")
                     for region_name in test_regions:
                         try:
 if __name__ == "__main__":
     # Test with a small subset first
+    instances=[i for i in range(20)]  # First 10 instances for testing
     cache_stats = precompute_all_caches(
         models_to_test=[
              'AnnaWegmann/Style-Embedding'