Spaces:

ExplainabiliyForAATeam
/

explainability-tool-for-aa

Running

App Files Files Community

Milad Alshomary commited on Oct 27

Commit

51ad242

1 Parent(s): 224c491

updates

Browse files

Files changed (1) hide show

utils/interp_space_utils.py +32 -21

utils/interp_space_utils.py CHANGED Viewed

@@ -577,37 +577,48 @@ def compute_clusters_style_representation_3(
     # Filter-in only task authors that are part of the current selection
     task_author_names = {'Mystery author', 'Candidate Author 1', 'Candidate Author 2', 'Candidate Author 3'}
-    filtered_task_authors = {author: feat_map for author, feat_map in spans_by_author.items() if author in task_author_names.intersection(set(cluster_ids))}
     # Build per-author sets of features that have at least one span
-    author_present_feature_sets = [
-        {feature for feature, spans in feature_map.items() if spans and len(spans) > 0}
-        for _, feature_map in filtered_task_authors.items()
-    ]
-    print(filtered_task_authors.keys(), author_present_feature_sets)
-    if len(author_present_feature_sets) > 0: # we have more than one task author
-        coverage_counter = Counter()
-        for present_set in author_present_feature_sets:
-            coverage_counter.update(present_set)
-        # Keep features present in at least `min_authors_required` authors
-        eligible_features = [feat for feat, cnt in coverage_counter.items() if cnt >= len(author_present_feature_sets)]
-        # Preserve original LLM feature ordering as a secondary key where possible
-        feature_original_index = {feat: idx for idx, feat in enumerate(features)} if features else {}
-        selected_features_ranked = sorted(
-            eligible_features,
-            key=lambda f: (-coverage_counter[f], feature_original_index.get(f, 10**9))
-        )[:int(top_k)]
-    else:
-        selected_features_ranked = features
-    print('filtered set of features (min coverage', len(author_present_feature_sets), '): ', selected_features_ranked)
     return {
         "features": list(selected_features_ranked),

     # Filter-in only task authors that are part of the current selection
     task_author_names = {'Mystery author', 'Candidate Author 1', 'Candidate Author 2', 'Candidate Author 3'}
+    #filtered_task_authors = {author: feat_map for author, feat_map in spans_by_author.items() if author in task_author_names.intersection(set(cluster_ids))}
     # Build per-author sets of features that have at least one span
+    # author_present_feature_sets = [
+    #     {feature for feature, spans in feature_map.items() if spans and len(spans) > 0}
+    #     for _, feature_map in filtered_task_authors.items()
+    # ]
+    # print(filtered_task_authors.keys(), author_present_feature_sets)
+    # if len(author_present_feature_sets) > 0: # we have more than one task author
+    #     coverage_counter = Counter()
+    #     for present_set in author_present_feature_sets:
+    #         coverage_counter.update(present_set)
+    #     # Keep features present in at least `min_authors_required` authors
+    #     eligible_features = [feat for feat, cnt in coverage_counter.items() if cnt >= len(author_present_feature_sets)]
+    #     # Preserve original LLM feature ordering as a secondary key where possible
+    #     feature_original_index = {feat: idx for idx, feat in enumerate(features)} if features else {}
+    #     selected_features_ranked = sorted(
+    #         eligible_features,
+    #         key=lambda f: (-coverage_counter[f], feature_original_index.get(f, 10**9))
+    #     )[:int(top_k)]
+    # else:
+    #     selected_features_ranked = features
+    feature_importance = {f : 0 for f in features}
+    for author, feature_map in spans_by_author.items():
+        if author in task_author_names.intersection(set(cluster_ids)):
+            for feature, spans in feature_map.items():
+                feature_importance[feature] += len(spans)
+        else:
+            for feature, spans in feature_map.items():
+                feature_importance[feature] -= len(spans)
+    print(feature_importance)
+    selected_features_ranked = sorted(feature_importance, key=lambda f: -feature_importance[f])[:int(top_k)]
+    #print('filtered set of features (min coverage', len(author_present_feature_sets), '): ', selected_features_ranked)
     return {
         "features": list(selected_features_ranked),