Spaces:

cjc0013
/

cmp

Running

App Files Files Community

cjc0013 commited on 27 days ago

Commit

627a427

verified ·

1 Parent(s): 4f45004

Align overview evidence with detail context

Browse files

Files changed (3) hide show

dataset_bundle/evidence_audit/consistency_report.json +1 -1
dataset_bundle/public_release_manifest.json +1 -1
public_space_app.py +28 -5

dataset_bundle/evidence_audit/consistency_report.json CHANGED Viewed

@@ -1,5 +1,5 @@
 {
-  "generated_at": "2026-04-19T21:54:59-04:00",
   "event_provenance": {
     "event_count": 3918,
     "events_with_artifacts": 3878,

 {
+  "generated_at": "2026-04-19T22:19:39-04:00",
   "event_provenance": {
     "event_count": 3918,
     "events_with_artifacts": 3878,

dataset_bundle/public_release_manifest.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "public_version": "congress-public-records-slice-2026-04-v1",
   "title": "Congress Public Records Slice",
-  "release_date": "2026-04-19T21:56:12-04:00",
   "slice_description": "A neutral, review-oriented slice of House public-record linkages across financial disclosures, sector overlap, and community project funding recipient relationships.",
   "source_run_name": "house_all_baseline_20260418_v21_recipienthardening",
   "dataset_repo_id": "cjc0013/cmp-data",

 {
   "public_version": "congress-public-records-slice-2026-04-v1",
   "title": "Congress Public Records Slice",
+  "release_date": "2026-04-19T22:20:56-04:00",
   "slice_description": "A neutral, review-oriented slice of House public-record linkages across financial disclosures, sector overlap, and community project funding recipient relationships.",
   "source_run_name": "house_all_baseline_20260418_v21_recipienthardening",
   "dataset_repo_id": "cjc0013/cmp-data",

public_space_app.py CHANGED Viewed

@@ -1346,6 +1346,19 @@ def _window_overlap_text(row: Dict[str, Any]) -> str:
     return "not explicit in this row"
 def _member_activity_baselines(edges: pd.DataFrame) -> Dict[str, Dict[str, float]]:
     if edges.empty:
         return {}
@@ -1402,7 +1415,12 @@ def _relative_relationship_score(row: Dict[str, Any], baselines: Dict[str, Dict[
     return max(0, min(100, int(round(relative))))
-def _rank_relationships(edges: pd.DataFrame, ranking_mode: str = "raw") -> pd.DataFrame:
     columns = [
         "rank",
         "relationship_id",
@@ -1435,7 +1453,12 @@ def _rank_relationships(edges: pd.DataFrame, ranking_mode: str = "raw") -> pd.Da
             if family == "recipient"
             else row.get("weak_event_count", 0) or 0
         )
-        chips = _edge_evidence_chips(row)
         raw_score = _relationship_score(row)
         relative_score = _relative_relationship_score(row, baselines)
         sort_score = relative_score if normalized_mode == "relative" else raw_score
@@ -1452,12 +1475,12 @@ def _rank_relationships(edges: pd.DataFrame, ranking_mode: str = "raw") -> pd.Da
                 "status_code": str(row.get("relationship_status", "") or ""),
                 "strength": _plain_status_label(str(row.get("relationship_status", "") or "")),
                 "evidence": " | ".join(chips) if chips else "published source support",
-                "time-window overlap": _window_overlap_text(row),
                 "supporting rows": int(row.get("link_count", 0) or 0),
                 "stronger support": stronger_support,
                 "needs caution": caution_support,
                 "unresolved refs": int(row.get("unresolved_source_ref_count", 0) or 0),
-                "source_examples": ", ".join(_split_pipe_values(row.get("source_urls", ""), limit=2)),
             }
         )
     ranked = pd.DataFrame(rows).sort_values(
@@ -2394,7 +2417,7 @@ def build_app(copy_path: str | Path):
         relationship_id: str | None = None,
     ):
         filtered_edges = _overview_edges(member_query, family, only_strong, int(top_n))
-        ranked = _rank_relationships(filtered_edges, ranking_mode=ranking_mode)
         options = _relationship_options(ranked)
         valid_ids = {value for _, value in options}
         selected = relationship_id if relationship_id in valid_ids else (options[0][1] if options else None)

     return "not explicit in this row"
+def _context_window_overlap_text(context: Dict[str, Any], row: Dict[str, Any]) -> str:
+    chips = {str(item or "").strip().lower() for item in context.get("evidence_chips", [])}
+    has_disclosure = bool(chips.intersection({"annual disclosure", "trade disclosure"}))
+    has_legislative = bool(chips.intersection({"bill record", "vote activity", "lobbying activity"}))
+    if has_disclosure and has_legislative:
+        return "published disclosure and legislative records line up in this released slice"
+    if has_disclosure and "committee roster" in chips:
+        return "disclosure records plus current committee context"
+    if "committee roster" in chips:
+        return "current reference context only"
+    return _window_overlap_text(row)
 def _member_activity_baselines(edges: pd.DataFrame) -> Dict[str, Dict[str, float]]:
     if edges.empty:
         return {}
     return max(0, min(100, int(round(relative))))
+def _rank_relationships(
+    edges: pd.DataFrame,
+    ranking_mode: str = "raw",
+    links: pd.DataFrame | None = None,
+    events: pd.DataFrame | None = None,
+) -> pd.DataFrame:
     columns = [
         "rank",
         "relationship_id",
             if family == "recipient"
             else row.get("weak_event_count", 0) or 0
         )
+        context = (
+            _relationship_context(edges, links, events, str(row.get("edge_id") or ""), ranking_mode)
+            if links is not None and events is not None
+            else None
+        )
+        chips = context["evidence_chips"] if context else _edge_evidence_chips(row)
         raw_score = _relationship_score(row)
         relative_score = _relative_relationship_score(row, baselines)
         sort_score = relative_score if normalized_mode == "relative" else raw_score
                 "status_code": str(row.get("relationship_status", "") or ""),
                 "strength": _plain_status_label(str(row.get("relationship_status", "") or "")),
                 "evidence": " | ".join(chips) if chips else "published source support",
+                "time-window overlap": _context_window_overlap_text(context, row) if context else _window_overlap_text(row),
                 "supporting rows": int(row.get("link_count", 0) or 0),
                 "stronger support": stronger_support,
                 "needs caution": caution_support,
                 "unresolved refs": int(row.get("unresolved_source_ref_count", 0) or 0),
+                "source_examples": ", ".join(context["surfaced_urls"][:2]) if context else ", ".join(_split_pipe_values(row.get("source_urls", ""), limit=2)),
             }
         )
     ranked = pd.DataFrame(rows).sort_values(
         relationship_id: str | None = None,
     ):
         filtered_edges = _overview_edges(member_query, family, only_strong, int(top_n))
+        ranked = _rank_relationships(filtered_edges, ranking_mode=ranking_mode, links=links, events=events)
         options = _relationship_options(ranked)
         valid_ids = {value for _, value in options}
         selected = relationship_id if relationship_id in valid_ids else (options[0][1] if options else None)