Spaces:

ai4data
/

monitoring_of_datause

Running

App Files Files Community

rafmacalaba commited on 9 days ago

Commit

ee38d1e

1 Parent(s): 148fbc3

add search capability

Browse files

Files changed (1) hide show

app.py +74 -12

app.py CHANGED Viewed

@@ -110,6 +110,14 @@ class ComparisonManager:
         if term not in self.term_groups:
             return 0
         return len(self.term_groups[term]['validated' if is_validated else 'not_validated'])
 # ── Highlight utils ──────────────────────────────────────────────────────────
@@ -144,7 +152,7 @@ def prepare_for_highlight(rec: Dict) -> List[Tuple[str, Optional[str]]]:
 # ── Filtering helpers ─────────────────────────────────────────────────────────
-def record_matches_filters(rec: Dict, dataset_filter: str, type_filter: str):
     is_validated = rec.get("validated", False)
     tags = rec.get("tags", [])
@@ -156,7 +164,22 @@ def record_matches_filters(rec: Dict, dataset_filter: str, type_filter: str):
         return "borderline" in tags
     if type_filter != "All types":
-        return rec.get("type") == type_filter
     return True
@@ -345,10 +368,10 @@ def create_demo() -> gr.Blocks:
         return segs, idx, make_info(rec)
     # When filters change → jump to first matching record
-    def jump_on_filters(dataset_filter, type_filter):
         n = dynamic_dataset.len
         for i in range(n):
-            if record_matches_filters(data[i], dataset_filter, type_filter):
                 dynamic_dataset.current = i
                 rec = data[i]
                 segs = prepare_for_highlight(rec)
@@ -358,11 +381,11 @@ def create_demo() -> gr.Blocks:
         return [], 0, "⚠️ No matching records found with the selected filters."
     # Navigation respecting filters
-    def nav_next(dataset_filter, type_filter):
         i = dynamic_dataset.current + 1
         n = dynamic_dataset.len
         while i < n:
-            if record_matches_filters(data[i], dataset_filter, type_filter):
                 break
             i += 1
         if i >= n:
@@ -371,10 +394,10 @@ def create_demo() -> gr.Blocks:
         rec = data[i]
         return prepare_for_highlight(rec), i, make_info(rec)
-    def nav_prev(dataset_filter, type_filter):
         i = dynamic_dataset.current - 1
         while i >= 0:
-            if record_matches_filters(data[i], dataset_filter, type_filter):
                 break
             i -= 1
         if i < 0:
@@ -466,6 +489,12 @@ def create_demo() -> gr.Blocks:
                         value="All types",
                         label="📂 Filter by Data Type",
                     )
                 inp_box = gr.HighlightedText(
                     label="📄 Document Text (with highlighted dataset mentions)",
@@ -497,24 +526,29 @@ def create_demo() -> gr.Blocks:
                 # Filters
                 dataset_filter.change(
                     fn=jump_on_filters,
-                    inputs=[dataset_filter, type_filter],
                     outputs=[inp_box, prog, info_md],
                 )
                 type_filter.change(
                     fn=jump_on_filters,
-                    inputs=[dataset_filter, type_filter],
                     outputs=[inp_box, prog, info_md],
                 )
                 # Prev / Next navigation respecting filters
                 prev_btn.click(
                     fn=nav_prev,
-                    inputs=[dataset_filter, type_filter],
                     outputs=[inp_box, prog, info_md],
                 )
                 next_btn.click(
                     fn=nav_next,
-                    inputs=[dataset_filter, type_filter],
                     outputs=[inp_box, prog, info_md],
                 )
@@ -556,6 +590,13 @@ def create_demo() -> gr.Blocks:
                 # Term comparison
                 with gr.Group(visible=False) as term_comparison_group:
                     gr.Markdown("**Compare by Term**: See how the exact same term appears in different validation contexts")
                     comp_term_selector = gr.Dropdown(
                         choices=comparison_manager.confusing_terms,
                         value=comparison_manager.confusing_terms[0] if comparison_manager.confusing_terms else None,
@@ -619,6 +660,27 @@ def create_demo() -> gr.Blocks:
                 )
                 # Term comparison events
                 comp_term_selector.change(
                     fn=lambda: (0, 0),
                     outputs=[term_pos_idx_state, term_neg_idx_state]

         if term not in self.term_groups:
             return 0
         return len(self.term_groups[term]['validated' if is_validated else 'not_validated'])
+    def filter_terms(self, search_query: str) -> List[str]:
+        """Filter confusing terms by search query (case-insensitive substring match)."""
+        if not search_query or not search_query.strip():
+            return self.confusing_terms
+        query = search_query.strip().lower()
+        return [term for term in self.confusing_terms if query in term.lower()]
 # ── Highlight utils ──────────────────────────────────────────────────────────
 # ── Filtering helpers ─────────────────────────────────────────────────────────
+def record_matches_filters(rec: Dict, dataset_filter: str, type_filter: str, term_search: str = ""):
     is_validated = rec.get("validated", False)
     tags = rec.get("tags", [])
         return "borderline" in tags
     if type_filter != "All types":
+        if rec.get("type") != type_filter:
+            return False
+    # Term search filter
+    if term_search and term_search.strip():
+        query = term_search.strip().lower()
+        # Extract term from ner_text
+        if rec.get('ner_text') and len(rec['ner_text']) > 0 and rec.get('text'):
+            start, end, label = rec['ner_text'][0]
+            term = rec['text'][start:end]
+            if term and query in term.lower():
+                return True
+            else:
+                return False
+        else:
+            return False
     return True
         return segs, idx, make_info(rec)
     # When filters change → jump to first matching record
+    def jump_on_filters(dataset_filter, type_filter, term_search):
         n = dynamic_dataset.len
         for i in range(n):
+            if record_matches_filters(data[i], dataset_filter, type_filter, term_search):
                 dynamic_dataset.current = i
                 rec = data[i]
                 segs = prepare_for_highlight(rec)
         return [], 0, "⚠️ No matching records found with the selected filters."
     # Navigation respecting filters
+    def nav_next(dataset_filter, type_filter, term_search):
         i = dynamic_dataset.current + 1
         n = dynamic_dataset.len
         while i < n:
+            if record_matches_filters(data[i], dataset_filter, type_filter, term_search):
                 break
             i += 1
         if i >= n:
         rec = data[i]
         return prepare_for_highlight(rec), i, make_info(rec)
+    def nav_prev(dataset_filter, type_filter, term_search):
         i = dynamic_dataset.current - 1
         while i >= 0:
+            if record_matches_filters(data[i], dataset_filter, type_filter, term_search):
                 break
             i -= 1
         if i < 0:
                         value="All types",
                         label="📂 Filter by Data Type",
                     )
+                term_search = gr.Textbox(
+                    label="🔍 Search by Term",
+                    placeholder="Type to filter by dataset term (e.g., 'MIS' to find EMIS, MIS, MIS database...)",
+                    value="",
+                )
                 inp_box = gr.HighlightedText(
                     label="📄 Document Text (with highlighted dataset mentions)",
                 # Filters
                 dataset_filter.change(
                     fn=jump_on_filters,
+                    inputs=[dataset_filter, type_filter, term_search],
                     outputs=[inp_box, prog, info_md],
                 )
                 type_filter.change(
                     fn=jump_on_filters,
+                    inputs=[dataset_filter, type_filter, term_search],
+                    outputs=[inp_box, prog, info_md],
+                )
+                term_search.change(
+                    fn=jump_on_filters,
+                    inputs=[dataset_filter, type_filter, term_search],
                     outputs=[inp_box, prog, info_md],
                 )
                 # Prev / Next navigation respecting filters
                 prev_btn.click(
                     fn=nav_prev,
+                    inputs=[dataset_filter, type_filter, term_search],
                     outputs=[inp_box, prog, info_md],
                 )
                 next_btn.click(
                     fn=nav_next,
+                    inputs=[dataset_filter, type_filter, term_search],
                     outputs=[inp_box, prog, info_md],
                 )
                 # Term comparison
                 with gr.Group(visible=False) as term_comparison_group:
                     gr.Markdown("**Compare by Term**: See how the exact same term appears in different validation contexts")
+                    term_search_box = gr.Textbox(
+                        label="🔍 Search Terms",
+                        placeholder="Type to filter terms (e.g., 'MIS' to find EMIS, MIS, MIS database...)",
+                        value="",
+                    )
                     comp_term_selector = gr.Dropdown(
                         choices=comparison_manager.confusing_terms,
                         value=comparison_manager.confusing_terms[0] if comparison_manager.confusing_terms else None,
                 )
                 # Term comparison events
+                def update_term_dropdown(search_query):
+                    """Update dropdown choices based on search query."""
+                    filtered_terms = comparison_manager.filter_terms(search_query)
+                    if filtered_terms:
+                        return gr.update(choices=filtered_terms, value=filtered_terms[0])
+                    else:
+                        return gr.update(choices=[], value=None)
+                term_search_box.change(
+                    fn=update_term_dropdown,
+                    inputs=[term_search_box],
+                    outputs=[comp_term_selector]
+                ).then(
+                    fn=lambda: (0, 0),
+                    outputs=[term_pos_idx_state, term_neg_idx_state]
+                ).then(
+                    fn=load_term_comparison,
+                    inputs=[comp_term_selector, term_pos_idx_state, term_neg_idx_state],
+                    outputs=[term_pos_hl_box, term_pos_info_box, term_neg_hl_box, term_neg_info_box, term_pos_header, term_neg_header]
+                )
                 comp_term_selector.change(
                     fn=lambda: (0, 0),
                     outputs=[term_pos_idx_state, term_neg_idx_state]