Spaces:

puligadda
/

rag12-analytics

Sleeping

App Files Files Community

npuliga commited on Jan 2

Commit

4c2722d

1 Parent(s): f551b90

updated files

Browse files

Files changed (2) hide show

app.py +85 -15
config.py +1 -2

app.py CHANGED Viewed

@@ -49,10 +49,28 @@ def get_dataset_choices():
         return []
 def get_data_preview():
-    """Returns the raw dataframe for inspection"""
     if "data" not in DB:
-        return pd.DataFrame()
-    return DB["data"].head(10)
 def get_domain_state(dataset):
     empty_update = gr.update(visible=False, value=None, choices=[])
@@ -190,8 +208,8 @@ def plot_metrics_on_x_axis(dataset, f1_val, f2_val, f3_val):
     return fig_rmse, fig_perf
-def generate_inter_domain_comparison():
-    """Generates comparison table and plot across all domains."""
     if "data" not in DB:
         return pd.DataFrame(), None
@@ -221,19 +239,51 @@ def generate_inter_domain_comparison():
     comp_df = pd.DataFrame(table_rows)
     best_results = []
     for ds in datasets:
         subset = df[df['dataset_name'] == ds]
-        if 'f1_score' in subset.columns:
-            max_f1 = subset['f1_score'].max()
-            best_idx = subset['f1_score'].idxmax()
             best_row = subset.loc[best_idx]
             best_results.append({
                 "Domain": ds,
-                "Max F1 Score": max_f1,
                 "Best Config": best_row['config_purpose']
             })
     if best_results:
         best_df = pd.DataFrame(best_results)
         fig_global = px.bar(
@@ -252,7 +302,7 @@ def generate_inter_domain_comparison():
 # --- 3. UI ---
 APP_VERSION = "v2.1.0-fixed"  # Version stamp to verify code is updated
-with gr.Blocks(title="RAG Analytics Pro", theme=gr.themes.Soft()) as demo:
     gr.Markdown("## RAG Pipeline Analytics")
     gr.Markdown(f"**Data Source:** `{DATA_FOLDER}` | **Version:** {APP_VERSION}")
@@ -279,12 +329,32 @@ with gr.Blocks(title="RAG Analytics Pro", theme=gr.themes.Soft()) as demo:
         # TAB 2: Data Inspector
         with gr.TabItem("Data Preview"):
-            gr.Markdown("### Verify your data loaded correctly here")
-            preview_table = gr.Dataframe(interactive=False)
             preview_btn = gr.Button("Refresh Data Preview")
         # TAB 3: Comparison
         with gr.TabItem("Inter-Domain Comparison"):
             refresh_btn = gr.Button("Generate Comparison")
             gr.Markdown("### Configuration Differences")
             comp_table = gr.Dataframe(interactive=False)
@@ -317,11 +387,11 @@ with gr.Blocks(title="RAG Analytics Pro", theme=gr.themes.Soft()) as demo:
     )
     # Debug Preview Events
-    preview_btn.click(get_data_preview, inputs=None, outputs=preview_table)
     refresh_btn.click(
         generate_inter_domain_comparison,
-        inputs=None,
         outputs=[comp_table, global_plot]
     )
@@ -332,4 +402,4 @@ print(startup_status)
 # Launch Gradio app
 if __name__ == "__main__":
-    demo.launch()

         return []
 def get_data_preview():
+    """Returns separate dataframes for each domain."""
     if "data" not in DB:
+        return {}, {}, {}, {}
+    df = DB["data"]
+    # Remove failed_samples column if it exists
+    if 'failed_samples' in df.columns:
+        df = df.drop(columns=['failed_samples'])
+    datasets = df['dataset_name'].unique()
+    # Create separate dataframes for each domain
+    results = {}
+    for ds in datasets:
+        results[ds] = df[df['dataset_name'] == ds]
+    # Return up to 4 domains (adjust if you have more)
+    domain_dfs = list(results.values())
+    while len(domain_dfs) < 4:
+        domain_dfs.append(pd.DataFrame())
+    return domain_dfs[0], domain_dfs[1], domain_dfs[2], domain_dfs[3]
 def get_domain_state(dataset):
     empty_update = gr.update(visible=False, value=None, choices=[])
     return fig_rmse, fig_perf
+def generate_inter_domain_comparison(metric='f1_score'):
+    """Generates comparison table and plot across all domains for selected metric."""
     if "data" not in DB:
         return pd.DataFrame(), None
     comp_df = pd.DataFrame(table_rows)
+    # Metric display names
+    metric_names = {
+        'rmse_relevance': 'RMSE Relevance',
+        'rmse_utilization': 'RMSE Utilization',
+        'rmse_completeness': 'RMSE Completeness',
+        'f1_score': 'F1 Score',
+        'aucroc': 'AUC-ROC'
+    }
+    metric_display = metric_names.get(metric, metric)
+    is_rmse = metric.startswith('rmse')
+    direction = "Lower is Better" if is_rmse else "Higher is Better"
     best_results = []
     for ds in datasets:
         subset = df[df['dataset_name'] == ds]
+        if metric in subset.columns:
+            if is_rmse:
+                best_val = subset[metric].min()
+                best_idx = subset[metric].idxmin()
+            else:
+                best_val = subset[metric].max()
+                best_idx = subset[metric].idxmax()
             best_row = subset.loc[best_idx]
             best_results.append({
                 "Domain": ds,
+                metric_display: best_val,
                 "Best Config": best_row['config_purpose']
             })
+    if best_results:
+        best_df = pd.DataFrame(best_results)
+        fig_global = px.bar(
+            best_df, x="Domain", y=metric_display,
+            color="Domain",
+            text_auto='.4f',
+            hover_data=["Best Config"],
+            title=f"Peak Performance per Domain: {metric_display} ({direction})"
+        )
+        fig_global.update_traces(textposition='outside')
+    else:
+        fig_global = None
+    return comp_df, fig_global
     if best_results:
         best_df = pd.DataFrame(best_results)
         fig_global = px.bar(
 # --- 3. UI ---
 APP_VERSION = "v2.1.0-fixed"  # Version stamp to verify code is updated
+with gr.Blocks(title="RAG Analytics Pro") as demo:
     gr.Markdown("## RAG Pipeline Analytics")
     gr.Markdown(f"**Data Source:** `{DATA_FOLDER}` | **Version:** {APP_VERSION}")
         # TAB 2: Data Inspector
         with gr.TabItem("Data Preview"):
+            gr.Markdown("### All Test Configurations by Domain")
+            gr.Markdown("**Biomedical (PubMedQA)**")
+            preview_table_1 = gr.Dataframe(interactive=False, wrap=True)
+            gr.Markdown("**Finance (FinQA)**")
+            preview_table_2 = gr.Dataframe(interactive=False, wrap=True)
+            gr.Markdown("**General (MS MARCO)**")
+            preview_table_3 = gr.Dataframe(interactive=False, wrap=True)
+            gr.Markdown("**Legal (CUAD)**")
+            preview_table_4 = gr.Dataframe(interactive=False, wrap=True)
             preview_btn = gr.Button("Refresh Data Preview")
         # TAB 3: Comparison
         with gr.TabItem("Inter-Domain Comparison"):
+            gr.Markdown("### Select Metric to Compare")
+            metric_dropdown = gr.Dropdown(
+                label="Comparison Metric",
+                choices=[
+                    ("F1 Score (Higher is Better)", "f1_score"),
+                    ("AUC-ROC (Higher is Better)", "aucroc"),
+                    ("RMSE Relevance (Lower is Better)", "rmse_relevance"),
+                    ("RMSE Utilization (Lower is Better)", "rmse_utilization"),
+                    ("RMSE Completeness (Lower is Better)", "rmse_completeness")
+                ],
+                value="f1_score",
+                interactive=True
+            )
             refresh_btn = gr.Button("Generate Comparison")
             gr.Markdown("### Configuration Differences")
             comp_table = gr.Dataframe(interactive=False)
     )
     # Debug Preview Events
+    preview_btn.click(get_data_preview, inputs=None, outputs=[preview_table_1, preview_table_2, preview_table_3, preview_table_4])
     refresh_btn.click(
         generate_inter_domain_comparison,
+        inputs=[metric_dropdown],
         outputs=[comp_table, global_plot]
     )
 # Launch Gradio app
 if __name__ == "__main__":
+    demo.launch(ssr_mode=False)

config.py CHANGED Viewed

@@ -19,8 +19,7 @@ METRIC_COLUMNS = [
     'rmse_utilization',
     'rmse_completeness',
     'f1_score',
-    'aucroc',
-    'failed_samples'
 ]
 # Numeric configuration columns (also need float conversion)

     'rmse_utilization',
     'rmse_completeness',
     'f1_score',
+    'aucroc'
 ]
 # Numeric configuration columns (also need float conversion)