Spaces:

aaditya-raj
/

e6test

Sleeping

App Files Files Community

aaditya-raj commited on Sep 16, 2025

Commit

672a8ff

verified ·

1 Parent(s): 164484f

Update app.py

Browse files

Files changed (1) hide show

app.py +138 -139

app.py CHANGED Viewed

@@ -1,4 +1,3 @@
 from __future__ import annotations
 import gradio as gr
@@ -236,6 +235,142 @@ def process_batch_evaluation(
         error_msg = f"Batch evaluation failed: {str(e)}"
         print(f"Error: {error_msg}")
         print(traceback.format_exc())
         return empty_fig, empty_fig, empty_fig, error_msg
 # --- Gradio Interface Setup ---
@@ -253,7 +388,7 @@ def create_gradio_interface():
         with gr.Tabs():
             # Single Evaluation Tab
-            with gr.TabItem("📝 Single Evaluation"):
                 with gr.Row():
                     with gr.Column(scale=1):
                         prompt_input = gr.Textbox(
@@ -431,140 +566,4 @@ if __name__ == "__main__":
         server_name="0.0.0.0",
         server_port=7860,
         show_error=True
-    ), empty_df
-def create_leaderboard(results: List[Dict]) -> pd.DataFrame:
-    """Create a leaderboard from evaluation results with robust error handling"""
-    try:
-        if not results:
-            return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
-        eval_instance = get_evaluator()
-        agent_scores = eval_instance.get_agent_scores_from_results(results)
-        if not agent_scores:
-            return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
-        leaderboard_data = []
-        for agent, scores in agent_scores.items():
-            if not scores:  # Skip agents with no valid scores
-                continue
-            # Filter out invalid scores
-            valid_scores = [s for s in scores if isinstance(s, (int, float)) and not np.isnan(s)]
-            if not valid_scores:
-                continue
-            leaderboard_data.append({
-                'Rank': 0,
-                'Agent': str(agent),
-                'Avg Score': np.mean(valid_scores),
-                'Max Score': np.max(valid_scores),
-                'Min Score': np.min(valid_scores),
-                'Std Dev': np.std(valid_scores) if len(valid_scores) > 1 else 0.0,
-                'Evaluations': len(valid_scores)
-            })
-        if not leaderboard_data:
-            return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
-        df = pd.DataFrame(leaderboard_data)
-        # Sort by average score
-        df = df.sort_values('Avg Score', ascending=False)
-        df['Rank'] = range(1, len(df) + 1)
-        # Format numeric columns
-        for col in ['Avg Score', 'Max Score', 'Min Score', 'Std Dev']:
-            if col in df.columns:
-                df[col] = df[col].apply(lambda x: f"{x:.3f}" if pd.notna(x) else "N/A")
-        return df
-    except Exception as e:
-        print(f"Leaderboard creation error: {e}")
-        return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
-def compare_agents(
-    agent1_file,
-    agent2_file,
-) -> tuple[go.Figure, go.Figure, go.Figure, str]:
-    """Compare two agents' performance with error handling"""
-    empty_fig = go.Figure()
-    empty_fig.update_layout(title="No data available")
-    try:
-        if not agent1_file or not agent2_file:
-            return empty_fig, empty_fig, empty_fig, "Please upload files for both agents."
-        def load_agent_data(file):
-            try:
-                if file.name.endswith('.json'):
-                    with open(file.name, 'r', encoding='utf-8') as f:
-                        return json.load(f)
-                elif file.name.endswith('.jsonl'):
-                    data = []
-                    with open(file.name, 'r', encoding='utf-8') as f:
-                        for line in f:
-                            if line.strip():
-                                data.append(json.loads(line))
-                    return data
-                else:
-                    raise ValueError("Unsupported file format")
-            except Exception as e:
-                raise ValueError(f"Error loading file {file.name}: {str(e)}")
-        eval_instance = get_evaluator()
-        vis_instance = get_visualizer()
-        report_instance = get_report_generator()
-        # Load data for both agents
-        agent1_data = load_agent_data(agent1_file)
-        agent2_data = load_agent_data(agent2_file)
-        # Validate data
-        if not agent1_data or not agent2_data:
-            return empty_fig, empty_fig, empty_fig, "One or both agent files contain no valid data."
-        # Evaluate both agents
-        agent1_results = eval_instance.evaluate_batch(agent1_data, mode="comprehensive")
-        agent2_results = eval_instance.evaluate_batch(agent2_data, mode="comprehensive")
-        if not agent1_results or not agent2_results:
-            return empty_fig, empty_fig, empty_fig, "Failed to evaluate one or both agents."
-        # Generate comparison visualizations
-        try:
-            comparison_chart = vis_instance.create_agent_comparison(agent1_results, agent2_results)
-        except Exception as e:
-            print(f"Comparison chart creation failed: {e}")
-            comparison_chart = empty_fig
-        try:
-            performance_diff = vis_instance.create_performance_delta(agent1_results, agent2_results)
-        except Exception as e:
-            print(f"Performance difference chart creation failed: {e}")
-            performance_diff = empty_fig
-        try:
-            statistical_analysis = vis_instance.create_radar_comparison(agent1_results, agent2_results)
-        except Exception as e:
-            print(f"Statistical analysis chart creation failed: {e}")
-            statistical_analysis = empty_fig
-        # Generate comparison report
-        try:
-            comparison_report = report_instance.generate_comparison_report(agent1_results, agent2_results)
-        except Exception as e:
-            print(f"Comparison report generation failed: {e}")
-            comparison_report = f"Comparison report generation failed: {str(e)}"
-        return comparison_chart, performance_diff, statistical_analysis, comparison_report
-    except Exception as e:
-        error_msg = f"Agent comparison failed: {str(e)}"
-        print(f"Error: {error_msg}")
-        print(traceback.format_exc())
-        return empty_fig, empty_fig, empty_fig, error_msg

 from __future__ import annotations
 import gradio as gr
         error_msg = f"Batch evaluation failed: {str(e)}"
         print(f"Error: {error_msg}")
         print(traceback.format_exc())
+        return empty_fig, empty_fig, empty_fig, error_msg, empty_df
+def create_leaderboard(results: List[Dict]) -> pd.DataFrame:
+    """Create a leaderboard from evaluation results with robust error handling"""
+    try:
+        if not results:
+            return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
+        eval_instance = get_evaluator()
+        agent_scores = eval_instance.get_agent_scores_from_results(results)
+        if not agent_scores:
+            return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
+        leaderboard_data = []
+        for agent, scores in agent_scores.items():
+            if not scores:  # Skip agents with no valid scores
+                continue
+            # Filter out invalid scores
+            valid_scores = [s for s in scores if isinstance(s, (int, float)) and not np.isnan(s)]
+            if not valid_scores:
+                continue
+            leaderboard_data.append({
+                'Rank': 0,
+                'Agent': str(agent),
+                'Avg Score': np.mean(valid_scores),
+                'Max Score': np.max(valid_scores),
+                'Min Score': np.min(valid_scores),
+                'Std Dev': np.std(valid_scores) if len(valid_scores) > 1 else 0.0,
+                'Evaluations': len(valid_scores)
+            })
+        if not leaderboard_data:
+            return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
+        df = pd.DataFrame(leaderboard_data)
+        # Sort by average score
+        df = df.sort_values('Avg Score', ascending=False)
+        df['Rank'] = range(1, len(df) + 1)
+        # Format numeric columns
+        for col in ['Avg Score', 'Max Score', 'Min Score', 'Std Dev']:
+            if col in df.columns:
+                df[col] = df[col].apply(lambda x: f"{x:.3f}" if pd.notna(x) else "N/A")
+        return df
+    except Exception as e:
+        print(f"Leaderboard creation error: {e}")
+        return pd.DataFrame(columns=['Rank', 'Agent', 'Avg Score', 'Max Score', 'Min Score', 'Std Dev', 'Evaluations'])
+def compare_agents(
+    agent1_file,
+    agent2_file,
+) -> tuple[go.Figure, go.Figure, go.Figure, str]:
+    """Compare two agents' performance with error handling"""
+    empty_fig = go.Figure()
+    empty_fig.update_layout(title="No data available")
+    try:
+        if not agent1_file or not agent2_file:
+            return empty_fig, empty_fig, empty_fig, "Please upload files for both agents."
+        def load_agent_data(file):
+            try:
+                if file.name.endswith('.json'):
+                    with open(file.name, 'r', encoding='utf-8') as f:
+                        return json.load(f)
+                elif file.name.endswith('.jsonl'):
+                    data = []
+                    with open(file.name, 'r', encoding='utf-8') as f:
+                        for line in f:
+                            if line.strip():
+                                data.append(json.loads(line))
+                    return data
+                else:
+                    raise ValueError("Unsupported file format")
+            except Exception as e:
+                raise ValueError(f"Error loading file {file.name}: {str(e)}")
+        eval_instance = get_evaluator()
+        vis_instance = get_visualizer()
+        report_instance = get_report_generator()
+        # Load data for both agents
+        agent1_data = load_agent_data(agent1_file)
+        agent2_data = load_agent_data(agent2_file)
+        # Validate data
+        if not agent1_data or not agent2_data:
+            return empty_fig, empty_fig, empty_fig, "One or both agent files contain no valid data."
+        # Evaluate both agents
+        agent1_results = eval_instance.evaluate_batch(agent1_data, mode="comprehensive")
+        agent2_results = eval_instance.evaluate_batch(agent2_data, mode="comprehensive")
+        if not agent1_results or not agent2_results:
+            return empty_fig, empty_fig, empty_fig, "Failed to evaluate one or both agents."
+        # Generate comparison visualizations
+        try:
+            comparison_chart = vis_instance.create_agent_comparison(agent1_results, agent2_results)
+        except Exception as e:
+            print(f"Comparison chart creation failed: {e}")
+            comparison_chart = empty_fig
+        try:
+            performance_diff = vis_instance.create_performance_delta(agent1_results, agent2_results)
+        except Exception as e:
+            print(f"Performance difference chart creation failed: {e}")
+            performance_diff = empty_fig
+        try:
+            statistical_analysis = vis_instance.create_radar_comparison(agent1_results, agent2_results)
+        except Exception as e:
+            print(f"Statistical analysis chart creation failed: {e}")
+            statistical_analysis = empty_fig
+        # Generate comparison report
+        try:
+            comparison_report = report_instance.generate_comparison_report(agent1_results, agent2_results)
+        except Exception as e:
+            print(f"Comparison report generation failed: {e}")
+            comparison_report = f"Comparison report generation failed: {str(e)}"
+        return comparison_chart, performance_diff, statistical_analysis, comparison_report
+    except Exception as e:
+        error_msg = f"Agent comparison failed: {str(e)}"
+        print(f"Error: {error_msg}")
+        print(traceback.format_exc())
         return empty_fig, empty_fig, empty_fig, error_msg
 # --- Gradio Interface Setup ---
         with gr.Tabs():
             # Single Evaluation Tab
+            with gr.TabItem("🔍 Single Evaluation"):
                 with gr.Row():
                     with gr.Column(scale=1):
                         prompt_input = gr.Textbox(
         server_name="0.0.0.0",
         server_port=7860,
         show_error=True
+    )