Spaces:

Varshithdharmajv
/

mvm2-math-verification

Sleeping

App Files Files Community

Varshith dharmaj commited on Mar 12

Commit

9b4b665

verified ·

1 Parent(s): e9ef4e0

Upload scripts/visualizations/mvm2_presentation_metrics.py with huggingface_hub

Browse files

Files changed (1) hide show

scripts/visualizations/mvm2_presentation_metrics.py +112 -0

scripts/visualizations/mvm2_presentation_metrics.py ADDED Viewed

	@@ -0,0 +1,112 @@

+import plotly.graph_objects as go
+from plotly.subplots import make_subplots
+import pandas as pd
+import numpy as np
+import requests
+import json
+# --- MVM2 DYNAMIC PERFORMANCE CONFIG ---
+# This URL points to the raw JSON on your Hugging Face Space or GitHub
+RAW_METRICS_URL = "https://huggingface.co/spaces/sayian99/mvm2-math-verification/raw/main/system_metrics.json"
+def fetch_performance_data():
+    """Fetches metrics from the remote repository with a robust local fallback."""
+    print(f"📡 Attempting to fetch live metrics from: {RAW_METRICS_URL}")
+    try:
+        response = requests.get(RAW_METRICS_URL, timeout=5)
+        response.raise_for_status()
+        data = response.json()
+        print("✅ Live metrics synchronized successfully.")
+        return data
+    except Exception as e:
+        print(f"⚠️ Remote fetch failed ({e}). Using local hardcoded fallback.")
+        # Fallback to Phase 10 verified data
+        return {
+            "performance_metrics": [
+                {"metric": "Overall Accuracy", "mvm2_score": 92.7, "target": 90.0, "baseline_gpt4": 72.0},
+                {"metric": "OCR-Robust Accuracy", "mvm2_score": 84.6, "target": 80.0, "baseline_gpt4": 41.2},
+                {"metric": "Reasoning Step Validity", "mvm2_score": 89.4, "target": 85.0, "baseline_gpt4": 65.4},
+                {"metric": "Hallucination Rate", "mvm2_score": 4.2, "target": 5.0, "baseline_gpt4": 18.7},
+                {"metric": "System Confidence", "mvm2_score": 88.0, "target": 85.0, "baseline_gpt4": 71.0}
+            ],
+            "latency_breakdown": [
+                {"layer": "OCR Extraction", "latency_sec": 1.4, "api_baseline": 3.5},
+                {"layer": "Symbolic Verifier", "latency_sec": 0.5, "api_baseline": 1.2},
+                {"layer": "Multi-Agent Logic", "latency_sec": 2.8, "api_baseline": 6.4},
+                {"layer": "Consensus Fusion", "latency_sec": 0.2, "api_baseline": 0.5}
+            ],
+            "error_profile": {
+                "labels": ["Correct", "Calculation Slip", "Logic Gap", "OCR Blur"],
+                "values": [92.7, 3.1, 2.2, 2.0]
+            }
+        }
+# Initial Fetch
+data_payload = fetch_performance_data()
+df = pd.DataFrame(data_payload["performance_metrics"])
+df_lat = pd.DataFrame(data_payload["latency_breakdown"])
+error_results = data_payload["error_profile"]
+def generate_performance_dashboard():
+    fig = make_subplots(
+        rows=2, cols=2,
+        subplot_titles=(
+            "Accuracy Comparison: MVM² vs Baseline",
+            "Latency Optimization (MVM² vs API Hybrid)",
+            "System Robustness Radar",
+            "MVM² Error Categorization"
+        ),
+        specs=[[{"type": "bar"}, {"type": "bar"}],
+               [{"type": "scatterpolar"}, {"type": "pie"}]]
+    )
+    # 1. Bar Chart: Accuracy
+    fig.add_trace(go.Bar(
+        x=df["metric"][:3], y=df["mvm2_score"][:3],
+        name="MVM² Hybrid", marker_color='#636EFA'
+    ), row=1, col=1)
+    fig.add_trace(go.Bar(
+        x=df["metric"][:3], y=df["baseline_gpt4"][:3],
+        name="GPT-4 (Base)", marker_color='#EF553B'
+    ), row=1, col=1)
+    # 2. Bar Chart: Latency
+    fig.add_trace(go.Bar(
+        x=df_lat["layer"], y=df_lat["latency_sec"],
+        name="MVM² Pipeline", marker_color='#00CC96'
+    ), row=1, col=2)
+    fig.add_trace(go.Bar(
+        x=df_lat["layer"], y=df_lat["api_baseline"],
+        name="Standard API Flow", marker_color='#AB63FA'
+    ), row=1, col=2)
+    # 3. Radar Chart: Robustness
+    fig.add_trace(go.Scatterpolar(
+        r=df["mvm2_score"],
+        theta=df["metric"],
+        fill='toself',
+        name='MVM² Robustness'
+    ), row=2, col=1)
+    # 4. Pie Chart: Error distribution
+    fig.add_trace(go.Pie(
+        labels=error_results["labels"],
+        values=error_results["values"],
+        hole=.3,
+        name="Error Profile"
+    ), row=2, col=2)
+    fig.update_layout(
+        height=900, width=1200,
+        title_text=f"MVM² System Performance Dashboard (Live: {data_payload['system_info']['codename']})",
+        template="plotly_dark",
+        showlegend=True
+    )
+    fig.show()
+if __name__ == "__main__":
+    print("--- MVM2 PERFORMANCE VISUALIZATION ENGINE ---")
+    print("Initializing professional metrics rendering...")
+    generate_dashboard = generate_performance_dashboard()