Spaces:

YLab-Open
/

BRIDGE-Medical-Leaderboard

Running

App Files Files Community

Kevin Xie commited on Jul 22, 2025

Commit

d4af204

1 Parent(s): 1470b41

Update leaderboard (7/22)

Browse files

Updated leaderboard with 9 additional model evaluations.

Files changed (8) hide show

leaderboards/CoT_leaderboard.json +0 -0
leaderboards/CoT_leaderboard_data.json +0 -0
leaderboards/Few-Shot_leaderboard.json +0 -0
leaderboards/Few-Shot_leaderboard_data.json +0 -0
leaderboards/Zero-Shot_leaderboard.json +0 -0
leaderboards/Zero-Shot_leaderboard_data.json +0 -0
task_information.json +27 -11
utils/data_loader.py +6 -7

leaderboards/CoT_leaderboard.json ADDED Viewed

The diff for this file is too large to render. See raw diff

leaderboards/CoT_leaderboard_data.json DELETED Viewed

The diff for this file is too large to render. See raw diff

leaderboards/Few-Shot_leaderboard.json ADDED Viewed

The diff for this file is too large to render. See raw diff

leaderboards/Few-Shot_leaderboard_data.json DELETED Viewed

The diff for this file is too large to render. See raw diff

leaderboards/Zero-Shot_leaderboard.json ADDED Viewed

The diff for this file is too large to render. See raw diff

leaderboards/Zero-Shot_leaderboard_data.json DELETED Viewed

The diff for this file is too large to render. See raw diff

task_information.json CHANGED Viewed

@@ -40,7 +40,7 @@
         "Clinical Stage": "Diagnosis and Prognosis"
     },
     "Brateca-Hospitalization": {
-        "Language": "Portuguese\n(Brazilian)",
         "Task Type": "Text Classification",
         "Clinical Context": "General",
         "Data Access": "Regulated",
@@ -48,7 +48,7 @@
         "Clinical Stage": "Diagnosis and Prognosis"
     },
     "Brateca-Mortality": {
-        "Language": "Portuguese\n(Brazilian)",
         "Task Type": "Text Classification",
         "Clinical Context": "General",
         "Data Access": "Regulated",
@@ -116,7 +116,7 @@
         "Task Type": "Event Extraction",
         "Clinical Context": "General",
         "Data Access": "Open Access",
-        "Applications": "Temporal & Causality relation",
         "Clinical Stage": "Initial Assessment"
     },
     "C-EMRS": {
@@ -356,7 +356,7 @@
         "Task Type": "Named Entity Recognition",
         "Clinical Context": "Pediatrics, Psychology",
         "Data Access": "Open Access",
-        "Applications": "Temporal & Causality relation",
         "Clinical Stage": "Initial Assessment"
     },
     "n2c2 2018-ADE&medication": {
@@ -372,7 +372,7 @@
         "Task Type": "Named Entity Recognition",
         "Clinical Context": "Cardiology",
         "Data Access": "Open Access",
-        "Applications": "Temporal & Causality relation",
         "Clinical Stage": "Initial Assessment"
     },
     "NorSynthClinical-RE": {
@@ -380,7 +380,7 @@
         "Task Type": "Event Extraction",
         "Clinical Context": "Cardiology",
         "Data Access": "Open Access",
-        "Applications": "Temporal & Causality relation",
         "Clinical Stage": "Initial Assessment"
     },
     "NUBES": {
@@ -396,7 +396,7 @@
         "Task Type": "Summarization",
         "Clinical Context": "General",
         "Data Access": "Open Access",
-        "Applications": "Consultation summarization",
         "Clinical Stage": "Initial Assessment"
     },
     "MEDIQA 2023-sum-A": {
@@ -412,7 +412,7 @@
         "Task Type": "Summarization",
         "Clinical Context": "General",
         "Data Access": "Open Access",
-        "Applications": "Consultation summarization",
         "Clinical Stage": "Initial Assessment"
     },
     "RuMedDaNet": {
@@ -468,7 +468,7 @@
         "Task Type": "Summarization",
         "Clinical Context": "Pediatrics",
         "Data Access": "Open Access",
-        "Applications": "Consultation summarization",
         "Clinical Stage": "Initial Assessment"
     },
     "IMCS-V2-DAC": {
@@ -539,7 +539,7 @@
         "Language": "Russian",
         "Task Type": "Natural Language Inference",
         "Clinical Context": "Critical Care",
-        "Data Access": "Open Access",
         "Applications": "Semantic relation",
         "Clinical Stage": "Research"
     },
@@ -615,7 +615,7 @@
         "Applications": "ADE & Incidents",
         "Clinical Stage": "Treatment and Intervention"
     },
-    "IFMIR - NER&factuality": {
         "Language": "Japanese",
         "Task Type": "Event Extraction",
         "Clinical Context": "Pharmacology",
@@ -694,5 +694,21 @@
         "Data Access": "Regulated",
         "Applications": "Diagnosis",
         "Clinical Stage": "Diagnosis and Prognosis"
     }
 }

         "Clinical Stage": "Diagnosis and Prognosis"
     },
     "Brateca-Hospitalization": {
+        "Language": "Portuguese",
         "Task Type": "Text Classification",
         "Clinical Context": "General",
         "Data Access": "Regulated",
         "Clinical Stage": "Diagnosis and Prognosis"
     },
     "Brateca-Mortality": {
+        "Language": "Portuguese",
         "Task Type": "Text Classification",
         "Clinical Context": "General",
         "Data Access": "Regulated",
         "Task Type": "Event Extraction",
         "Clinical Context": "General",
         "Data Access": "Open Access",
+        "Applications": "Temporal/Causality determination",
         "Clinical Stage": "Initial Assessment"
     },
     "C-EMRS": {
         "Task Type": "Named Entity Recognition",
         "Clinical Context": "Pediatrics, Psychology",
         "Data Access": "Open Access",
+        "Applications": "Temporal/Causality determination",
         "Clinical Stage": "Initial Assessment"
     },
     "n2c2 2018-ADE&medication": {
         "Task Type": "Named Entity Recognition",
         "Clinical Context": "Cardiology",
         "Data Access": "Open Access",
+        "Applications": "Temporal/Causality determination",
         "Clinical Stage": "Initial Assessment"
     },
     "NorSynthClinical-RE": {
         "Task Type": "Event Extraction",
         "Clinical Context": "Cardiology",
         "Data Access": "Open Access",
+        "Applications": "Temporal/Causality determination",
         "Clinical Stage": "Initial Assessment"
     },
     "NUBES": {
         "Task Type": "Summarization",
         "Clinical Context": "General",
         "Data Access": "Open Access",
+        "Applications": "Encounter summarization",
         "Clinical Stage": "Initial Assessment"
     },
     "MEDIQA 2023-sum-A": {
         "Task Type": "Summarization",
         "Clinical Context": "General",
         "Data Access": "Open Access",
+        "Applications": "Encounter summarization",
         "Clinical Stage": "Initial Assessment"
     },
     "RuMedDaNet": {
         "Task Type": "Summarization",
         "Clinical Context": "Pediatrics",
         "Data Access": "Open Access",
+        "Applications": "Encounter summarization",
         "Clinical Stage": "Initial Assessment"
     },
     "IMCS-V2-DAC": {
         "Language": "Russian",
         "Task Type": "Natural Language Inference",
         "Clinical Context": "Critical Care",
+        "Data Access": "Regulated",
         "Applications": "Semantic relation",
         "Clinical Stage": "Research"
     },
         "Applications": "ADE & Incidents",
         "Clinical Stage": "Treatment and Intervention"
     },
+    "IFMIR-NER&factuality": {
         "Language": "Japanese",
         "Task Type": "Event Extraction",
         "Clinical Context": "Pharmacology",
         "Data Access": "Regulated",
         "Applications": "Diagnosis",
         "Clinical Stage": "Diagnosis and Prognosis"
+    },
+    "MIMIC-III Outcome.Diagnosis": {
+        "Language": "English",
+        "Task Type": "Normalization and Coding",
+        "Clinical Context": "Critical Care",
+        "Data Access": "Regulated",
+        "Applications": "Prognosis",
+        "Clinical Stage": "Diagnosis and Prognosis"
+    },
+    "MIMIC-III Outcome.Procedure": {
+        "Language": "English",
+        "Task Type": "Normalization and Coding",
+        "Clinical Context": "Critical Care",
+        "Data Access": "Regulated",
+        "Applications": "Prognosis",
+        "Clinical Stage": "Diagnosis and Prognosis"
     }
 }

utils/data_loader.py CHANGED Viewed

@@ -22,9 +22,9 @@ class LeaderboardDataLoader:
     def _load_leaderboard_data(self) -> Dict[str, Dict]:
         """Load all leaderboard JSON data"""
         leaderboard_files = {
-            'zero_shot': 'leaderboards/Zero-Shot_leaderboard_data.json',
-            'few_shot': 'leaderboards/Few-Shot_leaderboard_data.json',
-            'cot': 'leaderboards/CoT_leaderboard_data.json'
         }
         data = {}
@@ -38,13 +38,12 @@ class LeaderboardDataLoader:
         """Create pandas DataFrames from JSON data"""
         dataframes = {}
         for key in ['zero_shot', 'few_shot', 'cot']:
-            json_file = f"leaderboards/{key.replace('_', '-').title()}_leaderboard_data.json"
             if key == 'few_shot':
-                json_file = "leaderboards/Few-Shot_leaderboard_data.json"
             elif key == 'cot':
-                json_file = "leaderboards/CoT_leaderboard_data.json"
             else:
-                json_file = "leaderboards/Zero-Shot_leaderboard_data.json"
             dataframes[key] = pd.read_json(self.abs_path / json_file, precise_float=True)

     def _load_leaderboard_data(self) -> Dict[str, Dict]:
         """Load all leaderboard JSON data"""
         leaderboard_files = {
+            'zero_shot': 'leaderboards/Zero-Shot_leaderboard.json',
+            'few_shot': 'leaderboards/Few-Shot_leaderboard.json',
+            'cot': 'leaderboards/CoT_leaderboard.json'
         }
         data = {}
         """Create pandas DataFrames from JSON data"""
         dataframes = {}
         for key in ['zero_shot', 'few_shot', 'cot']:
             if key == 'few_shot':
+                json_file = "leaderboards/Few-Shot_leaderboard.json"
             elif key == 'cot':
+                json_file = "leaderboards/CoT_leaderboard.json"
             else:
+                json_file = "leaderboards/Zero-Shot_leaderboard.json"
             dataframes[key] = pd.read_json(self.abs_path / json_file, precise_float=True)