Spaces:

yoad
/

visualize_eval_results

Sleeping

App Files Files Community

Yoad commited on May 2

Commit

6bf73a6

1 Parent(s): cdd4c6d

Add "load from leaderboard" option

Browse files

Files changed (1) hide show

src/app.py +71 -8

src/app.py CHANGED Viewed

@@ -1,13 +1,17 @@
 import os
-import streamlit as st
-import pandas as pd
-import jiwer
-import requests
 from datetime import datetime
 from pathlib import Path
 from st_fixed_container import st_fixed_container
-from visual_eval.visualization import render_visualize_jiwer_result_html
 from visual_eval.evaluator import HebrewTextNormalizer
 HF_API_TOKEN = None
 try:
@@ -31,11 +35,55 @@ if "audio_cache" not in st.session_state:
 if "audio_preview_active" not in st.session_state:
     st.session_state.audio_preview_active = {}
 def on_file_upload():
     st.session_state.audio_cache = {}
     st.session_state.audio_preview_active = {}
     st.session_state.selected_entry_idx = 0
 def display_rtl(html):
@@ -211,10 +259,22 @@ def main():
     # File uploader
     uploaded_file = st.file_uploader(
-        "Upload evaluation results CSV", type=["csv"], on_change=on_file_upload
     )
     if uploaded_file is not None:
         # Load the data
         try:
             eval_results = pd.read_csv(uploaded_file)
@@ -292,7 +352,7 @@ def main():
             use_normalized = st.sidebar.toggle("Use normalized text", value=True)
             # Get the text columns based on the toggle
-            if use_normalized:
                 ref_col, hyp_col = "norm_reference_text", "norm_predicted_text"
             else:
                 ref_col, hyp_col = "reference_text", "predicted_text"
@@ -307,7 +367,10 @@ def main():
             # If no dataset column, try to infer from filename
             if uploaded_file is not None:
-                filename_stem = Path(uploaded_file.name).stem
                 dataset_name = filename_stem
             if not dataset_name and "dataset" in eval_results.columns:

 import os
 from datetime import datetime
 from pathlib import Path
+import huggingface_hub
+import jiwer
+import pandas as pd
+import requests
+import streamlit as st
+from huggingface_hub import HfFileSystem
 from st_fixed_container import st_fixed_container
 from visual_eval.evaluator import HebrewTextNormalizer
+from visual_eval.visualization import render_visualize_jiwer_result_html
 HF_API_TOKEN = None
 try:
 if "audio_preview_active" not in st.session_state:
     st.session_state.audio_preview_active = {}
+if "uploaded_file" not in st.session_state:
+    st.session_state.results_file = None
 def on_file_upload():
     st.session_state.audio_cache = {}
     st.session_state.audio_preview_active = {}
     st.session_state.selected_entry_idx = 0
+    st.session_state.results_file = None
+@st.cache_data
+def get_leaderboard_result_csv_paths(root_search_path):
+    fs = HfFileSystem(token=HF_API_TOKEN)
+    found_files = fs.glob(f"{root_search_path}/*/*.csv")
+    found_files_relative_paths = [f.split(root_search_path)[1] for f in found_files]
+    return found_files_relative_paths
+@st.dialog("View Leaderboard Results")
+def choose_input_file_from_leaderboard():
+    if not has_api_token:
+        st.rerun()
+    root_search_path = "ivrit-ai/hebrew-transcription-leaderboard/results"
+    fsspec_spaces_root_search_path = f"spaces/{root_search_path}"
+    found_files_relative_paths = get_leaderboard_result_csv_paths(
+        fsspec_spaces_root_search_path
+    )
+    selected_file = st.selectbox(
+        "Select a CSV file from the leaderboard:",
+        found_files_relative_paths,
+        index=None,
+    )
+    # Get the selected file
+    if selected_file:
+        paths_part = Path(selected_file).parent
+        file_part = Path(selected_file).name
+        uploaded_file = huggingface_hub.hf_hub_url(
+            repo_id="ivrit-ai/hebrew-transcription-leaderboard",
+            subfolder=f"results{paths_part}",
+            filename=file_part,
+            repo_type="space",
+        )
+        st.session_state.results_file = uploaded_file
+        on_file_upload()
+        st.rerun()
 def display_rtl(html):
     # File uploader
     uploaded_file = st.file_uploader(
+        "Upload evaluation results CSV",
+        type=["csv"],
+        on_change=on_file_upload,
+        key="uploaded_file",
     )
     if uploaded_file is not None:
+        st.session_state.results_file = uploaded_file
+    if st.session_state.results_file is None:
+        st.write("Or:")
+        if st.button("Choose from leaderboard"):
+            choose_input_file_from_leaderboard()
+    if st.session_state.results_file is not None:
+        uploaded_file = st.session_state.results_file
         # Load the data
         try:
             eval_results = pd.read_csv(uploaded_file)
             use_normalized = st.sidebar.toggle("Use normalized text", value=True)
             # Get the text columns based on the toggle
+            if use_normalized and "norm_reference_text" in eval_results.columns:
                 ref_col, hyp_col = "norm_reference_text", "norm_predicted_text"
             else:
                 ref_col, hyp_col = "reference_text", "predicted_text"
             # If no dataset column, try to infer from filename
             if uploaded_file is not None:
+                if isinstance(uploaded_file, str):
+                    filename_stem = Path(uploaded_file).stem
+                else:
+                    filename_stem = Path(uploaded_file.name).stem
                 dataset_name = filename_stem
             if not dataset_name and "dataset" in eval_results.columns: