Spaces:

economies-open-ai
/

open-model-evolution

Running

App Files Files Community

emsesc commited on Jan 26

Commit

aaa721d

1 Parent(s): 927a4de

fixed author attribution issue

Browse files

Files changed (3) hide show

data_utils.py +18 -81
graphs/leaderboard.py +7 -10
layout_components.py +0 -1

data_utils.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import duckdb
 import pandas as pd
-from config import DATASET_ID, HF_PARQUET_URL_1, HF_PARQUET_URL_2
 def create_fresh_duckdb_with_views(parquet_url_1: str = HF_PARQUET_URL_1, parquet_url_2: str = HF_PARQUET_URL_2):
@@ -62,6 +62,7 @@ def build_leaderboard_query(
     end_str=None,
     date_str=None,
     view="all_downloads",
 ):
     """Build the SQL query string for leaderboard data."""
     is_alltime = date_str is not None
@@ -84,89 +85,25 @@ def build_leaderboard_query(
             - COALESCE(MAX(CASE WHEN time < '{start_str}' THEN downloadsAllTime END), 0)
             AS total_downloads"""
-    if group_col == "derived_author":
-        return f"""
-        WITH base_data AS (
-            SELECT
-                {group_expr} AS group_key,
-                CASE
-                    WHEN org_country_single IN ('HF', 'United States of America') THEN 'United States of America'
-                    WHEN org_country_single IN ('International', 'Online', 'Online?') THEN 'International/Online'
-                    ELSE org_country_single
-                END AS org_country_single,
-                author,
-                derived_author,
-                merged_country_groups_single,
-                merged_modality,
-                model,
-                time,
-                downloadsAllTime
-            FROM {view}
-            {base_where}
-        ),
-        author_country_lookup AS (
-            SELECT DISTINCT
-                derived_author,
-                FIRST_VALUE(org_country_single) OVER (PARTITION BY derived_author ORDER BY downloadsAllTime DESC) AS derived_author_country
-            FROM base_data
-            WHERE derived_author IS NOT NULL
-        ),
-        author_merged_country_lookup AS (
-            SELECT DISTINCT
-                derived_author,
-                FIRST_VALUE(merged_country_groups_single) OVER (PARTITION BY derived_author ORDER BY downloadsAllTime DESC) AS derived_author_merged_country
-            FROM base_data
-            WHERE derived_author IS NOT NULL
-        ),
-        model_metrics AS (
-            SELECT
-                model,
-                group_key,
-                ANY_VALUE(org_country_single) AS org_country_single,
-                ANY_VALUE(author) AS author,
-                ANY_VALUE(derived_author) AS derived_author,
-                ANY_VALUE(merged_country_groups_single) AS merged_country_groups_single,
-                ANY_VALUE(merged_modality) AS merged_modality,
-                {downloads_calc}
-            FROM base_data
-            GROUP BY model, group_key
-        ),
-        total_downloads_cte AS (
-            SELECT SUM(total_downloads) AS total_downloads_all FROM model_metrics
-        )
-        SELECT
-            mm.model,
-            mm.group_key,
-            acl.derived_author_country AS org_country_single,
-            amc.derived_author_merged_country AS merged_country_groups_single,
-            mm.author,
-            mm.derived_author,
-            mm.merged_modality,
-            mm.total_downloads,
-            CASE WHEN td.total_downloads_all = 0 THEN 0 ELSE ROUND(mm.total_downloads * 100.0 / td.total_downloads_all, 2) END AS percent_of_total
-        FROM model_metrics mm
-        LEFT JOIN author_country_lookup acl ON mm.group_key = acl.derived_author
-        LEFT JOIN author_merged_country_lookup amc ON mm.group_key = amc.derived_author
-        CROSS JOIN total_downloads_cte td
-        WHERE mm.total_downloads > 0
-        ORDER BY mm.total_downloads DESC
-        LIMIT {top_n * 10};
-        """
     return f"""
     WITH base_data AS (
         SELECT
             {group_expr} AS group_key,
-            CASE
-                WHEN org_country_single IN ('HF', 'United States of America') THEN 'United States of America'
-                WHEN org_country_single IN ('International', 'Online', 'Online?') THEN 'International/Online'
-                ELSE org_country_single
-            END AS org_country_single,
             author,
             derived_author,
             merged_country_groups_single,
@@ -214,7 +151,7 @@ def build_leaderboard_query(
     """
-def get_top_n_from_duckdb(con, group_col, top_n=10, time_filter=None, view="all_downloads"):
     """Query DuckDB directly to get model-level rows with per-model total_downloads."""
     if time_filter and len(time_filter) == 2:
         start = pd.to_datetime(time_filter[0], unit="s")
@@ -225,7 +162,7 @@ def get_top_n_from_duckdb(con, group_col, top_n=10, time_filter=None, view="all_
     start_str = str(start)
     end_str = str(end)
-    query = build_leaderboard_query(group_col, top_n, start_str, end_str, view=view)
     conn_local = create_fresh_duckdb_with_views()
     try:

 import duckdb
 import pandas as pd
+from config import HF_PARQUET_URL_1, HF_PARQUET_URL_2
 def create_fresh_duckdb_with_views(parquet_url_1: str = HF_PARQUET_URL_1, parquet_url_2: str = HF_PARQUET_URL_2):
     end_str=None,
     date_str=None,
     view="all_downloads",
+    derived_org_toggle=False,
 ):
     """Build the SQL query string for leaderboard data."""
     is_alltime = date_str is not None
             - COALESCE(MAX(CASE WHEN time < '{start_str}' THEN downloadsAllTime END), 0)
             AS total_downloads"""
+    # Determine which org_country column to use
+    if derived_org_toggle:
+        org_country_case = """CASE
+            WHEN derived_org_country_single IN ('HF', 'United States of America') THEN 'United States of America'
+            WHEN derived_org_country_single IN ('International', 'Online', 'Online?') THEN 'International/Online'
+            ELSE derived_org_country_single
+        END"""
+    else:
+        org_country_case = """CASE
+            WHEN org_country_single IN ('HF', 'United States of America') THEN 'United States of America'
+            WHEN org_country_single IN ('International', 'Online', 'Online?') THEN 'International/Online'
+            ELSE org_country_single
+        END"""
     return f"""
     WITH base_data AS (
         SELECT
             {group_expr} AS group_key,
+            {org_country_case} AS org_country_single,
             author,
             derived_author,
             merged_country_groups_single,
     """
+def get_top_n_from_duckdb(group_col, top_n=10, time_filter=None, view="all_downloads", derived_org_toggle=False):
     """Query DuckDB directly to get model-level rows with per-model total_downloads."""
     if time_filter and len(time_filter) == 2:
         start = pd.to_datetime(time_filter[0], unit="s")
     start_str = str(start)
     end_str = str(end)
+    query = build_leaderboard_query(group_col, top_n, start_str, end_str, view=view, derived_org_toggle=derived_org_toggle)
     conn_local = create_fresh_duckdb_with_views()
     try:

graphs/leaderboard.py CHANGED Viewed

@@ -15,7 +15,7 @@ from helpers import format_large_number
 # =============================
 def get_filtered_top_n_from_duckdb(
-    slider_value, group_col, top_n, view="all_downloads"
 ):
     """
     Query DuckDB to get model-level rows with per-model total_downloads (delta or full)
@@ -42,7 +42,7 @@ def get_filtered_top_n_from_duckdb(
         end_str = str(end)
         # Build query using shared function
-        query = build_leaderboard_query(group_col, top_n, start_str, end_str, view=view)
         # execute using the fresh local connection
         result_df = local_con.execute(query).fetchdf()
@@ -52,7 +52,7 @@ def get_filtered_top_n_from_duckdb(
 def get_filtered_top_n_alltime_from_duckdb(
-    slider_value, group_col, top_n, view="all_downloads"
 ):
     """
     Query DuckDB to get model-level rows with all-time (cumulative) total_downloads at a specific date.
@@ -76,7 +76,7 @@ def get_filtered_top_n_alltime_from_duckdb(
         date_str = str(date)
         # Build query using shared function for all-time
-        query = build_leaderboard_query(group_col, top_n, date_str=date_str, view=view)
         # execute using the fresh local connection
         result_df = local_con.execute(query).fetchdf()
@@ -120,11 +120,11 @@ def leaderboard_callback_logic(
     # Use all-time query if is_alltime flag is True
     if is_alltime:
         df_filtered = get_filtered_top_n_alltime_from_duckdb(
-            slider_value, group_col, top_n, view=view
         )
     else:
         df_filtered = get_filtered_top_n_from_duckdb(
-            slider_value, group_col, top_n, view=view
         )
     # If the SQL query returned no rows, ask user to broaden date range
@@ -557,11 +557,8 @@ def get_top_n_leaderboard(filtered_df, group_col, top_n=10, derived_author_toggl
     return display_for_render, download_top
 def get_top_n_from_duckdb(
-    con, group_col, top_n=10, time_filter=None, view="all_downloads"
 ):
     """
     Query DuckDB directly to get model-level rows with per-model total_downloads (delta or full)

 # =============================
 def get_filtered_top_n_from_duckdb(
+    slider_value, group_col, top_n, view="all_downloads", derived_org_toggle=False
 ):
     """
     Query DuckDB to get model-level rows with per-model total_downloads (delta or full)
         end_str = str(end)
         # Build query using shared function
+        query = build_leaderboard_query(group_col, top_n, start_str, end_str, view=view, derived_org_toggle=derived_org_toggle)
         # execute using the fresh local connection
         result_df = local_con.execute(query).fetchdf()
 def get_filtered_top_n_alltime_from_duckdb(
+    slider_value, group_col, top_n, view="all_downloads", derived_org_toggle=False
 ):
     """
     Query DuckDB to get model-level rows with all-time (cumulative) total_downloads at a specific date.
         date_str = str(date)
         # Build query using shared function for all-time
+        query = build_leaderboard_query(group_col, top_n, date_str=date_str, view=view, derived_org_toggle=derived_org_toggle)
         # execute using the fresh local connection
         result_df = local_con.execute(query).fetchdf()
     # Use all-time query if is_alltime flag is True
     if is_alltime:
         df_filtered = get_filtered_top_n_alltime_from_duckdb(
+            slider_value, group_col, top_n, view=view, derived_org_toggle=derived_author_toggle
         )
     else:
         df_filtered = get_filtered_top_n_from_duckdb(
+            slider_value, group_col, top_n, view=view, derived_org_toggle=derived_author_toggle
         )
     # If the SQL query returned no rows, ask user to broaden date range
     return display_for_render, download_top
 def get_top_n_from_duckdb(
+    group_col, top_n=10, time_filter=None, view="all_downloads"
 ):
     """
     Query DuckDB directly to get model-level rows with per-model total_downloads (delta or full)

layout_components.py CHANGED Viewed

@@ -4,7 +4,6 @@ from dash_iconify import DashIconify
 from config import BUTTON_STYLE, DARK_BACKGROUND, PRIMARY_COLOR
 def build_header(last_updated: str) -> html.Div:
     """Top header with live badge and partner logos."""
     return html.Div(

 from config import BUTTON_STYLE, DARK_BACKGROUND, PRIMARY_COLOR
 def build_header(last_updated: str) -> html.Div:
     """Top header with live badge and partner logos."""
     return html.Div(