Spaces:

KFUPM-JRCAI
/

intel_npu_arabic

Running

App Files Files Community

davidlf-hp commited on Jan 7

Commit

25f9bf5

verified ·

1 Parent(s): 4c6f2e6

Update leaderboard for ALLaM-7B-Instruct-preview-int4-ov (NPU)

Browse files

Files changed (3) hide show

leaderboard.csv +1 -1
leaderboard.json +11 -11
src/app.py +117 -126

leaderboard.csv CHANGED Viewed

@@ -1,3 +1,3 @@
 model_name,status,score,quality_overall,avg_tps,mlqa_ar_ar_f1,xquad_ar_f1,iwslt2017-en-ar_sacrebleu,xlsum_title_ar_rougeL,xlsum_summary_ar_rougeLsum,arabic_mmlu_acc,timestamp
-KFUPM-JRCAI/ALLaM-7B-Instruct-preview-int4-ov,Evaluating,,,,,,,,,,2026-01-07T06:49:22.215441+00:00
 OpenVINO/Mistral-7B-Instruct-v0.3-int4-cw-ov,Completed,31.5,9.92,14.16533453817284,36.82539682539683,16.5158371040724,5.403567063472729,0.0,0.0,0.75,2026-01-06T13:09:59.432404+00:00

 model_name,status,score,quality_overall,avg_tps,mlqa_ar_ar_f1,xquad_ar_f1,iwslt2017-en-ar_sacrebleu,xlsum_title_ar_rougeL,xlsum_summary_ar_rougeLsum,arabic_mmlu_acc,timestamp
+KFUPM-JRCAI/ALLaM-7B-Instruct-preview-int4-ov,Completed,35.35,19.65,9.00582273138704,33.611111111111114,75.59523809523809,8.170418210184781,0.0,0.0,0.5,2026-01-07T06:56:08.987834+00:00
 OpenVINO/Mistral-7B-Instruct-v0.3-int4-cw-ov,Completed,31.5,9.92,14.16533453817284,36.82539682539683,16.5158371040724,5.403567063472729,0.0,0.0,0.75,2026-01-06T13:09:59.432404+00:00

leaderboard.json CHANGED Viewed

@@ -1,17 +1,17 @@
 [
   {
     "model_name": "KFUPM-JRCAI/ALLaM-7B-Instruct-preview-int4-ov",
-    "status": "Evaluating",
-    "avg_tps": null,
-    "quality_overall": null,
-    "timestamp": "2026-01-07T06:49:22.215441+00:00",
-    "mlqa_ar_ar_f1": null,
-    "xquad_ar_f1": null,
-    "iwslt2017-en-ar_sacrebleu": null,
-    "xlsum_title_ar_rougeL": null,
-    "xlsum_summary_ar_rougeLsum": null,
-    "arabic_mmlu_acc": null,
-    "score": null
   },
   {
     "model_name": "OpenVINO/Mistral-7B-Instruct-v0.3-int4-cw-ov",

 [
   {
     "model_name": "KFUPM-JRCAI/ALLaM-7B-Instruct-preview-int4-ov",
+    "status": "Completed",
+    "avg_tps": 9.00582273138704,
+    "quality_overall": 19.65,
+    "timestamp": "2026-01-07T06:56:08.987834+00:00",
+    "mlqa_ar_ar_f1": 33.611111111111114,
+    "xquad_ar_f1": 75.59523809523809,
+    "iwslt2017-en-ar_sacrebleu": 8.170418210184781,
+    "xlsum_title_ar_rougeL": 0.0,
+    "xlsum_summary_ar_rougeLsum": 0.0,
+    "arabic_mmlu_acc": 0.5,
+    "score": 35.35
   },
   {
     "model_name": "OpenVINO/Mistral-7B-Instruct-v0.3-int4-cw-ov",

src/app.py CHANGED Viewed

@@ -1,126 +1,117 @@
-"""Streamlit app to display the NPU Arabic leaderboard."""
-from __future__ import annotations
-import json
-from datetime import datetime, timezone
-from pathlib import Path
-from typing import List, Sequence
-import streamlit as st
-# Use the aggregated space JSON which includes score and quality_overall
-# On HuggingFace, this is uploaded as leaderboard.json (aggregated version)
-_DATA_PATH = Path("leaderboard.json")
-# Column order for display - score and quality_overall are prominent
-_COLUMNS: Sequence[str] = (
-    "model_name",
-    "status",
-    "score",
-    "quality_overall",
-    "avg_tps",
-    "mlqa_ar_ar_f1",
-    "xquad_ar_f1",
-    "iwslt2017-en-ar_sacrebleu",
-    "xlsum_title_ar_rougeL",
-    "xlsum_summary_ar_rougeLsum",
-    "arabic_mmlu_acc",
-    "timestamp",
-)
-_METRIC_COLUMNS: Sequence[str] = tuple(
-    col for col in _COLUMNS if col not in {"model_name", "status", "timestamp"}
-)
-def _load_rows() -> List[dict]:
-    if not _DATA_PATH.exists():
-        return []
-    try:
-        raw = json.loads(_DATA_PATH.read_text(encoding="utf-8"))
-    except json.JSONDecodeError:
-        return []
-    if isinstance(raw, dict):
-        data = [raw]
-    elif isinstance(raw, list):
-        data = [item for item in raw if isinstance(item, dict)]
-    else:
-        data = []
-    # Filter to desired columns
-    filtered: List[dict] = []
-    for row in data:
-        compact = {key: row.get(key) for key in _COLUMNS}
-        status = compact.get("status")
-        if status is None:
-            status = "Completed"
-            compact["status"] = status
-        if status != "Completed":
-            for metric_col in _METRIC_COLUMNS:
-                compact[metric_col] = float("nan")
-        filtered.append(compact)
-    # Sort by score (highest first), then by timestamp for ties
-    def _sort_key(item: dict) -> tuple:
-        score = item.get("score")
-        score_val = float(score) if score is not None else -1.0
-        stamp = item.get("timestamp")
-        try:
-            parsed = datetime.fromisoformat(str(stamp))
-            if parsed.tzinfo is None:
-                parsed = parsed.replace(tzinfo=timezone.utc)
-            else:
-                parsed = parsed.astimezone(timezone.utc)
-        except Exception:
-            parsed = datetime.min.replace(tzinfo=timezone.utc)
-        return (score_val, parsed)
-    filtered.sort(key=_sort_key, reverse=True)
-    return filtered
-# Column display names for better readability
-_COLUMN_LABELS = {
-    "model_name": "Model",
-    "status": "Status",
-    "score": "Score",
-    "quality_overall": "Quality",
-    "avg_tps": "Tokens/sec",
-    "mlqa_ar_ar_f1": "MLQA F1",
-    "xquad_ar_f1": "XQuAD F1",
-    "iwslt2017-en-ar_sacrebleu": "IWSLT BLEU",
-    "xlsum_title_ar_rougeL": "XLSum Title",
-    "xlsum_summary_ar_rougeLsum": "XLSum Summary",
-    "arabic_mmlu_acc": "MMLU Acc",
-    "timestamp": "Last Updated",
-}
-st.set_page_config(page_title="Intel NPU Arabic Leaderboard", layout="wide")
-st.title("🏆 Intel® NPU Arabic Leaderboard")
-st.markdown("""
-**Score** = √(Quality × Speed) - balances model quality with inference speed on Intel NPU.
-**Quality** = Average of all benchmark scores (0-100 scale).
-""")
-rows = _load_rows()
-if not rows:
-    st.info("No evaluations uploaded yet. Trigger a run to populate the leaderboard.")
-else:
-    st.write(
-        "Submit your model for evaluation by emailing: **model=your-hf-model-id**"
-    )
-    st.dataframe(
-        rows,
-        column_config={
-            col: st.column_config.NumberColumn(_COLUMN_LABELS.get(col, col), format="%.2f")
-            if col in _METRIC_COLUMNS
-            else st.column_config.TextColumn(_COLUMN_LABELS.get(col, col))
-            for col in _COLUMNS
-        },
-        hide_index=True,
-    )
-st.caption("Data auto-synced from leaderboard.json produced by the evaluation pipeline.")

+"""Streamlit app to display the NPU Arabic leaderboard."""
+from __future__ import annotations
+import json
+from datetime import datetime, timezone
+from pathlib import Path
+from typing import List, Sequence
+import streamlit as st
+# Use the aggregated space JSON which includes score and quality_overall
+# On HuggingFace, this is uploaded as leaderboard.json (aggregated version)
+_DATA_PATH = Path("leaderboard.json")
+# Column order for display - score and quality_overall are prominent
+_COLUMNS: Sequence[str] = (
+    "model_name",
+    "status",
+    "score",
+    "quality_overall",
+    "avg_tps",
+    "mlqa_ar_ar_f1",
+    "xquad_ar_f1",
+    "iwslt2017-en-ar_sacrebleu",
+    "xlsum_title_ar_rougeL",
+    "xlsum_summary_ar_rougeLsum",
+    "arabic_mmlu_acc",
+    "timestamp",
+)
+_METRIC_COLUMNS: Sequence[str] = tuple(
+    col for col in _COLUMNS if col not in {"model_name", "status", "timestamp"}
+)
+def _load_rows() -> List[dict]:
+    if not _DATA_PATH.exists():
+        return []
+    try:
+        raw = json.loads(_DATA_PATH.read_text(encoding="utf-8"))
+    except json.JSONDecodeError:
+        return []
+    if isinstance(raw, dict):
+        data = [raw]
+    elif isinstance(raw, list):
+        data = [item for item in raw if isinstance(item, dict)]
+    else:
+        data = []
+    # Filter to desired columns
+    filtered: List[dict] = []
+    for row in data:
+        compact = {key: row.get(key) for key in _COLUMNS}
+        status = compact.get("status")
+        if status is None:
+            status = "Completed"
+            compact["status"] = status
+        if status != "Completed":
+            for metric_col in _METRIC_COLUMNS:
+                compact[metric_col] = float("nan")
+        filtered.append(compact)
+    # Sort by score (highest first), then by timestamp for ties
+    def _sort_key(item: dict) -> tuple:
+        score = item.get("score")
+        score_val = float(score) if score is not None else -1.0
+        stamp = item.get("timestamp")
+        try:
+            parsed = datetime.fromisoformat(str(stamp))
+            if parsed.tzinfo is None:
+                parsed = parsed.replace(tzinfo=timezone.utc)
+            else:
+                parsed = parsed.astimezone(timezone.utc)
+        except Exception:
+            parsed = datetime.min.replace(tzinfo=timezone.utc)
+        return (score_val, parsed)
+    filtered.sort(key=_sort_key, reverse=True)
+    return filtered
+# Column display names for better readability
+_COLUMN_LABELS = {
+    "model_name": "Model",
+    "status": "Status",
+    "score": "Score",
+    "quality_overall": "Quality",
+    "avg_tps": "Tokens/sec",
+    "mlqa_ar_ar_f1": "MLQA F1",
+    "xquad_ar_f1": "XQuAD F1",
+    "iwslt2017-en-ar_sacrebleu": "IWSLT BLEU",
+    "xlsum_title_ar_rougeL": "XLSum Title",
+    "xlsum_summary_ar_rougeLsum": "XLSum Summary",
+    "arabic_mmlu_acc": "MMLU Acc",
+    "timestamp": "Last Updated",
+}
+st.set_page_config(page_title="Intel NPU Arabic Leaderboard", layout="wide")
+st.title("Intel NPU Arabic Leaderboard")
+rows = _load_rows()
+if not rows:
+    st.info("No evaluations uploaded yet.")
+else:
+    st.dataframe(
+        rows,
+        column_config={
+            col: st.column_config.NumberColumn(_COLUMN_LABELS.get(col, col), format="%.2f")
+            if col in _METRIC_COLUMNS
+            else st.column_config.TextColumn(_COLUMN_LABELS.get(col, col))
+            for col in _COLUMNS
+        },
+        hide_index=True,
+    )
+st.caption("Submit your model for evaluation by emailing: **model:your-hf/model-id**")