Spaces:

QSBench
/

Multi-Target_Regression

Running

App Files Files Community

QSBench commited on 1 day ago

Commit

048fad7

verified ·

1 Parent(s): f9c67d8

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -14

app.py CHANGED Viewed

@@ -38,12 +38,12 @@ REPO_CONFIG = {
     }
 }
-# Колонки, которые нельзя использовать как фичи для обучения
 NON_FEATURE_COLS = {
     "sample_id", "sample_seed", "circuit_hash", "split", "circuit_qasm",
     "qasm_raw", "qasm_transpiled", "circuit_type_resolved", "circuit_type_requested",
     "noise_type", "noise_prob", "observable_bases", "observable_mode", "backend_device",
-    "precision_mode", "circuit_signature"
 }
 _ASSET_CACHE = {}
@@ -79,20 +79,23 @@ def get_methodology_content(ds_name: str):
     """
 def sync_ml_metrics(ds_name: str):
-    """Динамически находит все доступные числовые метрики для конкретного датасета"""
     assets = load_all_assets(ds_name)
     df = assets["df"]
-    # Берем только числа, исключая таргеты и служебные поля
     numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
     valid_features = [
         c for c in numeric_cols
         if c not in NON_FEATURE_COLS
-        and not any(x in c for x in ["ideal_", "noisy_", "error_", "sign_"])
     ]
-    # Выбираем "золотой стандарт" по умолчанию, если они есть
-    defaults = [f for f in ["gate_entropy", "meyer_wallach", "n_qubits", "depth", "total_gates"] if f in valid_features]
     return gr.update(choices=valid_features, value=defaults or valid_features[:5])
@@ -100,6 +103,8 @@ def train_model(ds_name: str, features: List[str]):
     if not features: return None, "### ❌ Error: No metrics selected."
     assets = load_all_assets(ds_name)
     df = assets["df"]
     target = "ideal_expval_Z_global"
     train_df = df.dropna(subset=features + [target])
@@ -112,20 +117,26 @@ def train_model(ds_name: str, features: List[str]):
     sns.set_theme(style="whitegrid", context="talk")
     fig, axes = plt.subplots(1, 3, figsize=(24, 8))
     axes[0].scatter(y_test, preds, alpha=0.3, color='#2c3e50')
     axes[0].plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)
     axes[0].set_title(f"Accuracy (R²: {r2_score(y_test, preds):.3f})")
     imp = model.feature_importances_
-    idx = np.argsort(imp)[-10:]
     axes[1].barh([features[i] for i in idx], imp[idx], color='#27ae60')
-    axes[1].set_title("Top Metrics Importance")
     sns.histplot(y_test - preds, kde=True, ax=axes[2], color='#d35400')
-    axes[2].set_title("Residuals")
     plt.tight_layout(pad=3.0)
-    return fig, f"**MAE:** {mean_absolute_error(y_test, preds):.4f}"
 def update_explorer(ds_name: str, split_name: str):
     assets = load_all_assets(ds_name)
@@ -157,8 +168,8 @@ with gr.Blocks(theme=gr.themes.Soft(), title="QSBench Hub") as demo:
             with gr.Row():
                 with gr.Column(scale=1):
                     ml_ds_sel = gr.Dropdown(list(REPO_CONFIG.keys()), value="Core (Clean)", label="Select Dataset")
-                    # Динамический список метрик
-                    ml_feat_sel = gr.CheckboxGroup(label="Available Metrics (Auto-detected)", choices=[])
                     train_btn = gr.Button("Execute Baseline", variant="primary")
                 with gr.Column(scale=2):
                     p_out = gr.Plot()
@@ -178,7 +189,7 @@ with gr.Blocks(theme=gr.themes.Soft(), title="QSBench Hub") as demo:
     # Explorer
     ds_sel.change(update_explorer, [ds_sel, sp_sel], [sp_sel, data_view, c_raw, c_tr, meta_txt])
-    # ML Tab: Обновление списка метрик при смене датасета
     ml_ds_sel.change(sync_ml_metrics, [ml_ds_sel], [ml_feat_sel])
     train_btn.click(train_model, [ml_ds_sel, ml_feat_sel], [p_out, t_out])

     }
 }
+# Колонки, которые НЕ являются фичами (системные, категориальные или таргеты)
 NON_FEATURE_COLS = {
     "sample_id", "sample_seed", "circuit_hash", "split", "circuit_qasm",
     "qasm_raw", "qasm_transpiled", "circuit_type_resolved", "circuit_type_requested",
     "noise_type", "noise_prob", "observable_bases", "observable_mode", "backend_device",
+    "precision_mode", "circuit_signature", "entanglement", "shots", "gpu_requested", "gpu_available"
 }
 _ASSET_CACHE = {}
     """
 def sync_ml_metrics(ds_name: str):
+    """Динамически находит все доступные числовые метрики (фичи) из CSV/Dataset"""
     assets = load_all_assets(ds_name)
     df = assets["df"]
+    # Извлекаем все числовые колонки
     numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
+    # Фильтруем: убираем системные ID и таргеты (всё, что начинается на ideal/noisy/error/sign)
     valid_features = [
         c for c in numeric_cols
         if c not in NON_FEATURE_COLS
+        and not any(prefix in c for prefix in ["ideal_", "noisy_", "error_", "sign_"])
     ]
+    # Приоритетные метрики для выбора "по умолчанию"
+    top_tier = ["gate_entropy", "meyer_wallach", "adjacency", "depth", "total_gates", "cx_count"]
+    defaults = [f for f in top_tier if f in valid_features]
     return gr.update(choices=valid_features, value=defaults or valid_features[:5])
     if not features: return None, "### ❌ Error: No metrics selected."
     assets = load_all_assets(ds_name)
     df = assets["df"]
+    # Используем глобальное значение Z как таргет
     target = "ideal_expval_Z_global"
     train_df = df.dropna(subset=features + [target])
     sns.set_theme(style="whitegrid", context="talk")
     fig, axes = plt.subplots(1, 3, figsize=(24, 8))
+    # 1. Prediction vs Reality
     axes[0].scatter(y_test, preds, alpha=0.3, color='#2c3e50')
     axes[0].plot([y.min(), y.max()], [y.min(), y.max()], 'r--', lw=2)
     axes[0].set_title(f"Accuracy (R²: {r2_score(y_test, preds):.3f})")
+    axes[0].set_xlabel("Ideal ExpVal"); axes[0].set_ylabel("Predicted")
+    # 2. Feature Importance
     imp = model.feature_importances_
+    # Берем топ-10 если их много, или все если мало
+    top_n = min(len(features), 10)
+    idx = np.argsort(imp)[-top_n:]
     axes[1].barh([features[i] for i in idx], imp[idx], color='#27ae60')
+    axes[1].set_title(f"Top {top_n} Metrics Importance")
+    # 3. Residuals
     sns.histplot(y_test - preds, kde=True, ax=axes[2], color='#d35400')
+    axes[2].set_title("Residuals (Error Distribution)")
     plt.tight_layout(pad=3.0)
+    return fig, f"**Mean Absolute Error (MAE):** {mean_absolute_error(y_test, preds):.4f}"
 def update_explorer(ds_name: str, split_name: str):
     assets = load_all_assets(ds_name)
             with gr.Row():
                 with gr.Column(scale=1):
                     ml_ds_sel = gr.Dropdown(list(REPO_CONFIG.keys()), value="Core (Clean)", label="Select Dataset")
+                    # Динамический список метрик, извлекаемый из CSV
+                    ml_feat_sel = gr.CheckboxGroup(label="Available Metrics (extracted from CSV)", choices=[])
                     train_btn = gr.Button("Execute Baseline", variant="primary")
                 with gr.Column(scale=2):
                     p_out = gr.Plot()
     # Explorer
     ds_sel.change(update_explorer, [ds_sel, sp_sel], [sp_sel, data_view, c_raw, c_tr, meta_txt])
+    # ML Tab: Динамическое обновление метрик
     ml_ds_sel.change(sync_ml_metrics, [ml_ds_sel], [ml_feat_sel])
     train_btn.click(train_model, [ml_ds_sel, ml_feat_sel], [p_out, t_out])