Spaces:

Wen1201
/

BayesianPyMc1

Sleeping

App Files Files Community

Wen1201 commited on Jan 17

Commit

9d95a80

verified ·

1 Parent(s): e8792d0

Upload 2 files

Browse files

Files changed (2) hide show

bayesian_core.py +100 -40
bayesian_utils.py +30 -14

bayesian_core.py CHANGED Viewed

@@ -18,7 +18,7 @@ class BayesianHierarchicalAnalyzer:
     # 儲存各 session 的分析結果
     _session_results = {}
     def __init__(self, session_id):
         """
         初始化分析器
@@ -30,53 +30,78 @@ class BayesianHierarchicalAnalyzer:
         self.df = None
         self.model = None
         self.trace = None
     def load_data(self, csv_path_or_df):
         """
-        載入資料
         Args:
             csv_path_or_df: CSV 檔案路徑或 DataFrame
-        Expected columns:
-            - Trial_Type: 屬性名稱 (e.g., Water, Fire, Grass)
-            - rc: 控制組（速度慢）的勝場數
-            - nc: 控制組的總場數
-            - rt: 實驗組（速度快）的勝場數
-            - nt: 實驗組的總場數
         """
         if isinstance(csv_path_or_df, str):
             self.df = pd.read_csv(csv_path_or_df)
         else:
             self.df = csv_path_or_df.copy()
-        # 驗證必要欄位
-        required_cols = ['Trial_Type', 'rc', 'nc', 'rt', 'nt']
-        missing_cols = [col for col in required_cols if col not in self.df.columns]
-        if missing_cols:
-            raise ValueError(f"資料缺少必要欄位: {missing_cols}")
-        return True
     def validate_data(self):
         """驗證資料有效性"""
         if self.df is None:
             raise ValueError("請先載入資料")
         # 檢查數值欄位
-        for col in ['rc', 'nc', 'rt', 'nt']:
             if not pd.api.types.is_numeric_dtype(self.df[col]):
                 raise ValueError(f"欄位 {col} 必須是數值類型")
         # 檢查邏輯約束
-        if (self.df['rc'] > self.df['nc']).any():
-            raise ValueError("rc (勝場數) 不能大於 nc (總場數)")
-        if (self.df['rt'] > self.df['nt']).any():
-            raise ValueError("rt (勝場數) 不能大於 nt (總場數)")
-        return True
     def run_analysis(self, n_samples=2000, n_tune=1000, n_chains=2, target_accept=0.95):
         """
@@ -96,9 +121,19 @@ class BayesianHierarchicalAnalyzer:
                 self.validate_data()
                 # 準備資料
-                trial_labels = self.df['Trial_Type'].values
                 num_trials = len(self.df)
                 # 建立模型
                 with pm.Model() as self.model:
                     # --- 先驗分佈 (Priors) ---
@@ -106,16 +141,29 @@ class BayesianHierarchicalAnalyzer:
                     tau = pm.Gamma('tau', alpha=0.001, beta=0.001)
                     sigma = pm.Deterministic('sigma', 1 / pm.math.sqrt(tau))
-                    # --- 各屬性特定效應 (Trial-specific effects) ---
                     mu = pm.Normal('mu', mu=0, sigma=10, shape=num_trials)
                     delta = pm.Normal('delta', mu=d, sigma=1 / pm.math.sqrt(tau), shape=num_trials)
                     # --- 轉換與似然函數 (Logit Link & Likelihood) ---
-                    pc = pm.Deterministic('pc', pm.math.invlogit(mu))
-                    pt = pm.Deterministic('pt', pm.math.invlogit(mu + delta))
-                    rc_obs = pm.Binomial('rc_obs', n=self.df['nc'].values, p=pc, observed=self.df['rc'].values)
-                    rt_obs = pm.Binomial('rt_obs', n=self.df['nt'].values, p=pt, observed=self.df['rt'].values)
                     # --- 其他統計量 ---
                     delta_new = pm.Normal('delta_new', mu=d, sigma=1 / pm.math.sqrt(tau))
@@ -128,14 +176,14 @@ class BayesianHierarchicalAnalyzer:
                         chains=n_chains,
                         target_accept=target_accept,
                         return_inferencedata=True,
-                        progressbar=False, # 在 Streamlit 中關閉進度條
-                        discard_tuned_samples=False  # 👈 加這行!保留 tune 樣本
                     )
                 # 生成摘要統計
                 summary = az.summary(self.trace, var_names=['d', 'sigma', 'or_speed'], hdi_prob=0.95)
-                # 計算各屬性的 delta 統計量
                 delta_posterior = self.trace.posterior['delta'].values.reshape(-1, num_trials)
                 delta_mean = delta_posterior.mean(axis=0)
                 delta_std = delta_posterior.std(axis=0)
@@ -144,12 +192,12 @@ class BayesianHierarchicalAnalyzer:
                 # 判斷顯著性（HDI 不包含 0）
                 delta_significant = (delta_hdi[:, 0] > 0) | (delta_hdi[:, 1] < 0)
-                # 計算控制組和實驗組的勝率
-                pc_posterior = self.trace.posterior['pc'].values.reshape(-1, num_trials)
-                pt_posterior = self.trace.posterior['pt'].values.reshape(-1, num_trials)
-                pc_mean = pc_posterior.mean(axis=0)
-                pt_mean = pt_posterior.mean(axis=0)
                 # 整理結果
                 results = {
@@ -157,6 +205,17 @@ class BayesianHierarchicalAnalyzer:
                     'n_trials': num_trials,
                     'trial_labels': trial_labels.tolist(),
                     # 整體效應
                     'overall': {
                         'd_mean': float(summary.loc['d', 'mean']),
@@ -175,15 +234,15 @@ class BayesianHierarchicalAnalyzer:
                         'or_hdi_high': float(summary.loc['or_speed', 'hdi_97.5%']),
                     },
-                    # 各屬性的效應
                     'by_trial': {
                         'delta_mean': delta_mean.tolist(),
                         'delta_std': delta_std.tolist(),
                         'delta_hdi_low': delta_hdi[:, 0].tolist(),
                         'delta_hdi_high': delta_hdi[:, 1].tolist(),
                         'delta_significant': delta_significant.tolist(),
-                        'pc_mean': pc_mean.tolist(),
-                        'pt_mean': pt_mean.tolist(),
                     },
                     # 原始資料
@@ -215,8 +274,9 @@ class BayesianHierarchicalAnalyzer:
                 return results
             except Exception as e:
-                raise Exception(f"分析失敗: {str(e)}")
     def _compute_diagnostics(self, summary):
         """計算收斂診斷指標"""
         try:

     # 儲存各 session 的分析結果
     _session_results = {}
     def __init__(self, session_id):
         """
         初始化分析器
         self.df = None
         self.model = None
         self.trace = None
+        # 👇 加入這些屬性
+        self.col_trial_type = None      # 配對名稱欄位
+        self.col_control_win = None     # 控制組勝場欄位
+        self.col_control_total = None   # 控制組總場欄位
+        self.col_treatment_win = None   # 實驗組勝場欄位
+        self.col_treatment_total = None # 實驗組總場欄位
     def load_data(self, csv_path_or_df):
         """
+        載入資料 (自動識別欄位名稱)
         Args:
             csv_path_or_df: CSV 檔案路徑或 DataFrame
+        Expected format:
+            第 1 欄: 配對名稱 (Trial_Type)
+            第 2 欄: 控制組勝場 (例如 water_win)
+            第 3 欄: 控制組總場 (例如 water_battles)
+            第 4 欄: 實驗組勝場 (例如 fire_win)
+            第 5 欄: 實驗組總場 (例如 fire_battles)
         """
         if isinstance(csv_path_or_df, str):
             self.df = pd.read_csv(csv_path_or_df)
         else:
             self.df = csv_path_or_df.copy()
+        # 檢查欄位數量
+        if len(self.df.columns) < 5:
+            raise ValueError(f"資料至少需要 5 欄,目前只有 {len(self.df.columns)} 欄")
+        # 自動識別欄位名稱 (假設前 5 欄按照固定順序)
+        cols = self.df.columns.tolist()
+        self.col_trial_type = cols[0]
+        self.col_control_win = cols[1]
+        self.col_control_total = cols[2]
+        self.col_treatment_win = cols[3]
+        self.col_treatment_total = cols[4]
+        print(f"✓ 自動識別欄位:")
+        print(f"  - 配對名稱: {self.col_trial_type}")
+        print(f"  - 控制組: {self.col_control_win}/{self.col_control_total}")
+        print(f"  - 實驗組: {self.col_treatment_win}/{self.col_treatment_total}")
+        return True
     def validate_data(self):
         """驗證資料有效性"""
         if self.df is None:
             raise ValueError("請先載入資料")
         # 檢查數值欄位
+        numeric_cols = [
+            self.col_control_win,
+            self.col_control_total,
+            self.col_treatment_win,
+            self.col_treatment_total
+        ]
+        for col in numeric_cols:
             if not pd.api.types.is_numeric_dtype(self.df[col]):
                 raise ValueError(f"欄位 {col} 必須是數值類型")
         # 檢查邏輯約束
+        if (self.df[self.col_control_win] > self.df[self.col_control_total]).any():
+            raise ValueError(f"{self.col_control_win} (勝場數) 不能大於 {self.col_control_total} (總場數)")
+        if (self.df[self.col_treatment_win] > self.df[self.col_treatment_total]).any():
+            raise ValueError(f"{self.col_treatment_win} (勝場數) 不能大於 {self.col_treatment_total} (總場數)")
+        return True
     def run_analysis(self, n_samples=2000, n_tune=1000, n_chains=2, target_accept=0.95):
         """
                 self.validate_data()
                 # 準備資料
+                trial_labels = self.df[self.col_trial_type].values
                 num_trials = len(self.df)
+                # 提取欄位名稱用於模型
+                control_win_name = self.col_control_win
+                control_total_name = self.col_control_total
+                treatment_win_name = self.col_treatment_win
+                treatment_total_name = self.col_treatment_total
+                # 提取前綴用於變數命名 (例如 "water_win" → "water")
+                control_prefix = control_win_name.replace('_win', '').replace('_battles', '').replace('_total', '')
+                treatment_prefix = treatment_win_name.replace('_win', '').replace('_battles', '').replace('_total', '')
                 # 建立模型
                 with pm.Model() as self.model:
                     # --- 先驗分佈 (Priors) ---
                     tau = pm.Gamma('tau', alpha=0.001, beta=0.001)
                     sigma = pm.Deterministic('sigma', 1 / pm.math.sqrt(tau))
+                    # --- 各配對特定效應 (Pair-specific effects) ---
                     mu = pm.Normal('mu', mu=0, sigma=10, shape=num_trials)
                     delta = pm.Normal('delta', mu=d, sigma=1 / pm.math.sqrt(tau), shape=num_trials)
                     # --- 轉換與似然函數 (Logit Link & Likelihood) ---
+                    # 使用動態命名
+                    p_control = pm.Deterministic(f'p_{control_prefix}', pm.math.invlogit(mu))
+                    p_treatment = pm.Deterministic(f'p_{treatment_prefix}', pm.math.invlogit(mu + delta))
+                    # 使用動態欄位名稱創建觀測值
+                    control_obs = pm.Binomial(
+                        f'{control_win_name}_obs',
+                        n=self.df[control_total_name].values,
+                        p=p_control,
+                        observed=self.df[control_win_name].values
+                    )
+                    treatment_obs = pm.Binomial(
+                        f'{treatment_win_name}_obs',
+                        n=self.df[treatment_total_name].values,
+                        p=p_treatment,
+                        observed=self.df[treatment_win_name].values
+                    )
                     # --- 其他統計量 ---
                     delta_new = pm.Normal('delta_new', mu=d, sigma=1 / pm.math.sqrt(tau))
                         chains=n_chains,
                         target_accept=target_accept,
                         return_inferencedata=True,
+                        progressbar=False,  # 在 Streamlit 中關閉進度條
+                        discard_tuned_samples=False  # 保留 tune 樣本
                     )
                 # 生成摘要統計
                 summary = az.summary(self.trace, var_names=['d', 'sigma', 'or_speed'], hdi_prob=0.95)
+                # 計算各配對的 delta 統計量
                 delta_posterior = self.trace.posterior['delta'].values.reshape(-1, num_trials)
                 delta_mean = delta_posterior.mean(axis=0)
                 delta_std = delta_posterior.std(axis=0)
                 # 判斷顯著性（HDI 不包含 0）
                 delta_significant = (delta_hdi[:, 0] > 0) | (delta_hdi[:, 1] < 0)
+                # 計算控制組和實驗組的勝率 (使用動態變數名稱)
+                p_control_posterior = self.trace.posterior[f'p_{control_prefix}'].values.reshape(-1, num_trials)
+                p_treatment_posterior = self.trace.posterior[f'p_{treatment_prefix}'].values.reshape(-1, num_trials)
+                p_control_mean = p_control_posterior.mean(axis=0)
+                p_treatment_mean = p_treatment_posterior.mean(axis=0)
                 # 整理結果
                 results = {
                     'n_trials': num_trials,
                     'trial_labels': trial_labels.tolist(),
+                    # 欄位名稱資訊
+                    'column_names': {
+                        'trial_type': self.col_trial_type,
+                        'control_win': control_win_name,
+                        'control_total': control_total_name,
+                        'treatment_win': treatment_win_name,
+                        'treatment_total': treatment_total_name,
+                        'control_prefix': control_prefix,
+                        'treatment_prefix': treatment_prefix
+                    },
                     # 整體效應
                     'overall': {
                         'd_mean': float(summary.loc['d', 'mean']),
                         'or_hdi_high': float(summary.loc['or_speed', 'hdi_97.5%']),
                     },
+                    # 各配對的效應 (使用動態鍵名)
                     'by_trial': {
                         'delta_mean': delta_mean.tolist(),
                         'delta_std': delta_std.tolist(),
                         'delta_hdi_low': delta_hdi[:, 0].tolist(),
                         'delta_hdi_high': delta_hdi[:, 1].tolist(),
                         'delta_significant': delta_significant.tolist(),
+                        f'p_{control_prefix}_mean': p_control_mean.tolist(),
+                        f'p_{treatment_prefix}_mean': p_treatment_mean.tolist(),
                     },
                     # 原始資料
                 return results
             except Exception as e:
+                raise Exception(f"分析失敗: {str(e)}")
     def _compute_diagnostics(self, summary):
         """計算收斂診斷指標"""
         try:

bayesian_utils.py CHANGED Viewed

@@ -232,7 +232,7 @@ def create_summary_table(results):
     overall = results['overall']
     summary_data = {
-        '參數': ['d (整體效應)', 'sigma (屬性間變異)', 'or_speed (勝算比)'],
         '平均值': [
             f"{overall['d_mean']:.4f}",
             f"{overall['sigma_mean']:.4f}",
@@ -257,9 +257,10 @@ def create_summary_table(results):
     return pd.DataFrame(summary_data)
 def create_trial_results_table(results):
     """
-    創建各屬性結果表格
     Args:
         results: 分析結果字典
@@ -270,22 +271,28 @@ def create_trial_results_table(results):
     trial_labels = results['trial_labels']
     by_trial = results['by_trial']
     data = results['data']
     trial_data = {
-        '屬性': trial_labels,
         'Delta (平均)': [f"{x:.4f}" for x in by_trial['delta_mean']],
         'Delta (標準差)': [f"{x:.4f}" for x in by_trial['delta_std']],
         '95% HDI 下界': [f"{x:.4f}" for x in by_trial['delta_hdi_low']],
         '95% HDI 上界': [f"{x:.4f}" for x in by_trial['delta_hdi_high']],
         '顯著性': ['★ 顯著' if sig else '不顯著' for sig in by_trial['delta_significant']],
-        '控制組勝率': [f"{x:.2%}" for x in by_trial['pc_mean']],
-        '實驗組勝率': [f"{x:.2%}" for x in by_trial['pt_mean']],
-        '控制組 (勝/總)': [f"{d['rc']}/{d['nc']}" for d in data],
-        '實驗組 (勝/總)': [f"{d['rt']}/{d['nt']}" for d in data]
     }
     return pd.DataFrame(trial_data)
 def export_results_to_text(results):
     """
     匯出結果為純文字格式
@@ -299,6 +306,7 @@ def export_results_to_text(results):
     overall = results['overall']
     interp = results['interpretation']
     diag = results['diagnostics']
     report = f"""
 ==============================================
@@ -306,7 +314,7 @@ def export_results_to_text(results):
 ==============================================
 分析時間: {results['timestamp']}
-屬性數量: {results['n_trials']}
 ----------------------------------------------
 1. 整體效應摘要
@@ -316,7 +324,7 @@ d (整體效應 - Log OR):
   - 標準差: {overall['d_sd']:.4f}
   - 95% HDI: [{overall['d_hdi_low']:.4f}, {overall['d_hdi_high']:.4f}]
-sigma (屬性間變異):
   - 平均值: {overall['sigma_mean']:.4f}
   - 標準差: {overall['sigma_sd']:.4f}
   - 95% HDI: [{overall['sigma_hdi_low']:.4f}, {overall['sigma_hdi_high']:.4f}]
@@ -344,23 +352,29 @@ ESS (sigma): {int(diag['ess_sigma']) if diag['ess_sigma'] is not None else 'N/A'
 異質性: {interp['heterogeneity']}
 ----------------------------------------------
-4. 各屬性詳細結果
 ----------------------------------------------
 """
-    # 添加各屬性的詳細資訊
     trial_labels = results['trial_labels']
     by_trial = results['by_trial']
     for i, label in enumerate(trial_labels):
         sig_marker = "★" if by_trial['delta_significant'][i] else " "
         report += f"""
 {sig_marker} {label}:
   Delta (平均): {by_trial['delta_mean'][i]:.4f}
   95% HDI: [{by_trial['delta_hdi_low'][i]:.4f}, {by_trial['delta_hdi_high'][i]:.4f}]
-  控制組勝率: {by_trial['pc_mean'][i]:.2%}
-  實驗組勝率: {by_trial['pt_mean'][i]:.2%}
-  勝率差異: {(by_trial['pt_mean'][i] - by_trial['pc_mean'][i]):.2%}
 """
     report += """
@@ -368,6 +382,8 @@ ESS (sigma): {int(diag['ess_sigma']) if diag['ess_sigma'] is not None else 'N/A'
 """
     return report
 def plot_odds_ratio_comparison(results):
     """

     overall = results['overall']
     summary_data = {
+        '參數': ['d (整體效應)', 'sigma (配對間變異)', 'or_speed (勝算比)'],
         '平均值': [
             f"{overall['d_mean']:.4f}",
             f"{overall['sigma_mean']:.4f}",
     return pd.DataFrame(summary_data)
 def create_trial_results_table(results):
     """
+    創建各配對結果表格 (使用動態欄位名稱)
     Args:
         results: 分析結果字典
     trial_labels = results['trial_labels']
     by_trial = results['by_trial']
     data = results['data']
+    col_names = results['column_names']
+    # 動態獲取勝率欄位的鍵名
+    control_key = f"p_{col_names['control_prefix']}_mean"
+    treatment_key = f"p_{col_names['treatment_prefix']}_mean"
     trial_data = {
+        '配對': trial_labels,
         'Delta (平均)': [f"{x:.4f}" for x in by_trial['delta_mean']],
         'Delta (標準差)': [f"{x:.4f}" for x in by_trial['delta_std']],
         '95% HDI 下界': [f"{x:.4f}" for x in by_trial['delta_hdi_low']],
         '95% HDI 上界': [f"{x:.4f}" for x in by_trial['delta_hdi_high']],
         '顯著性': ['★ 顯著' if sig else '不顯著' for sig in by_trial['delta_significant']],
+        f"{col_names['control_prefix']}勝率": [f"{x:.2%}" for x in by_trial[control_key]],
+        f"{col_names['treatment_prefix']}勝率": [f"{x:.2%}" for x in by_trial[treatment_key]],
+        f"{col_names['control_prefix']} (勝/總)": [f"{d[col_names['control_win']]}/{d[col_names['control_total']]}" for d in data],
+        f"{col_names['treatment_prefix']} (勝/總)": [f"{d[col_names['treatment_win']]}/{d[col_names['treatment_total']]}" for d in data]
     }
     return pd.DataFrame(trial_data)
 def export_results_to_text(results):
     """
     匯出結果為純文字格式
     overall = results['overall']
     interp = results['interpretation']
     diag = results['diagnostics']
+    col_names = results['column_names']
     report = f"""
 ==============================================
 ==============================================
 分析時間: {results['timestamp']}
+配對數量: {results['n_trials']}
 ----------------------------------------------
 1. 整體效應摘要
   - 標準差: {overall['d_sd']:.4f}
   - 95% HDI: [{overall['d_hdi_low']:.4f}, {overall['d_hdi_high']:.4f}]
+sigma (配對間變異):
   - 平均值: {overall['sigma_mean']:.4f}
   - 標準差: {overall['sigma_sd']:.4f}
   - 95% HDI: [{overall['sigma_hdi_low']:.4f}, {overall['sigma_hdi_high']:.4f}]
 異質性: {interp['heterogeneity']}
 ----------------------------------------------
+4. 各配對詳細結果
 ----------------------------------------------
 """
+    # 添加各配對的詳細資訊
     trial_labels = results['trial_labels']
     by_trial = results['by_trial']
+    # 動態獲取鍵名
+    control_key = f"p_{col_names['control_prefix']}_mean"
+    treatment_key = f"p_{col_names['treatment_prefix']}_mean"
+    control_label = col_names['control_prefix'].capitalize()
+    treatment_label = col_names['treatment_prefix'].capitalize()
     for i, label in enumerate(trial_labels):
         sig_marker = "★" if by_trial['delta_significant'][i] else " "
         report += f"""
 {sig_marker} {label}:
   Delta (平均): {by_trial['delta_mean'][i]:.4f}
   95% HDI: [{by_trial['delta_hdi_low'][i]:.4f}, {by_trial['delta_hdi_high'][i]:.4f}]
+  {control_label}勝率: {by_trial[control_key][i]:.2%}
+  {treatment_label}勝率: {by_trial[treatment_key][i]:.2%}
+  勝率差異: {(by_trial[treatment_key][i] - by_trial[control_key][i]):.2%}
 """
     report += """
 """
     return report
 def plot_odds_ratio_comparison(results):
     """