Spaces:

Wen1201
/

bayesian-network

Sleeping

App Files Files Community

bayesian-network / bn_core.py

Wen1201

Upload 3 files

0ee744a verified 5 months ago

raw

history blame contribute delete

20.6 kB

	import pandas as pd
	import numpy as np
	from pgmpy.models import BayesianNetwork
	from pgmpy.estimators import (
	TreeSearch, HillClimbSearch, PC,
	MaximumLikelihoodEstimator, BayesianEstimator,
	BicScore, AICScore, K2Score, BDeuScore, BDsScore
	)
	from pgmpy.inference import VariableElimination
	from sklearn.model_selection import train_test_split
	from sklearn.metrics import (
	confusion_matrix, accuracy_score, precision_score,
	recall_score, f1_score, roc_curve, roc_auc_score
	)
	from pgmpy.metrics import log_likelihood_score, structure_score
	import threading
	from datetime import datetime
	from networkx import is_directed_acyclic_graph, DiGraph

	class BayesianNetworkAnalyzer:
	"""
	貝葉斯網路分析器
	支持多用戶同時使用,每個 session 獨立處理
	"""

	# 類別級的鎖,用於線程安全
	_lock = threading.Lock()

	# 儲存各 session 的分析結果
	_session_results = {}

	def __init__(self, session_id):
	"""
	初始化分析器

	Args:
	session_id: 唯一的 session 識別碼
	"""
	self.session_id = session_id
	self.model = None
	self.inference = None
	self.train_data = None
	self.test_data = None
	self.bins_dict = {}

	def run_analysis(self, df, cat_features, con_features, target_variable,
	test_fraction=0.25, algorithm='NB', estimator='ml',
	equivalent_sample_size=3, score_method='BIC',
	sig_level=0.05, n_bins=10):
	"""
	執行完整的貝葉斯網路分析 - 完全對齊 Django 版本的順序

	Args:
	df: 原始資料框
	cat_features: 分類特徵列表
	con_features: 連續特徵列表
	target_variable: 目標變數名稱
	test_fraction: 測試集比例
	algorithm: 結構學習演算法
	estimator: 參數估計方法
	equivalent_sample_size: 等效樣本大小(用於貝葉斯估計)
	score_method: 評分方法(用於 Hill Climbing)
	sig_level: 顯著性水準(用於 PC 演算法)
	n_bins: 連續變數分箱數量

	Returns:
	dict: 包含所有分析結果的字典
	"""

	with self._lock:
	try:
	# 1. 資料預處理 (只選擇欄位和處理缺失值)
	processed_df = self._preprocess_data(
	df, cat_features, con_features, target_variable
	)

	# 2. 分割訓練/測試集 (✅ random_state=526)
	self.train_data, self.test_data = train_test_split(
	processed_df,
	test_size=test_fraction,
	random_state=526,
	stratify=processed_df[target_variable] if target_variable in processed_df.columns else None
	)

	# 3. ✅ 學習網路結構 (在分箱和編碼之前!)
	self.model = self._learn_structure(
	algorithm, score_method, sig_level, target_variable
	)

	# 4. ✅ 對分類變數編碼 (在學習結構之後,分箱之前)
	self._encode_categorical_features(cat_features)

	# 5. ✅ 對連續變數分箱 (在編碼之後)
	self._bin_continuous_features(con_features, n_bins)

	# 6. 參數估計
	self._fit_parameters(estimator, equivalent_sample_size)

	# 7. 初始化推論引擎
	self.inference = VariableElimination(self.model)

	# 8. 評估模型
	train_metrics = self._evaluate_model(
	self.train_data, target_variable, "train"
	)
	test_metrics = self._evaluate_model(
	self.test_data, target_variable, "test"
	)

	# 9. 獲取 CPD
	cpds = self._get_all_cpds()

	# 10. 計算模型評分
	scores = self._calculate_scores()

	# 11. 整理結果
	results = {
	'model': self.model,
	'inference': self.inference,
	'train_metrics': train_metrics,
	'test_metrics': test_metrics,
	'cpds': cpds,
	'scores': scores,
	'parameters': {
	'algorithm': algorithm,
	'estimator': estimator,
	'test_fraction': test_fraction,
	'n_features': len(cat_features) + len(con_features),
	'cat_features': cat_features,
	'con_features': con_features,
	'target_variable': target_variable,
	'n_bins': n_bins,
	'score_method': score_method,
	'sig_level': sig_level,
	'equivalent_sample_size': equivalent_sample_size
	},
	'timestamp': datetime.now().isoformat()
	}

	# 儲存到 session results
	self._session_results[self.session_id] = results

	return results

	except Exception as e:
	raise Exception(f"Analysis failed: {str(e)}")

	def _preprocess_data(self, df, cat_features, con_features, target_variable):
	"""資料預處理 - 只選擇欄位和刪除缺失值"""
	# 選擇需要的欄位
	selected_columns = cat_features + con_features + [target_variable]
	processed_df = df[selected_columns].copy()

	# 處理缺失值
	processed_df = processed_df.dropna()

	return processed_df

	def _encode_categorical_features(self, cat_features):
	"""
	✅ 將分類變數轉為 category codes - 完全對齊 Django
	注意:只對 cat_features 編碼,不對分箱後的連續變數編碼
	Django 只對 train_data 編碼,但我們為了一致性也對 test_data 編碼
	"""
	for col in cat_features:
	if col in self.train_data.columns:
	if self.train_data[col].dtype == 'object':
	self.train_data[col] = self.train_data[col].astype('category').cat.codes
	# Django 沒有對 test_data 編碼,但為了預測時一致性,我們也編碼
	if col in self.test_data.columns:
	if self.test_data[col].dtype == 'object':
	self.test_data[col] = self.test_data[col].astype('category').cat.codes

	def _bin_continuous_features(self, con_features, n_bins):
	"""
	✅ 對連續變數分箱 - 完全對齊 Django 版本
	先用訓練集計算邊界,再套用到測試集
	"""
	self.bins_dict = {}

	for col in con_features:
	if col in self.train_data.columns and self.train_data[col].notna().sum() > 0:
	# 使用訓練集計算分箱邊界
	bin_edges = pd.cut(
	self.train_data[col],
	bins=n_bins,
	retbins=True,
	duplicates='drop'
	)[1]

	self.bins_dict[col] = bin_edges

	# 創建分箱標籤 (✅ 使用 – 而不是 -)
	bin_labels = [
	f"{round(bin_edges[i], 2)}–{round(bin_edges[i+1], 2)}"
	for i in range(len(bin_edges) - 1)
	]

	# 對訓練集分箱
	self.train_data[col] = pd.cut(
	self.train_data[col],
	bins=bin_edges,
	labels=bin_labels,
	include_lowest=True
	).astype(object).fillna("Missing")

	# 對測試集使用相同邊界分箱
	if col in self.test_data.columns:
	self.test_data[col] = pd.cut(
	self.test_data[col],
	bins=bin_edges,
	labels=bin_labels,
	include_lowest=True
	).astype(object).fillna("Missing")
	else:
	print(f"⚠️ Skipped binning column '{col}' – missing or all NaN")

	def _learn_structure(self, algorithm, score_method, sig_level, target_variable):
	"""學習網路結構 - 完全對齊 Django 版本"""

	if algorithm == 'NB':
	# Naive Bayes
	edges = [
	(target_variable, feature)
	for feature in self.train_data.columns
	if feature != target_variable
	]
	model = BayesianNetwork(edges)

	elif algorithm == 'TAN':
	# Tree-Augmented Naive Bayes
	# ✅ 特殊情況處理: 如果同時存在'asia'和'either'列,特別指定'asia'作為根節點
	if 'asia' in self.train_data.columns and 'either' in self.train_data.columns and target_variable == 'either':
	tan_search = TreeSearch(self.train_data, root_node='asia')
	else:
	tan_search = TreeSearch(self.train_data)

	structure = tan_search.estimate(
	estimator_type='tan',
	class_node=target_variable
	)
	model = BayesianNetwork(structure.edges())

	elif algorithm == 'CL':
	# Chow-Liu
	tan_search = TreeSearch(self.train_data)
	structure = tan_search.estimate(
	estimator_type='chow-liu',
	class_node=target_variable
	)
	model = BayesianNetwork(structure.edges())

	elif algorithm == 'HC':
	# Hill Climbing
	hc = HillClimbSearch(self.train_data)

	# 選擇評分方法
	scoring_methods = {
	'BIC': BicScore(self.train_data),
	'AIC': AICScore(self.train_data),
	'K2': K2Score(self.train_data),
	'BDeu': BDeuScore(self.train_data),
	'BDs': BDsScore(self.train_data)
	}

	structure = hc.estimate(
	scoring_method=scoring_methods[score_method]
	)
	model = BayesianNetwork(structure.edges())

	elif algorithm == 'PC':
	# PC Algorithm - ✅ 與 Django 完全一致的降級策略
	pc = PC(self.train_data)

	# 嘗試不同的 max_cond_vars 直到成功
	for max_cond in [5, 4, 3, 2, 1]:
	try:
	structure = pc.estimate(
	significance_level=sig_level,
	max_cond_vars=max_cond,
	ci_test='chi_square',
	variant='stable',
	n_jobs=1 # ✅ Django 第一次用 1
	)

	# 檢查是否有效 (✅ 與 Django 一致)
	edges = structure.edges()
	if is_directed_acyclic_graph(DiGraph(edges)) and any(target_variable in edge for edge in edges):
	model = BayesianNetwork(structure.edges())
	break
	except:
	continue
	else:
	# 如果都失敗,使用 Naive Bayes (✅ 與 Django 一致)
	edges = [
	(target_variable, feature)
	for feature in self.train_data.columns
	if feature != target_variable
	]
	model = BayesianNetwork(edges)

	else:
	raise ValueError(f"Unknown algorithm: {algorithm}")

	return model

	def _fit_parameters(self, estimator, equivalent_sample_size):
	"""參數估計"""
	if estimator == 'bn':
	self.model.fit(
	self.train_data,
	estimator=BayesianEstimator,
	equivalent_sample_size=equivalent_sample_size
	)
	else:
	self.model.fit(
	self.train_data,
	estimator=MaximumLikelihoodEstimator
	)

	def _predict_probabilities(self, data, target_variable):
	"""
	預測機率 - ✅ 與 Django 版本完全一致
	"""
	true_labels = []
	predicted_probs = []

	model_nodes = set(self.model.nodes())

	for idx, row in data.iterrows():
	# 準備 evidence (✅ 過濾只在模型中的變數)
	raw_evidence = row.drop(target_variable).to_dict()
	filtered_evidence = {k: v for k, v in raw_evidence.items() if k in model_nodes}

	true_label = row[target_variable]
	true_labels.append(true_label)

	try:
	result = self.inference.query(
	variables=[target_variable],
	evidence=filtered_evidence
	)
	probs = result.values
	predicted_probs.append(probs)
	except Exception as e:
	print(f"⚠️ Inference failed at row {idx} \| evidence keys: {list(filtered_evidence.keys())} \| error: {e}")
	predicted_probs.append(None)

	# ✅ 過濾有效結果 (與 Django 一致)
	valid_data = [
	(label, prob)
	for label, prob in zip(true_labels, predicted_probs)
	if prob is not None and len(prob) > 1
	]

	if not valid_data:
	return [], []

	valid_labels, valid_probs = zip(*valid_data)
	prob_array = np.round(np.array([prob[1] for prob in valid_probs]), 4)

	return list(valid_labels), prob_array

	def _evaluate_model(self, data, target_variable, dataset_name):
	"""評估模型效能 - ✅ 與 Django 完全一致"""
	# 預測
	true_labels, pred_probs = self._predict_probabilities(
	data, target_variable
	)

	if len(true_labels) == 0:
	return {
	'accuracy': 0,
	'precision': 0,
	'recall': 0,
	'f1': 0,
	'auc': 0,
	'g_mean': 0,
	'p_mean': 0,
	'specificity': 0,
	'confusion_matrix': [[0, 0], [0, 0]],
	'fpr': [0],
	'tpr': [0]
	}

	# 二元預測 (threshold = 0.1, ✅ 與 Django 一致)
	threshold = 0.1
	pred_labels = (pred_probs >= threshold).astype(int)

	# 計算指標
	accuracy = accuracy_score(true_labels, pred_labels) * 100
	precision = precision_score(true_labels, pred_labels, zero_division=0) * 100
	recall = recall_score(true_labels, pred_labels, zero_division=0) * 100
	f1 = f1_score(true_labels, pred_labels, zero_division=0) * 100

	# ROC 曲線
	pred_probs_clean = np.nan_to_num(pred_probs, nan=0.0)
	fpr, tpr, _ = roc_curve(true_labels, pred_probs_clean)
	auc = roc_auc_score(true_labels, pred_probs_clean)

	# 混淆矩陣
	cm = confusion_matrix(true_labels, pred_labels).tolist()

	# G-mean 和 P-mean (✅ 與 Django 計算方式一致)
	tn, fp, fn, tp = confusion_matrix(true_labels, pred_labels).ravel()
	sensitivity = tp / (tp + fn) if (tp + fn) > 0 else 0
	specificity = tn / (tn + fp) if (tn + fp) > 0 else 0
	g_mean = np.sqrt(sensitivity * precision / 100) * 100
	p_mean = np.sqrt(specificity * sensitivity) * 100

	return {
	'accuracy': accuracy,
	'precision': precision,
	'recall': recall,
	'f1': f1,
	'auc': auc,
	'g_mean': g_mean,
	'p_mean': p_mean,
	'specificity': specificity * 100,
	'confusion_matrix': cm,
	'fpr': fpr.tolist(),
	'tpr': tpr.tolist(),
	'predicted_probs': pred_probs.tolist()
	}

	def _get_all_cpds(self):
	"""獲取所有條件機率表"""
	cpds = {}
	for node in self.model.nodes():
	cpd = self.model.get_cpds(node)
	cpds[node] = cpd
	return cpds

	def _calculate_scores(self):
	"""計算模型評分"""
	scores = {
	'log_likelihood': log_likelihood_score(self.model, self.train_data),
	'bic': structure_score(self.model, self.train_data, scoring_method='bic'),
	'k2': structure_score(self.model, self.train_data, scoring_method='k2'),
	'bdeu': structure_score(self.model, self.train_data, scoring_method='bdeu'),
	'bds': structure_score(self.model, self.train_data, scoring_method='bds')
	}
	return scores


	def save_model(self, filepath):
	"""
	儲存訓練好的模型
	包含: model, bins_dict, train_data columns 等資訊
	"""
	import pickle
	model_data = {
	'model': self.model,
	'bins_dict': self.bins_dict,
	'train_columns': list(self.train_data.columns),
	'timestamp': datetime.now().isoformat()
	}
	with open(filepath, 'wb') as f:
	pickle.dump(model_data, f)

	def load_model(self, filepath):
	"""
	載入已訓練的模型
	"""
	import pickle
	with open(filepath, 'rb') as f:
	model_data = pickle.load(f)
	self.model = model_data['model']
	self.bins_dict = model_data['bins_dict']
	self.inference = VariableElimination(self.model)
	return model_data


	def predict_single_instance(self, evidence_dict, target_variable):
	"""
	對單一個案進行預測
	"""
	processed_evidence = {}
	for key, value in evidence_dict.items():
	if key in self.bins_dict:
	# 連續變數需要分箱
	bins = self.bins_dict[key]

	# 🆕 處理超出範圍的值
	if value < bins[0]:
	# 小於最小值，使用第一個 bin
	processed_evidence[key] = f"{round(bins[0], 2)}–{round(bins[1], 2)}"
	elif value > bins[-1]:
	# 大於最大值，使用最後一個 bin
	processed_evidence[key] = f"{round(bins[-2], 2)}–{round(bins[-1], 2)}"
	else:
	# 正常範圍內，找到對應的 bin
	for i in range(len(bins)-1):
	if bins[i] <= value <= bins[i+1]:
	processed_evidence[key] = f"{round(bins[i], 2)}–{round(bins[i+1], 2)}"
	break
	else:
	# 分類變數直接使用
	processed_evidence[key] = value

	# 2. 進行推論
	result = self.inference.query(
	variables=[target_variable],
	evidence=processed_evidence
	)

	# 3. 整理結果
	probs = result.values
	death_prob = probs[1] if len(probs) > 1 else probs[0]

	# 判斷風險等級
	if death_prob >= 0.7:
	risk_level = "High"
	elif death_prob >= 0.3:
	risk_level = "Moderate"
	else:
	risk_level = "Low"

	return {
	'probability': float(death_prob),
	'risk_level': risk_level,
	'all_probs': {i: float(p) for i, p in enumerate(probs)},
	'processed_evidence': processed_evidence
	}


	@classmethod
	def get_session_results(cls, session_id):
	"""獲取特定 session 的結果"""
	return cls._session_results.get(session_id)

	@classmethod
	def clear_session_results(cls, session_id):
	"""清除特定 session 的結果"""
	if session_id in cls._session_results:
	del cls._session_results[session_id]