Aphasia_Classification__Lang

Sleeping

App Files Files Community

Aphasia_Classification__Lang / aphasia_class_2025_8_5--testing.py

Ellie5757575757

Upload 15 files

01de4e1 verified 7 months ago

raw

history blame contribute delete

69.1 kB

	# -- coding: utf-8 --
	"""
	Advanced Multi-Modal Aphasia Classification System
	With Adaptive Learning Rate and Comprehensive Reporting
	"""

	import re
	import json
	import torch
	import torch.nn as nn
	import torch.nn.functional as F
	import time
	import datetime
	import numpy as np
	import os
	import random
	import csv
	import math
	from collections import Counter, defaultdict
	from typing import Dict, List, Optional, Tuple, Union
	from dataclasses import dataclass

	import torch.optim as optim
	from torch.utils.data import Dataset, DataLoader, WeightedRandomSampler, Subset
	from transformers import (
	AutoTokenizer, AutoModel, AutoConfig,
	TrainingArguments, Trainer, TrainerCallback,
	EarlyStoppingCallback, get_cosine_schedule_with_warmup,
	default_data_collator, set_seed
	)

	import seaborn as sns
	import matplotlib.pyplot as plt
	import pandas as pd
	from sklearn.metrics import (
	accuracy_score, f1_score, precision_score, recall_score,
	confusion_matrix, classification_report, roc_auc_score
	)
	from sklearn.model_selection import StratifiedKFold
	import gc
	from scipy import stats

	# Environment setup for stability
	os.environ["CUDA_LAUNCH_BLOCKING"] = "1"
	os.environ["TORCH_USE_CUDA_DSA"] = "1"
	os.environ["TOKENIZERS_PARALLELISM"] = "false"
	json_file = '/workspace/SH001/aphasia_data_augmented.json'

	# Set seeds for reproducibility
	def set_all_seeds(seed=42):
	random.seed(seed)
	np.random.seed(seed)
	torch.manual_seed(seed)
	torch.cuda.manual_seed_all(seed)
	os.environ['PYTHONHASHSEED'] = str(seed)

	set_all_seeds(42)

	# Configuration
	@dataclass
	class ModelConfig:
	# Model architecture
	model_name: str = "microsoft/BiomedNLP-PubMedBERT-base-uncased-abstract-fulltext"
	max_length: int = 512
	hidden_size: int = 768

	# Feature dimensions
	pos_vocab_size: int = 150
	pos_emb_dim: int = 64
	grammar_dim: int = 3
	grammar_hidden_dim: int = 64
	duration_hidden_dim: int = 128
	prosody_dim: int = 32

	# Multi-head attention
	num_attention_heads: int = 8
	attention_dropout: float = 0.3

	# Classification head
	classifier_hidden_dims: List[int] = None
	dropout_rate: float = 0.3
	activation_fn: str = "tanh"

	# Training
	learning_rate: float = 5e-4
	weight_decay: float = 0.01
	warmup_ratio: float = 0.1
	batch_size: int = 10
	num_epochs: int = 500
	gradient_accumulation_steps: int = 4

	# Adaptive Learning Rate Parameters
	adaptive_lr: bool = True
	lr_patience: int = 3 # Patience for learning rate adjustment
	lr_factor: float = 0.8 # Factor to multiply learning rate
	lr_increase_factor: float = 1.2 # Factor to increase learning rate
	min_lr: float = 1e-6
	max_lr: float = 1e-3
	oscillation_amplitude: float = 0.1 # For sinusoidal oscillation

	# Advanced techniques
	use_focal_loss: bool = True
	focal_alpha: float = 1.0
	focal_gamma: float = 2.0
	use_mixup: bool = False
	mixup_alpha: float = 0.2
	use_label_smoothing: bool = True
	label_smoothing: float = 0.1

	def __post_init__(self):
	if self.classifier_hidden_dims is None:
	self.classifier_hidden_dims = [512, 256]

	# Utility functions
	def log_message(message):
	timestamp = datetime.datetime.now().isoformat()
	full_message = f"{timestamp}: {message}"
	log_file = "./training_log.txt"
	with open(log_file, "a", encoding="utf-8") as f:
	f.write(full_message + "\n")
	print(full_message, flush=True)

	def clear_memory():
	gc.collect()
	if torch.cuda.is_available():
	torch.cuda.empty_cache()

	def normalize_type(t):
	return t.strip().upper() if isinstance(t, str) else t

	# Adaptive Learning Rate Scheduler
	class AdaptiveLearningRateScheduler:
	"""智能學習率調度器，結合多種策略"""
	def __init__(self, optimizer, config: ModelConfig, total_steps: int):
	self.optimizer = optimizer
	self.config = config
	self.total_steps = total_steps

	# 歷史記錄
	self.loss_history = []
	self.f1_history = []
	self.accuracy_history = []
	self.lr_history = []

	# 狀態追蹤
	self.plateau_counter = 0
	self.best_f1 = 0.0
	self.best_loss = float('inf')
	self.step_count = 0

	# 初始學習率
	self.base_lr = config.learning_rate
	self.current_lr = self.base_lr

	log_message(f"Adaptive LR Scheduler initialized with base_lr={self.base_lr}")

	def calculate_slope(self, values, window=3):
	"""計算近期數值的斜率"""
	if len(values) < window:
	return 0.0

	recent_values = values[-window:]
	x = np.arange(len(recent_values))
	slope, _, _, _, _ = stats.linregress(x, recent_values)
	return slope

	def exponential_adjustment(self, current_value, target_value, base_factor=1.1):
	"""指數調整函數"""
	ratio = current_value / target_value if target_value != 0 else 1.0
	factor = math.exp(-ratio) * base_factor
	return factor

	def logarithmic_adjustment(self, current_value, threshold=0.1):
	"""對數調整函數"""
	if current_value <= 0:
	return 1.0
	factor = math.log(1 + current_value / threshold)
	return max(0.5, min(2.0, factor))

	def sinusoidal_oscillation(self, step, amplitude=None):
	"""正弦波動調整"""
	if amplitude is None:
	amplitude = self.config.oscillation_amplitude

	# 基於步數的正弦波動
	phase = 2 * math.pi * step / (self.total_steps / 4) # 4個週期
	oscillation = 1 + amplitude * math.sin(phase)
	return oscillation

	def cosine_decay(self, step):
	"""餘弦衰減"""
	progress = step / self.total_steps
	decay = 0.5 * (1 + math.cos(math.pi * progress))
	return decay

	def adaptive_lr_calculation(self, current_loss, current_f1, current_acc):
	"""智能學習率計算"""
	# 記錄歷史
	self.loss_history.append(current_loss)
	self.f1_history.append(current_f1)
	self.accuracy_history.append(current_acc)

	# 計算斜率
	loss_slope = self.calculate_slope(self.loss_history)
	f1_slope = self.calculate_slope(self.f1_history)
	acc_slope = self.calculate_slope(self.accuracy_history)

	# 基礎學習率調整因子
	adjustment_factor = 1.0

	# 1. 基於Loss斜率的調整
	if abs(loss_slope) < 0.001: # Loss plateau
	log_message(f"Loss plateau detected (slope: {loss_slope:.6f})")
	# 指數增加學習率
	exp_factor = self.exponential_adjustment(abs(loss_slope), 0.01, 1.15)
	adjustment_factor *= exp_factor

	elif current_loss > 2.0: # Loss太高
	log_message(f"High loss detected: {current_loss:.4f}")
	# 對數調整
	log_factor = self.logarithmic_adjustment(current_loss, 1.0)
	adjustment_factor *= log_factor

	# 2. 基於F1分數的調整
	if current_f1 < 0.3: # F1太低
	log_message(f"Low F1 detected: {current_f1:.4f}")
	# 指數增加學習率
	exp_factor = self.exponential_adjustment(0.3, current_f1, 1.2)
	adjustment_factor *= exp_factor

	elif abs(f1_slope) < 0.001: # F1 plateau
	log_message(f"F1 plateau detected (slope: {f1_slope:.6f})")
	adjustment_factor *= 1.1

	# 3. 添加正弦波動性
	sin_factor = self.sinusoidal_oscillation(self.step_count)

	# 4. 添加餘弦衰減
	cos_factor = self.cosine_decay(self.step_count)

	# 綜合調整
	final_factor = adjustment_factor * sin_factor * (0.3 + 0.7 * cos_factor)

	# 計算新的學習率
	new_lr = self.current_lr * final_factor

	# 限制學習率範圍
	new_lr = max(self.config.min_lr, min(self.config.max_lr, new_lr))

	# 更新學習率
	if abs(new_lr - self.current_lr) > 1e-7: # 只有變化足夠大才更新
	self.current_lr = new_lr
	for param_group in self.optimizer.param_groups:
	param_group['lr'] = new_lr

	log_message(f"Learning rate adjusted: {new_lr:.2e} (factor: {final_factor:.3f})")
	log_message(f" - Loss slope: {loss_slope:.6f}, F1 slope: {f1_slope:.6f}")
	log_message(f" - Sin factor: {sin_factor:.3f}, Cos factor: {cos_factor:.3f}")

	self.lr_history.append(self.current_lr)
	self.step_count += 1

	return self.current_lr

	# Training History Tracker
	class TrainingHistoryTracker:
	"""訓練歷史記錄器"""
	def __init__(self):
	self.history = {
	'epoch': [],
	'train_loss': [],
	'eval_loss': [],
	'train_accuracy': [],
	'eval_accuracy': [],
	'train_f1': [],
	'eval_f1': [],
	'learning_rate': [],
	'train_precision': [],
	'eval_precision': [],
	'train_recall': [],
	'eval_recall': []
	}

	def update(self, epoch, metrics):
	"""更新歷史記錄"""
	self.history['epoch'].append(epoch)
	for key, value in metrics.items():
	if key in self.history:
	self.history[key].append(value)

	def save_history(self, output_dir):
	"""保存歷史記錄"""
	df = pd.DataFrame(self.history)
	df.to_csv(os.path.join(output_dir, "training_history.csv"), index=False)
	return df

	def plot_training_curves(self, output_dir):
	"""繪製訓練曲線"""
	if not self.history['epoch']:
	return

	# 設置圖表樣式
	plt.style.use('seaborn-v0_8')
	fig, axes = plt.subplots(2, 3, figsize=(18, 12))

	epochs = self.history['epoch']

	# 1. Loss曲線
	axes[0, 0].plot(epochs, self.history['train_loss'], 'b-', label='Train Loss', linewidth=2)
	axes[0, 0].plot(epochs, self.history['eval_loss'], 'r-', label='Eval Loss', linewidth=2)
	axes[0, 0].set_title('Loss Over Time', fontsize=14, fontweight='bold')
	axes[0, 0].set_xlabel('Epoch')
	axes[0, 0].set_ylabel('Loss')
	axes[0, 0].legend()
	axes[0, 0].grid(True, alpha=0.3)

	# 2. 準確率曲線
	axes[0, 1].plot(epochs, self.history['train_accuracy'], 'b-', label='Train Accuracy', linewidth=2)
	axes[0, 1].plot(epochs, self.history['eval_accuracy'], 'r-', label='Eval Accuracy', linewidth=2)
	axes[0, 1].set_title('Accuracy Over Time', fontsize=14, fontweight='bold')
	axes[0, 1].set_xlabel('Epoch')
	axes[0, 1].set_ylabel('Accuracy')
	axes[0, 1].legend()
	axes[0, 1].grid(True, alpha=0.3)

	# 3. F1分數曲線
	axes[0, 2].plot(epochs, self.history['train_f1'], 'b-', label='Train F1', linewidth=2)
	axes[0, 2].plot(epochs, self.history['eval_f1'], 'r-', label='Eval F1', linewidth=2)
	axes[0, 2].set_title('F1 Score Over Time', fontsize=14, fontweight='bold')
	axes[0, 2].set_xlabel('Epoch')
	axes[0, 2].set_ylabel('F1 Score')
	axes[0, 2].legend()
	axes[0, 2].grid(True, alpha=0.3)

	# 4. 學習率曲線
	axes[1, 0].plot(epochs, self.history['learning_rate'], 'g-', linewidth=2)
	axes[1, 0].set_title('Learning Rate Over Time', fontsize=14, fontweight='bold')
	axes[1, 0].set_xlabel('Epoch')
	axes[1, 0].set_ylabel('Learning Rate')
	axes[1, 0].set_yscale('log')
	axes[1, 0].grid(True, alpha=0.3)

	# 5. Precision曲線
	axes[1, 1].plot(epochs, self.history['train_precision'], 'b-', label='Train Precision', linewidth=2)
	axes[1, 1].plot(epochs, self.history['eval_precision'], 'r-', label='Eval Precision', linewidth=2)
	axes[1, 1].set_title('Precision Over Time', fontsize=14, fontweight='bold')
	axes[1, 1].set_xlabel('Epoch')
	axes[1, 1].set_ylabel('Precision')
	axes[1, 1].legend()
	axes[1, 1].grid(True, alpha=0.3)

	# 6. Recall曲線
	axes[1, 2].plot(epochs, self.history['train_recall'], 'b-', label='Train Recall', linewidth=2)
	axes[1, 2].plot(epochs, self.history['eval_recall'], 'r-', label='Eval Recall', linewidth=2)
	axes[1, 2].set_title('Recall Over Time', fontsize=14, fontweight='bold')
	axes[1, 2].set_xlabel('Epoch')
	axes[1, 2].set_ylabel('Recall')
	axes[1, 2].legend()
	axes[1, 2].grid(True, alpha=0.3)

	plt.tight_layout()
	plt.savefig(os.path.join(output_dir, "training_curves.png"), dpi=300, bbox_inches='tight')
	plt.close()

	# Focal loss implementation
	class FocalLoss(nn.Module):
	def __init__(self, alpha=1.0, gamma=2.0, reduction='mean'):
	super().__init__()
	self.alpha = alpha
	self.gamma = gamma
	self.reduction = reduction

	def forward(self, inputs, targets):
	ce_loss = F.cross_entropy(inputs, targets, reduction='none')
	pt = torch.exp(-ce_loss)
	focal_loss = self.alpha * (1-pt)*self.gamma ce_loss

	if self.reduction == 'mean':
	return focal_loss.mean()
	elif self.reduction == 'sum':
	return focal_loss.sum()
	else:
	return focal_loss

	# Stable positional encoding
	class StablePositionalEncoding(nn.Module):
	"""Simplified but stable positional encoding"""
	def __init__(self, d_model: int, max_len: int = 5000):
	super().__init__()
	self.d_model = d_model

	# Traditional sinusoidal encoding
	pe = torch.zeros(max_len, d_model)
	position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
	div_term = torch.exp(torch.arange(0, d_model, 2).float() *
	(-math.log(10000.0) / d_model))

	pe[:, 0::2] = torch.sin(position * div_term)
	pe[:, 1::2] = torch.cos(position * div_term)

	self.register_buffer('pe', pe.unsqueeze(0))

	# Simple learnable component
	self.learnable_pe = nn.Parameter(torch.randn(max_len, d_model) * 0.01)

	def forward(self, x):
	seq_len = x.size(1)
	sinusoidal = self.pe[:, :seq_len, :].to(x.device)
	learnable = self.learnable_pe[:seq_len, :].unsqueeze(0).expand(x.size(0), -1, -1)
	return x + 0.1 * (sinusoidal + learnable)

	# Stable multi-head attention
	class StableMultiHeadAttention(nn.Module):
	"""Stable multi-head attention for feature fusion"""
	def __init__(self, feature_dim: int, num_heads: int = 4, dropout: float = 0.3):
	super().__init__()
	self.num_heads = num_heads
	self.feature_dim = feature_dim
	self.head_dim = feature_dim // num_heads

	assert feature_dim % num_heads == 0

	self.query = nn.Linear(feature_dim, feature_dim)
	self.key = nn.Linear(feature_dim, feature_dim)
	self.value = nn.Linear(feature_dim, feature_dim)
	self.dropout = nn.Dropout(dropout)
	self.output_proj = nn.Linear(feature_dim, feature_dim)
	self.layer_norm = nn.LayerNorm(feature_dim)

	def forward(self, x, mask=None):
	batch_size, seq_len, _ = x.size()

	Q = self.query(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
	K = self.key(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)
	V = self.value(x).view(batch_size, seq_len, self.num_heads, self.head_dim).transpose(1, 2)

	scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(self.head_dim)

	if mask is not None:
	if mask.dim() == 2:
	mask = mask.unsqueeze(1).unsqueeze(1)
	scores.masked_fill_(mask == 0, -1e9)

	attn_weights = F.softmax(scores, dim=-1)
	attn_weights = self.dropout(attn_weights)

	context = torch.matmul(attn_weights, V)
	context = context.transpose(1, 2).contiguous().view(batch_size, seq_len, self.feature_dim)

	output = self.output_proj(context)
	return self.layer_norm(output + x)

	# Stable linguistic feature extractor
	class StableLinguisticFeatureExtractor(nn.Module):
	"""Stable linguistic feature processing"""
	def __init__(self, config: ModelConfig):
	super().__init__()
	self.config = config

	# POS embeddings
	self.pos_embedding = nn.Embedding(config.pos_vocab_size, config.pos_emb_dim, padding_idx=0)
	self.pos_attention = StableMultiHeadAttention(config.pos_emb_dim, num_heads=4)

	# Grammar feature processing
	self.grammar_projection = nn.Sequential(
	nn.Linear(config.grammar_dim, config.grammar_hidden_dim),
	nn.Tanh(),
	nn.LayerNorm(config.grammar_hidden_dim),
	nn.Dropout(config.dropout_rate * 0.3)
	)

	# Duration processing
	self.duration_projection = nn.Sequential(
	nn.Linear(1, config.duration_hidden_dim),
	nn.Tanh(),
	nn.LayerNorm(config.duration_hidden_dim)
	)

	# Prosody processing
	self.prosody_projection = nn.Sequential(
	nn.Linear(config.prosody_dim, config.prosody_dim),
	nn.ReLU(),
	nn.LayerNorm(config.prosody_dim)
	)

	# Feature fusion
	total_feature_dim = (config.pos_emb_dim + config.grammar_hidden_dim +
	config.duration_hidden_dim + config.prosody_dim)
	self.feature_fusion = nn.Sequential(
	nn.Linear(total_feature_dim, total_feature_dim // 2),
	nn.Tanh(),
	nn.LayerNorm(total_feature_dim // 2),
	nn.Dropout(config.dropout_rate)
	)

	def forward(self, pos_ids, grammar_ids, durations, prosody_features, attention_mask):
	batch_size, seq_len = pos_ids.size()

	# Process POS features with clamping
	pos_ids_clamped = pos_ids.clamp(0, self.config.pos_vocab_size - 1)
	pos_embeds = self.pos_embedding(pos_ids_clamped)
	pos_features = self.pos_attention(pos_embeds, attention_mask)

	# Process grammar features
	grammar_features = self.grammar_projection(grammar_ids.float())

	# Process duration features
	duration_features = self.duration_projection(durations.unsqueeze(-1).float())

	# Process prosodic features
	prosody_features = self.prosody_projection(prosody_features.float())

	# Combine features
	combined_features = torch.cat([
	pos_features, grammar_features, duration_features, prosody_features
	], dim=-1)

	# Feature fusion
	fused_features = self.feature_fusion(combined_features)

	# Global pooling
	mask_expanded = attention_mask.unsqueeze(-1).float()
	pooled_features = torch.sum(fused_features * mask_expanded, dim=1) / torch.sum(mask_expanded, dim=1)

	return pooled_features

	# Main classifier with stability improvements
	class StableAphasiaClassifier(nn.Module):
	"""Stable aphasia classification model"""
	def __init__(self, config: ModelConfig, num_labels: int):
	super().__init__()
	self.config = config
	self.num_labels = num_labels

	# Pre-trained model
	self.bert = AutoModel.from_pretrained(config.model_name)
	self.bert_config = self.bert.config

	# Freeze embeddings for stability
	for param in self.bert.embeddings.parameters():
	param.requires_grad = False

	# Positional encoding
	self.positional_encoder = StablePositionalEncoding(
	d_model=self.bert_config.hidden_size,
	max_len=config.max_length
	)

	# Linguistic feature extractor
	self.linguistic_extractor = StableLinguisticFeatureExtractor(config)

	# Calculate dimensions
	bert_dim = self.bert_config.hidden_size
	linguistic_dim = (config.pos_emb_dim + config.grammar_hidden_dim +
	config.duration_hidden_dim + config.prosody_dim) // 2

	# Feature fusion
	self.feature_fusion = nn.Sequential(
	nn.Linear(bert_dim + linguistic_dim, bert_dim),
	nn.LayerNorm(bert_dim),
	nn.Tanh(),
	nn.Dropout(config.dropout_rate)
	)

	# Classifier
	self.classifier = self._build_classifier(bert_dim, num_labels)

	# Multi-task heads (simplified)
	self.severity_head = nn.Sequential(
	nn.Linear(bert_dim, 4),
	nn.Softmax(dim=-1)
	)

	self.fluency_head = nn.Sequential(
	nn.Linear(bert_dim, 1),
	nn.Sigmoid()
	)

	def _build_classifier(self, input_dim: int, num_labels: int):
	layers = []
	current_dim = input_dim

	for hidden_dim in self.config.classifier_hidden_dims:
	layers.extend([
	nn.Linear(current_dim, hidden_dim),
	nn.LayerNorm(hidden_dim),
	nn.Tanh(),
	nn.Dropout(self.config.dropout_rate)
	])
	current_dim = hidden_dim

	layers.append(nn.Linear(current_dim, num_labels))
	return nn.Sequential(*layers)

	def forward(self, input_ids, attention_mask, labels=None,
	word_pos_ids=None, word_grammar_ids=None, word_durations=None,
	prosody_features=None, **kwargs):

	# BERT encoding
	bert_outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
	sequence_output = bert_outputs.last_hidden_state

	# Apply positional encoding
	position_enhanced = self.positional_encoder(sequence_output)

	# Attention pooling
	pooled_output = self._attention_pooling(position_enhanced, attention_mask)

	# Process linguistic features
	if all(x is not None for x in [word_pos_ids, word_grammar_ids, word_durations]):
	if prosody_features is None:
	batch_size, seq_len = input_ids.size()
	prosody_features = torch.zeros(
	batch_size, seq_len, self.config.prosody_dim,
	device=input_ids.device
	)

	linguistic_features = self.linguistic_extractor(
	word_pos_ids, word_grammar_ids, word_durations,
	prosody_features, attention_mask
	)
	else:
	linguistic_features = torch.zeros(
	input_ids.size(0),
	(self.config.pos_emb_dim + self.config.grammar_hidden_dim +
	self.config.duration_hidden_dim + self.config.prosody_dim) // 2,
	device=input_ids.device
	)

	# Feature fusion
	combined_features = torch.cat([pooled_output, linguistic_features], dim=1)
	fused_features = self.feature_fusion(combined_features)

	# Predictions
	logits = self.classifier(fused_features)
	severity_pred = self.severity_head(fused_features)
	fluency_pred = self.fluency_head(fused_features)

	# Loss computation
	loss = None
	if labels is not None:
	loss = self._compute_loss(logits, labels)

	return {
	"logits": logits,
	"severity_pred": severity_pred,
	"fluency_pred": fluency_pred,
	"loss": loss
	}

	def _attention_pooling(self, sequence_output, attention_mask):
	"""Attention-based pooling"""
	attention_weights = torch.softmax(
	torch.sum(sequence_output, dim=-1, keepdim=True), dim=1
	)
	attention_weights = attention_weights * attention_mask.unsqueeze(-1).float()
	attention_weights = attention_weights / (torch.sum(attention_weights, dim=1, keepdim=True) + 1e-9)
	pooled = torch.sum(sequence_output * attention_weights, dim=1)
	return pooled

	def _compute_loss(self, logits, labels):
	if self.config.use_focal_loss:
	focal_loss = FocalLoss(
	alpha=self.config.focal_alpha,
	gamma=self.config.focal_gamma,
	reduction='mean'
	)
	return focal_loss(logits, labels)
	else:
	if self.config.use_label_smoothing:
	return F.cross_entropy(
	logits, labels,
	label_smoothing=self.config.label_smoothing
	)
	else:
	return F.cross_entropy(logits, labels)

	# Stable dataset class
	class StableAphasiaDataset(Dataset):
	"""Stable dataset with simplified processing"""
	def __init__(self, sentences, tokenizer, aphasia_types_mapping, config: ModelConfig):
	self.samples = []
	self.tokenizer = tokenizer
	self.config = config
	self.aphasia_types_mapping = aphasia_types_mapping

	# Add special tokens
	special_tokens = ["[DIALOGUE]", "[TURN]", "[PAUSE]", "[REPEAT]", "[HESITATION]"]
	tokenizer.add_special_tokens({"additional_special_tokens": special_tokens})

	for idx, item in enumerate(sentences):
	sentence_id = item.get("sentence_id", f"S{idx}")
	aphasia_type = normalize_type(item.get("aphasia_type", ""))

	if aphasia_type not in aphasia_types_mapping:
	log_message(f"Skipping Sentence {sentence_id}: Invalid aphasia type '{aphasia_type}'")
	continue

	self._process_sentence(item, sentence_id, aphasia_type)

	if not self.samples:
	raise ValueError("No valid samples found in dataset!")

	log_message(f"Dataset created with {len(self.samples)} samples")
	self._print_class_distribution()

	def _process_sentence(self, item, sentence_id, aphasia_type):
	"""Process sentence with stable approach"""
	all_tokens, all_pos, all_grammar, all_durations = [], [], [], []

	for dialogue_idx, dialogue in enumerate(item.get("dialogues", [])):
	if dialogue_idx > 0:
	all_tokens.append("[DIALOGUE]")
	all_pos.append(0)
	all_grammar.append([0, 0, 0])
	all_durations.append(0.0)

	for par in dialogue.get("PAR", []):
	if "tokens" in par and par["tokens"]:
	tokens = par["tokens"]
	pos_ids = par.get("word_pos_ids", [0] * len(tokens))
	grammar_ids = par.get("word_grammar_ids", [[0, 0, 0]] * len(tokens))
	durations = par.get("word_durations", [0.0] * len(tokens))

	all_tokens.extend(tokens)
	all_pos.extend(pos_ids)
	all_grammar.extend(grammar_ids)
	all_durations.extend(durations)

	if not all_tokens:
	return

	# Create sample
	self._create_sample(all_tokens, all_pos, all_grammar, all_durations,
	sentence_id, aphasia_type)

	def _create_sample(self, tokens, pos_ids, grammar_ids, durations,
	sentence_id, aphasia_type):
	"""Create training sample"""
	# Tokenize
	text = " ".join(tokens)
	encoded = self.tokenizer(
	text,
	max_length=self.config.max_length,
	padding="max_length",
	truncation=True,
	return_tensors="pt"
	)

	# Align features
	aligned_pos, aligned_grammar, aligned_durations = self._align_features(
	tokens, pos_ids, grammar_ids, durations, encoded
	)

	# Create prosody features
	prosody_features = self._extract_prosodic_features(durations, tokens)
	prosody_tensor = torch.tensor(prosody_features).unsqueeze(0).repeat(
	self.config.max_length, 1
	)

	label = self.aphasia_types_mapping[aphasia_type]

	sample = {
	"input_ids": encoded["input_ids"].squeeze(0),
	"attention_mask": encoded["attention_mask"].squeeze(0),
	"labels": torch.tensor(label, dtype=torch.long),
	"word_pos_ids": torch.tensor(aligned_pos, dtype=torch.long),
	"word_grammar_ids": torch.tensor(aligned_grammar, dtype=torch.long),
	"word_durations": torch.tensor(aligned_durations, dtype=torch.float),
	"prosody_features": prosody_tensor.float(),
	"sentence_id": sentence_id
	}
	self.samples.append(sample)

	def _align_features(self, tokens, pos_ids, grammar_ids, durations, encoded):
	"""Align features with BERT subtokens"""
	subtoken_to_token = []

	for token_idx, token in enumerate(tokens):
	subtokens = self.tokenizer.tokenize(token)
	subtoken_to_token.extend([token_idx] * len(subtokens))

	aligned_pos = [0] # [CLS]
	aligned_grammar = [[0, 0, 0]] # [CLS]
	aligned_durations = [0.0] # [CLS]

	for subtoken_idx in range(1, self.config.max_length - 1):
	if subtoken_idx - 1 < len(subtoken_to_token):
	original_idx = subtoken_to_token[subtoken_idx - 1]
	aligned_pos.append(pos_ids[original_idx] if original_idx < len(pos_ids) else 0)
	aligned_grammar.append(grammar_ids[original_idx] if original_idx < len(grammar_ids) else [0, 0, 0])
	raw = durations[original_idx] if original_idx < len(durations) else 0.0
	if isinstance(raw, list) and (isinstance(raw[1], int) and isinstance(raw[0], int)):
	if len(raw) >= 2:
	duration_val = int(raw[1]) - int(raw[0])
	else:
	duration_val = raw[0]
	else:
	duration_val = 0.0
	aligned_durations.append(duration_val)
	else:
	aligned_pos.append(0)
	aligned_grammar.append([0, 0, 0])
	aligned_durations.append(0.0)

	aligned_pos.append(0) # [SEP]
	aligned_grammar.append([0, 0, 0]) # [SEP]
	aligned_durations.append(0.0) # [SEP]

	return aligned_pos, aligned_grammar, aligned_durations

	def _extract_prosodic_features(self, durations, tokens):
	"""Extract prosodic features"""
	if not durations:
	return [0.0] * self.config.prosody_dim

	valid_durations = [d for d in durations if isinstance(d, (int, float)) and d > 0]
	if not valid_durations:
	return [0.0] * self.config.prosody_dim

	features = [
	np.mean(valid_durations),
	np.std(valid_durations),
	np.median(valid_durations),
	len([d for d in valid_durations if d > np.mean(valid_durations) * 1.5])
	]

	# Pad to prosody_dim
	while len(features) < self.config.prosody_dim:
	features.append(0.0)

	return features[:self.config.prosody_dim]

	def _print_class_distribution(self):
	"""Print class distribution"""
	label_counts = Counter(sample["labels"].item() for sample in self.samples)
	reverse_mapping = {v: k for k, v in self.aphasia_types_mapping.items()}

	log_message("\nClass Distribution:")
	for label_id, count in sorted(label_counts.items()):
	class_name = reverse_mapping.get(label_id, f"Unknown_{label_id}")
	log_message(f" {class_name}: {count} samples")

	def __len__(self):
	return len(self.samples)

	def __getitem__(self, idx):
	return self.samples[idx]

	# Stable data collator
	def stable_collate_fn(batch):
	"""Stable data collation"""
	if not batch or batch[0] is None:
	return None

	try:
	max_length = batch[0]["input_ids"].size(0)

	collated_batch = {
	"input_ids": torch.stack([item["input_ids"] for item in batch]),
	"attention_mask": torch.stack([item["attention_mask"] for item in batch]),
	"labels": torch.stack([item["labels"] for item in batch]),
	"sentence_ids": [item.get("sentence_id", "N/A") for item in batch],
	"word_pos_ids": torch.stack([item.get("word_pos_ids", torch.zeros(max_length, dtype=torch.long)) for item in batch]),
	"word_grammar_ids": torch.stack([item.get("word_grammar_ids", torch.zeros(max_length, 3, dtype=torch.long)) for item in batch]),
	"word_durations": torch.stack([item.get("word_durations", torch.zeros(max_length, dtype=torch.float)) for item in batch]),
	"prosody_features": torch.stack([item.get("prosody_features", torch.zeros(max_length, 32, dtype=torch.float)) for item in batch])
	}
	return collated_batch
	except Exception as e:
	log_message(f"Collation error: {e}")
	return None

	# Enhanced Training callback with adaptive learning rate
	class AdaptiveTrainingCallback(TrainerCallback):
	"""Enhanced training callback with adaptive learning rate and comprehensive tracking"""
	def __init__(self, config: ModelConfig, patience=5, min_delta=0.8):
	self.config = config
	self.patience = patience
	self.min_delta = min_delta
	self.best_metric = float('-inf')
	self.patience_counter = 0

	# Learning rate scheduler
	self.lr_scheduler = None

	# History tracker
	self.history_tracker = TrainingHistoryTracker()

	# Metrics for current epoch
	self.current_train_metrics = {}
	self.current_eval_metrics = {}

	def on_train_begin(self, args, state, control, **kwargs):
	"""Initialize learning rate scheduler"""
	if self.config.adaptive_lr:
	model = kwargs.get('model')
	optimizer = kwargs.get('optimizer')
	if optimizer and model:
	total_steps = state.max_steps if state.max_steps > 0 else len(kwargs.get('train_dataloader', [])) * args.num_train_epochs
	self.lr_scheduler = AdaptiveLearningRateScheduler(optimizer, self.config, total_steps)
	log_message("Adaptive learning rate scheduler initialized")

	def on_log(self, args, state, control, logs=None, **kwargs):
	"""Capture training metrics"""
	if logs:
	# Store training metrics
	if 'train_loss' in logs:
	self.current_train_metrics['loss'] = logs['train_loss']
	if 'learning_rate' in logs:
	self.current_train_metrics['lr'] = logs['learning_rate']

	def on_evaluate(self, args, state, control, logs=None, **kwargs):
	"""Handle evaluation and learning rate adjustment"""
	if logs is not None:
	current_metric = logs.get('eval_f1', 0)
	current_loss = logs.get('eval_loss', float('inf'))
	current_acc = logs.get('eval_accuracy', 0)

	# Store evaluation metrics
	self.current_eval_metrics = {
	'loss': current_loss,
	'f1': current_metric,
	'accuracy': current_acc,
	'precision': logs.get('eval_precision_macro', 0),
	'recall': logs.get('eval_recall_macro', 0)
	}

	# Update history
	epoch_metrics = {
	'train_loss': self.current_train_metrics.get('loss', 0),
	'eval_loss': current_loss,
	'train_accuracy': 0, # Will be computed separately if needed
	'eval_accuracy': current_acc,
	'train_f1': 0, # Will be computed separately if needed
	'eval_f1': current_metric,
	'learning_rate': self.current_train_metrics.get('lr', self.config.learning_rate),
	'train_precision': 0,
	'eval_precision': logs.get('eval_precision_macro', 0),
	'train_recall': 0,
	'eval_recall': logs.get('eval_recall_macro', 0)
	}

	self.history_tracker.update(state.epoch, epoch_metrics)

	# Adaptive learning rate adjustment
	if self.lr_scheduler and self.config.adaptive_lr:
	new_lr = self.lr_scheduler.adaptive_lr_calculation(current_loss, current_metric, current_acc)
	if current_acc > 0.84:
	log_message(f"Target accuracy reached ({current_acc:.2%}) → stopping and saving model")
	control.should_save = True
	control.should_training_stop = True
	return control
	# Early stopping logic
	if current_metric > self.best_metric + self.min_delta:
	self.best_metric = current_metric
	self.patience_counter = 0
	log_message(f"New best F1 score: {current_metric:.4f}")
	else:
	self.patience_counter += 1
	log_message(f"No improvement for {self.patience_counter} evaluations")

	if self.patience_counter >= self.patience:
	log_message("Early stopping triggered")
	control.should_training_stop = True

	clear_memory()

	def on_train_end(self, args, state, control, **kwargs):
	"""Save training history at the end"""
	output_dir = args.output_dir
	self.history_tracker.save_history(output_dir)
	self.history_tracker.plot_training_curves(output_dir)
	log_message("Training history and curves saved")

	# Metrics computation
	def compute_comprehensive_metrics(pred):
	"""Compute comprehensive evaluation metrics"""
	predictions = pred.predictions[0] if isinstance(pred.predictions, tuple) else pred.predictions
	labels = pred.label_ids

	preds = np.argmax(predictions, axis=1)

	acc = accuracy_score(labels, preds)
	f1_macro = f1_score(labels, preds, average='macro', zero_division=0)
	f1_weighted = f1_score(labels, preds, average='weighted', zero_division=0)
	precision_macro = precision_score(labels, preds, average='macro', zero_division=0)
	recall_macro = recall_score(labels, preds, average='macro', zero_division=0)

	# Per-class metrics
	f1_per_class = f1_score(labels, preds, average=None, zero_division=0)
	precision_per_class = precision_score(labels, preds, average=None, zero_division=0)
	recall_per_class = recall_score(labels, preds, average=None, zero_division=0)

	return {
	"accuracy": acc,
	"f1": f1_weighted,
	"f1_macro": f1_macro,
	"precision_macro": precision_macro,
	"recall_macro": recall_macro,
	"f1_std": np.std(f1_per_class),
	"precision_std": np.std(precision_per_class),
	"recall_std": np.std(recall_per_class)
	}

	# Enhanced analysis and visualization
	def generate_comprehensive_reports(trainer, eval_dataset, aphasia_types_mapping, tokenizer, output_dir):
	"""Generate comprehensive analysis reports and visualizations"""
	log_message("Generating comprehensive reports...")

	model = trainer.model
	if hasattr(model, 'module'):
	model = model.module

	model.eval()
	device = next(model.parameters()).device

	predictions = []
	true_labels = []
	sentence_ids = []
	severity_preds = []
	fluency_preds = []
	prediction_probs = []

	# Evaluation
	dataloader = DataLoader(eval_dataset, batch_size=8, collate_fn=stable_collate_fn)

	with torch.no_grad():
	for batch_idx, batch in enumerate(dataloader):
	if batch is None:
	continue

	# Move to device
	for key in ['input_ids', 'attention_mask', 'word_pos_ids',
	'word_grammar_ids', 'word_durations', 'labels', 'prosody_features']:
	if key in batch:
	batch[key] = batch[key].to(device)

	outputs = model(**batch)

	logits = outputs["logits"]
	probs = F.softmax(logits, dim=1)
	preds = torch.argmax(logits, dim=1).cpu().numpy()

	predictions.extend(preds)
	true_labels.extend(batch["labels"].cpu().numpy())
	sentence_ids.extend(batch["sentence_ids"])
	severity_preds.extend(outputs["severity_pred"].cpu().numpy())
	fluency_preds.extend(outputs["fluency_pred"].cpu().numpy())
	prediction_probs.extend(probs.cpu().numpy())

	# Analysis
	reverse_mapping = {v: k for k, v in aphasia_types_mapping.items()}

	# 1. 詳細預測結果
	log_message("=== DETAILED PREDICTIONS (First 20) ===")
	for i in range(min(20, len(predictions))):
	true_type = reverse_mapping.get(true_labels[i], 'Unknown')
	pred_type = reverse_mapping.get(predictions[i], 'Unknown')
	severity_level = np.argmax(severity_preds[i])
	fluency_score = fluency_preds[i][0] if isinstance(fluency_preds[i], np.ndarray) else fluency_preds[i]
	confidence = np.max(prediction_probs[i])

	log_message(f"ID: {sentence_ids[i]} \| True: {true_type} \| Pred: {pred_type} \| "
	f"Confidence: {confidence:.3f} \| Severity: {severity_level} \| Fluency: {fluency_score:.3f}")

	# 2. 混淆矩陣
	cm = confusion_matrix(true_labels, predictions)

	# Enhanced confusion matrix plot
	plt.figure(figsize=(14, 12))

	# Calculate percentages
	cm_percentage = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis] * 100

	# Create annotation array
	annotations = np.empty_like(cm, dtype=object)
	for i in range(cm.shape[0]):
	for j in range(cm.shape[1]):
	annotations[i, j] = f'{cm[i, j]}\n({cm_percentage[i, j]:.1f}%)'

	sns.heatmap(cm, annot=annotations, fmt='', cmap="Blues",
	xticklabels=list(aphasia_types_mapping.keys()),
	yticklabels=list(aphasia_types_mapping.keys()),
	cbar_kws={'label': 'Count'})

	plt.xlabel("Predicted Label", fontsize=12, fontweight='bold')
	plt.ylabel("True Label", fontsize=12, fontweight='bold')
	plt.title("Enhanced Confusion Matrix\n(Count and Percentage)", fontsize=14, fontweight='bold')
	plt.xticks(rotation=45, ha='right')
	plt.yticks(rotation=0)
	plt.tight_layout()
	plt.savefig(os.path.join(output_dir, "enhanced_confusion_matrix.png"), dpi=300, bbox_inches='tight')
	plt.close()

	# 3. 分類報告
	all_label_ids = list(aphasia_types_mapping.values())
	report_dict = classification_report(
	true_labels,
	predictions,
	labels=all_label_ids,
	target_names=list(aphasia_types_mapping.keys()),
	output_dict=True,
	zero_division=0
	)

	df_report = pd.DataFrame(report_dict).transpose()
	df_report.to_csv(os.path.join(output_dir, "comprehensive_classification_report.csv"))

	# 4. Per-class performance visualization
	class_names = list(aphasia_types_mapping.keys())
	metrics_data = []

	for i, class_name in enumerate(class_names):
	if class_name in report_dict:
	metrics_data.append({
	'Class': class_name,
	'Precision': report_dict[class_name]['precision'],
	'Recall': report_dict[class_name]['recall'],
	'F1-Score': report_dict[class_name]['f1-score'],
	'Support': report_dict[class_name]['support']
	})

	df_metrics = pd.DataFrame(metrics_data)
	df_metrics.to_csv(os.path.join(output_dir, "per_class_metrics.csv"), index=False)

	# Plot per-class performance
	fig, axes = plt.subplots(2, 2, figsize=(16, 12))

	# Precision
	axes[0, 0].bar(df_metrics['Class'], df_metrics['Precision'], color='skyblue', alpha=0.8)
	axes[0, 0].set_title('Precision by Class', fontweight='bold')
	axes[0, 0].set_ylabel('Precision')
	axes[0, 0].tick_params(axis='x', rotation=45)
	axes[0, 0].grid(True, alpha=0.3)

	# Recall
	axes[0, 1].bar(df_metrics['Class'], df_metrics['Recall'], color='lightcoral', alpha=0.8)
	axes[0, 1].set_title('Recall by Class', fontweight='bold')
	axes[0, 1].set_ylabel('Recall')
	axes[0, 1].tick_params(axis='x', rotation=45)
	axes[0, 1].grid(True, alpha=0.3)

	# F1-Score
	axes[1, 0].bar(df_metrics['Class'], df_metrics['F1-Score'], color='lightgreen', alpha=0.8)
	axes[1, 0].set_title('F1-Score by Class', fontweight='bold')
	axes[1, 0].set_ylabel('F1-Score')
	axes[1, 0].tick_params(axis='x', rotation=45)
	axes[1, 0].grid(True, alpha=0.3)

	# Support
	axes[1, 1].bar(df_metrics['Class'], df_metrics['Support'], color='gold', alpha=0.8)
	axes[1, 1].set_title('Support by Class', fontweight='bold')
	axes[1, 1].set_ylabel('Support (Number of Samples)')
	axes[1, 1].tick_params(axis='x', rotation=45)
	axes[1, 1].grid(True, alpha=0.3)

	plt.tight_layout()
	plt.savefig(os.path.join(output_dir, "per_class_performance.png"), dpi=300, bbox_inches='tight')
	plt.close()

	# 5. Prediction confidence distribution
	confidences = [np.max(prob) for prob in prediction_probs]
	correct_predictions = [pred == true for pred, true in zip(predictions, true_labels)]

	plt.figure(figsize=(12, 8))

	# Separate correct and incorrect predictions
	correct_confidences = [conf for conf, correct in zip(confidences, correct_predictions) if correct]
	incorrect_confidences = [conf for conf, correct in zip(confidences, correct_predictions) if not correct]

	plt.hist(correct_confidences, bins=30, alpha=0.7, label='Correct Predictions', color='green', density=True)
	plt.hist(incorrect_confidences, bins=30, alpha=0.7, label='Incorrect Predictions', color='red', density=True)

	plt.xlabel('Prediction Confidence', fontsize=12)
	plt.ylabel('Density', fontsize=12)
	plt.title('Distribution of Prediction Confidence', fontsize=14, fontweight='bold')
	plt.legend()
	plt.grid(True, alpha=0.3)
	plt.tight_layout()
	plt.savefig(os.path.join(output_dir, "confidence_distribution.png"), dpi=300, bbox_inches='tight')
	plt.close()

	# 6. 特徵分析
	log_message("=== FEATURE ANALYSIS ===")
	avg_severity = np.mean(severity_preds, axis=0)
	avg_fluency = np.mean(fluency_preds)
	std_fluency = np.std(fluency_preds)

	log_message(f"Average Severity Distribution: {avg_severity}")
	log_message(f"Average Fluency Score: {avg_fluency:.3f} ± {std_fluency:.3f}")

	# 7. 詳細結果保存
	results_df = pd.DataFrame({
	'sentence_id': sentence_ids,
	'true_label': [reverse_mapping[label] for label in true_labels],
	'predicted_label': [reverse_mapping[pred] for pred in predictions],
	'prediction_confidence': confidences,
	'correct_prediction': correct_predictions,
	'severity_level': [np.argmax(severity) for severity in severity_preds],
	'fluency_score': [fluency[0] if isinstance(fluency, np.ndarray) else fluency for fluency in fluency_preds]
	})

	# Add probability columns for each class
	for i, class_name in enumerate(aphasia_types_mapping.keys()):
	results_df[f'prob_{class_name}'] = [prob[i] for prob in prediction_probs]

	results_df.to_csv(os.path.join(output_dir, "comprehensive_results.csv"), index=False)

	# 8. 統計摘要
	summary_stats = {
	'Overall Accuracy': accuracy_score(true_labels, predictions),
	'Macro F1': f1_score(true_labels, predictions, average='macro'),
	'Weighted F1': f1_score(true_labels, predictions, average='weighted'),
	'Macro Precision': precision_score(true_labels, predictions, average='macro'),
	'Macro Recall': recall_score(true_labels, predictions, average='macro'),
	'Average Confidence': np.mean(confidences),
	'Confidence Std': np.std(confidences),
	'Average Severity': avg_severity.tolist(),
	'Average Fluency': avg_fluency,
	'Fluency Std': std_fluency
	}

	serializable_summary = {
	k: float(v) if isinstance(v, (np.floating, np.integer)) else v
	for k, v in summary_stats.items()
	}
	with open(os.path.join(output_dir, "summary_statistics.json"), "w") as f:
	json.dump(serializable_summary, f, indent=2)

	log_message("Comprehensive Classification Report:")
	log_message(df_report.to_string())
	log_message(f"Comprehensive results saved to {output_dir}")

	return results_df, df_report, summary_stats

	# Main training function with adaptive learning rate
	def train_adaptive_model(json_file: str, output_dir: str = "./adaptive_aphasia_model"):
	"""Main training function with adaptive learning rate"""

	log_message("Starting Adaptive Aphasia Classification Training")
	log_message("=" * 60)

	# Setup
	config = ModelConfig()
	os.makedirs(output_dir, exist_ok=True)

	# Device setup
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	log_message(f"Using device: {device}")

	# Load data
	log_message("Loading dataset...")
	with open(json_file, "r", encoding="utf-8") as f:
	dataset_json = json.load(f)

	sentences = dataset_json.get("sentences", [])

	# Normalize aphasia types
	for item in sentences:
	if "aphasia_type" in item:
	item["aphasia_type"] = normalize_type(item["aphasia_type"])

	# Aphasia types mapping
	aphasia_types_mapping = {
	"BROCA": 0,
	"TRANSMOTOR": 1,
	"NOTAPHASICBYWAB": 2,
	"CONDUCTION": 3,
	"WERNICKE": 4,
	"ANOMIC": 5,
	"GLOBAL": 6,
	"ISOLATION": 7,
	"TRANSSENSORY": 8
	}

	log_message(f"Aphasia Types Mapping: {aphasia_types_mapping}")

	num_labels = len(aphasia_types_mapping)
	log_message(f"Number of labels: {num_labels}")

	# Filter sentences
	filtered_sentences = []
	for item in sentences:
	aphasia_type = item.get("aphasia_type", "")
	if aphasia_type in aphasia_types_mapping:
	filtered_sentences.append(item)
	else:
	log_message(f"Excluding sentence with invalid type: {aphasia_type}")

	log_message(f"Filtered dataset: {len(filtered_sentences)} sentences")

	# Initialize tokenizer
	tokenizer = AutoTokenizer.from_pretrained(config.model_name)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# Create dataset
	random.shuffle(filtered_sentences)
	dataset_all = StableAphasiaDataset(
	filtered_sentences, tokenizer, aphasia_types_mapping, config
	)

	# Split dataset
	total_samples = len(dataset_all)
	train_size = int(0.8 * total_samples)
	eval_size = total_samples - train_size

	train_dataset, eval_dataset = torch.utils.data.random_split(
	dataset_all, [train_size, eval_size]
	)

	log_message(f"Train size: {train_size}, Eval size: {eval_size}")

	# Setup weighted sampling for class imbalance
	train_labels = [dataset_all.samples[idx]["labels"].item() for idx in train_dataset.indices]
	label_counts = Counter(train_labels)
	sample_weights = [1.0 / label_counts[label] for label in train_labels]
	sampler = WeightedRandomSampler(
	weights=sample_weights,
	num_samples=len(sample_weights),
	replacement=True
	)

	# Model initialization
	def model_init():
	model = StableAphasiaClassifier(config, num_labels)
	model.bert.resize_token_embeddings(len(tokenizer))
	return model.to(device)

	# Training arguments
	training_args = TrainingArguments(
	output_dir=output_dir,
	eval_strategy="epoch",
	save_strategy="epoch",
	learning_rate=config.learning_rate,
	per_device_train_batch_size=config.batch_size,
	per_device_eval_batch_size=config.batch_size,
	num_train_epochs=config.num_epochs,
	weight_decay=config.weight_decay,
	warmup_ratio=config.warmup_ratio,
	logging_strategy="steps",
	logging_steps=50,
	seed=42,
	dataloader_num_workers=0,
	gradient_accumulation_steps=config.gradient_accumulation_steps,
	max_grad_norm=1.0,
	fp16=False,
	dataloader_drop_last=True,
	report_to=None,
	load_best_model_at_end=True,
	metric_for_best_model="eval_f1",
	greater_is_better=True,
	save_total_limit=3,
	remove_unused_columns=False,
	)

	# Initialize trainer with adaptive callback
	trainer = Trainer(
	model_init=model_init,
	args=training_args,
	train_dataset=train_dataset,
	eval_dataset=eval_dataset,
	compute_metrics=compute_comprehensive_metrics,
	data_collator=stable_collate_fn,
	callbacks=[AdaptiveTrainingCallback(config, patience=5, min_delta=0.8)]
	)

	# Start training
	log_message("Starting adaptive training...")
	try:
	trainer.train()
	log_message("Training completed successfully!")
	except Exception as e:
	log_message(f"Training error: {str(e)}")
	import traceback
	log_message(traceback.format_exc())
	raise

	# Final evaluation
	log_message("Starting final evaluation...")
	eval_results = trainer.evaluate()
	log_message(f"Final evaluation results: {eval_results}")

	# Generate comprehensive reports
	results_df, report_df, summary_stats = generate_comprehensive_reports(
	trainer, eval_dataset, aphasia_types_mapping, tokenizer, output_dir
	)

	# Save model
	model_to_save = trainer.model
	if hasattr(model_to_save, 'module'):
	model_to_save = model_to_save.module

	torch.save(model_to_save.state_dict(), os.path.join(output_dir, "pytorch_model.bin"))
	tokenizer.save_pretrained(output_dir)

	# Save configuration
	config_dict = {
	"model_name": config.model_name,
	"num_labels": num_labels,
	"aphasia_types_mapping": aphasia_types_mapping,
	"training_args": training_args.to_dict(),
	"adaptive_lr_config": {
	"adaptive_lr": config.adaptive_lr,
	"lr_patience": config.lr_patience,
	"lr_factor": config.lr_factor,
	"lr_increase_factor": config.lr_increase_factor,
	"min_lr": config.min_lr,
	"max_lr": config.max_lr,
	"oscillation_amplitude": config.oscillation_amplitude
	}
	}

	with open(os.path.join(output_dir, "config.json"), "w") as f:
	json.dump(config_dict, f, indent=2)

	log_message(f"Adaptive model and comprehensive reports saved to {output_dir}")
	clear_memory()

	return trainer, eval_results, results_df

	# Cross-validation with adaptive learning rate
	def train_adaptive_cross_validation(json_file: str, output_dir: str = "./adaptive_cv_results", n_folds: int = 5):
	"""Cross-validation training with adaptive learning rate"""
	log_message("Starting Adaptive Cross-Validation Training")

	config = ModelConfig()
	os.makedirs(output_dir, exist_ok=True)

	# Load and prepare data
	with open(json_file, "r", encoding="utf-8") as f:
	dataset_json = json.load(f)

	sentences = dataset_json.get("sentences", [])

	# Normalize and filter
	for item in sentences:
	if "aphasia_type" in item:
	item["aphasia_type"] = normalize_type(item["aphasia_type"])

	aphasia_types_mapping = {
	"BROCA": 0, "TRANSMOTOR": 1, "NOTAPHASICBYWAB": 2,
	"CONDUCTION": 3, "WERNICKE": 4, "ANOMIC": 5,
	"GLOBAL": 6, "ISOLATION": 7, "TRANSSENSORY": 8
	}

	filtered_sentences = [s for s in sentences if s.get("aphasia_type") in aphasia_types_mapping]

	# Initialize tokenizer
	tokenizer = AutoTokenizer.from_pretrained(config.model_name)
	if tokenizer.pad_token is None:
	tokenizer.pad_token = tokenizer.eos_token

	# Create full dataset
	full_dataset = StableAphasiaDataset(
	filtered_sentences, tokenizer, aphasia_types_mapping, config
	)

	# Extract labels for stratification
	sample_labels = [sample["labels"].item() for sample in full_dataset.samples]

	# Cross-validation
	skf = StratifiedKFold(n_splits=n_folds, shuffle=True, random_state=42)
	fold_results = []
	all_predictions = []
	all_true_labels = []

	for fold, (train_idx, val_idx) in enumerate(skf.split(np.zeros(len(sample_labels)), sample_labels)):
	log_message(f"\n=== Fold {fold + 1}/{n_folds} ===")

	train_subset = Subset(full_dataset, train_idx)
	val_subset = Subset(full_dataset, val_idx)

	# Train single fold
	fold_trainer, fold_results_dict, fold_predictions = train_adaptive_single_fold(
	train_subset, val_subset, config, aphasia_types_mapping,
	tokenizer, fold, output_dir
	)

	fold_results.append({
	'fold': fold + 1,
	**fold_results_dict
	})

	# Collect predictions for ensemble analysis
	all_predictions.extend(fold_predictions['predictions'])
	all_true_labels.extend(fold_predictions['true_labels'])

	clear_memory()

	# Aggregate results
	results_df = pd.DataFrame(fold_results)
	results_df.to_csv(os.path.join(output_dir, "adaptive_cv_summary.csv"), index=False)

	# Cross-validation summary statistics
	cv_summary = {
	'mean_accuracy': results_df['accuracy'].mean(),
	'std_accuracy': results_df['accuracy'].std(),
	'mean_f1': results_df['f1'].mean(),
	'std_f1': results_df['f1'].std(),
	'mean_f1_macro': results_df['f1_macro'].mean(),
	'std_f1_macro': results_df['f1_macro'].std(),
	'mean_precision': results_df['precision_macro'].mean(),
	'std_precision': results_df['precision_macro'].std(),
	'mean_recall': results_df['recall_macro'].mean(),
	'std_recall': results_df['recall_macro'].std()
	}

	with open(os.path.join(output_dir, "cv_statistics.json"), "w") as f:
	json.dump(cv_summary, f, indent=2)

	# Overall confusion matrix across all folds
	overall_cm = confusion_matrix(all_true_labels, all_predictions)

	plt.figure(figsize=(12, 10))
	sns.heatmap(overall_cm, annot=True, fmt="d", cmap="Blues",
	xticklabels=list(aphasia_types_mapping.keys()),
	yticklabels=list(aphasia_types_mapping.keys()))
	plt.xlabel("Predicted Label")
	plt.ylabel("True Label")
	plt.title("Overall Confusion Matrix (All Folds)")
	plt.xticks(rotation=45)
	plt.yticks(rotation=0)
	plt.tight_layout()
	plt.savefig(os.path.join(output_dir, "overall_confusion_matrix.png"), dpi=300, bbox_inches='tight')
	plt.close()

	# Cross-validation results visualization
	fig, axes = plt.subplots(2, 2, figsize=(15, 12))

	# Accuracy across folds
	axes[0, 0].bar(range(1, n_folds + 1), results_df['accuracy'], color='skyblue', alpha=0.8)
	axes[0, 0].axhline(y=results_df['accuracy'].mean(), color='red', linestyle='--',
	label=f'Mean: {results_df["accuracy"].mean():.3f}')
	axes[0, 0].set_title('Accuracy Across Folds')
	axes[0, 0].set_xlabel('Fold')
	axes[0, 0].set_ylabel('Accuracy')
	axes[0, 0].legend()
	axes[0, 0].grid(True, alpha=0.3)

	# F1 Score across folds
	axes[0, 1].bar(range(1, n_folds + 1), results_df['f1'], color='lightgreen', alpha=0.8)
	axes[0, 1].axhline(y=results_df['f1'].mean(), color='red', linestyle='--',
	label=f'Mean: {results_df["f1"].mean():.3f}')
	axes[0, 1].set_title('F1 Score Across Folds')
	axes[0, 1].set_xlabel('Fold')
	axes[0, 1].set_ylabel('F1 Score')
	axes[0, 1].legend()
	axes[0, 1].grid(True, alpha=0.3)

	# Precision across folds
	axes[1, 0].bar(range(1, n_folds + 1), results_df['precision_macro'], color='coral', alpha=0.8)
	axes[1, 0].axhline(y=results_df['precision_macro'].mean(), color='red', linestyle='--',
	label=f'Mean: {results_df["precision_macro"].mean():.3f}')
	axes[1, 0].set_title('Precision Across Folds')
	axes[1, 0].set_xlabel('Fold')
	axes[1, 0].set_ylabel('Precision')
	axes[1, 0].legend()
	axes[1, 0].grid(True, alpha=0.3)

	# Recall across folds
	axes[1, 1].bar(range(1, n_folds + 1), results_df['recall_macro'], color='gold', alpha=0.8)
	axes[1, 1].axhline(y=results_df['recall_macro'].mean(), color='red', linestyle='--',
	label=f'Mean: {results_df["recall_macro"].mean():.3f}')
	axes[1, 1].set_title('Recall Across Folds')
	axes[1, 1].set_xlabel('Fold')
	axes[1, 1].set_ylabel('Recall')
	axes[1, 1].legend()
	axes[1, 1].grid(True, alpha=0.3)

	plt.tight_layout()
	plt.savefig(os.path.join(output_dir, "cv_performance_comparison.png"), dpi=300, bbox_inches='tight')
	plt.close()

	log_message("\n=== Adaptive Cross-Validation Summary ===")
	log_message(results_df.to_string(index=False))

	# Statistics
	log_message(f"\nMean F1: {results_df['f1'].mean():.4f} ± {results_df['f1'].std():.4f}")
	log_message(f"Mean Accuracy: {results_df['accuracy'].mean():.4f} ± {results_df['accuracy'].std():.4f}")
	log_message(f"Mean F1 Macro: {results_df['f1_macro'].mean():.4f} ± {results_df['f1_macro'].std():.4f}")

	return results_df, cv_summary

	def train_adaptive_single_fold(train_dataset, val_dataset, config, aphasia_types_mapping,
	tokenizer, fold, output_dir):
	"""Train a single fold with adaptive learning rate"""
	device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
	num_labels = len(aphasia_types_mapping)

	# Setup weighted sampling
	train_labels = [train_dataset[i]["labels"].item() for i in range(len(train_dataset))]
	label_counts = Counter(train_labels)
	sample_weights = [1.0 / label_counts[label] for label in train_labels]
	sampler = WeightedRandomSampler(weights=sample_weights, num_samples=len(sample_weights), replacement=True)

	# Model initialization
	def model_init():
	model = StableAphasiaClassifier(config, num_labels)
	model.bert.resize_token_embeddings(len(tokenizer))
	return model.to(device)

	# Training arguments
	fold_output_dir = os.path.join(output_dir, f"fold_{fold}")
	os.makedirs(fold_output_dir, exist_ok=True)

	training_args = TrainingArguments(
	output_dir=fold_output_dir,
	eval_strategy="epoch",
	save_strategy="epoch",
	learning_rate=config.learning_rate,
	per_device_train_batch_size=config.batch_size,
	per_device_eval_batch_size=config.batch_size,
	num_train_epochs=config.num_epochs,
	weight_decay=config.weight_decay,
	warmup_ratio=config.warmup_ratio,
	logging_steps=50,
	seed=42,
	dataloader_num_workers=0,
	gradient_accumulation_steps=config.gradient_accumulation_steps,
	max_grad_norm=1.0,
	fp16=False,
	dataloader_drop_last=True,
	report_to=None,
	load_best_model_at_end=True,
	metric_for_best_model="eval_f1",
	greater_is_better=True,
	save_total_limit=1,
	remove_unused_columns=False,
	)

	# Trainer with adaptive callback
	trainer = Trainer(
	model_init=model_init,
	args=training_args,
	train_dataset=train_dataset,
	eval_dataset=val_dataset,
	compute_metrics=compute_comprehensive_metrics,
	data_collator=stable_collate_fn,
	callbacks=[AdaptiveTrainingCallback(config, patience=5, min_delta=0.8)]
	)

	# Train
	trainer.train()

	# Evaluate
	eval_results = trainer.evaluate()

	# Get predictions for ensemble analysis
	predictions = trainer.predict(val_dataset)
	pred_labels = np.argmax(predictions.predictions[0] if isinstance(predictions.predictions, tuple) else predictions.predictions, axis=1)
	true_labels = predictions.label_ids

	fold_predictions = {
	'predictions': pred_labels.tolist(),
	'true_labels': true_labels.tolist()
	}

	# Save fold model
	model_to_save = trainer.model
	if hasattr(model_to_save, 'module'):
	model_to_save = model_to_save.module

	torch.save(model_to_save.state_dict(), os.path.join(fold_output_dir, "pytorch_model.bin"))

	return trainer, eval_results, fold_predictions

	# Main execution
	if __name__ == "__main__":
	import argparse

	parser = argparse.ArgumentParser(description="Adaptive Learning Rate Aphasia Classification Training")
	parser.add_argument("--output_dir", type=str, default="./adaptive_aphasia_model", help="Output directory")
	parser.add_argument("--cross_validation", action="store_true", help="Use cross-validation")
	parser.add_argument("--n_folds", type=int, default=5, help="Number of CV folds")
	parser.add_argument("--json_file", type=str, default=json_file, help="Path to JSON dataset file")
	parser.add_argument("--learning_rate", type=float, default=5e-4, help="Initial learning rate")
	parser.add_argument("--batch_size", type=int, default=24, help="Batch size")
	parser.add_argument("--num_epochs", type=int, default=3, help="Number of epochs")
	parser.add_argument("--adaptive_lr", action="store_true", default=True, help="Use adaptive learning rate")

	args = parser.parse_args()

	# Update config with command line arguments
	config = ModelConfig()
	config.learning_rate = args.learning_rate
	config.batch_size = args.batch_size
	config.num_epochs = args.num_epochs
	config.adaptive_lr = args.adaptive_lr

	try:
	clear_memory()

	log_message(f"Starting training with adaptive_lr={config.adaptive_lr}")
	log_message(f"Config: lr={config.learning_rate}, batch_size={config.batch_size}, epochs={config.num_epochs}")

	if args.cross_validation:
	results_df, cv_summary = train_adaptive_cross_validation(args.json_file, args.output_dir, args.n_folds)
	log_message("Cross-validation training completed!")
	else:
	trainer, eval_results, results_df = train_adaptive_model(args.json_file, args.output_dir)
	log_message("Single model training completed!")

	log_message("All adaptive training completed successfully!")

	except Exception as e:
	log_message(f"Training failed: {str(e)}")
	import traceback
	log_message(traceback.format_exc())
	finally:
	clear_memory()