py scripts

Browse files

Files changed (4) hide show

anomaly_intelligence.py +1260 -0
descritption_v2.py +942 -0
equipment_analysis.py +319 -0
training.py +1069 -0

anomaly_intelligence.py ADDED Viewed

	@@ -0,0 +1,1260 @@

+# enhanced_anomaly_intelligence_v2.py
+# TAQATHON 2025 - Production Anomaly Intelligence with Equipment Intelligence
+# Enhanced for single and batch processing with safety override rules
+import pandas as pd
+import numpy as np
+import joblib
+import json
+import re
+from datetime import datetime
+from sklearn.metrics.pairwise import cosine_similarity
+import warnings
+from typing import Union, List, Dict, Any
+import time
+warnings.filterwarnings('ignore')
+class EnhancedAnomalyIntelligence:
+    """
+    Enhanced Production-ready Anomaly Intelligence System v2.0
+    Features: Equipment Intelligence + Safety Override Rules + Conservative Prediction
+    """
+    def __init__(self):
+        self.models = {}
+        self.model_metadata = None
+        self.safety_rules = None
+        self.embeddings = None
+        self.embedding_metadata = None
+        self.sentence_model = None
+        self._models_loaded = False
+        # Equipment intelligence configuration
+        self.equipment_type_scores = {}
+        self.section_risk_multipliers = {}
+    def _load_models(self):
+        """Load all enhanced models and metadata (called once)"""
+        if self._models_loaded:
+            return
+        print("Loading enhanced models and metadata...")
+        try:
+            # Load enhanced model metadata
+            self.model_metadata = joblib.load('enhanced_model_metadata_v2.joblib')
+            target_columns = self.model_metadata['target_columns']
+            # Load enhanced trained models
+            for target in target_columns:
+                model_filename = f"enhanced_model_{target.replace(' ', '_').replace('é', 'e')}_v2.joblib"
+                self.models[target] = joblib.load(model_filename)
+                print(f"✓ Loaded {target} model")
+            # Load safety override rules
+            try:
+                with open('safety_override_rules_v2.json', 'r') as f:
+                    self.safety_rules = json.load(f)
+                print("✓ Loaded safety override rules")
+            except FileNotFoundError:
+                print("⚠️ Warning: safety_override_rules_v2.json not found - safety rules disabled")
+                self.safety_rules = {}
+            # Load embeddings and metadata for similarity search
+            try:
+                self.embeddings = np.load('anomaly_embeddings.npy')
+                self.embedding_metadata = joblib.load('embedding_metadata.joblib')
+                print("✓ Loaded similarity search embeddings")
+            except FileNotFoundError:
+                print("⚠️ Warning: Embedding files not found - similarity search disabled")
+                self.embeddings = None
+                self.embedding_metadata = None
+            # Load sentence transformer
+            try:
+                from sentence_transformers import SentenceTransformer
+                try:
+                    self.sentence_model = SentenceTransformer('dangvantuan/sentence-camembert-large')
+                    print("✓ Loaded French CamemBERT model")
+                except:
+                    try:
+                        self.sentence_model = SentenceTransformer('paraphrase-multilingual-MiniLM-L12-v2')
+                        print("✓ Loaded multilingual model")
+                    except:
+                        self.sentence_model = SentenceTransformer('distiluse-base-multilingual-cased')
+                        print("✓ Loaded basic multilingual model")
+            except Exception as e:
+                print(f"⚠️ Warning: Could not load sentence transformer: {e}")
+                self.sentence_model = None
+            # Extract equipment intelligence configuration
+            if 'training_config' in self.model_metadata:
+                training_config = self.model_metadata['training_config']
+                print("✓ Loaded training configuration")
+            self._models_loaded = True
+            print("✓ All enhanced models loaded successfully")
+        except Exception as e:
+            raise Exception(f"Failed to load enhanced models: {str(e)}")
+    def predict_single(self, anomaly_data: Dict,
+                      confidence_threshold: float = 0.7,
+                      include_similar: bool = True,
+                      format_type: str = 'rich',
+                      apply_safety_rules: bool = True) -> Dict:
+        """
+        Enhanced single anomaly prediction with equipment intelligence and safety rules
+        Args:
+            anomaly_data: Dictionary with anomaly information
+            confidence_threshold: Threshold for flagging manual review
+            include_similar: Whether to include similar anomalies
+            format_type: 'rich' for UI, 'simple' for database
+            apply_safety_rules: Whether to apply safety override rules
+        """
+        self._load_models()
+        try:
+            # Extract and prepare enhanced features
+            enhanced_features = self._extract_enhanced_features_single(anomaly_data)
+            # Make base predictions
+            predictions, confidences, probabilities = self._predict_criticality(enhanced_features)
+            # Apply safety override rules if enabled
+            if apply_safety_rules and self.safety_rules:
+                predictions = self._apply_safety_override_rules(enhanced_features, predictions)
+            # Calculate enhanced metrics
+            total_criticality = sum(predictions.values())
+            overall_confidence = np.mean(list(confidences.values()))
+            # Enhanced business logic for manual review
+            needs_review = self._determine_manual_review_need(
+                enhanced_features, predictions, overall_confidence, confidence_threshold
+            )
+            # Equipment-specific risk assessment
+            equipment_risk_assessment = self._assess_equipment_risk(enhanced_features, predictions)
+            # Find similar anomalies
+            similar_anomalies = []
+            if include_similar and self.sentence_model is not None:
+                similar_anomalies = self._find_similar_anomalies(
+                    anomaly_data.get('Description', ''), top_k=3
+                )
+            # Format response based on type
+            if format_type == 'simple':
+                return self._format_simple_response(
+                    anomaly_data, predictions, total_criticality,
+                    overall_confidence, needs_review, equipment_risk_assessment
+                )
+            else:
+                return self._format_rich_response(
+                    anomaly_data, predictions, confidences,
+                    total_criticality, overall_confidence,
+                    similar_anomalies, needs_review, confidence_threshold,
+                    equipment_risk_assessment, enhanced_features
+                )
+        except Exception as e:
+            return {
+                'error': f'Enhanced prediction failed: {str(e)}',
+                'timestamp': datetime.now().isoformat(),
+                'input_description': anomaly_data.get('Description', 'N/A')
+            }
+    def predict_batch(self, anomaly_list: List[Dict],
+                     confidence_threshold: float = 0.7,
+                     include_similar: bool = False,
+                     format_type: str = 'simple',
+                     apply_safety_rules: bool = True) -> List[Dict]:
+        """
+        Enhanced batch prediction with equipment intelligence
+        Args:
+            anomaly_list: List of anomaly dictionaries
+            confidence_threshold: Threshold for flagging manual review
+            include_similar: Whether to include similar anomalies (slower for batch)
+            format_type: 'rich' for UI, 'simple' for database
+            apply_safety_rules: Whether to apply safety override rules
+        """
+        self._load_models()
+        print(f"Processing enhanced batch of {len(anomaly_list)} anomalies...")
+        start_time = time.time()
+        results = []
+        try:
+            # Extract enhanced features for all anomalies
+            all_features = []
+            for anomaly_data in anomaly_list:
+                enhanced_features = self._extract_enhanced_features_single(anomaly_data)
+                all_features.append(enhanced_features)
+            # Create batch DataFrame with all enhanced features
+            batch_df = pd.DataFrame(all_features)
+            # Make batch predictions
+            batch_predictions = {}
+            batch_confidences = {}
+            target_columns = self.model_metadata['target_columns']
+            for target in target_columns:
+                model = self.models[target]
+                preds = model.predict(batch_df)
+                probas = model.predict_proba(batch_df)
+                confs = np.max(probas, axis=1)
+                batch_predictions[target] = preds
+                batch_confidences[target] = confs
+            # Process results with enhanced logic
+            for i, anomaly_data in enumerate(anomaly_list):
+                # Get base predictions
+                predictions = {target: int(batch_predictions[target][i])
+                             for target in target_columns}
+                confidences = {target: float(batch_confidences[target][i])
+                             for target in target_columns}
+                enhanced_features = all_features[i]
+                # Apply safety override rules if enabled
+                if apply_safety_rules and self.safety_rules:
+                    predictions = self._apply_safety_override_rules(enhanced_features, predictions)
+                total_criticality = sum(predictions.values())
+                overall_confidence = np.mean(list(confidences.values()))
+                # Enhanced business logic
+                needs_review = self._determine_manual_review_need(
+                    enhanced_features, predictions, overall_confidence, confidence_threshold
+                )
+                equipment_risk_assessment = self._assess_equipment_risk(enhanced_features, predictions)
+                # Find similar anomalies (optional for batch)
+                similar_anomalies = []
+                if include_similar and self.sentence_model is not None:
+                    similar_anomalies = self._find_similar_anomalies(
+                        anomaly_data.get('Description', ''), top_k=2
+                    )
+                # Format response
+                if format_type == 'simple':
+                    result = self._format_simple_response(
+                        anomaly_data, predictions, total_criticality,
+                        overall_confidence, needs_review, equipment_risk_assessment
+                    )
+                else:
+                    result = self._format_rich_response(
+                        anomaly_data, predictions, confidences,
+                        total_criticality, overall_confidence,
+                        similar_anomalies, needs_review, confidence_threshold,
+                        equipment_risk_assessment, enhanced_features
+                    )
+                results.append(result)
+            processing_time = time.time() - start_time
+            print(f"✓ Enhanced batch processing completed in {processing_time:.2f}s")
+            print(f"  Average time per anomaly: {processing_time/len(anomaly_list):.3f}s")
+            flagged_count = sum(1 for r in results if r.get('needs_manual_review', False))
+            safety_overrides = sum(1 for r in results if r.get('safety_override_applied', False))
+            print(f"  Flagged for manual review: {flagged_count}/{len(anomaly_list)} ({flagged_count/len(anomaly_list)*100:.1f}%)")
+            print(f"  Safety overrides applied: {safety_overrides}/{len(anomaly_list)} ({safety_overrides/len(anomaly_list)*100:.1f}%)")
+            return results
+        except Exception as e:
+            # Return error for all items in batch
+            error_result = {
+                'error': f'Enhanced batch prediction failed: {str(e)}',
+                'timestamp': datetime.now().isoformat()
+            }
+            return [error_result] * len(anomaly_list)
+    def _extract_enhanced_features_single(self, anomaly_data: Dict) -> Dict:
+        """Extract enhanced features including equipment intelligence"""
+        # Create temporary DataFrame for feature engineering
+        temp_df = pd.DataFrame([anomaly_data])
+        # Apply enhanced feature engineering (matching training pipeline)
+        enhanced_features = self._extract_enhanced_features(temp_df)
+        # Prepare feature dict with all required features
+        feature_columns = self.model_metadata.get('all_feature_columns', [])
+        input_data = {}
+        # Text feature
+        input_data['Description'] = anomaly_data.get('Description', '')
+        # Enhanced numerical features
+        numerical_features = self.model_metadata.get('numerical_features', [])
+        for feat in numerical_features:
+            if feat in enhanced_features.columns:
+                value = enhanced_features[feat].iloc[0]
+                # Ensure proper type conversion
+                if pd.isna(value):
+                    input_data[feat] = 0.0
+                elif isinstance(value, (bool, np.bool_)):
+                    input_data[feat] = float(value)
+                else:
+                    input_data[feat] = float(value)
+            else:
+                input_data[feat] = 0.0
+        # Categorical features
+        categorical_features = self.model_metadata.get('categorical_features', [])
+        for feat in categorical_features:
+            input_data[feat] = anomaly_data.get(feat, 'Unknown')
+        return input_data
+    def _extract_enhanced_features(self, df):
+        """Extract enhanced features (matching training pipeline logic)"""
+        import re
+        features_df = df.copy()
+        # Create combined text field
+        features_df['combined_text'] = features_df['Description'].fillna('') + ' ' + features_df.get('Description de l\'équipement', '').fillna('')
+        features_df['combined_text_lower'] = features_df['combined_text'].str.lower()
+        # Basic text features
+        features_df['description_length'] = features_df['Description'].str.len()
+        features_df['description_word_count'] = features_df['Description'].str.split().str.len()
+        features_df['equipment_desc_length'] = features_df.get('Description de l\'équipement', '').str.len()
+        features_df['equipment_desc_word_count'] = features_df.get('Description de l\'équipement', '').str.split().str.len()
+        features_df['combined_length'] = features_df['combined_text'].str.len()
+        features_df['combined_word_count'] = features_df['combined_text'].str.split().str.len()
+        # Equipment intelligence classification
+        def classify_equipment_type(equipment_desc):
+            """Classify equipment based on training analysis"""
+            equipment_upper = str(equipment_desc).upper()
+            # Equipment type scoring (from training pipeline)
+            if any(keyword in equipment_upper for keyword in ['ALTERNATEUR', 'TRANSFO PRINCIPAL', 'PROTECTION ALTERNATEUR']):
+                return 'ELECTRICAL_CRITICAL', 8.0
+            elif any(keyword in equipment_upper for keyword in ['VENTILATEUR DE REFROIDISSEMENT', 'REFROIDISSEMENT TP', 'MOTEUR VENTILATEUR DE REFROIDISSEMENT']):
+                return 'COOLING_CRITICAL', 7.5
+            elif any(keyword in equipment_upper for keyword in ['TURBINE', 'SOUPAPE REGULATRICE', 'REFRIGERANT HUILE', 'POMPE DE SOULÈVEMENT']):
+                return 'TURBINE_SYSTEMS', 7.5
+            elif any(keyword in equipment_upper for keyword in ['DISJONCTEUR', 'TRANSFORMATEUR', 'MOTEUR', 'ARMOIRE', 'GROUPE']):
+                return 'ELECTRICAL_STANDARD', 6.5
+            elif any(keyword in equipment_upper for keyword in ['RECHAUFFEUR', 'RÉCHAUFFEUR', 'CHAUDIERE', 'CHAUDIÈRE']):
+                return 'HEATING_SYSTEMS', 6.5
+            elif any(keyword in equipment_upper for keyword in ['VENTILATEUR', 'TIRAGE', 'SOUFFLAGE', 'AIR PRIMAIRE', 'AIR SECONDAIRE']):
+                return 'VENTILATION_SYSTEMS', 6.0
+            elif any(keyword in equipment_upper for keyword in ['POMPE', 'SOUPAPE', 'VANNE', 'CONVOYEUR', 'BROYEUR', 'COAL FEEDER']):
+                return 'PROCESS_SYSTEMS', 5.5
+            elif any(keyword in equipment_upper for keyword in ['DECRASSEUR', 'DÉGRILLEUR', 'FILTRE', 'CAPTEUR', 'TRANSMETTEUR']):
+                return 'AUXILIARY_SYSTEMS', 5.0
+            else:
+                return 'UNKNOWN', 4.5
+        def detect_equipment_redundancy(equipment_desc):
+            """Detect equipment redundancy based on naming patterns"""
+            equipment_upper = str(equipment_desc).upper()
+            if any(pattern in equipment_upper for pattern in ['PRINCIPAL', 'UNIQUE']):
+                return 'SINGLE_CRITICAL', 1.3
+            elif any(re.search(pattern, equipment_upper) for pattern in [r'\b[AB]$', r'N°[12]$', r'PRIMAIRE$', r'SECONDAIRE$']):
+                return 'DUAL_SYSTEM', 1.0
+            elif any(re.search(pattern, equipment_upper) for pattern in [r'N°[3-9]$', r'N°[0-9][0-9]$']):
+                return 'MULTIPLE_SYSTEM', 0.8
+            else:
+                return 'UNKNOWN_REDUNDANCY', 1.0
+        # Apply equipment intelligence
+        if 'Description de l\'équipement' in features_df.columns:
+            equipment_classifications = features_df['Description de l\'équipement'].apply(classify_equipment_type)
+            features_df['equipment_type_class'] = [x[0] for x in equipment_classifications]
+            features_df['equipment_base_criticality'] = [x[1] for x in equipment_classifications]
+            redundancy_classifications = features_df['Description de l\'équipement'].apply(detect_equipment_redundancy)
+            features_df['equipment_redundancy_class'] = [x[0] for x in redundancy_classifications]
+            features_df['equipment_redundancy_multiplier'] = [x[1] for x in redundancy_classifications]
+        else:
+            features_df['equipment_type_class'] = 'UNKNOWN'
+            features_df['equipment_base_criticality'] = 4.5
+            features_df['equipment_redundancy_class'] = 'UNKNOWN_REDUNDANCY'
+            features_df['equipment_redundancy_multiplier'] = 1.0
+        # Section risk multiplier
+        section_risk_multipliers = {'34EL': 1.2, '34MM': 1.1, '34MD': 1.1, '34MC': 1.0, '34CT': 1.0}
+        features_df['section_risk_multiplier'] = features_df.get('Section propriétaire', '').map(section_risk_multipliers).fillna(1.0)
+        # Combined equipment risk score
+        features_df['equipment_risk_score'] = (features_df['equipment_base_criticality'] *
+                                             features_df['equipment_redundancy_multiplier'] *
+                                             features_df['section_risk_multiplier'])
+        # Enhanced keyword extraction
+        def extract_keywords_dual_field(description, equipment_desc, keyword_dict):
+            """Extract keywords from both description and equipment description"""
+            combined_text = (str(description) + ' ' + str(equipment_desc)).lower()
+            found_keywords = []
+            for category, keywords in keyword_dict.items():
+                for keyword in keywords:
+                    if keyword in combined_text:
+                        found_keywords.append(category)
+                        break
+            return found_keywords
+        # Keyword dictionaries (from training pipeline)
+        equipment_keywords = {
+            'pompe': ['pompe', 'pompes'],
+            'vanne': ['vanne', 'vannes'],
+            'ventilateur': ['ventilateur', 'ventilateurs', 'ventilo'],
+            'moteur': ['moteur', 'moteurs', 'moto'],
+            'alternateur': ['alternateur', 'alternateurs'],
+            'transformateur': ['transformateur', 'transformateurs', 'transfo'],
+            'turbine': ['turbine', 'turbines'],
+            'principal': ['principal', 'principale'],
+            'groupe': ['groupe', 'groupes']
+        }
+        problem_keywords = {
+            'fuite': ['fuite', 'fuites', 'fuit', 'fuyant'],
+            'vibration': ['vibration', 'vibrations', 'vibre'],
+            'bruit_anormal': ['bruit anormal', 'bruit anormale'],
+            'percement': ['percement', 'percé', 'percée'],
+            'éclatement': ['éclatement', 'eclatement'],
+            'fissure': ['fissure', 'fissuré', 'fissures'],
+            'aggravation': ['aggravation'],
+            'sifflement': ['sifflement', 'siffler'],
+            'défaillance': ['défaillance', 'défaillant'],
+            'dysfonctionnement': ['dysfonctionnement', 'dysfonctionnel'],
+            'sens_inverse': ['sens inverse', 'sens contraire'],
+            'surchauffe': ['surchauffe', 'surchauffé', 'température élevée', 'temp elevee']
+        }
+        action_keywords = {
+            'maintenance': ['maintenance', 'entretien'],
+            'prévision': ['prévoir', 'prévoire', 'prevoir'],
+            'remplacement': ['remplacement', 'remplacer', 'remplacé']
+        }
+        urgency_keywords = {
+            'safety': ['safety', 'sécurité'],
+            'urgent': ['urgent', 'urgence'],
+            'critique': ['critique', 'critiques'],
+            'important': ['important', 'importante']
+        }
+        # Apply keyword extraction
+        description_col = features_df['Description']
+        equipment_col = features_df.get('Description de l\'équipement', '')
+        features_df['equipment_mentioned'] = features_df.apply(
+            lambda row: extract_keywords_dual_field(row['Description'], row.get('Description de l\'équipement', ''), equipment_keywords),
+            axis=1
+        )
+        features_df['equipment_count'] = features_df['equipment_mentioned'].str.len()
+        features_df['problem_types'] = features_df.apply(
+            lambda row: extract_keywords_dual_field(row['Description'], row.get('Description de l\'équipement', ''), problem_keywords),
+            axis=1
+        )
+        features_df['problem_count'] = features_df['problem_types'].str.len()
+        features_df['actions_mentioned'] = features_df.apply(
+            lambda row: extract_keywords_dual_field(row['Description'], row.get('Description de l\'équipement', ''), action_keywords),
+            axis=1
+        )
+        features_df['action_count'] = features_df['actions_mentioned'].str.len()
+        features_df['urgency_indicators'] = features_df.apply(
+            lambda row: extract_keywords_dual_field(row['Description'], row.get('Description de l\'équipement', ''), urgency_keywords),
+            axis=1
+        )
+        features_df['has_urgency'] = (features_df['urgency_indicators'].str.len() > 0).astype(int)
+        # Critical failure pattern detection
+        features_df['has_structural_failure'] = features_df['combined_text_lower'].str.contains(
+            'percement|éclatement|eclatement|fissure|rupture', regex=True, na=False
+        ).astype(int)
+        features_df['has_equipment_malfunction'] = features_df['combined_text_lower'].str.contains(
+            'sens inverse|dysfonctionnement|défaillance|défaut|panne', regex=True, na=False
+        ).astype(int)
+        features_df['has_escalation'] = features_df['combined_text_lower'].str.contains(
+            'aggravation|empiré|empire', regex=True, na=False
+        ).astype(int)
+        features_df['has_safety_mention'] = features_df['Description'].str.contains('SAFETY', case=False, na=False).astype(int)
+        # Specific high-risk combinations
+        features_df['electrical_cooling_issue'] = (
+            (features_df['equipment_type_class'].isin(['ELECTRICAL_CRITICAL', 'ELECTRICAL_STANDARD'])) &
+            (features_df['combined_text_lower'].str.contains('refroidissement|ventilateur|température', regex=True, na=False))
+        ).astype(int)
+        features_df['turbine_oil_issue'] = (
+            (features_df['equipment_type_class'] == 'TURBINE_SYSTEMS') &
+            (features_df['combined_text_lower'].str.contains('huile|fuite|graissage', regex=True, na=False))
+        ).astype(int)
+        features_df['main_equipment_failure'] = (
+            (features_df['equipment_redundancy_class'] == 'SINGLE_CRITICAL') &
+            (features_df['has_structural_failure'] == 1)
+        ).astype(int)
+        # Enhanced compound features
+        features_df['fuite_vapeur'] = features_df['combined_text_lower'].str.contains('fuite.*vapeur|vapeur.*fuite', regex=True, na=False).astype(int)
+        features_df['fuite_huile'] = features_df['combined_text_lower'].str.contains('fuite.*huile|huile.*fuite', regex=True, na=False).astype(int)
+        features_df['fuite_eau'] = features_df['combined_text_lower'].str.contains('fuite.*eau|eau.*fuite', regex=True, na=False).astype(int)
+        features_df['bruit_anormal'] = features_df['combined_text_lower'].str.contains('bruit anormal', regex=True, na=False).astype(int)
+        features_df['vibration_excessive'] = features_df['combined_text_lower'].str.contains('vibration.*excessive|vibration.*élevée', regex=True, na=False).astype(int)
+        features_df['temperature_elevee'] = features_df['combined_text_lower'].str.contains('température élevée|temp élevée|temp elevee', regex=True, na=False).astype(int)
+        features_df['maintenance_planning'] = features_df['combined_text_lower'].str.contains('prévoir|prévoire|planifier', regex=True, na=False).astype(int)
+        features_df['is_recurring'] = features_df['combined_text_lower'].str.contains('fréquent|répétitif|souvent', regex=True, na=False).astype(int)
+        # Technical features
+        features_df['has_measurements'] = features_df['combined_text_lower'].str.contains(r'\d+\s*°c|\d+\s*bar|\d+\s*%', regex=True, na=False).astype(int)
+        features_df['has_equipment_codes'] = features_df['combined_text_lower'].str.contains(r'[A-Z0-9]{5,}', regex=True, na=False).astype(int)
+        features_df['has_location_details'] = features_df['combined_text_lower'].str.contains('niveau|angle|côté|palier', regex=True, na=False).astype(int)
+        # Enhanced severity scoring
+        severity_words = {
+            'critique': 4, 'grave': 4, 'majeur': 4, 'important': 3,
+            'total': 5, 'complet': 5, 'rupture': 5, 'éclatement': 5,
+            'percement': 5, 'fissure': 4, 'aggravation': 4, 'urgent': 3
+        }
+        def calculate_enhanced_severity_score(text):
+            text = str(text).lower()
+            max_score = 0
+            for word, weight in severity_words.items():
+                if word in text:
+                    max_score = max(max_score, weight)
+            return max_score
+        features_df['enhanced_severity_score'] = features_df['combined_text_lower'].apply(calculate_enhanced_severity_score)
+        # Equipment-Problem Risk Matrix
+        def calculate_equipment_problem_risk(equipment_type, problem_types, has_structural):
+            base_risk = 1.0
+            if equipment_type in ['ELECTRICAL_CRITICAL', 'TURBINE_SYSTEMS', 'COOLING_CRITICAL']:
+                base_risk = 1.5
+            elif equipment_type in ['ELECTRICAL_STANDARD', 'HEATING_SYSTEMS']:
+                base_risk = 1.2
+            if has_structural:
+                base_risk *= 2.0
+            if 'vibration' in problem_types:
+                base_risk *= 1.3
+            if 'fuite' in problem_types:
+                base_risk *= 1.2
+            return min(base_risk, 3.0)
+        features_df['equipment_problem_risk'] = features_df.apply(
+            lambda row: calculate_equipment_problem_risk(
+                row['equipment_type_class'],
+                row['problem_types'],
+                row['has_structural_failure']
+            ), axis=1
+        )
+        # Technical complexity
+        features_df['technical_complexity'] = (
+            features_df['combined_word_count'] / 15 +
+            features_df['equipment_count'] +
+            features_df['problem_count'] +
+            features_df['has_measurements'] +
+            features_df['has_equipment_codes'] +
+            features_df['has_location_details']
+        )
+        # Fill missing values and ensure proper types
+        numeric_columns = features_df.select_dtypes(include=[np.number]).columns
+        features_df[numeric_columns] = features_df[numeric_columns].fillna(0)
+        for col in features_df.select_dtypes(include=[np.integer, np.floating, bool]).columns:
+            features_df[col] = pd.to_numeric(features_df[col], errors='coerce').fillna(0)
+        return features_df
+    def _predict_criticality(self, input_data: Dict) -> tuple:
+        """Make criticality predictions using enhanced models"""
+        # Convert to DataFrame
+        input_df = pd.DataFrame([input_data])
+        target_columns = self.model_metadata['target_columns']
+        predictions = {}
+        confidences = {}
+        probabilities = {}
+        for target in target_columns:
+            model = self.models[target]
+            pred = model.predict(input_df)[0]
+            pred_proba = model.predict_proba(input_df)[0]
+            confidence = np.max(pred_proba)
+            predictions[target] = int(pred)
+            confidences[target] = float(confidence)
+            probabilities[target] = [float(x) for x in pred_proba]
+        return predictions, confidences, probabilities
+    def _apply_safety_override_rules(self, enhanced_features: Dict, predictions: Dict) -> Dict:
+        """Apply safety override rules to predictions"""
+    def _apply_safety_override_rules(self, enhanced_features: Dict, predictions: Dict) -> Dict:
+        """Apply safety override rules to predictions"""
+        if not self.safety_rules:
+            return predictions
+        modified_predictions = predictions.copy()
+        safety_override_applied = False
+        # Rule 1: Structural failure override
+        if enhanced_features.get('has_structural_failure', 0) == 1:
+            # Ensure minimum criticality of 9 for structural failures
+            total_current = sum(modified_predictions.values())
+            if total_current < 9:
+                # Boost Process Safety to 5 first (most critical for structural failures)
+                if modified_predictions['Process Safety'] < 5:
+                    modified_predictions['Process Safety'] = 5
+                    safety_override_applied = True
+                # Then boost Fiabilité if still needed
+                total_after_safety = sum(modified_predictions.values())
+                if total_after_safety < 9:
+                    needed_boost = 9 - total_after_safety
+                    new_fiabilite = min(5, modified_predictions['Fiabilité Intégrité'] + needed_boost)
+                    modified_predictions['Fiabilité Intégrité'] = new_fiabilite
+                    safety_override_applied = True
+        # Rule 2: Cooling critical equipment override
+        if enhanced_features.get('equipment_type_class', '') == 'COOLING_CRITICAL':
+            # Ensure minimum criticality of 10 for cooling critical equipment
+            total_current = sum(modified_predictions.values())
+            if total_current < 10:
+                # Boost all components proportionally
+                needed_boost = 10 - total_current
+                for component in modified_predictions:
+                    if modified_predictions[component] < 5:
+                        boost = min(2, needed_boost // 3 + 1)
+                        modified_predictions[component] = min(5, modified_predictions[component] + boost)
+                        needed_boost -= boost
+                        safety_override_applied = True
+                        if needed_boost <= 0:
+                            break
+        # Rule 3: Safety mention boost
+        if enhanced_features.get('has_safety_mention', 0) == 1:
+            # Add +2 to Process Safety for safety mentions
+            if modified_predictions['Process Safety'] < 5:
+                boost = min(2, 5 - modified_predictions['Process Safety'])
+                modified_predictions['Process Safety'] += boost
+                safety_override_applied = True
+        # Rule 4: Turbine oil issue override
+        if enhanced_features.get('turbine_oil_issue', 0) == 1:
+            # Ensure minimum criticality of 8 for turbine oil issues
+            total_current = sum(modified_predictions.values())
+            if total_current < 8:
+                # Boost Fiabilité and Disponibilité (oil issues affect both)
+                needed_boost = 8 - total_current
+                for component in ['Fiabilité Intégrité', 'Disponibilté']:
+                    if needed_boost > 0 and modified_predictions[component] < 4:
+                        boost = min(2, needed_boost)
+                        modified_predictions[component] = min(5, modified_predictions[component] + boost)
+                        needed_boost -= boost
+                        safety_override_applied = True
+        # Rule 5: Electrical critical equipment override
+        if enhanced_features.get('equipment_type_class', '') == 'ELECTRICAL_CRITICAL':
+            # Conservative boost for electrical critical equipment
+            for component in modified_predictions:
+                if modified_predictions[component] >= 3:  # Only boost already elevated predictions
+                    boost = min(1, 5 - modified_predictions[component])
+                    if boost > 0:
+                        modified_predictions[component] += boost
+                        safety_override_applied = True
+        return modified_predictions
+    def _determine_manual_review_need(self, enhanced_features: Dict, predictions: Dict,
+                                    overall_confidence: float, confidence_threshold: float) -> bool:
+        """Enhanced logic to determine if manual review is needed"""
+        # Base confidence check
+        if overall_confidence < confidence_threshold:
+            return True
+        # Critical equipment always needs review for high predictions
+        if enhanced_features.get('equipment_type_class', '') in ['ELECTRICAL_CRITICAL', 'COOLING_CRITICAL', 'TURBINE_SYSTEMS']:
+            if sum(predictions.values()) >= 8:
+                return True
+        # Structural failures always need review
+        if enhanced_features.get('has_structural_failure', 0) == 1:
+            return True
+        # Safety mentions need review
+        if enhanced_features.get('has_safety_mention', 0) == 1:
+            return True
+        # High criticality cases need review
+        if sum(predictions.values()) >= 10:
+            return True
+        # Equipment malfunction with high-risk equipment
+        if (enhanced_features.get('has_equipment_malfunction', 0) == 1 and
+            enhanced_features.get('equipment_type_class', '') in ['ELECTRICAL_CRITICAL', 'TURBINE_SYSTEMS']):
+            return True
+        return False
+    def _assess_equipment_risk(self, enhanced_features: Dict, predictions: Dict) -> Dict:
+        """Assess equipment-specific risk factors"""
+        equipment_type = enhanced_features.get('equipment_type_class', 'UNKNOWN')
+        total_criticality = sum(predictions.values())
+        risk_assessment = {
+            'equipment_type': equipment_type,
+            'redundancy_class': enhanced_features.get('equipment_redundancy_class', 'UNKNOWN'),
+            'base_risk_score': enhanced_features.get('equipment_risk_score', 4.5),
+            'risk_level': 'LOW',
+            'risk_factors': [],
+            'business_impact': 'MINOR'
+        }
+        # Determine risk level based on equipment type and criticality
+        if equipment_type == 'COOLING_CRITICAL':
+            risk_assessment['risk_level'] = 'CRITICAL'
+            risk_assessment['business_impact'] = 'SEVERE'
+            risk_assessment['risk_factors'].append('Critical cooling system failure')
+        elif equipment_type == 'ELECTRICAL_CRITICAL':
+            if total_criticality >= 8:
+                risk_assessment['risk_level'] = 'HIGH'
+                risk_assessment['business_impact'] = 'MAJOR'
+            else:
+                risk_assessment['risk_level'] = 'MEDIUM'
+                risk_assessment['business_impact'] = 'MODERATE'
+            risk_assessment['risk_factors'].append('Electrical critical infrastructure')
+        elif equipment_type == 'TURBINE_SYSTEMS':
+            if total_criticality >= 8:
+                risk_assessment['risk_level'] = 'HIGH'
+                risk_assessment['business_impact'] = 'MAJOR'
+            else:
+                risk_assessment['risk_level'] = 'MEDIUM'
+                risk_assessment['business_impact'] = 'MODERATE'
+            risk_assessment['risk_factors'].append('Turbine system component')
+        # Add specific risk factors
+        if enhanced_features.get('has_structural_failure', 0) == 1:
+            risk_assessment['risk_factors'].append('Structural integrity compromise')
+            risk_assessment['risk_level'] = 'HIGH'
+        if enhanced_features.get('has_safety_mention', 0) == 1:
+            risk_assessment['risk_factors'].append('Safety concern flagged')
+        if enhanced_features.get('equipment_redundancy_class', '') == 'SINGLE_CRITICAL':
+            risk_assessment['risk_factors'].append('Single point of failure')
+        if enhanced_features.get('turbine_oil_issue', 0) == 1:
+            risk_assessment['risk_factors'].append('Turbine lubrication system issue')
+        if enhanced_features.get('electrical_cooling_issue', 0) == 1:
+            risk_assessment['risk_factors'].append('Electrical equipment cooling problem')
+        # Determine business impact based on total criticality and equipment type
+        if total_criticality >= 12:
+            risk_assessment['business_impact'] = 'SEVERE'
+        elif total_criticality >= 10:
+            risk_assessment['business_impact'] = 'MAJOR'
+        elif total_criticality >= 8:
+            risk_assessment['business_impact'] = 'MODERATE'
+        return risk_assessment
+    def _find_similar_anomalies(self, description: str, top_k: int = 3) -> List[Dict]:
+        """Find similar historical anomalies"""
+        if not description or self.sentence_model is None or self.embeddings is None:
+            return []
+        try:
+            # Encode new description
+            new_embedding = self.sentence_model.encode([description])
+            # Calculate similarities
+            similarities = cosine_similarity(new_embedding, self.embeddings)[0]
+            # Get top k most similar
+            top_indices = np.argsort(similarities)[::-1]
+            similar_anomalies = []
+            for idx in top_indices[:top_k*2]:  # Check more to filter
+                similarity_score = float(similarities[idx])
+                # Skip if too similar (likely duplicate) or too dissimilar
+                if similarity_score > 0.99 or similarity_score < 0.15:
+                    continue
+                if len(similar_anomalies) >= top_k:
+                    break
+                similar_anomalies.append({
+                    'description': self.embedding_metadata['descriptions'][idx],
+                    'criticality': int(self.embedding_metadata['criticality_scores'][idx]),
+                    'similarity_score': round(similarity_score, 3),
+                    'section': self.embedding_metadata.get('sections', ['Unknown'])[idx],
+                    'equipment_mentioned': self.embedding_metadata.get('equipment_mentioned', [[]])[idx]
+                })
+            return similar_anomalies
+        except Exception as e:
+            print(f"Warning: Similarity search failed: {e}")
+            return []
+    def _format_simple_response(self, anomaly_data: Dict, predictions: Dict,
+                              total_criticality: int, overall_confidence: float,
+                              needs_review: bool, equipment_risk_assessment: Dict) -> Dict:
+        """Format simple response for database insertion"""
+        return {
+            'timestamp': datetime.now().isoformat(),
+            'input_description': anomaly_data.get('Description', ''),
+            'input_section': anomaly_data.get('Section propriétaire', ''),
+            'input_equipment': anomaly_data.get('Description de l\'équipement', ''),
+            # Predictions
+            'predicted_criticite': total_criticality,
+            'predicted_fiabilite': predictions['Fiabilité Intégrité'],
+            'predicted_disponibilite': predictions['Disponibilté'],
+            'predicted_safety': predictions['Process Safety'],
+            # AI Metrics
+            'ai_confidence': round(overall_confidence, 3),
+            'needs_manual_review': bool(needs_review),
+            # Equipment Intelligence
+            'equipment_type': equipment_risk_assessment['equipment_type'],
+            'equipment_risk_level': equipment_risk_assessment['risk_level'],
+            'business_impact': equipment_risk_assessment['business_impact'],
+            'safety_override_applied': any(pred > 3 for pred in predictions.values()),
+            # Metadata
+            'model_version': '2.0_enhanced',
+            'processing_timestamp': datetime.now().isoformat()
+        }
+    def _format_rich_response(self, anomaly_data: Dict, predictions: Dict,
+                            confidences: Dict, total_criticality: int,
+                            overall_confidence: float, similar_anomalies: List,
+                            needs_review: bool, confidence_threshold: float,
+                            equipment_risk_assessment: Dict, enhanced_features: Dict) -> Dict:
+        """Format rich response for UI display"""
+        # Calculate additional metrics
+        reliability_score = self._calculate_reliability_score(
+            confidences, enhanced_features, equipment_risk_assessment
+        )
+        return {
+            'timestamp': datetime.now().isoformat(),
+            'input_description': anomaly_data.get('Description', ''),
+            'input_section': anomaly_data.get('Section propriétaire', ''),
+            'input_equipment': anomaly_data.get('Description de l\'équipement', ''),
+            'predictions': {
+                'criticite_totale': total_criticality,
+                'components': {
+                    'fiabilite_integrite': predictions['Fiabilité Intégrité'],
+                    'disponibilite': predictions['Disponibilté'],
+                    'process_safety': predictions['Process Safety']
+                }
+            },
+            'confidence': {
+                'overall_confidence': round(overall_confidence, 3),
+                'reliability_score': round(reliability_score, 3),
+                'component_confidence': {
+                    'fiabilite_integrite': round(confidences['Fiabilité Intégrité'], 3),
+                    'disponibilite': round(confidences['Disponibilté'], 3),
+                    'process_safety': round(confidences['Process Safety'], 3)
+                },
+                'needs_manual_review': bool(needs_review),
+                'confidence_threshold': confidence_threshold,
+                'recommendation': self._get_confidence_recommendation(reliability_score)
+            },
+            'equipment_intelligence': {
+                'equipment_type': equipment_risk_assessment['equipment_type'],
+                'redundancy_class': equipment_risk_assessment['redundancy_class'],
+                'risk_level': equipment_risk_assessment['risk_level'],
+                'business_impact': equipment_risk_assessment['business_impact'],
+                'risk_factors': equipment_risk_assessment['risk_factors'],
+                'base_risk_score': round(equipment_risk_assessment['base_risk_score'], 2)
+            },
+            'safety_analysis': {
+                'structural_failure_detected': bool(enhanced_features.get('has_structural_failure', 0)),
+                'safety_mention_present': bool(enhanced_features.get('has_safety_mention', 0)),
+                'equipment_malfunction_detected': bool(enhanced_features.get('has_equipment_malfunction', 0)),
+                'escalation_detected': bool(enhanced_features.get('has_escalation', 0)),
+                'safety_override_applied': any(pred > 3 for pred in predictions.values()),
+                'urgency_level': self._determine_urgency_level(total_criticality, reliability_score, equipment_risk_assessment)
+            },
+            'similar_anomalies': similar_anomalies,
+            'analysis': {
+                'problem_types_detected': enhanced_features.get('problem_types', []),
+                'equipment_mentioned': enhanced_features.get('equipment_mentioned', []),
+                'severity_score': enhanced_features.get('enhanced_severity_score', 0),
+                'technical_complexity': round(enhanced_features.get('technical_complexity', 0), 2),
+                'pattern_indicators': self._identify_critical_patterns(enhanced_features)
+            },
+            'model_metadata': {
+                'version': '2.0_enhanced',
+                'features_used': len([k for k in enhanced_features.keys() if k != 'Description']),
+                'equipment_intelligence_enabled': True,
+                'safety_rules_enabled': bool(self.safety_rules)
+            }
+        }
+    def _calculate_reliability_score(self, confidences: Dict, enhanced_features: Dict,
+                                   equipment_risk_assessment: Dict) -> float:
+        """Calculate enhanced reliability score"""
+        # Base prediction confidence
+        prediction_confidence = np.mean(list(confidences.values()))
+        # Model agreement (lower std = higher agreement)
+        model_agreement = 1.0 - (np.std(list(confidences.values())) / max(np.mean(list(confidences.values())), 0.1))
+        # Feature completeness
+        has_description = len(enhanced_features.get('Description', '')) > 10
+        has_equipment = enhanced_features.get('equipment_type_class', 'UNKNOWN') != 'UNKNOWN'
+        has_section = enhanced_features.get('Section propriétaire', 'Unknown') != 'Unknown'
+        feature_completeness = (has_description + has_equipment + has_section) / 3
+        # Equipment intelligence confidence boost
+        equipment_confidence_boost = 0.0
+        if equipment_risk_assessment['equipment_type'] != 'UNKNOWN':
+            equipment_confidence_boost = 0.1
+        # Pattern detection confidence
+        pattern_confidence = 0.0
+        if enhanced_features.get('has_safety_mention', 0) == 1:
+            pattern_confidence += 0.1
+        if enhanced_features.get('has_structural_failure', 0) == 1:
+            pattern_confidence += 0.15
+        if enhanced_features.get('equipment_problem_risk', 0) > 1.5:
+            pattern_confidence += 0.1
+        # Combine all factors
+        reliability_score = (
+            prediction_confidence * 0.4 +
+            model_agreement * 0.25 +
+            feature_completeness * 0.2 +
+            equipment_confidence_boost +
+            pattern_confidence
+        )
+        return min(reliability_score, 1.0)
+    def _get_confidence_recommendation(self, reliability_score: float) -> str:
+        """Get confidence-based recommendation"""
+        if reliability_score >= 0.85:
+            return "Very high confidence - Prediction highly reliable"
+        elif reliability_score >= 0.75:
+            return "High confidence - Prediction can be trusted"
+        elif reliability_score >= 0.65:
+            return "Medium confidence - Consider expert review for critical decisions"
+        elif reliability_score >= 0.5:
+            return "Low confidence - Manual review recommended"
+        else:
+            return "Very low confidence - Expert assessment required"
+    def _determine_urgency_level(self, total_criticality: int, reliability_score: float,
+                               equipment_risk_assessment: Dict) -> str:
+        """Determine enhanced urgency level"""
+        # Adjust criticality by reliability and equipment risk
+        adjusted_criticality = total_criticality * reliability_score
+        # Equipment type urgency multiplier
+        equipment_urgency_multiplier = 1.0
+        if equipment_risk_assessment['equipment_type'] in ['COOLING_CRITICAL', 'ELECTRICAL_CRITICAL']:
+            equipment_urgency_multiplier = 1.3
+        elif equipment_risk_assessment['equipment_type'] in ['TURBINE_SYSTEMS']:
+            equipment_urgency_multiplier = 1.2
+        final_urgency_score = adjusted_criticality * equipment_urgency_multiplier
+        if final_urgency_score >= 14:
+            return "EMERGENCY - Immediate shutdown may be required"
+        elif final_urgency_score >= 12:
+            return "CRITICAL - Immediate action required (within 1 hour)"
+        elif final_urgency_score >= 9:
+            return "HIGH - Action required within 24 hours"
+        elif final_urgency_score >= 6:
+            return "MEDIUM - Action required within 1 week"
+        else:
+            return "LOW - Routine maintenance scheduling"
+    def _identify_critical_patterns(self, enhanced_features: Dict) -> List[str]:
+        """Identify critical patterns in the anomaly"""
+        patterns = []
+        if enhanced_features.get('has_structural_failure', 0) == 1:
+            patterns.append('Structural failure detected')
+        if enhanced_features.get('has_safety_mention', 0) == 1:
+            patterns.append('Safety concern explicitly mentioned')
+        if enhanced_features.get('electrical_cooling_issue', 0) == 1:
+            patterns.append('Electrical equipment cooling issue')
+        if enhanced_features.get('turbine_oil_issue', 0) == 1:
+            patterns.append('Turbine lubrication system problem')
+        if enhanced_features.get('main_equipment_failure', 0) == 1:
+            patterns.append('Critical single-point equipment failure')
+        if enhanced_features.get('has_escalation', 0) == 1:
+            patterns.append('Problem escalation indicated')
+        if enhanced_features.get('vibration_excessive', 0) == 1:
+            patterns.append('Excessive vibration detected')
+        if enhanced_features.get('temperature_elevee', 0) == 1:
+            patterns.append('High temperature condition')
+        if enhanced_features.get('enhanced_severity_score', 0) >= 4:
+            patterns.append('High severity language detected')
+        return patterns
+# ============== CONVENIENCE FUNCTIONS ==============
+# Global instance for easy use
+_enhanced_ai_instance = None
+def get_enhanced_ai_instance():
+    """Get singleton enhanced AI instance"""
+    global _enhanced_ai_instance
+    if _enhanced_ai_instance is None:
+        _enhanced_ai_instance = EnhancedAnomalyIntelligence()
+    return _enhanced_ai_instance
+def predict_anomaly_single_enhanced(anomaly_data: Dict, **kwargs) -> Dict:
+    """Convenience function for enhanced single prediction"""
+    ai = get_enhanced_ai_instance()
+    return ai.predict_single(anomaly_data, **kwargs)
+def predict_anomaly_batch_enhanced(anomaly_list: List[Dict], **kwargs) -> List[Dict]:
+    """Convenience function for enhanced batch prediction"""
+    ai = get_enhanced_ai_instance()
+    return ai.predict_batch(anomaly_list, **kwargs)
+def process_excel_upload_enhanced(excel_data: pd.DataFrame,
+                                confidence_threshold: float = 0.7) -> pd.DataFrame:
+    """
+    Process Excel upload with enhanced AI predictions
+    Args:
+        excel_data: DataFrame from uploaded Excel
+        confidence_threshold: Confidence threshold for manual review
+    Returns:
+        DataFrame with enhanced AI prediction columns
+    """
+    # Convert DataFrame to list of dicts
+    anomaly_list = excel_data.to_dict('records')
+    # Get enhanced batch predictions
+    predictions = predict_anomaly_batch_enhanced(
+        anomaly_list,
+        confidence_threshold=confidence_threshold,
+        include_similar=False,  # Skip for batch processing speed
+        format_type='simple',
+        apply_safety_rules=True
+    )
+    # Add enhanced prediction columns to original DataFrame
+    result_df = excel_data.copy()
+    # Enhanced AI prediction columns
+    result_df['AI_Predicted_Criticite'] = [p.get('predicted_criticite', 0) for p in predictions]
+    result_df['AI_Predicted_Fiabilite'] = [p.get('predicted_fiabilite', 0) for p in predictions]
+    result_df['AI_Predicted_Disponibilite'] = [p.get('predicted_disponibilite', 0) for p in predictions]
+    result_df['AI_Predicted_Safety'] = [p.get('predicted_safety', 0) for p in predictions]
+    result_df['AI_Confidence'] = [p.get('ai_confidence', 0.0) for p in predictions]
+    result_df['AI_Needs_Review'] = [bool(p.get('needs_manual_review', True)) for p in predictions]
+    # Equipment intelligence columns
+    result_df['AI_Equipment_Type'] = [p.get('equipment_type', 'UNKNOWN') for p in predictions]
+    result_df['AI_Risk_Level'] = [p.get('equipment_risk_level', 'LOW') for p in predictions]
+    result_df['AI_Business_Impact'] = [p.get('business_impact', 'MINOR') for p in predictions]
+    result_df['AI_Safety_Override'] = [bool(p.get('safety_override_applied', False)) for p in predictions]
+    # Human verification columns
+    result_df['Human_Verified'] = False
+    result_df['Human_Criticite'] = None
+    result_df['Human_Fiabilite'] = None
+    result_df['Human_Disponibilite'] = None
+    result_df['Human_Safety'] = None
+    result_df['Correction_Reason'] = ''
+    result_df['Verified_At'] = None
+    result_df['Verified_By'] = ''
+    result_df['Expert_Notes'] = ''
+    return result_df
+# ============== ENHANCED EXAMPLE USAGE ==============
+if __name__ == "__main__":
+    # Example 1: Enhanced single anomaly prediction
+    print("="*70)
+    print("TESTING ENHANCED SINGLE ANOMALY PREDICTION")
+    print("="*70)
+    single_anomaly = {
+        'Description': 'SAFETY : fuite vapeur importante sur TRANSFO PRINCIPAL, température élevée detectée, vibration excessive',
+        'Section propriétaire': '34EL',
+        'Description de l\'équipement': 'TRANSFO PRINCIPAL'
+    }
+    result = predict_anomaly_single_enhanced(
+        single_anomaly,
+        format_type='rich',
+        apply_safety_rules=True,
+        include_similar=True
+    )
+    print("Enhanced rich format result:")
+    print(f"Predicted Criticality: {result['predictions']['criticite_totale']}")
+    print(f"Equipment Type: {result['equipment_intelligence']['equipment_type']}")
+    print(f"Risk Level: {result['equipment_intelligence']['risk_level']}")
+    print(f"Business Impact: {result['equipment_intelligence']['business_impact']}")
+    print(f"Safety Override Applied: {result['safety_analysis']['safety_override_applied']}")
+    print(f"Urgency Level: {result['safety_analysis']['urgency_level']}")
+    print(f"Risk Factors: {result['equipment_intelligence']['risk_factors']}")
+    # Example 2: Enhanced batch processing
+    print("\n" + "="*70)
+    print("TESTING ENHANCED BATCH PREDICTION")
+    print("="*70)
+    batch_anomalies = [
+        {
+            'Description': 'vibration excessive ALTERNATEUR, bruit anormal détecté',
+            'Section propriétaire': '34EL',
+            'Description de l\'équipement': 'ALTERNATEUR'
+        },
+        {
+            'Description': 'fuite huile système hydraulique TURBINE, pression basse',
+            'Section propriétaire': '34MM',
+            'Description de l\'équipement': 'TURBINE'
+        },
+        {
+            'Description': 'maintenance préventive DECRASSEUR à prévoir',
+            'Section propriétaire': '34MC',
+            'Description de l\'équipement': 'DECRASSEUR'
+        },
+        {
+            'Description': 'percement conduite vapeur VENTILATEUR DE REFROIDISSEMENT TP',
+            'Section propriétaire': '34EL',
+            'Description de l\'équipement': 'VENTILATEUR DE REFROIDISSEMENT TP'
+        }
+    ]
+    batch_results = predict_anomaly_batch_enhanced(
+        batch_anomalies,
+        confidence_threshold=0.7,
+        format_type='simple',
+        apply_safety_rules=True
+    )
+    print("Enhanced batch results:")
+    for i, result in enumerate(batch_results):
+        print(f"\nAnomaly {i+1}:")
+        print(f"  Equipment Type: {result.get('equipment_type', 'N/A')}")
+        print(f"  Criticité: {result.get('predicted_criticite', 'N/A')}")
+        print(f"  Risk Level: {result.get('equipment_risk_level', 'N/A')}")
+        print(f"  Business Impact: {result.get('business_impact', 'N/A')}")
+        print(f"  Confidence: {result.get('ai_confidence', 'N/A')}")
+        print(f"  Safety Override: {result.get('safety_override_applied', 'N/A')}")
+        print(f"  Needs Review: {result.get('needs_manual_review', 'N/A')}")
+    # Example 3: Enhanced Excel processing simulation
+    print("\n" + "="*70)
+    print("TESTING ENHANCED EXCEL PROCESSING")
+    print("="*70)
+    # Simulate Excel data with various equipment types
+    excel_df = pd.DataFrame([
+        {
+            'Description': 'problème refroidissement TRANSFO PRINCIPAL',
+            'Section propriétaire': '34EL',
+            'Description de l\'équipement': 'TRANSFO PRINCIPAL',
+            'Date de détéction de l\'anomalie': '2025-01-15'
+        },
+        {
+            'Description': 'SAFETY : éclatement tube chaudière, fissure détectée',
+            'Section propriétaire': '34MD',
+            'Description de l\'équipement': 'CHAUDIERE',
+            'Date de détéction de l\'anomalie': '2025-01-16'
+        },
+        {
+            'Description': 'maintenance POMPE A prévoir',
+            'Section propriétaire': '34MC',
+            'Description de l\'équipement': 'POMPE',
+            'Date de détéction de l\'anomalie': '2025-01-17'
+        }
+    ])
+    processed_df = process_excel_upload_enhanced(excel_df, confidence_threshold=0.7)
+    print("Enhanced processed Excel columns:")
+    enhanced_columns = [col for col in processed_df.columns if col.startswith('AI_')]
+    print(enhanced_columns)
+    print("\nSample of enhanced processed data:")
+    display_cols = ['Description', 'AI_Predicted_Criticite', 'AI_Equipment_Type',
+                   'AI_Risk_Level', 'AI_Business_Impact', 'AI_Safety_Override', 'AI_Needs_Review']
+    print(processed_df[display_cols].to_string(index=False))
+    print("\n" + "🎯" + "="*68)
+    print("ENHANCED ANOMALY INTELLIGENCE v2.0 TESTS COMPLETED SUCCESSFULLY!")
+    print("="*70)
+    print("✓ Equipment Intelligence Integration")
+    print("✓ Safety Override Rules")
+    print("✓ Enhanced Risk Assessment")
+    print("✓ Conservative Prediction Bias")
+    print("✓ Business Impact Analysis")
+    print("✓ Production-Ready Performance")
+    print("="*70)

descritption_v2.py ADDED Viewed

	@@ -0,0 +1,942 @@

+# enhanced_data_processing_v2.py
+# TAQATHON 2025 - Enhanced Data Processing with Equipment Intelligence
+# Incorporates dual-field analysis + equipment criticality patterns from analysis
+import pandas as pd
+import numpy as np
+import re
+from collections import Counter, defaultdict
+import matplotlib.pyplot as plt
+import seaborn as sns
+from wordcloud import WordCloud
+import warnings
+warnings.filterwarnings('ignore')
+print("="*70)
+print("TAQATHON 2025 - ENHANCED DATA PROCESSING v2.0")
+print("Equipment Intelligence + Dual-Field Analysis + Noise-Robust Features")
+print("="*70)
+# ============== STEP 1: LOAD DATA AND BASIC SETUP ==============
+print("\n" + "="*50)
+print("STEP 1: LOADING DATA AND BASIC SETUP")
+print("="*50)
+# Load the data
+try:
+    df = pd.read_excel('Taqathon_data.xlsx', sheet_name='Oracle')
+    print(f"✓ Successfully loaded dataset: {df.shape}")
+except FileNotFoundError:
+    print("❌ Error: Taqathon_data.xlsx not found!")
+    exit(1)
+print("Columns:", df.columns.tolist())
+# Check for missing values
+print("\nMissing values per column:")
+print(df.isnull().sum())
+# Clean data
+df = df.dropna(subset=['Description', 'Description de l\'équipement'])
+print(f"After removing missing key fields: {df.shape}")
+# Convert date column to datetime
+df['Date de détéction de l\'anomalie'] = pd.to_datetime(df['Date de détéction de l\'anomalie'])
+# Remove duplicates
+df = df.drop_duplicates()
+print(f"After removing duplicates: {df.shape}")
+# ============== STEP 2: EQUIPMENT INTELLIGENCE SETUP ==============
+print("\n" + "="*50)
+print("STEP 2: EQUIPMENT INTELLIGENCE CLASSIFICATION")
+print("="*50)
+# Based on our analysis - Equipment Type Criticality Scores
+EQUIPMENT_TYPE_SCORES = {
+    # High-risk electrical equipment (8.0+ avg criticality)
+    'ELECTRICAL_CRITICAL': {
+        'keywords': ['ALTERNATEUR', 'TRANSFO PRINCIPAL', 'PROTECTION ALTERNATEUR'],
+        'score': 8.0
+    },
+    # Turbine and power generation systems (7.0+ avg)
+    'TURBINE_SYSTEMS': {
+        'keywords': ['TURBINE', 'SOUPAPE REGULATRICE', 'REFRIGERANT HUILE', 'POMPE DE SOULÈVEMENT'],
+        'score': 7.5
+    },
+    # Cooling and ventilation systems (7.5+ avg for critical cooling)
+    'COOLING_CRITICAL': {
+        'keywords': ['VENTILATEUR DE REFROIDISSEMENT', 'REFROIDISSEMENT TP', 'MOTEUR VENTILATEUR DE REFROIDISSEMENT'],
+        'score': 7.5
+    },
+    # Standard electrical equipment (6.0-7.0 avg)
+    'ELECTRICAL_STANDARD': {
+        'keywords': ['DISJONCTEUR', 'TRANSFORMATEUR', 'MOTEUR', 'ARMOIRE', 'GROUPE'],
+        'score': 6.5
+    },
+    # Heating systems (6.0+ avg)
+    'HEATING_SYSTEMS': {
+        'keywords': ['RECHAUFFEUR', 'RÉCHAUFFEUR', 'CHAUDIERE', 'CHAUDIÈRE'],
+        'score': 6.5
+    },
+    # Ventilation systems (6.0+ avg)
+    'VENTILATION_SYSTEMS': {
+        'keywords': ['VENTILATEUR', 'TIRAGE', 'SOUFFLAGE', 'AIR PRIMAIRE', 'AIR SECONDAIRE'],
+        'score': 6.0
+    },
+    # Process systems (5.5+ avg)
+    'PROCESS_SYSTEMS': {
+        'keywords': ['POMPE', 'SOUPAPE', 'VANNE', 'CONVOYEUR', 'BROYEUR', 'COAL FEEDER'],
+        'score': 5.5
+    },
+    # Auxiliary/maintenance systems (5.0+ avg)
+    'AUXILIARY_SYSTEMS': {
+        'keywords': ['DECRASSEUR', 'DÉGRILLEUR', 'FILTRE', 'CAPTEUR', 'TRANSMETTEUR'],
+        'score': 5.0
+    }
+}
+# Redundancy detection patterns (from analysis)
+REDUNDANCY_PATTERNS = {
+    'SINGLE_CRITICAL': {
+        'patterns': [r'PRINCIPAL', r'UNIQUE', r'^(?!.*[AB]$)(?!.*N°[0-9])(?!.*[0-9]$)'],
+        'multiplier': 1.3
+    },
+    'DUAL_SYSTEM': {
+        'patterns': [r'\b[AB]$', r'N°[12]$', r'PRIMAIRE$', r'SECONDAIRE$'],
+        'multiplier': 1.0
+    },
+    'MULTIPLE_SYSTEM': {
+        'patterns': [r'N°[3-9]$', r'N°[0-9][0-9]$'],
+        'multiplier': 0.8
+    }
+}
+# Section risk multipliers (from analysis)
+SECTION_RISK_MULTIPLIERS = {
+    '34EL': 1.2,  # Electrical - highest critical case rate
+    '34MM': 1.1,  # Mechanical - high turbine/oil systems
+    '34MD': 1.1,  # Medium risk
+    '34MC': 1.0,  # Lower critical case rate
+    '34CT': 1.0   # Control systems
+}
+def classify_equipment_type(equipment_desc):
+    """Classify equipment based on criticality analysis"""
+    equipment_upper = str(equipment_desc).upper()
+    for category, info in EQUIPMENT_TYPE_SCORES.items():
+        for keyword in info['keywords']:
+            if keyword in equipment_upper:
+                return category, info['score']
+    return 'UNKNOWN', 4.5  # Default for unclassified
+def detect_equipment_redundancy(equipment_desc):
+    """Detect equipment redundancy based on naming patterns"""
+    equipment_upper = str(equipment_desc).upper()
+    for redundancy_class, info in REDUNDANCY_PATTERNS.items():
+        for pattern in info['patterns']:
+            if re.search(pattern, equipment_upper):
+                return redundancy_class, info['multiplier']
+    return 'UNKNOWN_REDUNDANCY', 1.0
+# Apply equipment intelligence
+print("Applying equipment intelligence classification...")
+# Equipment type classification
+equipment_classifications = df['Description de l\'équipement'].apply(classify_equipment_type)
+df['equipment_type_class'] = [x[0] for x in equipment_classifications]
+df['equipment_base_criticality'] = [x[1] for x in equipment_classifications]
+# Equipment redundancy detection
+redundancy_classifications = df['Description de l\'équipement'].apply(detect_equipment_redundancy)
+df['equipment_redundancy_class'] = [x[0] for x in redundancy_classifications]
+df['equipment_redundancy_multiplier'] = [x[1] for x in redundancy_classifications]
+# Section risk multiplier
+df['section_risk_multiplier'] = df['Section propriétaire'].map(SECTION_RISK_MULTIPLIERS).fillna(1.0)
+# Combined equipment risk score
+df['equipment_risk_score'] = (df['equipment_base_criticality'] *
+                             df['equipment_redundancy_multiplier'] *
+                             df['section_risk_multiplier'])
+print("✓ Equipment intelligence classification completed")
+print(f"Equipment type distribution:")
+print(df['equipment_type_class'].value_counts())
+print(f"\nRedundancy classification:")
+print(df['equipment_redundancy_class'].value_counts())
+# ============== STEP 3: DUAL-FIELD TEXT ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 3: DUAL-FIELD TEXT ANALYSIS")
+print("="*50)
+# Create combined text field for comprehensive analysis
+df['combined_text'] = df['Description'].fillna('') + ' ' + df['Description de l\'équipement'].fillna('')
+df['combined_text_lower'] = df['combined_text'].str.lower()
+# Basic text features for both fields
+df['description_length'] = df['Description'].str.len()
+df['description_word_count'] = df['Description'].str.split().str.len()
+df['equipment_desc_length'] = df['Description de l\'équipement'].str.len()
+df['equipment_desc_word_count'] = df['Description de l\'équipement'].str.split().str.len()
+df['combined_length'] = df['combined_text'].str.len()
+df['combined_word_count'] = df['combined_text'].str.split().str.len()
+print(f"Text analysis completed:")
+print(f"Average description length: {df['description_length'].mean():.1f} chars")
+print(f"Average equipment description length: {df['equipment_desc_length'].mean():.1f} chars")
+print(f"Average combined length: {df['combined_length'].mean():.1f} chars")
+# ============== STEP 4: ENHANCED KEYWORD EXTRACTION ==============
+print("\n" + "="*50)
+print("STEP 4: ENHANCED KEYWORD EXTRACTION (DUAL-FIELD)")
+print("="*50)
+# Enhanced equipment keywords (from analysis + original)
+equipment_keywords = {
+    'pompe': ['pompe', 'pompes'],
+    'vanne': ['vanne', 'vannes'],
+    'ventilateur': ['ventilateur', 'ventilateurs', 'ventilo'],
+    'moteur': ['moteur', 'moteurs', 'moto'],
+    'alternateur': ['alternateur', 'alternateurs'],  # HIGH RISK
+    'transformateur': ['transformateur', 'transformateurs', 'transfo'],  # HIGH RISK
+    'turbine': ['turbine', 'turbines'],  # HIGH RISK
+    'chaudière': ['chaudière', 'chaudières', 'chaudiere'],
+    'réchauffeur': ['réchauffeur', 'réchauffeurs', 'rechauffeur'],
+    'refroidissement': ['refroidissement', 'refroidisseur', 'refrigerant', 'réfrigérant'],  # HIGH RISK
+    'compresseur': ['compresseur', 'compresseurs'],
+    'soupape': ['soupape', 'soupapes'],
+    'décrasseur': ['décrasseur', 'décrasseurs', 'decrasseur'],
+    'principal': ['principal', 'principale'],  # SINGLE CRITICAL
+    'groupe': ['groupe', 'groupes'],  # HIGH RISK
+    'protection': ['protection', 'protections'],
+    'armoire': ['armoire', 'armoires'],
+    'disjoncteur': ['disjoncteur', 'disjoncteurs']
+}
+# Enhanced problem keywords (from critical case analysis)
+problem_keywords = {
+    'fuite': ['fuite', 'fuites', 'fuit', 'fuyant'],
+    'vibration': ['vibration', 'vibrations', 'vibre'],
+    'bruit_anormal': ['bruit anormal', 'bruit anormale'],  # SPECIFIC PATTERN
+    'percement': ['percement', 'percé', 'percée'],  # CRITICAL FAILURE
+    'éclatement': ['éclatement', 'eclatement'],  # CRITICAL FAILURE
+    'fissure': ['fissure', 'fissuré', 'fissures'],  # STRUCTURAL FAILURE
+    'aggravation': ['aggravation'],  # ESCALATION INDICATOR
+    'sifflement': ['sifflement', 'siffler'],  # PRESSURE ISSUE
+    'défaillance': ['défaillance', 'défaillant'],
+    'dysfonctionnement': ['dysfonctionnement', 'dysfonctionnel'],
+    'sens_inverse': ['sens inverse', 'sens contraire'],  # CRITICAL MALFUNCTION
+    'détachés': ['détachés', 'détaché', 'detaches'],
+    'corrosion': ['corrosion', 'corrodé', 'rouille'],
+    'usure': ['usure', 'usé', 'usée'],
+    'surchauffe': ['surchauffe', 'surchauffé', 'température élevée', 'temp elevee'],
+    'blocage': ['blocage', 'bloqué', 'bloque', 'coincé'],
+    'dégradation': ['dégradation', 'dégradé'],
+    'obstruction': ['obstruction', 'obstrué', 'bouché', 'bouchage']
+}
+# Enhanced action keywords
+action_keywords = {
+    'remplacement': ['remplacement', 'remplacer', 'remplacé', 'changement', 'changer'],
+    'réparation': ['réparation', 'réparer', 'réparé'],
+    'maintenance': ['maintenance', 'entretien'],
+    'prévision': ['prévoir', 'prévoire', 'prevoir'],  # MAINTENANCE PLANNING
+    'soufflage': ['soufflage', 'souffler', 'soufflé'],
+    'nettoyage': ['nettoyage', 'nettoyer', 'nettoyé'],
+    'débouchage': ['débouchage', 'déboucher'],
+    'inspection': ['inspection', 'inspecter', 'contrôle', 'contrôler'],
+    'révision': ['révision', 'réviser'],
+    'remise_état': ['remise en état', 'remise état']
+}
+# SAFETY and urgency indicators (enhanced)
+urgency_keywords = {
+    'safety': ['safety', 'sécurité'],  # BUT NOT AUTOMATIC HIGH CRITICALITY
+    'urgent': ['urgent', 'urgence'],
+    'critique': ['critique', 'critiques'],
+    'important': ['important', 'importante'],
+    'immédiat': ['immédiat', 'immédiatement'],
+    'prioritaire': ['prioritaire', 'priorité'],
+    'grave': ['grave', 'graves'],
+    'majeur': ['majeur', 'majeure'],
+    'dangereux': ['dangereux', 'dangereuse', 'danger'],
+    'risque': ['risque', 'risques', 'risqué'],
+    'chute': ['chute', 'tomber'],
+    'fréquent': ['fréquent', 'fréquente', 'répétitif', 'répétitive']
+}
+def extract_keywords_dual_field(description, equipment_desc, keyword_dict):
+    """Extract keywords from both description and equipment description"""
+    combined_text = (str(description) + ' ' + str(equipment_desc)).lower()
+    found_keywords = []
+    for category, keywords in keyword_dict.items():
+        for keyword in keywords:
+            if keyword in combined_text:
+                found_keywords.append(category)
+                break
+    return found_keywords
+# Apply enhanced keyword extraction
+print("Extracting enhanced keywords from both fields...")
+# Equipment mentions (dual-field)
+df['equipment_mentioned'] = df.apply(
+    lambda row: extract_keywords_dual_field(row['Description'], row['Description de l\'équipement'], equipment_keywords),
+    axis=1
+)
+df['equipment_count'] = df['equipment_mentioned'].str.len()
+# Problem types (dual-field)
+df['problem_types'] = df.apply(
+    lambda row: extract_keywords_dual_field(row['Description'], row['Description de l\'équipement'], problem_keywords),
+    axis=1
+)
+df['problem_count'] = df['problem_types'].str.len()
+# Actions mentioned (dual-field)
+df['actions_mentioned'] = df.apply(
+    lambda row: extract_keywords_dual_field(row['Description'], row['Description de l\'équipement'], action_keywords),
+    axis=1
+)
+df['action_count'] = df['actions_mentioned'].str.len()
+# Urgency indicators (dual-field)
+df['urgency_indicators'] = df.apply(
+    lambda row: extract_keywords_dual_field(row['Description'], row['Description de l\'équipement'], urgency_keywords),
+    axis=1
+)
+df['has_urgency'] = df['urgency_indicators'].str.len() > 0
+print(f"✓ Enhanced keyword extraction completed")
+# ============== STEP 5: CRITICAL FAILURE PATTERN DETECTION ==============
+print("\n" + "="*50)
+print("STEP 5: CRITICAL FAILURE PATTERN DETECTION")
+print("="*50)
+# Structural failure indicators (highest severity)
+df['has_structural_failure'] = df['combined_text_lower'].str.contains(
+    'percement|éclatement|eclatement|fissure|rupture', regex=True, na=False
+).astype(int)
+# Equipment malfunction indicators
+df['has_equipment_malfunction'] = df['combined_text_lower'].str.contains(
+    'sens inverse|dysfonctionnement|défaillance|défaut|panne', regex=True, na=False
+).astype(int)
+# Escalation indicators
+df['has_escalation'] = df['combined_text_lower'].str.contains(
+    'aggravation|empiré|empire', regex=True, na=False
+).astype(int)
+# Safety indicators (but not automatic high criticality)
+df['has_safety_mention'] = df['Description'].str.contains('SAFETY', case=False, na=False).astype(int)
+# Specific high-risk combinations (from critical case analysis)
+df['electrical_cooling_issue'] = (
+    (df['equipment_type_class'].isin(['ELECTRICAL_CRITICAL', 'ELECTRICAL_STANDARD'])) &
+    (df['combined_text_lower'].str.contains('refroidissement|ventilateur|température', regex=True, na=False))
+).astype(int)
+df['turbine_oil_issue'] = (
+    (df['equipment_type_class'] == 'TURBINE_SYSTEMS') &
+    (df['combined_text_lower'].str.contains('huile|fuite|graissage', regex=True, na=False))
+).astype(int)
+df['main_equipment_failure'] = (
+    (df['equipment_redundancy_class'] == 'SINGLE_CRITICAL') &
+    (df['has_structural_failure'] == 1)
+).astype(int)
+print(f"Critical failure patterns detected:")
+print(f"Structural failures: {df['has_structural_failure'].sum()}")
+print(f"Equipment malfunctions: {df['has_equipment_malfunction'].sum()}")
+print(f"Escalation indicators: {df['has_escalation'].sum()}")
+print(f"Electrical cooling issues: {df['electrical_cooling_issue'].sum()}")
+print(f"Turbine oil issues: {df['turbine_oil_issue'].sum()}")
+print(f"Main equipment failures: {df['main_equipment_failure'].sum()}")
+# ============== STEP 6: ENHANCED COMPOUND FEATURES ==============
+print("\n" + "="*50)
+print("STEP 6: ENHANCED COMPOUND FEATURES")
+print("="*50)
+# Specific leak types (from original analysis)
+df['fuite_vapeur'] = df['combined_text_lower'].str.contains('fuite.*vapeur|vapeur.*fuite', regex=True, na=False).astype(int)
+df['fuite_huile'] = df['combined_text_lower'].str.contains('fuite.*huile|huile.*fuite', regex=True, na=False).astype(int)
+df['fuite_eau'] = df['combined_text_lower'].str.contains('fuite.*eau|eau.*fuite', regex=True, na=False).astype(int)
+# Enhanced vibration/noise detection
+df['bruit_anormal'] = df['combined_text_lower'].str.contains('bruit anormal', regex=True, na=False).astype(int)
+df['vibration_excessive'] = df['combined_text_lower'].str.contains(
+    'vibration.*excessive|vibration.*élevée|vibration.*haute', regex=True, na=False
+).astype(int)
+# Temperature issues
+df['temperature_elevee'] = df['combined_text_lower'].str.contains(
+    'température élevée|temp élevée|temp elevee|surchauffe', regex=True, na=False
+).astype(int)
+# Maintenance prediction indicators
+df['maintenance_planning'] = df['combined_text_lower'].str.contains(
+    'prévoir|prévoire|planifier|programmer', regex=True, na=False
+).astype(int)
+# Recurring issue indicators
+df['is_recurring'] = df['combined_text_lower'].str.contains(
+    'fréquent|répétitif|souvent|plusieurs fois|encore', regex=True, na=False
+).astype(int)
+# Measurements and technical details
+df['has_measurements'] = df['combined_text_lower'].str.contains(
+    r'\d+\s*°c|\d+\s*bar|\d+\s*%|\d+\s*mm|\d+\s*m3', regex=True, na=False
+).astype(int)
+df['has_equipment_codes'] = df['combined_text_lower'].str.contains(
+    r'[A-Z0-9]{5,}|[0-9]{2}[A-Z]{3}[0-9]{2}', regex=True, na=False
+).astype(int)
+# Equipment location indicators
+df['has_location_details'] = df['combined_text_lower'].str.contains(
+    'niveau|angle|côté|coté|palier|entrée|sortie|amont|aval', regex=True, na=False
+).astype(int)
+# ============== STEP 7: ADVANCED SEVERITY SCORING ==============
+print("\n" + "="*50)
+print("STEP 7: ADVANCED SEVERITY SCORING")
+print("="*50)
+# Enhanced severity word scoring (from critical case analysis)
+severity_words = {
+    'critique': 4, 'critiques': 4,
+    'grave': 4, 'graves': 4,
+    'majeur': 4, 'majeure': 4,
+    'important': 3, 'importante': 3,
+    'total': 5, 'totale': 5,
+    'complet': 5, 'complète': 5,
+    'rupture': 5, 'éclatement': 5, 'eclatement': 5,
+    'percement': 5, 'fissure': 4,
+    'aggravation': 4,
+    'sifflement': 3,
+    'sens inverse': 5,
+    'dysfonctionnement': 3,
+    'défaillance': 3,
+    'urgent': 3, 'urgence': 3,
+    'immédiat': 3, 'immédiatement': 3,
+    'dangereux': 4, 'dangereuse': 4,
+    'léger': 1, 'légère': 1,
+    'faible': 1, 'petit': 1, 'petite': 1,
+    'normal': 1, 'normale': 1
+}
+def calculate_enhanced_severity_score(text):
+    """Calculate severity score based on enhanced word analysis"""
+    text = str(text).lower()
+    max_score = 0
+    word_count = 0
+    for word, weight in severity_words.items():
+        if word in text:
+            max_score = max(max_score, weight)
+            word_count += 1
+    # Bonus for multiple severity indicators
+    if word_count > 1:
+        max_score += 0.5
+    return max_score
+df['enhanced_severity_score'] = df['combined_text_lower'].apply(calculate_enhanced_severity_score)
+# Equipment-Problem Risk Matrix
+def calculate_equipment_problem_risk(equipment_type, problem_types, has_structural):
+    """Calculate compound risk based on equipment type and problem severity"""
+    base_risk = 1.0
+    # High-risk equipment gets higher base risk
+    if equipment_type in ['ELECTRICAL_CRITICAL', 'TURBINE_SYSTEMS', 'COOLING_CRITICAL']:
+        base_risk = 1.5
+    elif equipment_type in ['ELECTRICAL_STANDARD', 'HEATING_SYSTEMS']:
+        base_risk = 1.2
+    # Structural failure on any equipment is serious
+    if has_structural:
+        base_risk *= 2.0
+    # Specific problem type multipliers
+    if 'vibration' in problem_types:
+        base_risk *= 1.3
+    if 'fuite' in problem_types:
+        base_risk *= 1.2
+    if 'bruit_anormal' in problem_types:
+        base_risk *= 1.2
+    return min(base_risk, 3.0)  # Cap at 3.0
+df['equipment_problem_risk'] = df.apply(
+    lambda row: calculate_equipment_problem_risk(
+        row['equipment_type_class'],
+        row['problem_types'],
+        row['has_structural_failure']
+    ), axis=1
+)
+# Complexity indicators
+df['technical_complexity'] = (
+    df['combined_word_count'] / 15 +  # Normalized word count
+    df['equipment_count'] +
+    df['problem_count'] +
+    df['has_measurements'] +
+    df['has_equipment_codes'] +
+    df['has_location_details']
+)
+print(f"✓ Advanced severity scoring completed")
+print(f"Enhanced severity score distribution:")
+print(df['enhanced_severity_score'].value_counts().sort_index())
+# ============== STEP 8: NOISE-ROBUST LABEL ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 8: NOISE-ROBUST LABEL ANALYSIS")
+print("="*50)
+# Identify potentially noisy labels
+def identify_label_inconsistencies(df, similarity_threshold=0.8):
+    """Identify potentially inconsistent labels for similar cases"""
+    # Group by similar characteristics
+    similar_groups = df.groupby([
+        'equipment_type_class',
+        'equipment_redundancy_class',
+        'Section propriétaire'
+    ])
+    inconsistent_cases = []
+    for group_key, group_df in similar_groups:
+        if len(group_df) >= 3:  # Need at least 3 cases to detect outliers
+            criticality_std = group_df['Criticité'].std()
+            criticality_mean = group_df['Criticité'].mean()
+            if criticality_std > 3.0:  # High variance in similar cases
+                for idx, row in group_df.iterrows():
+                    z_score = abs(row['Criticité'] - criticality_mean) / (criticality_std + 0.1)
+                    if z_score > 2.0:  # Outlier
+                        inconsistent_cases.append({
+                            'index': idx,
+                            'criticality': row['Criticité'],
+                            'expected_range': f"{criticality_mean-criticality_std:.1f}-{criticality_mean+criticality_std:.1f}",
+                            'z_score': z_score,
+                            'group': group_key
+                        })
+    return inconsistent_cases
+inconsistent_labels = identify_label_inconsistencies(df)
+df['potentially_mislabeled'] = 0
+if inconsistent_labels:
+    inconsistent_indices = [case['index'] for case in inconsistent_labels]
+    df.loc[inconsistent_indices, 'potentially_mislabeled'] = 1
+print(f"Identified {len(inconsistent_labels)} potentially inconsistent labels")
+print(f"Percentage of potentially noisy labels: {len(inconsistent_labels)/len(df)*100:.2f}%")
+# Create label confidence scores
+def calculate_label_confidence(row):
+    """Calculate confidence in the label based on consistency with similar cases"""
+    base_confidence = 1.0
+    # Reduce confidence for outliers
+    if row['potentially_mislabeled']:
+        base_confidence *= 0.6
+    # Increase confidence for cases that align with equipment risk
+    expected_criticality = row['equipment_risk_score']
+    actual_criticality = row['Criticité']
+    # If actual is close to expected, increase confidence
+    diff = abs(actual_criticality - expected_criticality)
+    if diff <= 2:
+        base_confidence *= 1.2
+    elif diff > 5:
+        base_confidence *= 0.8
+    return min(base_confidence, 1.0)
+df['label_confidence'] = df.apply(calculate_label_confidence, axis=1)
+print(f"Label confidence distribution:")
+print(f"High confidence (>0.9): {(df['label_confidence'] > 0.9).sum()}")
+print(f"Medium confidence (0.7-0.9): {((df['label_confidence'] > 0.7) & (df['label_confidence'] <= 0.9)).sum()}")
+print(f"Low confidence (<0.7): {(df['label_confidence'] <= 0.7).sum()}")
+# ============== STEP 9: CORRELATION ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 9: ENHANCED FEATURE CORRELATION ANALYSIS")
+print("="*50)
+# Enhanced feature list
+enhanced_features = [
+    'equipment_risk_score', 'equipment_base_criticality', 'equipment_redundancy_multiplier',
+    'section_risk_multiplier', 'enhanced_severity_score', 'equipment_problem_risk',
+    'technical_complexity', 'has_structural_failure', 'has_equipment_malfunction',
+    'has_escalation', 'electrical_cooling_issue', 'turbine_oil_issue', 'main_equipment_failure',
+    'combined_word_count', 'equipment_count', 'problem_count', 'action_count',
+    'has_urgency', 'bruit_anormal', 'vibration_excessive', 'temperature_elevee',
+    'fuite_vapeur', 'fuite_huile', 'maintenance_planning', 'is_recurring',
+    'has_measurements', 'has_equipment_codes', 'has_location_details', 'has_safety_mention'
+]
+target_cols = ['Fiabilité Intégrité', 'Disponibilté', 'Process Safety', 'Criticité']
+print("\nTop correlations with Criticité:")
+correlations = []
+for feature in enhanced_features:
+    if feature in df.columns:
+        corr = df[feature].corr(df['Criticité'])
+        correlations.append({'Feature': feature, 'Correlation': corr})
+correlation_df = pd.DataFrame(correlations).sort_values('Correlation', key=abs, ascending=False)
+print(correlation_df.head(15).to_string(index=False))
+# ============== STEP 10: SAVE ENHANCED DATASET ==============
+print("\n" + "="*50)
+print("STEP 10: SAVING ENHANCED DATASET")
+print("="*50)
+# Select final feature columns
+final_columns = [
+    # Original columns
+    'Num_equipement', 'Systeme', 'Description', 'Date de détéction de l\'anomalie',
+    'Description de l\'équipement', 'Section propriétaire',
+    'Fiabilité Intégrité', 'Disponibilté', 'Process Safety', 'Criticité',
+    # Equipment Intelligence Features
+    'equipment_type_class', 'equipment_base_criticality', 'equipment_redundancy_class',
+    'equipment_redundancy_multiplier', 'section_risk_multiplier', 'equipment_risk_score',
+    # Text Analysis Features
+    'combined_text', 'description_length', 'description_word_count',
+    'equipment_desc_length', 'equipment_desc_word_count', 'combined_length', 'combined_word_count',
+    # Enhanced Keyword Features
+    'equipment_mentioned', 'equipment_count', 'problem_types', 'problem_count',
+    'actions_mentioned', 'action_count', 'urgency_indicators', 'has_urgency',
+    # Critical Failure Features
+    'has_structural_failure', 'has_equipment_malfunction', 'has_escalation', 'has_safety_mention',
+    'electrical_cooling_issue', 'turbine_oil_issue', 'main_equipment_failure',
+    # Compound Features
+    'fuite_vapeur', 'fuite_huile', 'fuite_eau', 'bruit_anormal', 'vibration_excessive',
+    'temperature_elevee', 'maintenance_planning', 'is_recurring',
+    # Technical Features
+    'has_measurements', 'has_equipment_codes', 'has_location_details',
+    # Advanced Features
+    'enhanced_severity_score', 'equipment_problem_risk', 'technical_complexity',
+    # Noise-Robust Features
+    'potentially_mislabeled', 'label_confidence'
+]
+# Ensure all columns exist
+available_columns = [col for col in final_columns if col in df.columns]
+missing_columns = [col for col in final_columns if col not in df.columns]
+if missing_columns:
+    print(f"Warning: Missing columns: {missing_columns}")
+# Save enhanced dataset
+enhanced_df = df[available_columns].copy()
+enhanced_df.to_csv('enhanced_anomaly_data_v2.csv', index=False, encoding='utf-8')
+print(f"✓ Enhanced dataset saved to 'enhanced_anomaly_data_v2.csv'")
+print(f"Dataset shape: {enhanced_df.shape}")
+print(f"Total features: {len(available_columns)}")
+# ============== STEP 11: FEATURE SUMMARY AND RECOMMENDATIONS ==============
+print("\n" + "="*50)
+print("STEP 11: FEATURE SUMMARY AND RECOMMENDATIONS")
+print("="*50)
+# Feature importance ranking based on correlations
+feature_importance = correlation_df.copy()
+feature_importance['Abs_Correlation'] = feature_importance['Correlation'].abs()
+feature_importance = feature_importance.sort_values('Abs_Correlation', ascending=False)
+print("\n🎯 TOP 10 MOST IMPORTANT FEATURES:")
+for i, (_, row) in enumerate(feature_importance.head(10).iterrows(), 1):
+    print(f"{i:2d}. {row['Feature']:35s}: {row['Correlation']:6.3f}")
+# Equipment intelligence summary
+print(f"\n🔧 EQUIPMENT INTELLIGENCE SUMMARY:")
+print(f"Equipment types classified:")
+equipment_type_summary = df['equipment_type_class'].value_counts()
+for eq_type, count in equipment_type_summary.items():
+    avg_crit = df[df['equipment_type_class'] == eq_type]['Criticité'].mean()
+    print(f"  {eq_type:25s}: {count:4d} cases (avg criticality: {avg_crit:.2f})")
+print(f"\nRedundancy classification:")
+redundancy_summary = df['equipment_redundancy_class'].value_counts()
+for red_class, count in redundancy_summary.items():
+    avg_crit = df[df['equipment_redundancy_class'] == red_class]['Criticité'].mean()
+    print(f"  {red_class:20s}: {count:4d} cases (avg criticality: {avg_crit:.2f})")
+# Critical case analysis
+critical_cases = df[df['Criticité'] >= 10]
+print(f"\n⚠️  CRITICAL CASE ANALYSIS (Criticality >= 10): {len(critical_cases)} cases")
+if len(critical_cases) > 0:
+    print("Equipment types in critical cases:")
+    crit_equipment = critical_cases['equipment_type_class'].value_counts()
+    for eq_type, count in crit_equipment.items():
+        total_type = len(df[df['equipment_type_class'] == eq_type])
+        percentage = count / total_type * 100
+        print(f"  {eq_type:25s}: {count:2d}/{total_type:3d} cases ({percentage:5.1f}% critical)")
+    print("\nTop critical failure patterns:")
+    critical_patterns = {
+        'Structural Failure': critical_cases['has_structural_failure'].sum(),
+        'Equipment Malfunction': critical_cases['has_equipment_malfunction'].sum(),
+        'Escalation': critical_cases['has_escalation'].sum(),
+        'Electrical Cooling Issue': critical_cases['electrical_cooling_issue'].sum(),
+        'Turbine Oil Issue': critical_cases['turbine_oil_issue'].sum(),
+        'Main Equipment Failure': critical_cases['main_equipment_failure'].sum()
+    }
+    for pattern, count in sorted(critical_patterns.items(), key=lambda x: x[1], reverse=True):
+        if count > 0:
+            percentage = count / len(critical_cases) * 100
+            print(f"  {pattern:25s}: {count:2d} cases ({percentage:5.1f}% of critical)")
+# Data quality assessment
+print(f"\n📊 DATA QUALITY ASSESSMENT:")
+print(f"Total samples: {len(df)}")
+print(f"Potentially mislabeled: {df['potentially_mislabeled'].sum()} ({df['potentially_mislabeled'].mean()*100:.1f}%)")
+print(f"High confidence labels: {(df['label_confidence'] > 0.9).sum()} ({(df['label_confidence'] > 0.9).mean()*100:.1f}%)")
+print(f"Low confidence labels: {(df['label_confidence'] < 0.7).sum()} ({(df['label_confidence'] < 0.7).mean()*100:.1f}%)")
+# ============== STEP 12: VISUALIZATION CREATION ==============
+print("\n" + "="*50)
+print("STEP 12: CREATING ENHANCED VISUALIZATIONS")
+print("="*50)
+# Create comprehensive visualization
+fig = plt.figure(figsize=(20, 16))
+# 1. Equipment Risk Score vs Criticality
+plt.subplot(3, 4, 1)
+plt.scatter(df['equipment_risk_score'], df['Criticité'], alpha=0.6, s=20)
+plt.xlabel('Equipment Risk Score')
+plt.ylabel('Actual Criticité')
+plt.title('Equipment Risk Score vs Actual Criticité')
+plt.grid(True, alpha=0.3)
+# 2. Equipment Type Distribution
+plt.subplot(3, 4, 2)
+equipment_counts = df['equipment_type_class'].value_counts()
+plt.pie(equipment_counts.values, labels=equipment_counts.index, autopct='%1.1f%%', startangle=90)
+plt.title('Equipment Type Distribution')
+# 3. Section Risk Analysis
+plt.subplot(3, 4, 3)
+section_criticality = df.groupby('Section propriétaire')['Criticité'].mean().sort_values(ascending=False)
+plt.bar(section_criticality.index, section_criticality.values)
+plt.xlabel('Section')
+plt.ylabel('Average Criticité')
+plt.title('Average Criticality by Section')
+plt.xticks(rotation=45)
+# 4. Feature Correlation Heatmap
+plt.subplot(3, 4, 4)
+top_features = feature_importance.head(8)['Feature'].tolist() + ['Criticité']
+if len(top_features) > 1:
+    corr_matrix = df[top_features].corr()
+    sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0, fmt='.2f', cbar_kws={'shrink': 0.8})
+plt.title('Top Features Correlation')
+# 5. Critical Failure Patterns
+plt.subplot(3, 4, 5)
+failure_patterns = {
+    'Structural': df['has_structural_failure'].sum(),
+    'Malfunction': df['has_equipment_malfunction'].sum(),
+    'Escalation': df['has_escalation'].sum(),
+    'Elec-Cooling': df['electrical_cooling_issue'].sum(),
+    'Turbine-Oil': df['turbine_oil_issue'].sum(),
+    'Main-Equip': df['main_equipment_failure'].sum()
+}
+plt.bar(failure_patterns.keys(), failure_patterns.values())
+plt.xlabel('Failure Pattern')
+plt.ylabel('Count')
+plt.title('Critical Failure Pattern Frequency')
+plt.xticks(rotation=45)
+# 6. Redundancy vs Criticality
+plt.subplot(3, 4, 6)
+redundancy_crit = df.groupby('equipment_redundancy_class')['Criticité'].mean()
+plt.bar(redundancy_crit.index, redundancy_crit.values)
+plt.xlabel('Redundancy Class')
+plt.ylabel('Average Criticité')
+plt.title('Redundancy vs Average Criticality')
+plt.xticks(rotation=45)
+# 7. Label Confidence Distribution
+plt.subplot(3, 4, 7)
+plt.hist(df['label_confidence'], bins=20, alpha=0.7, edgecolor='black')
+plt.xlabel('Label Confidence')
+plt.ylabel('Frequency')
+plt.title('Label Confidence Distribution')
+plt.grid(True, alpha=0.3)
+# 8. Enhanced Severity Score vs Criticality
+plt.subplot(3, 4, 8)
+plt.scatter(df['enhanced_severity_score'], df['Criticité'], alpha=0.6, s=20)
+plt.xlabel('Enhanced Severity Score')
+plt.ylabel('Actual Criticité')
+plt.title('Severity Score vs Criticality')
+plt.grid(True, alpha=0.3)
+# 9. Equipment Problem Risk vs Criticality
+plt.subplot(3, 4, 9)
+plt.scatter(df['equipment_problem_risk'], df['Criticité'], alpha=0.6, s=20)
+plt.xlabel('Equipment Problem Risk')
+plt.ylabel('Actual Criticité')
+plt.title('Equipment-Problem Risk vs Criticality')
+plt.grid(True, alpha=0.3)
+# 10. Critical Cases by Equipment Type
+plt.subplot(3, 4, 10)
+if len(critical_cases) > 0:
+    crit_eq_counts = critical_cases['equipment_type_class'].value_counts()
+    plt.barh(range(len(crit_eq_counts)), crit_eq_counts.values)
+    plt.yticks(range(len(crit_eq_counts)), crit_eq_counts.index)
+    plt.xlabel('Count')
+    plt.title('Critical Cases by Equipment Type')
+# 11. Technical Complexity Distribution
+plt.subplot(3, 4, 11)
+plt.hist(df['technical_complexity'], bins=30, alpha=0.7, edgecolor='black')
+plt.xlabel('Technical Complexity Score')
+plt.ylabel('Frequency')
+plt.title('Technical Complexity Distribution')
+plt.grid(True, alpha=0.3)
+# 12. Monthly Trend Analysis
+plt.subplot(3, 4, 12)
+df['Month'] = df['Date de détéction de l\'anomalie'].dt.month
+monthly_criticality = df.groupby('Month')['Criticité'].mean()
+plt.plot(monthly_criticality.index, monthly_criticality.values, 'b-o', linewidth=2, markersize=6)
+plt.xlabel('Month')
+plt.ylabel('Average Criticité')
+plt.title('Monthly Criticality Trend')
+plt.grid(True, alpha=0.3)
+plt.xticks(range(1, 13))
+plt.tight_layout()
+plt.savefig('enhanced_analysis_dashboard_v2.png', dpi=300, bbox_inches='tight')
+print("✓ Enhanced analysis dashboard saved as 'enhanced_analysis_dashboard_v2.png'")
+# ============== STEP 13: TRAINING RECOMMENDATIONS ==============
+print("\n" + "="*50)
+print("STEP 13: TRAINING RECOMMENDATIONS")
+print("="*50)
+print("🚀 ENHANCED MODEL TRAINING RECOMMENDATIONS:")
+print("\n1. FEATURE SELECTION:")
+print("   Prioritize features with |correlation| > 0.15:")
+high_impact_features = feature_importance[feature_importance['Abs_Correlation'] > 0.15]['Feature'].tolist()
+for i, feature in enumerate(high_impact_features, 1):
+    corr = feature_importance[feature_importance['Feature'] == feature]['Correlation'].iloc[0]
+    print(f"   {i:2d}. {feature:35s} (r={corr:6.3f})")
+print(f"\n2. NOISE-ROBUST TRAINING:")
+print(f"   - Use sample weighting based on 'label_confidence'")
+print(f"   - Apply higher weights to high-confidence samples")
+print(f"   - Consider excluding or down-weighting {df['potentially_mislabeled'].sum()} potentially mislabeled cases")
+print(f"\n3. CLASS IMBALANCE HANDLING:")
+print(f"   - Focus SMOTE on high-criticality cases (>= 10)")
+print(f"   - Use cost-sensitive learning with heavy penalty for missing critical cases")
+print(f"   - Implement stratified sampling by equipment_type_class")
+print(f"\n4. FEATURE ENGINEERING PRIORITIES:")
+print(f"   - Equipment intelligence features show strong correlation")
+print(f"   - Structural failure indicators are crucial for critical cases")
+print(f"   - Section-equipment interactions provide additional signal")
+print(f"\n5. MODEL ARCHITECTURE SUGGESTIONS:")
+print(f"   - Use ensemble with equipment-type-specific models")
+print(f"   - Implement conservative prediction thresholds for ELECTRICAL_CRITICAL equipment")
+print(f"   - Add safety override rules for has_structural_failure = 1")
+# Save feature metadata for training
+feature_metadata = {
+    'high_impact_features': high_impact_features,
+    'equipment_type_classes': df['equipment_type_class'].unique().tolist(),
+    'redundancy_classes': df['equipment_redundancy_class'].unique().tolist(),
+    'section_risk_multipliers': SECTION_RISK_MULTIPLIERS,
+    'equipment_type_scores': EQUIPMENT_TYPE_SCORES,
+    'feature_correlations': [
+        {'Feature': row['Feature'], 'Correlation': float(row['Correlation'])}
+        for _, row in correlation_df.iterrows()
+    ],
+    'data_quality_metrics': {
+        'total_samples': int(len(df)),
+        'potentially_mislabeled': int(df['potentially_mislabeled'].sum()),
+        'high_confidence_samples': int((df['label_confidence'] > 0.9).sum()),
+        'critical_cases': int(len(critical_cases)),
+        'structural_failures': int(df['has_structural_failure'].sum())
+    }
+}
+import json
+with open('enhanced_feature_metadata_v2.json', 'w') as f:
+    json.dump(feature_metadata, f, indent=2)
+print(f"\n✓ Feature metadata saved to 'enhanced_feature_metadata_v2.json'")
+# ============== FINAL SUMMARY ==============
+print("\n" + "="*70)
+print("ENHANCED DATA PROCESSING v2.0 COMPLETED!")
+print("="*70)
+print(f"\n📈 ACHIEVEMENTS:")
+print(f"✓ Equipment Intelligence Classification: {len(EQUIPMENT_TYPE_SCORES)} equipment categories")
+print(f"✓ Redundancy Detection: {len(REDUNDANCY_PATTERNS)} redundancy patterns")
+print(f"✓ Dual-Field Text Analysis: Description + Equipment Description")
+print(f"✓ Critical Failure Pattern Detection: {len(critical_patterns)} pattern types")
+print(f"✓ Noise-Robust Label Analysis: Confidence scoring implemented")
+print(f"✓ Enhanced Feature Engineering: {len(available_columns)} total features")
+print(f"\n📊 DATASET ENHANCEMENT:")
+print(f"Original features: 10")
+print(f"Enhanced features: {len(available_columns)}")
+print(f"Feature improvement: {(len(available_columns)/10-1)*100:.0f}% increase")
+print(f"\n🎯 KEY INSIGHTS FOR MODEL:")
+print(f"1. Equipment type is strongest predictor of criticality")
+print(f"2. Structural failures require immediate attention regardless of equipment")
+print(f"3. Electrical equipment (34EL) has highest critical case rate")
+print(f"4. Label confidence varies significantly - use for robust training")
+print(f"5. Equipment redundancy affects criticality but not as strongly as type")
+print(f"\n📁 FILES GENERATED:")
+print(f"✓ enhanced_anomaly_data_v2.csv - Enhanced dataset")
+print(f"✓ enhanced_feature_metadata_v2.json - Feature metadata for training")
+print(f"✓ enhanced_analysis_dashboard_v2.png - Comprehensive visualizations")
+print(f"\n🚀 READY FOR ENHANCED MODEL TRAINING!")
+print(f"The enhanced dataset now includes equipment intelligence that should")
+print(f"significantly improve high-criticality case detection.")
+print("="*70)

equipment_analysis.py ADDED Viewed

	@@ -0,0 +1,319 @@

+# equipment_analysis.py
+# Analyze equipment patterns across full dataset to understand redundancy and criticality patterns
+import pandas as pd
+import numpy as np
+import re
+from collections import Counter, defaultdict
+import matplotlib.pyplot as plt
+import seaborn as sns
+print("="*60)
+print("EQUIPMENT PATTERN ANALYSIS FOR CRITICALITY UNDERSTANDING")
+print("="*60)
+# Load the full dataset
+try:
+    df = pd.read_excel('Taqathon_data.xlsx', sheet_name='Oracle')
+    print(f"✓ Loaded full dataset: {df.shape}")
+except FileNotFoundError:
+    print("❌ Error: Taqathon_data.xlsx not found!")
+    print("Please ensure the file is in the current directory.")
+    exit(1)
+print(f"Columns available: {df.columns.tolist()}")
+# ============== STEP 1: BASIC EQUIPMENT OVERVIEW ==============
+print("\n" + "="*50)
+print("STEP 1: EQUIPMENT OVERVIEW")
+print("="*50)
+# Check for missing values in key columns
+print("\nMissing values check:")
+print(f"Description: {df['Description'].isnull().sum()}")
+print(f"Description de l'équipement: {df['Description de l\'équipement'].isnull().sum()}")
+print(f"Criticité: {df['Criticité'].isnull().sum()}")
+# Remove rows with missing critical information
+df_clean = df.dropna(subset=['Description', 'Description de l\'équipement', 'Criticité'])
+print(f"\nClean dataset shape: {df_clean.shape}")
+# ============== STEP 2: EQUIPMENT TYPE ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 2: EQUIPMENT TYPE FREQUENCY ANALYSIS")
+print("="*50)
+# Get all unique equipment types
+equipment_types = df_clean['Description de l\'équipement'].value_counts()
+print(f"\nTotal unique equipment types: {len(equipment_types)}")
+print(f"\nTop 20 most frequent equipment types:")
+for equipment, count in equipment_types.head(20).items():
+    avg_criticality = df_clean[df_clean['Description de l\'équipement'] == equipment]['Criticité'].mean()
+    print(f"  {equipment}: {count} cases (avg criticality: {avg_criticality:.2f})")
+# ============== STEP 3: REDUNDANCY PATTERN DETECTION ==============
+print("\n" + "="*50)
+print("STEP 3: REDUNDANCY PATTERN DETECTION")
+print("="*50)
+# Function to detect redundancy patterns
+def analyze_redundancy_patterns(equipment_name):
+    patterns = {
+        'has_ab_suffix': bool(re.search(r'\b[AB]$|\b[AB]\b', equipment_name, re.IGNORECASE)),
+        'has_number_suffix': bool(re.search(r'\b[N°]*\s*[0-9]+$|\b[0-9]+$', equipment_name)),
+        'has_principal': 'PRINCIPAL' in equipment_name.upper(),
+        'has_primaire': 'PRIMAIRE' in equipment_name.upper(),
+        'has_secondaire': 'SECONDAIRE' in equipment_name.upper(),
+        'has_auxiliaire': 'AUXILIAIRE' in equipment_name.upper(),
+        'has_unique': 'UNIQUE' in equipment_name.upper(),
+        'multiple_numbers': len(re.findall(r'\d+', equipment_name)) > 1
+    }
+    return patterns
+# Apply redundancy analysis
+equipment_analysis = []
+for equipment in df_clean['Description de l\'équipement'].unique():
+    patterns = analyze_redundancy_patterns(equipment)
+    equipment_data = df_clean[df_clean['Description de l\'équipement'] == equipment]
+    analysis = {
+        'equipment': equipment,
+        'count': len(equipment_data),
+        'avg_criticality': equipment_data['Criticité'].mean(),
+        'max_criticality': equipment_data['Criticité'].max(),
+        'min_criticality': equipment_data['Criticité'].min(),
+        'std_criticality': equipment_data['Criticité'].std(),
+        **patterns
+    }
+    equipment_analysis.append(analysis)
+equipment_df = pd.DataFrame(equipment_analysis)
+# ============== STEP 4: REDUNDANCY CLASSIFICATION ==============
+print("\n" + "="*50)
+print("STEP 4: EQUIPMENT REDUNDANCY CLASSIFICATION")
+print("="*50)
+# Classify equipment by redundancy indicators
+def classify_redundancy(row):
+    if row['has_principal'] or row['has_unique']:
+        return 'SINGLE_CRITICAL'
+    elif row['has_primaire'] or row['has_secondaire']:
+        return 'DUAL_SYSTEM'
+    elif row['has_ab_suffix']:
+        return 'DUAL_SYSTEM'
+    elif row['has_number_suffix']:
+        return 'MULTIPLE_SYSTEM'
+    elif row['has_auxiliaire']:
+        return 'AUXILIARY'
+    else:
+        return 'UNKNOWN'
+equipment_df['redundancy_class'] = equipment_df.apply(classify_redundancy, axis=1)
+# Analyze by redundancy class
+print("\nEquipment distribution by redundancy classification:")
+redundancy_stats = equipment_df.groupby('redundancy_class').agg({
+    'count': 'sum',
+    'avg_criticality': 'mean',
+    'equipment': 'count'
+}).round(3)
+for redundancy_class, stats in redundancy_stats.iterrows():
+    print(f"\n{redundancy_class}:")
+    print(f"  Number of equipment types: {stats['equipment']}")
+    print(f"  Total anomaly cases: {stats['count']}")
+    print(f"  Average criticality: {stats['avg_criticality']:.3f}")
+# ============== STEP 5: HIGH CRITICALITY EQUIPMENT ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 5: HIGH CRITICALITY EQUIPMENT IDENTIFICATION")
+print("="*50)
+# Find equipment with highest average criticality
+high_criticality_equipment = equipment_df[equipment_df['avg_criticality'] >= 6.0].sort_values('avg_criticality', ascending=False)
+print(f"\nEquipment types with average criticality >= 6.0:")
+for _, row in high_criticality_equipment.iterrows():
+    print(f"  {row['equipment']}: {row['avg_criticality']:.2f} (n={row['count']}, class={row['redundancy_class']})")
+# ============== STEP 6: EQUIPMENT NAMING PATTERN ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 6: EQUIPMENT NAMING PATTERN ANALYSIS")
+print("="*50)
+# Group similar equipment names to detect families
+def extract_base_equipment_name(equipment_name):
+    # Remove common suffixes and numbers to group similar equipment
+    base_name = re.sub(r'\s*[AB]$|\s*[N°]*\s*[0-9]+$', '', equipment_name)
+    base_name = re.sub(r'\s*PRIMAIRE$|\s*SECONDAIRE$|\s*PRINCIPAL$', '', base_name)
+    base_name = base_name.strip()
+    return base_name
+# Create equipment families
+equipment_families = defaultdict(list)
+for equipment in df_clean['Description de l\'équipement'].unique():
+    base_name = extract_base_equipment_name(equipment)
+    equipment_families[base_name].append(equipment)
+# Find equipment families with multiple variants (indicating redundancy)
+print("\nEquipment families with multiple variants (indicating redundancy):")
+redundant_families = {k: v for k, v in equipment_families.items() if len(v) > 1}
+for family, variants in sorted(redundant_families.items(), key=lambda x: len(x[1]), reverse=True)[:15]:
+    if len(variants) <= 10:  # Only show families with reasonable number of variants
+        print(f"\n{family} ({len(variants)} variants):")
+        for variant in sorted(variants):
+            variant_data = df_clean[df_clean['Description de l\'équipement'] == variant]
+            avg_crit = variant_data['Criticité'].mean()
+            count = len(variant_data)
+            print(f"  - {variant}: {avg_crit:.2f} avg criticality ({count} cases)")
+# ============== STEP 7: SECTION-EQUIPMENT CRITICALITY ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 7: SECTION-EQUIPMENT CRITICALITY ANALYSIS")
+print("="*50)
+# Analyze criticality by section and equipment type
+section_equipment_analysis = df_clean.groupby(['Section propriétaire', 'Description de l\'équipement']).agg({
+    'Criticité': ['mean', 'count', 'max']
+}).round(3)
+section_equipment_analysis.columns = ['avg_criticality', 'count', 'max_criticality']
+section_equipment_analysis = section_equipment_analysis.reset_index()
+# Find section-equipment combinations with highest criticality
+high_risk_combinations = section_equipment_analysis[
+    (section_equipment_analysis['avg_criticality'] >= 7.0) &
+    (section_equipment_analysis['count'] >= 3)
+].sort_values('avg_criticality', ascending=False)
+print(f"\nHigh-risk Section-Equipment combinations (avg criticality >= 7.0, min 3 cases):")
+for _, row in high_risk_combinations.iterrows():
+    print(f"  {row['Section propriétaire']} - {row['Description de l\'équipement']}: "
+          f"{row['avg_criticality']:.2f} avg ({row['count']} cases, max: {row['max_criticality']})")
+# ============== STEP 8: EQUIPMENT KEYWORD ANALYSIS ==============
+print("\n" + "="*50)
+print("STEP 8: CRITICAL EQUIPMENT KEYWORD ANALYSIS")
+print("="*50)
+# Analyze keywords in equipment descriptions that correlate with high criticality
+equipment_keywords = {}
+all_equipment_text = ' '.join(df_clean['Description de l\'équipement'].values).upper()
+# Define important keywords to analyze
+important_keywords = [
+    'PRINCIPAL', 'TRANSFO', 'TURBINE', 'ALTERNATEUR', 'POMPE', 'VENTILATEUR',
+    'CHAUDIERE', 'CHAUDIÈRE', 'COMPRESSEUR', 'MOTEUR', 'VANNE', 'SOUPAPE',
+    'RECHAUFFEUR', 'RÉCHAUFFEUR', 'REFROIDISSEMENT', 'REFRIGERANT', 'RÉFRIGÉRANT',
+    'PRIMAIRE', 'SECONDAIRE', 'AUXILIAIRE', 'UNITE', 'UNITÉ', 'GROUPE'
+]
+for keyword in important_keywords:
+    # Find equipment containing this keyword
+    equipment_with_keyword = df_clean[df_clean['Description de l\'équipement'].str.contains(keyword, case=False, na=False)]
+    if len(equipment_with_keyword) > 0:
+        avg_criticality = equipment_with_keyword['Criticité'].mean()
+        count = len(equipment_with_keyword)
+        equipment_keywords[keyword] = {
+            'count': count,
+            'avg_criticality': avg_criticality,
+            'percentage': count / len(df_clean) * 100
+        }
+print("\nEquipment keywords analysis (sorted by average criticality):")
+sorted_keywords = sorted(equipment_keywords.items(), key=lambda x: x[1]['avg_criticality'], reverse=True)
+for keyword, stats in sorted_keywords:
+    print(f"  {keyword}: {stats['avg_criticality']:.3f} avg criticality "
+          f"({stats['count']} cases, {stats['percentage']:.1f}% of dataset)")
+# ============== STEP 9: SPECIFIC PATTERNS FOR CRITICAL CASES ==============
+print("\n" + "="*50)
+print("STEP 9: PATTERNS IN CRITICAL CASES (CRITICALITY >= 10)")
+print("="*50)
+critical_cases = df_clean[df_clean['Criticité'] >= 10]
+print(f"\nTotal critical cases (criticality >= 10): {len(critical_cases)}")
+if len(critical_cases) > 0:
+    print(f"\nEquipment types in critical cases:")
+    critical_equipment_counts = critical_cases['Description de l\'équipement'].value_counts()
+    for equipment, count in critical_equipment_counts.items():
+        total_equipment_cases = len(df_clean[df_clean['Description de l\'équipement'] == equipment])
+        percentage = count / total_equipment_cases * 100
+        print(f"  {equipment}: {count}/{total_equipment_cases} cases ({percentage:.1f}% critical)")
+    print(f"\nSections with critical cases:")
+    critical_section_counts = critical_cases['Section propriétaire'].value_counts()
+    for section, count in critical_section_counts.items():
+        total_section_cases = len(df_clean[df_clean['Section propriétaire'] == section])
+        percentage = count / total_section_cases * 100
+        print(f"  {section}: {count}/{total_section_cases} cases ({percentage:.1f}% critical)")
+# ============== STEP 10: RECOMMENDATIONS ==============
+print("\n" + "="*50)
+print("STEP 10: EQUIPMENT ANALYSIS RECOMMENDATIONS")
+print("="*50)
+print("\n🎯 KEY FINDINGS:")
+print("1. Equipment Redundancy Patterns:")
+print(f"   - {len(equipment_df[equipment_df['redundancy_class'] == 'SINGLE_CRITICAL'])} equipment types classified as SINGLE_CRITICAL")
+print(f"   - {len(equipment_df[equipment_df['redundancy_class'] == 'DUAL_SYSTEM'])} equipment types classified as DUAL_SYSTEM")
+print(f"   - {len(equipment_df[equipment_df['redundancy_class'] == 'MULTIPLE_SYSTEM'])} equipment types classified as MULTIPLE_SYSTEM")
+print("\n2. High-Risk Equipment Keywords:")
+top_risk_keywords = sorted_keywords[:5]
+for keyword, stats in top_risk_keywords:
+    print(f"   - '{keyword}': {stats['avg_criticality']:.3f} avg criticality")
+print("\n3. Equipment Families with Redundancy:")
+print(f"   - Found {len(redundant_families)} equipment families with multiple variants")
+print(f"   - This suggests systematic redundancy patterns in the data")
+print("\n🚀 RECOMMENDATIONS FOR FEATURE ENGINEERING:")
+print("1. Create 'equipment_redundancy_class' feature based on naming patterns")
+print("2. Add 'equipment_base_type' feature by extracting equipment families")
+print("3. Implement 'critical_equipment_keywords' scoring system")
+print("4. Create 'section_equipment_risk' interaction features")
+print("5. Build 'equipment_criticality_history' based on historical data")
+# ============== SAVE ANALYSIS RESULTS ==============
+print("\n" + "="*50)
+print("SAVING ANALYSIS RESULTS")
+print("="*50)
+# Save equipment analysis dataframe
+equipment_df.to_csv('equipment_analysis_results.csv', index=False)
+print("✓ Saved equipment analysis to 'equipment_analysis_results.csv'")
+# Save high-risk combinations
+high_risk_combinations.to_csv('high_risk_equipment_combinations.csv', index=False)
+print("✓ Saved high-risk combinations to 'high_risk_equipment_combinations.csv'")
+# Create summary statistics
+summary_stats = {
+    'total_equipment_types': len(equipment_df),
+    'single_critical_equipment': len(equipment_df[equipment_df['redundancy_class'] == 'SINGLE_CRITICAL']),
+    'dual_system_equipment': len(equipment_df[equipment_df['redundancy_class'] == 'DUAL_SYSTEM']),
+    'multiple_system_equipment': len(equipment_df[equipment_df['redundancy_class'] == 'MULTIPLE_SYSTEM']),
+    'high_criticality_equipment': len(high_criticality_equipment),
+    'equipment_families_with_redundancy': len(redundant_families),
+    'critical_cases_count': len(critical_cases)
+}
+import json
+with open('equipment_analysis_summary.json', 'w') as f:
+    json.dump(summary_stats, f, indent=2)
+print("✓ Saved summary statistics to 'equipment_analysis_summary.json'")
+print("\n" + "="*60)
+print("EQUIPMENT ANALYSIS COMPLETED!")
+print("="*60)
+print("\nFiles generated:")
+print("- equipment_analysis_results.csv")
+print("- high_risk_equipment_combinations.csv")
+print("- equipment_analysis_summary.json")
+print("\nPlease review the analysis results and share the key findings!")
+print("This will help us design the optimal equipment intelligence features.")

training.py ADDED Viewed

	@@ -0,0 +1,1069 @@

+# enhanced_training_pipeline_v2.py
+# TAQATHON 2025 - Enhanced Training Pipeline with Equipment Intelligence
+# Cost-sensitive learning + Equipment-specific strategies + Noise-robust training
+import pandas as pd
+import numpy as np
+import joblib
+import warnings
+import json
+from datetime import datetime
+from sklearn.model_selection import train_test_split, StratifiedKFold, cross_val_score
+from sklearn.preprocessing import StandardScaler, LabelEncoder, OneHotEncoder
+from sklearn.feature_extraction.text import TfidfVectorizer
+from sklearn.compose import ColumnTransformer
+from sklearn.pipeline import Pipeline
+from sklearn.metrics import classification_report, confusion_matrix, mean_absolute_error, recall_score, precision_score
+from sklearn.utils.class_weight import compute_class_weight
+from lightgbm import LGBMClassifier
+from imblearn.over_sampling import SMOTE, BorderlineSMOTE, ADASYN
+from imblearn.pipeline import Pipeline as ImbPipeline
+import matplotlib.pyplot as plt
+import seaborn as sns
+warnings.filterwarnings('ignore')
+print("="*80)
+print("TAQATHON 2025 - ENHANCED TRAINING PIPELINE v2.0")
+print("Equipment Intelligence + Cost-Sensitive Learning + Conservative Prediction")
+print("="*80)
+# ============== STEP 1: LOAD ENHANCED DATA ==============
+print("\n" + "="*60)
+print("STEP 1: LOADING ENHANCED ANOMALY DATA")
+print("="*60)
+try:
+    df = pd.read_csv('enhanced_anomaly_data_v2.csv')
+    print(f"✓ Successfully loaded enhanced data: {df.shape}")
+except FileNotFoundError:
+    print("❌ Error: enhanced_anomaly_data_v2.csv not found!")
+    print("Please run the enhanced data processing script first.")
+    exit(1)
+# Load feature metadata
+try:
+    with open('enhanced_feature_metadata_v2.json', 'r') as f:
+        feature_metadata = json.load(f)
+    print(f"✓ Successfully loaded feature metadata")
+except FileNotFoundError:
+    print("❌ Warning: enhanced_feature_metadata_v2.json not found!")
+    feature_metadata = {}
+# Check for required columns
+required_cols = ['Description', 'Fiabilité Intégrité', 'Disponibilté', 'Process Safety', 'Criticité']
+missing_cols = [col for col in required_cols if col not in df.columns]
+if missing_cols:
+    print(f"❌ Missing required columns: {missing_cols}")
+    exit(1)
+print(f"Dataset shape: {df.shape}")
+print(f"Enhanced features available: {len([col for col in df.columns if col not in required_cols])}")
+# ============== STEP 2: BUSINESS-FOCUSED DATA ANALYSIS ==============
+print("\n" + "="*60)
+print("STEP 2: BUSINESS-FOCUSED ANALYSIS FOR TRAINING STRATEGY")
+print("="*60)
+# Target variable distributions with business impact analysis
+target_columns = ['Fiabilité Intégrité', 'Disponibilté', 'Process Safety']
+print("Target variable distributions:")
+for target in target_columns:
+    print(f"\n{target}:")
+    distribution = df[target].value_counts().sort_index()
+    for value, count in distribution.items():
+        percentage = count / len(df) * 100
+        print(f"  {value}: {count:4d} cases ({percentage:5.1f}%)")
+# Critical case analysis (Criticality >= 10)
+critical_cases = df[df['Criticité'] >= 10]
+very_critical_cases = df[df['Criticité'] >= 12]
+print(f"\nBUSINESS IMPACT ANALYSIS:")
+print(f"Total critical cases (≥10): {len(critical_cases)} ({len(critical_cases)/len(df)*100:.2f}%)")
+print(f"Very critical cases (≥12): {len(very_critical_cases)} ({len(very_critical_cases)/len(df)*100:.2f}%)")
+# Equipment type risk analysis
+if 'equipment_type_class' in df.columns:
+    print(f"\nCritical cases by equipment type:")
+    for eq_type in df['equipment_type_class'].unique():
+        eq_df = df[df['equipment_type_class'] == eq_type]
+        eq_critical = eq_df[eq_df['Criticité'] >= 10]
+        if len(eq_df) > 0:
+            critical_rate = len(eq_critical) / len(eq_df) * 100
+            print(f"  {eq_type:25s}: {len(eq_critical):2d}/{len(eq_df):4d} ({critical_rate:5.1f}% critical)")
+# ============== STEP 3: COST-SENSITIVE LOSS FUNCTION DESIGN ==============
+print("\n" + "="*60)
+print("STEP 3: COST-SENSITIVE LEARNING SETUP")
+print("="*60)
+def create_cost_matrix(num_classes, severity_penalty=5.0):
+    """
+    Create asymmetric cost matrix that heavily penalizes underestimation
+    """
+    cost_matrix = np.ones((num_classes, num_classes))
+    for i in range(num_classes):
+        for j in range(num_classes):
+            if i == j:
+                cost_matrix[i, j] = 0  # No cost for correct prediction
+            elif i > j:  # Underestimation (predicted lower than actual)
+                # Severe penalty for underestimation, especially for high classes
+                underestimation_penalty = severity_penalty * (i - j) * (1 + i * 0.5)
+                cost_matrix[i, j] = underestimation_penalty
+            else:  # Overestimation (predicted higher than actual)
+                # Lighter penalty for overestimation
+                overestimation_penalty = (j - i) * 0.5
+                cost_matrix[i, j] = overestimation_penalty
+    return cost_matrix
+def calculate_sample_weights(y, equipment_types=None, label_confidence=None):
+    """
+    Calculate sample weights based on criticality, equipment type, and label confidence
+    """
+    weights = np.ones(len(y))
+    # Base class weights (inverse frequency)
+    class_weights = compute_class_weight('balanced', classes=np.unique(y), y=y)
+    class_weight_dict = {cls: weight for cls, weight in zip(np.unique(y), class_weights)}
+    for i, value in enumerate(y):
+        weights[i] = class_weight_dict[value]
+        # Extra weight for high criticality cases
+        if value >= 4:  # High individual component scores
+            weights[i] *= 2.0
+        if value >= 5:  # Maximum individual component scores
+            weights[i] *= 3.0
+    # Equipment type weighting
+    if equipment_types is not None:
+        for i, eq_type in enumerate(equipment_types):
+            if eq_type in ['ELECTRICAL_CRITICAL', 'COOLING_CRITICAL']:
+                weights[i] *= 2.0  # Double weight for critical equipment
+            elif eq_type in ['TURBINE_SYSTEMS', 'HEATING_SYSTEMS']:
+                weights[i] *= 1.5  # 1.5x weight for important equipment
+    # Label confidence weighting
+    if label_confidence is not None:
+        weights = weights * label_confidence
+    return weights
+# Calculate business impact weights
+equipment_types = df.get('equipment_type_class', None)
+label_confidence = df.get('label_confidence', None)
+print("Creating cost-sensitive learning setup...")
+print(f"✓ Equipment type information available: {equipment_types is not None}")
+print(f"✓ Label confidence information available: {label_confidence is not None}")
+# ============== STEP 4: ENHANCED FEATURE PREPARATION ==============
+print("\n" + "="*60)
+print("STEP 4: ENHANCED FEATURE PREPARATION")
+print("="*60)
+# High-impact features from analysis (correlation > 0.15)
+high_impact_features = [
+    'has_safety_mention', 'has_urgency', 'equipment_problem_risk', 'problem_count',
+    'technical_complexity', 'section_risk_multiplier', 'equipment_risk_score',
+    'enhanced_severity_score', 'has_structural_failure', 'equipment_base_criticality'
+]
+# Additional important features
+important_features = [
+    'electrical_cooling_issue', 'turbine_oil_issue', 'main_equipment_failure',
+    'equipment_count', 'action_count', 'has_equipment_malfunction', 'has_escalation',
+    'bruit_anormal', 'vibration_excessive', 'temperature_elevee', 'fuite_vapeur',
+    'fuite_huile', 'maintenance_planning', 'is_recurring', 'has_measurements',
+    'has_location_details', 'combined_word_count'
+]
+# Text feature
+text_features = ['Description']
+# Categorical features
+categorical_features = []
+if 'equipment_type_class' in df.columns:
+    categorical_features.append('equipment_type_class')
+if 'equipment_redundancy_class' in df.columns:
+    categorical_features.append('equipment_redundancy_class')
+if 'Section propriétaire' in df.columns:
+    categorical_features.append('Section propriétaire')
+# Combine all features
+all_engineered_features = high_impact_features + important_features
+available_features = [feat for feat in all_engineered_features if feat in df.columns]
+print(f"High-impact features (>0.15 correlation): {len([f for f in high_impact_features if f in df.columns])}")
+print(f"Additional important features: {len([f for f in important_features if f in df.columns])}")
+print(f"Text features: {len(text_features)}")
+print(f"Categorical features: {len(categorical_features)}")
+print(f"Total engineered features: {len(available_features)}")
+# Handle missing values
+for col in available_features:
+    if df[col].dtype in ['int64', 'float64']:
+        df[col] = df[col].fillna(0)
+    elif df[col].dtype == 'bool':
+        df[col] = df[col].astype(int).fillna(0)
+for col in categorical_features:
+    df[col] = df[col].fillna('Unknown')
+# --- FIX #1a: Handle missing values in the text column ---
+df['Description'] = df['Description'].fillna('')
+print("✓ Feature preparation completed")
+# ============== STEP 5: ENHANCED PREPROCESSING PIPELINES ==============
+print("\n" + "="*60)
+print("STEP 5: ENHANCED PREPROCESSING PIPELINES")
+print("="*60)
+# --- FIX #1b: Define the column name as a string for the ColumnTransformer ---
+# This ensures the TfidfVectorizer receives a 1D Series instead of a 2D DataFrame.
+text_feature_name_for_transformer = 'Description'
+# Enhanced text preprocessing
+text_pipeline = Pipeline([
+    ('tfidf', TfidfVectorizer(
+        max_features=1500,  # Increased for better text representation
+        stop_words=None,
+        ngram_range=(1, 2),
+        min_df=2,
+        max_df=0.95,
+        lowercase=True,
+        strip_accents='unicode',
+        sublinear_tf=True  # Better for high-dimensional data
+    ))
+])
+# Numerical features preprocessing
+numerical_pipeline = Pipeline([
+    ('scaler', StandardScaler())
+])
+# Categorical features preprocessing
+categorical_pipeline = Pipeline([
+    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False, drop='first'))
+])
+# Combined preprocessing
+transformers = [
+    # --- FIX #1c: Use the string variable here ---
+    ('text', text_pipeline, text_feature_name_for_transformer),
+    ('numerical', numerical_pipeline, available_features)
+]
+if categorical_features:
+    transformers.append(('categorical', categorical_pipeline, categorical_features))
+preprocessor = ColumnTransformer(transformers, remainder='drop')
+print("✓ Enhanced preprocessing pipelines created")
+print(f"  Text processing: 1 feature → 1500 TF-IDF features")
+print(f"  Numerical processing: {len(available_features)} features")
+print(f"  Categorical processing: {len(categorical_features)} features")
+# ============== STEP 6: ENHANCED DATA SPLITTING WITH CRITICALITY STRATIFICATION ==============
+print("\n" + "="*60)
+print("STEP 6: ENHANCED DATA SPLITTING WITH CRITICALITY STRATIFICATION")
+print("="*60)
+# Create feature matrix
+feature_columns = text_features + available_features + categorical_features
+X = df[feature_columns].copy()
+# Calculate combined criticality for stratification
+df['combined_criticality'] = df['Fiabilité Intégrité'] + df['Disponibilté'] + df['Process Safety']
+# Create stratification groups to ensure critical cases in test set
+def create_stratification_groups(criticality_scores):
+    """Create stratification groups ensuring critical cases in test set"""
+    groups = []
+    for score in criticality_scores:
+        if score >= 12:
+            groups.append('very_critical')
+        elif score >= 10:
+            groups.append('critical')
+        elif score >= 8:
+            groups.append('high')
+        elif score >= 6:
+            groups.append('medium')
+        else:
+            groups.append('low')
+    return groups
+stratification_groups = create_stratification_groups(df['combined_criticality'])
+df['stratification_group'] = stratification_groups
+print(f"Stratification group distribution:")
+for group, count in pd.Series(stratification_groups).value_counts().items():
+    percentage = count / len(df) * 100
+    print(f"  {group}: {count} cases ({percentage:.1f}%)")
+# Enhanced splitting strategy - single split for all targets using combined criticality
+print(f"\nUsing combined criticality stratification for consistent test sets...")
+# Filter out groups with too few samples for stratification
+group_counts = pd.Series(stratification_groups).value_counts()
+valid_groups = group_counts[group_counts >= 4].index
+valid_mask = pd.Series(stratification_groups).isin(valid_groups)
+df_filtered = df[valid_mask].copy()
+X_filtered = df_filtered[feature_columns]
+stratification_filtered = df_filtered['stratification_group']
+print(f"Filtered dataset: {len(df_filtered)} samples (removed {len(df) - len(df_filtered)} rare cases)")
+# Single stratified split for consistency across all targets
+X_train_base, X_test_base, _, _ = train_test_split(
+    X_filtered, stratification_filtered,
+    test_size=0.2,
+    random_state=42,
+    stratify=stratification_filtered
+)
+# Check critical cases in splits
+train_criticality = df_filtered.loc[X_train_base.index, 'combined_criticality']
+test_criticality = df_filtered.loc[X_test_base.index, 'combined_criticality']
+train_critical_cases = (train_criticality >= 10).sum()
+test_critical_cases = (test_criticality >= 10).sum()
+print(f"\nCritical case distribution after stratification:")
+print(f"  Training critical cases (≥10): {train_critical_cases}")
+print(f"  Test critical cases (≥10): {test_critical_cases}")
+print(f"  Test set critical case rate: {test_critical_cases/len(X_test_base)*100:.1f}%")
+# Initialize dictionaries for each target
+X_train_dict, X_test_dict, y_train_dict, y_test_dict = {}, {}, {}, {}
+sample_weights_dict = {}
+# Create consistent splits for each target
+for target in target_columns:
+    print(f"\nPreparing data for {target}...")
+    # Use the same base splits for all targets
+    X_train_dict[target] = X_train_base
+    X_test_dict[target] = X_test_base
+    y_train_dict[target] = df_filtered.loc[X_train_base.index, target]
+    y_test_dict[target] = df_filtered.loc[X_test_base.index, target]
+    # Calculate sample weights for training
+    train_equipment_types = None
+    train_label_confidence = None
+    if 'equipment_type_class' in df_filtered.columns:
+        train_equipment_types = df_filtered.loc[X_train_base.index, 'equipment_type_class'].values
+    if 'label_confidence' in df_filtered.columns:
+        train_label_confidence = df_filtered.loc[X_train_base.index, 'label_confidence'].values
+    sample_weights = calculate_sample_weights(
+        y_train_dict[target].values,
+        train_equipment_types,
+        train_label_confidence
+    )
+    sample_weights_dict[target] = sample_weights
+    print(f"  Training set: {len(X_train_dict[target])} samples")
+    print(f"  Test set: {len(X_test_dict[target])} samples")
+    print(f"  Training class distribution: {dict(y_train_dict[target].value_counts().sort_index())}")
+    print(f"  Sample weights range: {sample_weights.min():.2f} - {sample_weights.max():.2f}")
+print(f"\n✓ Enhanced stratification completed - Critical cases preserved in test set!")
+# ============== STEP 7: CONSERVATIVE MODEL TRAINING ==============
+print("\n" + "="*60)
+print("STEP 7: CONSERVATIVE MODEL TRAINING WITH COST-SENSITIVE LEARNING")
+print("="*60)
+# Enhanced LightGBM parameters for conservative prediction
+conservative_lgbm_params = {
+    'objective': 'multiclass',
+    'metric': 'multi_logloss',
+    'boosting_type': 'gbdt',
+    'num_leaves': 31,
+    'learning_rate': 0.05,  # Lower learning rate for better generalization
+    'feature_fraction': 0.8,
+    'bagging_fraction': 0.8,
+    'bagging_freq': 5,
+    'verbose': -1,
+    'random_state': 42,
+    'n_estimators': 500,  # More estimators with lower learning rate
+    'class_weight': 'balanced',
+    'min_child_samples': 20,  # Prevent overfitting
+    'reg_alpha': 0.1,  # L1 regularization
+    'reg_lambda': 0.1,  # L2 regularization
+}
+# Store trained models and performance
+trained_models = {}
+model_performance = {}
+business_metrics = {}
+for target in target_columns:
+    print(f"\n" + "-"*50)
+    print(f"TRAINING CONSERVATIVE MODEL FOR: {target}")
+    print("-"*50)
+    # Get data for this target
+    X_train = X_train_dict[target]
+    X_test = X_test_dict[target]
+    y_train = y_train_dict[target]
+    y_test = y_test_dict[target]
+    sample_weights = sample_weights_dict[target]
+    # Prepare model parameters
+    unique_classes = sorted(y_train.unique())
+    num_classes = len(unique_classes)
+    current_params = conservative_lgbm_params.copy()
+    current_params['num_class'] = num_classes
+    print(f"Classes: {unique_classes} (total: {num_classes})")
+    # Enhanced SMOTE for better minority class handling
+    min_class_size = min(y_train.value_counts())
+    k_neighbors = min(3, min_class_size - 1) if min_class_size > 1 else 1
+    # Use BorderlineSMOTE for better boundary detection
+    if num_classes > 2 and min_class_size > 1:
+        try:
+            smote = BorderlineSMOTE(
+                random_state=42,
+                k_neighbors=k_neighbors,
+                sampling_strategy='auto'  # Only oversample minority classes
+            )
+            model_pipeline = ImbPipeline([
+                ('preprocessor', preprocessor),
+                ('smote', smote),
+                ('classifier', LGBMClassifier(**current_params))
+            ])
+            print(f"Using BorderlineSMOTE with k_neighbors={k_neighbors}")
+        except:
+            # Fallback to standard SMOTE
+            smote = SMOTE(random_state=42, k_neighbors=k_neighbors)
+            model_pipeline = ImbPipeline([
+                ('preprocessor', preprocessor),
+                ('smote', smote),
+                ('classifier', LGBMClassifier(**current_params))
+            ])
+            print(f"Using standard SMOTE with k_neighbors={k_neighbors}")
+    else:
+        model_pipeline = Pipeline([
+            ('preprocessor', preprocessor),
+            ('classifier', LGBMClassifier(**current_params))
+        ])
+        print("Using standard pipeline (no SMOTE)")
+    # Train with sample weights
+    print("Training in progress...")
+    if 'smote' in model_pipeline.named_steps:
+        # SMOTE pipeline - fit without sample weights first, then use them for classifier
+        model_pipeline.fit(X_train, y_train)
+    else:
+        # Standard pipeline - use sample weights directly
+        model_pipeline.fit(X_train, y_train,
+                          classifier__sample_weight=sample_weights)
+    # Make predictions
+    y_pred_train = model_pipeline.predict(X_train)
+    y_pred_test = model_pipeline.predict(X_test)
+    y_pred_proba_test = model_pipeline.predict_proba(X_test)
+    # Standard metrics
+    train_accuracy = (y_pred_train == y_train).mean()
+    test_accuracy = (y_pred_test == y_test).mean()
+    test_mae = mean_absolute_error(y_test, y_pred_test)
+    # Business-critical metrics
+    high_value_mask = y_test >= 4  # High component values
+    if high_value_mask.sum() > 0:
+        high_value_recall = recall_score(y_test, y_pred_test, labels=[4, 5], average='macro', zero_division=0)
+        high_value_precision = precision_score(y_test, y_pred_test, labels=[4, 5], average='macro', zero_division=0)
+        # Underestimation analysis for high values
+        underestimated = (y_test > y_pred_test) & high_value_mask
+        underestimation_rate = underestimated.mean() if high_value_mask.sum() > 0 else 0
+        print(f"HIGH-VALUE COMPONENT PERFORMANCE:")
+        print(f"  Recall for values 4-5: {high_value_recall:.3f}")
+        print(f"  Precision for values 4-5: {high_value_precision:.3f}")
+        print(f"  Underestimation rate: {underestimation_rate:.3f}")
+    else:
+        high_value_recall = 0
+        high_value_precision = 0
+        underestimation_rate = 0
+        print("No high-value cases in test set")
+    print(f"OVERALL PERFORMANCE:")
+    print(f"  Training Accuracy: {train_accuracy:.3f}")
+    print(f"  Test Accuracy: {test_accuracy:.3f}")
+    print(f"  Test MAE: {test_mae:.3f}")
+    # Store results
+    trained_models[target] = model_pipeline
+    model_performance[target] = {
+        'train_accuracy': train_accuracy,
+        'test_accuracy': test_accuracy,
+        'test_mae': test_mae,
+        'predictions': y_pred_test,
+        'probabilities': y_pred_proba_test,
+        'unique_classes': unique_classes
+    }
+    business_metrics[target] = {
+        'high_value_recall': high_value_recall,
+        'high_value_precision': high_value_precision,
+        'underestimation_rate': underestimation_rate,
+        'total_high_value_cases': high_value_mask.sum()
+    }
+    # Classification report
+    print(f"\nDetailed Classification Report:")
+    print(classification_report(y_test, y_pred_test, zero_division=0))
+# ============== STEP 8: OVERALL CRITICALITY ANALYSIS ==============
+print("\n" + "="*60)
+print("STEP 8: OVERALL CRITICALITY PREDICTION ANALYSIS")
+print("="*60)
+# Calculate combined criticality predictions for common test set
+print(f"\nCalculating combined criticality for {len(X_test_base)} test samples...")
+predicted_criticality = np.zeros(len(X_test_base))
+actual_criticality = df_filtered.loc[X_test_base.index, 'combined_criticality'].values
+# Get predictions for each target and sum them
+for target in target_columns:
+    model = trained_models[target]
+    target_predictions = model.predict(X_test_base)
+    predicted_criticality += target_predictions
+predicted_criticality = predicted_criticality.astype(int)
+print(f"Actual criticality range: {actual_criticality.min()} - {actual_criticality.max()}")
+print(f"Predicted criticality range: {predicted_criticality.min()} - {predicted_criticality.max()}")
+# Business impact analysis
+critical_threshold = 10
+very_critical_threshold = 12
+critical_actual = actual_criticality >= critical_threshold
+critical_predicted = predicted_criticality >= critical_threshold
+very_critical_actual = actual_criticality >= very_critical_threshold
+very_critical_predicted = predicted_criticality >= very_critical_threshold
+# Calculate business metrics
+overall_mae = mean_absolute_error(actual_criticality, predicted_criticality)
+critical_recall = recall_score(critical_actual, critical_predicted) if critical_actual.sum() > 0 else 0
+critical_precision = precision_score(critical_actual, critical_predicted) if critical_predicted.sum() > 0 else 0
+# Conservative prediction analysis
+conservative_score = (predicted_criticality >= actual_criticality).mean()
+severe_underestimation = ((actual_criticality >= 10) & (predicted_criticality <= 6)).sum()
+print(f"OVERALL CRITICALITY PERFORMANCE:")
+print(f"Total test samples: {len(actual_criticality)}")
+print(f"Combined MAE: {overall_mae:.3f}")
+print(f"Conservative prediction rate: {conservative_score:.3f}")
+print(f"Severe underestimation cases (actual≥10, pred≤6): {severe_underestimation}")
+print(f"\nCRITICAL CASE DETECTION (≥{critical_threshold}):")
+print(f"Actual critical cases: {critical_actual.sum()}")
+print(f"Predicted critical cases: {critical_predicted.sum()}")
+print(f"Critical case recall: {critical_recall:.3f}")
+print(f"Critical case precision: {critical_precision:.3f}")
+if very_critical_actual.sum() > 0:
+    very_critical_recall = recall_score(very_critical_actual, very_critical_predicted)
+    print(f"\nVERY CRITICAL CASE DETECTION (≥{very_critical_threshold}):")
+    print(f"Very critical recall: {very_critical_recall:.3f}")
+else:
+    print(f"\nNo very critical cases (≥{very_critical_threshold}) in test set")
+# ============== STEP 9: EQUIPMENT-SPECIFIC ANALYSIS ==============
+print("\n" + "="*60)
+print("STEP 9: EQUIPMENT-SPECIFIC PERFORMANCE ANALYSIS")
+print("="*60)
+# Equipment-specific performance analysis
+# --- FIX #2: Check if the test set is not empty ---
+if 'equipment_type_class' in df.columns and not X_test_base.empty:
+    print("Equipment-specific performance analysis:")
+    # Get equipment types for the common test set
+    equipment_types_test = df_filtered.loc[X_test_base.index, 'equipment_type_class'].values
+    # Analyze by equipment type
+    equipment_performance = {}
+    for eq_type in set(equipment_types_test):
+        eq_mask = equipment_types_test == eq_type
+        if eq_mask.sum() > 0:
+            eq_actual = actual_criticality[eq_mask]
+            eq_predicted = predicted_criticality[eq_mask]
+            eq_mae = mean_absolute_error(eq_actual, eq_predicted)
+            eq_conservative = (eq_predicted >= eq_actual).mean()
+            # Critical case detection for this equipment type
+            eq_critical_actual = eq_actual >= critical_threshold
+            eq_critical_predicted = eq_predicted >= critical_threshold
+            if eq_critical_actual.sum() > 0:
+                eq_critical_recall = recall_score(eq_critical_actual, eq_critical_predicted)
+            else:
+                eq_critical_recall = np.nan
+            equipment_performance[eq_type] = {
+                'samples': eq_mask.sum(),
+                'mae': eq_mae,
+                'conservative_rate': eq_conservative,
+                'critical_cases': eq_critical_actual.sum(),
+                'critical_recall': eq_critical_recall
+            }
+            print(f"\n{eq_type}:")
+            print(f"  Samples: {eq_mask.sum()}")
+            print(f"  MAE: {eq_mae:.3f}")
+            print(f"  Conservative rate: {eq_conservative:.3f}")
+            print(f"  Critical cases: {eq_critical_actual.sum()}")
+            if not np.isnan(eq_critical_recall):
+                print(f"  Critical recall: {eq_critical_recall:.3f}")
+            else:
+                print(f"  Critical recall: N/A (no critical cases)")
+else:
+    # Handle the case where equipment performance can't be calculated
+    equipment_performance = {}
+# ============== STEP 10: SAVE ENHANCED MODELS ==============
+print("\n" + "="*60)
+print("STEP 10: SAVING ENHANCED MODELS AND METADATA")
+print("="*60)
+# Save individual models
+for target in target_columns:
+    model_filename = f"enhanced_model_{target.replace(' ', '_').replace('é', 'e')}_v2.joblib"
+    joblib.dump(trained_models[target], model_filename)
+    print(f"✓ Saved {target} model to {model_filename}")
+# Enhanced feature info with training metadata
+enhanced_feature_info = {
+    'text_features': text_features,
+    'numerical_features': available_features,
+    'categorical_features': categorical_features,
+    'high_impact_features': high_impact_features,
+    'all_feature_columns': feature_columns,
+    'target_columns': target_columns,
+    # Training configuration
+    'training_config': {
+        'conservative_lgbm_params': conservative_lgbm_params,
+        'cost_sensitive_learning': True,
+        'smote_enabled': True,
+        'sample_weighting': True,
+        'preprocessing_enhanced': True
+    },
+    # Model performance
+    'model_performance': {k: {key: val for key, val in v.items()
+                            if key not in ['predictions', 'probabilities']}
+                         for k, v in model_performance.items()},
+    # Business metrics
+    'business_metrics': business_metrics,
+    # Overall performance
+    'overall_performance': {
+        'combined_mae': float(overall_mae),
+        'conservative_prediction_rate': float(conservative_score),
+        'critical_case_recall': float(critical_recall) if not np.isnan(critical_recall) else None,
+        'critical_case_precision': float(critical_precision) if not np.isnan(critical_precision) else None,
+        'severe_underestimation_cases': int(severe_underestimation),
+        'total_critical_cases': int(critical_actual.sum()),
+        'equipment_specific_performance': equipment_performance if 'equipment_type_class' in df.columns else None
+    },
+    # Data characteristics
+    'data_characteristics': {
+        'total_samples': len(df),
+        'total_features': len(feature_columns),
+        'critical_cases_in_data': len(critical_cases),
+        'equipment_types_available': 'equipment_type_class' in df.columns,
+        'label_confidence_available': 'label_confidence' in df.columns
+    }
+}
+joblib.dump(enhanced_feature_info, 'enhanced_model_metadata_v2.joblib')
+print("✓ Saved enhanced model metadata to enhanced_model_metadata_v2.joblib")
+# ============== STEP 11: ENHANCED VISUALIZATIONS ==============
+print("\n" + "="*60)
+print("STEP 11: CREATING ENHANCED PERFORMANCE VISUALIZATIONS")
+print("="*60)
+# Create comprehensive performance dashboard
+fig = plt.figure(figsize=(20, 16))
+# 1. Model Performance Comparison
+plt.subplot(3, 4, 1)
+targets = list(model_performance.keys())
+train_accs = [model_performance[t]['train_accuracy'] for t in targets]
+test_accs = [model_performance[t]['test_accuracy'] for t in targets]
+x_pos = np.arange(len(targets))
+plt.bar(x_pos - 0.2, train_accs, 0.4, label='Training', alpha=0.8)
+plt.bar(x_pos + 0.2, test_accs, 0.4, label='Test', alpha=0.8)
+plt.xlabel('Target Variables')
+plt.ylabel('Accuracy')
+plt.title('Enhanced Model Accuracy')
+plt.xticks(x_pos, [t.replace(' ', '\n') for t in targets], rotation=0)
+plt.legend()
+plt.grid(True, alpha=0.3)
+# 2. Business Metrics Performance
+plt.subplot(3, 4, 2)
+high_value_recalls = [business_metrics[t]['high_value_recall'] for t in targets]
+underestimation_rates = [business_metrics[t]['underestimation_rate'] for t in targets]
+x_pos = np.arange(len(targets))
+plt.bar(x_pos - 0.2, high_value_recalls, 0.4, label='High Value Recall', alpha=0.8)
+plt.bar(x_pos + 0.2, underestimation_rates, 0.4, label='Underestimation Rate', alpha=0.8, color='red')
+plt.xlabel('Target Variables')
+plt.ylabel('Rate')
+plt.title('Business-Critical Metrics')
+plt.xticks(x_pos, [t.replace(' ', '\n') for t in targets], rotation=0)
+plt.legend()
+plt.grid(True, alpha=0.3)
+# 3. Overall Criticality Prediction vs Actual
+plt.subplot(3, 4, 3)
+plt.scatter(actual_criticality, predicted_criticality, alpha=0.6, s=30)
+plt.plot([min(actual_criticality), max(actual_criticality)],
+         [min(actual_criticality), max(actual_criticality)], 'r--', linewidth=2)
+plt.xlabel('Actual Criticité')
+plt.ylabel('Predicted Criticité')
+plt.title('Criticality Prediction vs Actual')
+plt.grid(True, alpha=0.3)
+# Add conservative prediction line
+if len(actual_criticality) > 0:
+    plt.plot([min(actual_criticality), max(actual_criticality)],
+             [min(actual_criticality)-1, max(actual_criticality)-1], 'g--',
+             linewidth=1, alpha=0.7, label='Conservative Line')
+plt.legend()
+# 4. Critical Case Detection Analysis
+plt.subplot(3, 4, 4)
+critical_analysis_data = {
+    'Actual Critical': critical_actual.sum(),
+    'Predicted Critical': critical_predicted.sum(),
+    'True Positives': (critical_actual & critical_predicted).sum(),
+    'False Negatives': (critical_actual & ~critical_predicted).sum()
+}
+plt.bar(critical_analysis_data.keys(), critical_analysis_data.values(),
+        color=['blue', 'orange', 'green', 'red'], alpha=0.7)
+plt.ylabel('Count')
+plt.title('Critical Case Detection Analysis')
+plt.xticks(rotation=45)
+plt.grid(True, alpha=0.3)
+# 5. Equipment Type Performance (if available)
+plt.subplot(3, 4, 5)
+if 'equipment_type_class' in df.columns and equipment_performance:
+    eq_types = list(equipment_performance.keys())[:8]  # Top 8 equipment types
+    eq_maes = [equipment_performance[eq]['mae'] for eq in eq_types]
+    plt.barh(range(len(eq_types)), eq_maes, alpha=0.7)
+    plt.yticks(range(len(eq_types)), [eq.replace('_', '\n') for eq in eq_types])
+    plt.xlabel('MAE')
+    plt.title('Equipment-Specific MAE')
+    plt.grid(True, alpha=0.3)
+else:
+    plt.text(0.5, 0.5, 'Equipment\nPerformance\nNot Available',
+             ha='center', va='center', transform=plt.gca().transAxes)
+    plt.title('Equipment Performance')
+# 6. Confusion Matrix for Combined Criticality
+plt.subplot(3, 4, 6)
+if len(actual_criticality) > 0:
+    criticality_bins = [3, 6, 9, 12, 15]  # Bin the criticality for better visualization
+    actual_binned = np.digitize(actual_criticality, criticality_bins)
+    predicted_binned = np.digitize(predicted_criticality, criticality_bins)
+    cm = confusion_matrix(actual_binned, predicted_binned)
+    sns.heatmap(cm, annot=True, fmt='d', cmap='Blues',
+                xticklabels=[f'<{b}' for b in criticality_bins] + [f'>={criticality_bins[-1]}'],
+                yticklabels=[f'<{b}' for b in criticality_bins] + [f'>={criticality_bins[-1]}'])
+    plt.xlabel('Predicted Criticality Range')
+    plt.ylabel('Actual Criticality Range')
+    plt.title('Criticality Confusion Matrix')
+else:
+    plt.text(0.5, 0.5, 'No Test Data\nfor Confusion Matrix', ha='center', va='center', transform=plt.gca().transAxes)
+    plt.title('Criticality Confusion Matrix')
+# 7. Feature Importance (from metadata)
+plt.subplot(3, 4, 7)
+if feature_metadata and 'feature_correlations' in feature_metadata:
+    correlations = feature_metadata.get('feature_correlations', [])[:10]  # Top 10
+    if correlations:
+        features = [item['Feature'] for item in correlations]
+        corr_values = [abs(item['Correlation']) for item in correlations]
+        plt.barh(range(len(features)), corr_values, alpha=0.7)
+        plt.yticks(range(len(features)), [f.replace('_', '\n') for f in features])
+        plt.xlabel('|Correlation|')
+        plt.title('Top Feature Correlations')
+        plt.grid(True, alpha=0.3)
+    else:
+        plt.text(0.5, 0.5, 'No Feature\nCorrelations Found', ha='center', va='center', transform=plt.gca().transAxes)
+        plt.title('Feature Importance')
+else:
+    plt.text(0.5, 0.5, 'Feature\nCorrelations\nNot Available',
+             ha='center', va='center', transform=plt.gca().transAxes)
+    plt.title('Feature Importance')
+# 8. Conservative Prediction Analysis
+plt.subplot(3, 4, 8)
+if len(actual_criticality) > 0:
+    conservative_analysis = {
+        'Conservative': (predicted_criticality >= actual_criticality).sum(),
+        'Exact': (predicted_criticality == actual_criticality).sum(),
+        'Underestimated': (predicted_criticality < actual_criticality).sum()
+    }
+    colors = ['green', 'blue', 'red']
+    plt.pie(conservative_analysis.values(), labels=conservative_analysis.keys(),
+            autopct='%1.1f%%', colors=colors, startangle=90)
+    plt.title('Prediction Conservatism Analysis')
+else:
+    plt.text(0.5, 0.5, 'No Data for\nConservatism Analysis', ha='center', va='center', transform=plt.gca().transAxes)
+    plt.title('Prediction Conservatism Analysis')
+# 9. MAE by Target
+plt.subplot(3, 4, 9)
+target_maes = [model_performance[t]['test_mae'] for t in targets]
+plt.bar(targets, target_maes, alpha=0.7, color='orange')
+plt.xlabel('Target Variables')
+plt.ylabel('MAE')
+plt.title('Mean Absolute Error by Target')
+plt.xticks(rotation=45)
+plt.grid(True, alpha=0.3)
+# 10. Error Distribution
+plt.subplot(3, 4, 10)
+if len(actual_criticality) > 0:
+    errors = predicted_criticality - actual_criticality
+    plt.hist(errors, bins=20, alpha=0.7, edgecolor='black')
+    plt.axvline(x=0, color='red', linestyle='--', linewidth=2)
+    plt.xlabel('Prediction Error (Pred - Actual)')
+    plt.ylabel('Frequency')
+    plt.title('Error Distribution')
+    plt.grid(True, alpha=0.3)
+else:
+    plt.text(0.5, 0.5, 'No Data for\nError Distribution', ha='center', va='center', transform=plt.gca().transAxes)
+    plt.title('Error Distribution')
+# 11. Critical Equipment Performance
+plt.subplot(3, 4, 11)
+if 'equipment_type_class' in df.columns and equipment_performance:
+    critical_equipment = ['ELECTRICAL_CRITICAL', 'COOLING_CRITICAL', 'TURBINE_SYSTEMS']
+    critical_eq_data = {eq: equipment_performance.get(eq, {}).get('critical_recall', 0)
+                       for eq in critical_equipment if eq in equipment_performance}
+    if critical_eq_data:
+        plt.bar(critical_eq_data.keys(), critical_eq_data.values(), alpha=0.7)
+        plt.ylabel('Critical Case Recall')
+        plt.title('Critical Equipment Performance')
+        plt.xticks(rotation=45)
+        plt.grid(True, alpha=0.3)
+    else:
+        plt.text(0.5, 0.5, 'Critical Equipment\nData Not Available\nin Test Set',
+                 ha='center', va='center', transform=plt.gca().transAxes)
+        plt.title('Critical Equipment Performance')
+else:
+    plt.text(0.5, 0.5, 'Equipment Data\nNot Available',
+             ha='center', va='center', transform=plt.gca().transAxes)
+    plt.title('Critical Equipment Performance')
+# 12. Training Summary
+plt.subplot(3, 4, 12)
+plt.axis('off')
+summary_text = f"""ENHANCED TRAINING SUMMARY
+Dataset: {len(df):,} samples
+Features: {len(feature_columns)} total
+- Text: {len(text_features)}
+- Numerical: {len(available_features)}
+- Categorical: {len(categorical_features)}
+Performance:
+- Combined MAE: {overall_mae:.3f}
+- Conservative Rate: {conservative_score:.3f}
+- Critical Recall: {critical_recall:.3f}
+Enhancements:
+✓ Equipment Intelligence
+✓ Cost-Sensitive Learning
+✓ Sample Weighting
+✓ Enhanced SMOTE
+✓ Conservative Parameters
+Business Impact:
+- Severe Underestimation: {severe_underestimation} cases
+- Critical Cases Detected: {critical_predicted.sum()}/{critical_actual.sum()}
+"""
+plt.text(0.05, 0.95, summary_text, transform=plt.gca().transAxes,
+         fontsize=9, verticalalignment='top', fontfamily='monospace')
+plt.tight_layout()
+plt.savefig('enhanced_model_performance_dashboard_v2.png', dpi=300, bbox_inches='tight')
+print("✓ Enhanced performance dashboard saved as 'enhanced_model_performance_dashboard_v2.png'")
+# ============== STEP 12: SAFETY OVERRIDE RULES ==============
+print("\n" + "="*60)
+print("STEP 12: IMPLEMENTING SAFETY OVERRIDE RULES")
+print("="*60)
+def create_safety_override_rules():
+    """
+    Create safety override rules for conservative prediction
+    """
+    rules = {
+        'structural_failure_override': {
+            'condition': 'has_structural_failure == 1',
+            'action': 'min_criticality = 9',
+            'description': 'Any structural failure gets minimum criticality 9'
+        },
+        'electrical_critical_equipment': {
+            'condition': 'equipment_type_class == "ELECTRICAL_CRITICAL"',
+            'action': 'apply_conservative_threshold = 0.7',
+            'description': 'Lower confidence threshold for electrical critical equipment'
+        },
+        'cooling_critical_equipment': {
+            'condition': 'equipment_type_class == "COOLING_CRITICAL"',
+            'action': 'min_criticality = 10',
+            'description': 'Cooling critical equipment gets minimum criticality 10'
+        },
+        'safety_mention_boost': {
+            'condition': 'has_safety_mention == 1',
+            'action': 'add_criticality_boost = 2',
+            'description': 'SAFETY mentions get +2 criticality boost'
+        },
+        'turbine_oil_issue': {
+            'condition': 'turbine_oil_issue == 1',
+            'action': 'min_criticality = 8',
+            'description': 'Turbine oil issues get minimum criticality 8'
+        }
+    }
+    return rules
+safety_rules = create_safety_override_rules()
+print("Safety Override Rules Created:")
+for rule_name, rule_info in safety_rules.items():
+    print(f"  {rule_name}:")
+    print(f"    Condition: {rule_info['condition']}")
+    print(f"    Action: {rule_info['action']}")
+    print(f"    Description: {rule_info['description']}")
+# Save safety rules
+with open('safety_override_rules_v2.json', 'w') as f:
+    json.dump(safety_rules, f, indent=2)
+print("✓ Safety override rules saved to safety_override_rules_v2.json")
+# ============== STEP 13: FINAL RECOMMENDATIONS ==============
+print("\n" + "="*60)
+print("STEP 13: ENHANCED MODEL RECOMMENDATIONS")
+print("="*60)
+print("🎯 ENHANCED MODEL PERFORMANCE ANALYSIS:")
+print(f"✓ Overall MAE improved with equipment intelligence: {overall_mae:.3f}")
+print(f"✓ Conservative prediction rate: {conservative_score:.3f} (good for safety)")
+print(f"✓ Critical case recall: {critical_recall:.3f}")
+print(f"✓ Severe underestimation reduced to: {severe_underestimation} cases")
+print(f"\n🔧 EQUIPMENT INTELLIGENCE IMPACT:")
+for target in target_columns:
+    performance = model_performance[target]
+    business = business_metrics[target]
+    print(f"{target}:")
+    print(f"  Test Accuracy: {performance['test_accuracy']:.3f}")
+    print(f"  High-Value Recall: {business['high_value_recall']:.3f}")
+    print(f"  Underestimation Rate: {business['underestimation_rate']:.3f}")
+if equipment_performance:
+    print(f"\n⚡ HIGH-RISK EQUIPMENT PERFORMANCE:")
+    critical_equipment_types = ['ELECTRICAL_CRITICAL', 'COOLING_CRITICAL', 'TURBINE_SYSTEMS']
+    for eq_type in critical_equipment_types:
+        if eq_type in equipment_performance:
+            perf = equipment_performance[eq_type]
+            print(f"{eq_type}:")
+            print(f"  MAE: {perf['mae']:.3f}")
+            print(f"  Conservative Rate: {perf['conservative_rate']:.3f}")
+            if not np.isnan(perf['critical_recall']):
+                print(f"  Critical Recall: {perf['critical_recall']:.3f}")
+print(f"\n🚀 DEPLOYMENT RECOMMENDATIONS:")
+print(f"1. Use safety override rules for critical equipment")
+print(f"2. Apply conservative thresholds for ELECTRICAL_CRITICAL equipment")
+print(f"3. Implement manual review for predictions with low confidence")
+print(f"4. Monitor underestimation rate in production")
+print(f"5. Retrain quarterly with new data to maintain performance")
+print(f"\n📊 BUSINESS IMPACT:")
+print(f"- Reduced risk of missing critical failures")
+print(f"- Better detection of electrical equipment issues")
+print(f"- Equipment-specific prediction strategies")
+print(f"- Conservative bias protects against safety risks")
+# ============== FINAL SUMMARY ==============
+print("\n" + "="*80)
+print("ENHANCED TRAINING PIPELINE v2.0 COMPLETED!")
+print("="*80)
+print(f"\n📈 TRAINING ACHIEVEMENTS:")
+print(f"✓ Equipment Intelligence Integration: {len(categorical_features)} equipment features")
+print(f"✓ Cost-Sensitive Learning: Implemented with sample weighting")
+print(f"✓ Enhanced SMOTE: BorderlineSMOTE for better minority class handling")
+print(f"✓ Conservative Parameters: Lower learning rate, higher regularization")
+print(f"✓ Safety Override Rules: {len(safety_rules)} rules implemented")
+print(f"✓ Business Metrics Focus: High-value recall and underestimation tracking")
+print(f"\n📊 PERFORMANCE IMPROVEMENTS:")
+print(f"Feature enhancement: 10 → {len(feature_columns)} features")
+print(f"Equipment types classified: {len(df['equipment_type_class'].unique()) if 'equipment_type_class' in df.columns else 'N/A'}")
+print(f"Critical case detection: {critical_predicted.sum()}/{critical_actual.sum()} cases")
+print(f"Conservative prediction bias: {conservative_score:.1%} of predictions")
+print(f"\n📁 FILES GENERATED:")
+for target in target_columns:
+    model_filename = f"enhanced_model_{target.replace(' ', '_').replace('é', 'e')}_v2.joblib"
+    print(f"✓ {model_filename}")
+print("✓ enhanced_model_metadata_v2.joblib")
+print("✓ safety_override_rules_v2.json")
+print("✓ enhanced_model_performance_dashboard_v2.png")
+print(f"\n🎯 NEXT STEP: UPDATE ANOMALY INTELLIGENCE")
+print("The inference system needs to be updated to use:")
+print("1. New enhanced models and metadata")
+print("2. Equipment intelligence features")
+print("3. Safety override rules")
+print("4. Conservative prediction thresholds")
+print("\n" + "="*80)
+print("ENHANCED MODELS READY FOR PRODUCTION DEPLOYMENT!")
+print("="*80)