digitaldev2024
/

pronoelit

Model card Files Files and versions

xet

Community

digitaldev2024 commited on May 20, 2025

Commit

491eb24

verified ·

1 Parent(s): af5693c

Upload train2_model.py

Browse files

Files changed (1) hide show

train2_model.py +711 -0

train2_model.py ADDED Viewed

	@@ -0,0 +1,711 @@

+import os
+import json
+import joblib
+import datetime
+import warnings
+import requests
+import numpy as np
+import pandas as pd
+from io import StringIO
+from tqdm import tqdm
+from xgboost import XGBClassifier
+from sklearn.model_selection import train_test_split, GridSearchCV, StratifiedKFold
+from sklearn.preprocessing import StandardScaler
+from sklearn.metrics import classification_report, roc_auc_score, brier_score_loss, confusion_matrix
+from sklearn.pipeline import Pipeline
+from sklearn.multioutput import MultiOutputClassifier
+from sklearn.base import clone
+from sklearn.calibration import CalibratedClassifierCV
+from imblearn.over_sampling import SMOTE, ADASYN, BorderlineSMOTE
+from imblearn.combine import SMOTEENN, SMOTETomek
+from imblearn.pipeline import Pipeline as ImbPipeline
+import matplotlib.pyplot as plt
+import seaborn as sns
+# Ignorer les avertissements spécifiques
+warnings.filterwarnings("ignore", category=UserWarning)
+# Constantes
+LEAGUES = {
+    'F1': 'France Ligue 1', 'F2': 'France Ligue 2',
+    'E0': 'England Premier League', 'E1': 'Championship',
+    'D1': 'Germany Bundesliga', 'D2': '2. Bundesliga',
+    'I1': 'Italy Serie A', 'I2': 'Serie B',
+    'SP1': 'Spain La Liga', 'SP2': 'Segunda Division',
+}
+REQUIRED_COLS = ['Date', 'HomeTeam', 'AwayTeam', 'FTHG', 'FTAG', 'FTR']
+BASE_URL = "https://www.football-data.co.uk/mmz4281"
+TARGET_COLUMNS = ['Home_Win', 'Away_Win', 'Draw', 'Over2.5', 'BTTS']
+def fetch_football_data():
+    """Télécharge les données de football des 5 dernières saisons pour les ligues majeures européennes"""
+    current_year = datetime.datetime.now().year
+    seasons = [f"{str(y-1)[-2:]}{str(y)[-2:]}" for y in range(current_year-6, current_year)]
+    all_data = []
+    for season in tqdm(seasons, desc="Chargement des saisons"):
+        season_code = season[-4:]
+        for league_code, league_name in LEAGUES.items():
+            try:
+                url = f"{BASE_URL}/{season_code[:2]}{season_code[2:]}/{league_code}.csv"
+                response = requests.get(url, timeout=15)
+                response.raise_for_status()
+                # Essayer différents encodages
+                for encoding in ['utf-8', 'latin1', 'iso-8859-1']:
+                    try:
+                        df = pd.read_csv(StringIO(response.text), encoding=encoding,
+                                         parse_dates=['Date'], dayfirst=True, on_bad_lines='warn')
+                        break
+                    except Exception:
+                        continue
+                else:
+                    print(f"⚠️ Erreur d'encodage : {league_code} {season}")
+                    continue
+                if not all(col in df.columns for col in REQUIRED_COLS):
+                    print(f"⚠️ Colonnes manquantes : {league_code} {season}")
+                    continue
+                df['Season'] = season
+                df['League'] = league_name
+                df['League_Code'] = league_code
+                all_data.append(df)
+            except Exception as e:
+                print(f"⚠️ Erreur {league_code} {season}: {str(e)}")
+                continue
+    if not all_data:
+        raise ValueError("Aucune donnée valide chargée.")
+    result_df = pd.concat(all_data, ignore_index=True).sort_values('Date')
+    print(f"📊 Données chargées : {len(result_df)} matchs de {len(seasons)} saisons")
+    return result_df
+def preprocess_data(df):
+    """Prétraite les données et calcule des caractéristiques additionnelles"""
+    # Nettoyer les noms de colonnes
+    df.columns = [col.strip() for col in df.columns]
+    # Mapping pour gérer différentes notations entre saisons
+    mapping = {
+        'HST': ['HST', 'HS', 'HSTS'],  # Plus de variantes pour shots
+        'AST': ['AST', 'AS', 'ASTS'],
+        'HF': ['HF', 'HomeF', 'HFauls'],  # Nouvelles métriques: fautes
+        'AF': ['AF', 'AwayF', 'AFauls'],
+        'HY': ['HY', 'HomeY'], # Cartes jaunes
+        'AY': ['AY', 'AwayY'],
+        'HR': ['HR', 'HomeR'], # Cartes rouges
+        'AR': ['AR', 'AwayR'],
+        'HC': ['HC'], 'AC': ['AC'],
+        'B365H': ['B365H', 'BbHwin'], 'B365D': ['B365D', 'BbDwin'], 'B365A': ['B365A', 'BbAwin'],
+        'B365O2.5': ['B365O2.5', 'BbOver'], 'B365U2.5': ['B365U2.5', 'BbUnder'],
+        'B365GG': ['B365GG', 'BBBTS']
+    }
+    # Harmonisation des colonnes basée sur le mapping
+    for target, sources in mapping.items():
+        for col in sources:
+            if col in df.columns:
+                df[target] = pd.to_numeric(df[col], errors='coerce')
+                break
+    # Caractéristiques de base des matchs
+    df['Goal_Diff'] = df['FTHG'] - df['FTAG']
+    df['Total_Goals'] = df['FTHG'] + df['FTAG']
+    df['Shot_Diff'] = df.get('HST', 0) - df.get('AST', 0)
+    df['Corners_Diff'] = df.get('HC', 0) - df.get('AC', 0)
+    df['Fouls_Diff'] = df.get('HF', 0) - df.get('AF', 0)
+    df['Yellow_Diff'] = df.get('HY', 0) - df.get('AY', 0)
+    df['Red_Diff'] = df.get('HR', 0) - df.get('AR', 0)
+    # Variables cibles
+    df['BTTS'] = ((df['FTHG'] > 0) & (df['FTAG'] > 0)).astype(int)
+    df['Over2.5'] = (df['Total_Goals'] > 2.5).astype(int)
+    # Caractéristiques avancées: forme récente (3 et 5 derniers matchs)
+    for team in ['Home', 'Away']:
+        team_col = f'{team}Team'
+        # Moyenne des 3 derniers matchs pour diverses statistiques
+        for stat in ['FTHG', 'FTAG', 'Total_Goals', 'BTTS', 'Over2.5']:
+            if stat in df.columns:
+                df[f'{team}_{stat}_Last3'] = df.groupby(team_col)[stat].transform(
+                    lambda x: x.rolling(3, min_periods=1).mean().shift(1))
+                # Ajouter moyenne sur 5 matchs
+                df[f'{team}_{stat}_Last5'] = df.groupby(team_col)[stat].transform(
+                    lambda x: x.rolling(5, min_periods=1).mean().shift(1))
+        # Statistiques défensives
+        if team == 'Home':
+            df[f'{team}_Goals_Conceded_Last3'] = df.groupby(team_col)['FTAG'].transform(
+                lambda x: x.rolling(3, min_periods=1).mean().shift(1))
+            df[f'{team}_Goals_Conceded_Last5'] = df.groupby(team_col)['FTAG'].transform(
+                lambda x: x.rolling(5, min_periods=1).mean().shift(1))
+        else:
+            df[f'{team}_Goals_Conceded_Last3'] = df.groupby(team_col)['FTHG'].transform(
+                lambda x: x.rolling(3, min_periods=1).mean().shift(1))
+            df[f'{team}_Goals_Conceded_Last5'] = df.groupby(team_col)['FTHG'].transform(
+                lambda x: x.rolling(5, min_periods=1).mean().shift(1))
+        # Statistiques de cartes
+        for card_type in ['HY', 'AY', 'HR', 'AR']:
+            if card_type in df.columns:
+                prefix = card_type[0]  # H ou A
+                if (prefix == 'H' and team == 'Home') or (prefix == 'A' and team == 'Away'):
+                    df[f'{team}_Cards_Last3'] = df.groupby(team_col)[card_type].transform(
+                        lambda x: x.rolling(3, min_periods=1).mean().shift(1))
+    # Probabilités implicites depuis les cotes
+    odds_columns = {
+        'Implied_Prob_Home': 'B365H',
+        'Implied_Prob_Draw': 'B365D',
+        'Implied_Prob_Away': 'B365A',
+        'Implied_Prob_Over2.5': 'B365O2.5',
+        'Implied_Prob_BTTS': 'B365GG'
+    }
+    for prob_col, odds_col in odds_columns.items():
+        if odds_col in df.columns:
+            df[prob_col] = 1 / df[odds_col]
+        else:
+            df[prob_col] = 0.5  # Valeur par défaut si cote non disponible
+    # Normalisation des probabilités (somme = 1 pour HDA)
+    if all(col in df.columns for col in ['Implied_Prob_Home', 'Implied_Prob_Draw', 'Implied_Prob_Away']):
+        total_prob = (df['Implied_Prob_Home'].fillna(0) +
+                      df['Implied_Prob_Draw'].fillna(0) +
+                      df['Implied_Prob_Away'].fillna(0))
+        for prob_col in ['Implied_Prob_Home', 'Implied_Prob_Draw', 'Implied_Prob_Away']:
+            df[prob_col] = df[prob_col] / total_prob
+    # Points et forme
+    df['Points_Home'] = df['FTR'].map({'H': 3, 'D': 1, 'A': 0})
+    df['Points_Away'] = df['FTR'].map({'A': 3, 'D': 1, 'H': 0})
+    # Forme sur différentes périodes
+    for period in [3, 5, 10]:
+        df[f'Home_Form{period}'] = df.groupby('HomeTeam')['Points_Home'].transform(
+            lambda x: x.rolling(period, min_periods=1).mean().shift(1))
+        df[f'Away_Form{period}'] = df.groupby('AwayTeam')['Points_Away'].transform(
+            lambda x: x.rolling(period, min_periods=1).mean().shift(1))
+    # Nettoyage final
+    df = df.dropna(subset=['FTHG', 'FTAG', 'FTR', 'Date'])
+    df['Date'] = pd.to_datetime(df['Date'], errors='coerce')
+    df = df.dropna(subset=['Date']).reset_index(drop=True)
+    # Ajouter jour de la semaine et mois
+    df['DayOfWeek'] = df['Date'].dt.dayofweek
+    df['Month'] = df['Date'].dt.month
+    # Classements au moment du match
+    # Simuler un classement simple en fonction des points accumulés
+    seasons = df['Season'].unique()
+    leagues = df['League'].unique()
+    for season in seasons:
+        for league in leagues:
+            season_league_mask = (df['Season'] == season) & (df['League'] == league)
+            season_league_data = df[season_league_mask].sort_values('Date')
+            # Initialiser dictionnaires pour les points et matchs joués
+            team_points = {}
+            team_matches = {}
+            # Parcourir les matchs chronologiquement
+            for idx, row in season_league_data.iterrows():
+                home_team = row['HomeTeam']
+                away_team = row['AwayTeam']
+                # Initialiser si équipes pas encore rencontrées
+                for team in [home_team, away_team]:
+                    if team not in team_points:
+                        team_points[team] = 0
+                        team_matches[team] = 0
+                # Enregistrer le classement avant le match
+                df.loc[idx, 'Home_Rank'] = sorted(
+                    [(team, pts/max(1, matches)) for team, pts, matches in
+                     zip(team_points.keys(), team_points.values(), team_matches.values())],
+                    key=lambda x: x[1], reverse=True
+                ).index((home_team, team_points[home_team]/max(1, team_matches[home_team]))) + 1
+                df.loc[idx, 'Away_Rank'] = sorted(
+                    [(team, pts/max(1, matches)) for team, pts, matches in
+                     zip(team_points.keys(), team_points.values(), team_matches.values())],
+                    key=lambda x: x[1], reverse=True
+                ).index((away_team, team_points[away_team]/max(1, team_matches[away_team]))) + 1
+                # Mettre à jour les points après le match
+                if row['FTR'] == 'H':
+                    team_points[home_team] += 3
+                elif row['FTR'] == 'A':
+                    team_points[away_team] += 3
+                else:  # Draw
+                    team_points[home_team] += 1
+                    team_points[away_team] += 1
+                # Mettre à jour les matchs joués
+                team_matches[home_team] += 1
+                team_matches[away_team] += 1
+    # Différence de classement
+    df['Rank_Diff'] = df['Home_Rank'] - df['Away_Rank']
+    return df
+def prepare_features(df):
+    """Prépare les features et les cibles pour l'entraînement"""
+    # Sélection des 5 caractéristiques à utiliser
+    features = [
+        'Shot_Diff',                   # Donne une idée du rapport de force offensif
+        'Home_Total_Goals_Last5',     # Forme récente (attaque)
+        'Away_Total_Goals_Last5',     # Forme récente (attaque)
+        'Home_BTTS_Last5',            # Tendance à marquer + encaisser
+        'Implied_Prob_Home'           # Sentiment des bookmakers
+    ]
+    # Filtrer pour ne garder que les colonnes disponibles
+    available_features = [f for f in features if f in df.columns]
+    print(f"Features disponibles: {len(available_features)}/{len(features)}")
+    if len(available_features) < len(features):
+        print(f"Features manquantes: {set(features) - set(available_features)}")
+    X = df[available_features].copy()
+    # Conversion et imputation
+    X = X.apply(pd.to_numeric, errors='coerce')
+    # Imputation plus robuste
+    for col in X.columns:
+        # Utiliser la médiane pour l'imputation (plus robuste que la moyenne)
+        X[col] = X[col].fillna(X[col].median())
+    # Préparation des variables cibles
+    y = pd.DataFrame({
+        'Home_Win': (df['FTR'] == 'H').astype(int),
+        'Away_Win': (df['FTR'] == 'A').astype(int),
+        'Draw': (df['FTR'] == 'D').astype(int),
+        'Over2.5': (df['Total_Goals'] > 2.5).astype(int),
+        'BTTS': ((df['FTHG'] > 0) & (df['FTAG'] > 0)).astype(int)
+    })
+    # Analyse des distributions des cibles
+    for col in y.columns:
+        positive_rate = y[col].mean() * 100
+        print(f"{col}: {positive_rate:.1f}% des cas")
+    return X, y
+def plot_feature_importance(model, feature_names, targets, save_dir="ml/plots"):
+    """Génère des graphiques de l'importance des features pour chaque cible"""
+    os.makedirs(save_dir, exist_ok=True)
+    estimators = model.named_steps['model'].estimators_
+    for i, (target, estimator) in enumerate(zip(targets, estimators)):
+        # Vérifier si l'estimateur est un CalibratedClassifierCV
+        if hasattr(estimator, 'base_estimator'):
+            # Accéder à l'estimateur sous-jacent
+            base_estimator = estimator.base_estimator
+            if hasattr(base_estimator, 'feature_importances_'):
+                importance = base_estimator.feature_importances_
+            else:
+                print(f"L'estimateur pour {target} n'a pas d'attribut feature_importances_")
+                continue
+        elif hasattr(estimator, 'feature_importances_'):
+            importance = estimator.feature_importances_
+        else:
+            print(f"L'estimateur pour {target} n'a pas d'attribut feature_importances_")
+            continue
+        indices = np.argsort(importance)[::-1]
+        # Graphique des 15 features les plus importantes
+        plt.figure(figsize=(10, 8))
+        plt.title(f'Importance des features pour {target}')
+        plt.barh(range(min(15, len(feature_names))),
+                importance[indices][:15], align='center')
+        plt.yticks(range(min(15, len(feature_names))),
+                  [feature_names[i] for i in indices[:15]])
+        plt.xlabel('Importance relative')
+        plt.tight_layout()
+        plt.savefig(f"{save_dir}/feature_importance_{target}.png")
+        plt.close()
+def train_model(X, y):
+    """Entraîne des modèles spécifiques pour chaque cible en utilisant XGBoost"""
+    X_train, X_test, y_train, y_test = train_test_split(
+        X, y, test_size=0.2, random_state=42, stratify=y['Draw'])
+    # Définir un modèle de base
+    base_model = XGBClassifier(
+        use_label_encoder=False,
+        eval_metric='logloss',
+        random_state=42,
+        n_jobs=-1
+    )
+    # Hyperparamètres à optimiser pour chaque cible
+    param_grids = {
+        'Home_Win': {
+            'n_estimators': [300, 400, 500],
+            'max_depth': [3, 4, 5],
+            'learning_rate': [0.01, 0.03],
+            'subsample': [0.8, 0.9],
+            'colsample_bytree': [0.8, 0.9]
+        },
+        'Away_Win': {
+            'n_estimators': [300, 400, 500],
+            'max_depth': [3, 4, 5],
+            'learning_rate': [0.01, 0.03],
+            'subsample': [0.8, 0.9],
+            'colsample_bytree': [0.8, 0.9]
+        },
+        'Draw': {  # Paramètres plus robustes pour la classe minoritaire
+            'n_estimators': [400, 500, 600],
+            'max_depth': [4, 5, 6],  # Légèrement plus profond pour capturer patterns complexes
+            'learning_rate': [0.005, 0.01, 0.02],  # Taux d'apprentissage plus faible
+            'subsample': [0.8, 0.9],
+            'colsample_bytree': [0.8, 0.9],
+            'scale_pos_weight': [3]  # Donner plus de poids aux exemples minoritaires
+        },
+        'Over2.5': {
+            'n_estimators': [300, 400, 500],
+            'max_depth': [4, 5, 6],
+            'learning_rate': [0.01, 0.03],
+            'subsample': [0.8, 0.9],
+            'colsample_bytree': [0.8, 0.9]
+        },
+        'BTTS': {
+            'n_estimators': [300, 400, 500],
+            'max_depth': [4, 5, 6],
+            'learning_rate': [0.01, 0.03],
+            'subsample': [0.8, 0.9],
+            'colsample_bytree': [0.8, 0.9]
+        }
+    }
+    # Techniques de rééquilibrage pour chaque cible
+    resampling_methods = {
+        'Home_Win': SMOTE(random_state=42),
+        'Away_Win': SMOTE(random_state=42),
+        'Draw': SMOTETomek(random_state=42),  # Méthode plus agressive pour la classe la plus déséquilibrée
+        'Over2.5': SMOTEENN(random_state=42),
+        'BTTS': SMOTEENN(random_state=42)
+    }
+    # Préparation des pipelines et modèles optimisés pour chaque cible
+    best_params = {}
+    estimators = []
+    scaler = StandardScaler()  # Utiliser StandardScaler au lieu de MinMaxScaler
+    X_train_scaled = scaler.fit_transform(X_train)
+    X_test_scaled = scaler.transform(X_test)
+    print("\n🔍 Optimisation des hyperparamètres pour chaque cible...")
+    for target in y_train.columns:
+        print(f"\nOptimisation pour {target}...")
+        # Recherche en grille avec validation croisée stratifiée
+        grid_search = GridSearchCV(
+            estimator=base_model,
+            param_grid=param_grids[target],
+            cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42),
+            scoring='roc_auc',
+            n_jobs=-1,
+            verbose=0
+        )
+        # Appliquer le rééquilibrage et entraîner
+        resampler = resampling_methods[target]
+        X_train_res, y_train_res = resampler.fit_resample(X_train_scaled, y_train[target])
+        # Entraîner la recherche en grille
+        grid_search.fit(X_train_res, y_train_res)
+        # Récupérer les meilleurs paramètres
+        best_params[target] = grid_search.best_params_
+        print(f"Meilleurs paramètres pour {target}: {best_params[target]}")
+        print(f"Meilleur score: {grid_search.best_score_:.4f}")
+        # Créer et entraîner le modèle avec les meilleurs paramètres
+        best_model = XGBClassifier(**best_params[target], random_state=42, use_label_encoder=False)
+        # Entraîner avec les données rééquilibrées
+        best_model.fit(
+            X_train_res, y_train_res,
+            eval_set=[(X_test_scaled, y_test[target])],
+            early_stopping_rounds=20,
+            verbose=False
+        )
+        # Pour Draw, Over2.5 et BTTS, ajouter une calibration de probabilité
+        if target in ['Draw', 'Over2.5', 'BTTS']:
+            print(f"Calibration des probabilités pour {target}...")
+            calibrated_model = CalibratedClassifierCV(
+                best_model,
+                method='isotonic',  # ou 'sigmoid' selon le cas
+                cv='prefit'  # le modèle est déjà entraîné
+            )
+            calibrated_model.fit(X_train_scaled, y_train[target])
+            estimators.append(calibrated_model)
+        else:
+            estimators.append(best_model)
+    # Construire le pipeline complet avec les modèles optimisés
+    multi_model = MultiOutputClassifier(base_model)
+    multi_model.estimators_ = estimators
+    pipeline = Pipeline([
+        ('scaler', scaler),
+        ('model', multi_model)
+    ])
+    # Générer les graphiques d'importance des features
+    plot_feature_importance(pipeline, X.columns, y.columns)
+    return pipeline, X_test, y_test, best_params
+def evaluate_model(model, X_test, y_test):
+    """Évalue la performance du modèle et génère des visualisations"""
+    try:
+        y_pred = model.predict(X_test)
+        y_proba = [est.predict_proba(X_test)[:, 1] for est in model.named_steps['model'].estimators_]
+        # Créer des dossiers pour les visualisations
+        os.makedirs("ml/plots2", exist_ok=True)
+        # Résultats par cible
+        proba_results = {}
+        print("\n==== RÉSULTATS D'ÉVALUATION ====")
+        plt.figure(figsize=(12, 10))
+        for i, target in enumerate(y_test.columns):
+            proba = y_proba[i]
+            proba_results[target] = proba
+            print(f"\n=== Évaluation pour {target} ===")
+            print(classification_report(y_test[target], y_pred[:, i]))
+            # Métriques supplémentaires
+            roc_auc = roc_auc_score(y_test[target], proba)
+            brier = brier_score_loss(y_test[target], proba)
+            print(f"ROC AUC: {roc_auc:.3f}")
+            print(f"Brier Score: {brier:.3f}")
+            # Confusion matrix
+            cm = confusion_matrix(y_test[target], y_pred[:, i])
+            print(f"Matrice de confusion:\n{cm}")
+            # Plot de la matrice de confusion
+            plt.subplot(2, 3, i+1)
+            sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', cbar=False)
+            plt.title(f'Matrice de confusion: {target}\nAUC: {roc_auc:.3f}')
+            plt.ylabel('Réel')
+            plt.xlabel('Prédit')
+        plt.tight_layout()
+        plt.savefig("ml/plots2/confusion_matrices.png")
+        plt.close()
+        # Dataframe avec les probabilités prédites
+        proba_df = pd.DataFrame(proba_results, index=X_test.index)
+        # Identification de la prédiction avec la probabilité la plus élevée
+        proba_df['Highest_Proba'] = proba_df[y_test.columns].idxmax(axis=1)
+        proba_df['Highest_Proba_Value'] = proba_df[y_test.columns].max(axis=1)
+        # Analyse des distributions de probabilités
+        print("\n=== Probabilités moyennes ===")
+        mean_probas = proba_df[y_test.columns].mean().sort_values(ascending=False)
+        print(mean_probas)
+        # Distribution des probabilités par classe
+        plt.figure(figsize=(12, 8))
+        for i, target in enumerate(y_test.columns):
+            plt.subplot(2, 3, i+1)
+            sns.histplot(proba_df[target], bins=20, kde=True)
+            plt.axvline(0.5, color='r', linestyle='--')
+            plt.title(f'Distribution des probabilités: {target}')
+            plt.xlabel('Probabilité')
+            plt.ylabel('Fréquence')
+        plt.tight_layout()
+        plt.savefig("ml/plots2/probability_distributions.png")
+        plt.close()
+        # Calibration des probabilités
+        plt.figure(figsize=(12, 8))
+        for i, target in enumerate(y_test.columns):
+            plt.subplot(2, 3, i+1)
+            # Regrouper les prédictions en buckets
+            n_bins = 10
+            bins = np.linspace(0, 1, n_bins + 1)
+            binned_preds = np.digitize(proba_df[target], bins) - 1
+            bin_accs = np.zeros(n_bins)
+            bin_confs = np.zeros(n_bins)
+            bin_sizes = np.zeros(n_bins)
+            for j in range(n_bins):
+                bin_mask = binned_preds == j
+                if np.sum(bin_mask) > 0:
+                    bin_accs[j] = np.mean(y_test[target].values[bin_mask])
+                    bin_confs[j] = np.mean(proba_df[target].values[bin_mask])
+                    bin_sizes[j] = np.sum(bin_mask)
+            # Tracer la courbe de calibration
+            plt.plot(bin_confs, bin_accs, marker='o', linewidth=2, label='Calibration')
+            plt.plot([0, 1], [0, 1], linestyle='--', color='gray', label='Parfaite calibration')
+            plt.title(f'Courbe de calibration: {target}')
+            plt.xlabel('Probabilité prédite')
+            plt.ylabel('Fréquence observée')
+            plt.legend(loc='lower right')
+            # Ajouter la taille des bins
+            for j in range(n_bins):
+                if bin_sizes[j] > 0:
+                    plt.text(bin_confs[j], bin_accs[j], f' {int(bin_sizes[j])}',
+                            ha='left', va='center', fontsize=8)
+        plt.tight_layout()
+        plt.savefig("ml/plots2/calibration_curves.png")
+        plt.close()
+        # Afficher les prédictions les plus confiantes
+        print("\n=== Top 5 des prédictions les plus confiantes ===")
+        print(proba_df.sort_values('Highest_Proba_Value', ascending=False).head(5))
+        # Analyse des erreurs les plus importantes
+        print("\n=== Analyse des erreurs ===")
+        errors = pd.DataFrame()
+        for target in y_test.columns:
+            # Identifier les faux positifs les plus confiants
+            false_positives = proba_df[
+                (y_test[target] == 0) & (proba_df[target] > 0.75)
+            ].sort_values(target, ascending=False)
+            if not false_positives.empty:
+                print(f"\nFaux positifs les plus confiants pour {target}:")
+                print(false_positives.head(3))
+            # Identifier les faux négatifs les plus confiants
+            false_negatives = proba_df[
+                (y_test[target] == 1) & (proba_df[target] < 0.25)
+            ].sort_values(target)
+            if not false_negatives.empty:
+                print(f"\nFaux négatifs les plus confiants pour {target}:")
+                print(false_negatives.head(3))
+        return proba_df
+    except Exception as e:
+        print(f"\n❌ Erreur lors de l'évaluation : {str(e)}")
+        import traceback
+        traceback.print_exc()
+        return None
+def save_model_info(model, X, best_params, targets):
+    """Sauvegarde le modèle et les informations associées"""
+    os.makedirs("ml", exist_ok=True)
+    # Sauvegarder le modèle
+    joblib.dump(model, "ml/multi_output_model_5.joblib")
+    # Sauvegarder les caractéristiques et les paramètres
+    model_info = {
+        "features": list(X.columns),
+        "targets": targets,
+        "best_params": best_params,
+        "created_at": datetime.datetime.now().isoformat()
+    }
+    with open("ml/model_info_5.json", "w") as f:
+        json.dump(model_info, f, indent=2)
+    print("\n✅ Modèle sauvegardé dans ml/multi_output_model_5.joblib")
+    print("✅ Informations du modèle sauvegardées dans ml/model_info_5.json")
+def predict_new_matches(model, features_df, feature_names):
+    """Réalise des prédictions sur de nouveaux matchs"""
+    # S'assurer que les features sont dans le bon ordre
+    X_new = features_df[feature_names].copy()
+    # Appliquer le modèle pour obtenir les probabilités
+    y_proba = [est.predict_proba(X_new)[:, 1] for est in model.named_steps['model'].estimators_]
+    # Créer le DataFrame de résultats
+    results = pd.DataFrame()
+    for i, target in enumerate(TARGET_COLUMNS):
+        results[target] = y_proba[i]
+    # Ajouter la prédiction avec la plus haute probabilité
+    results['Highest_Proba'] = results[TARGET_COLUMNS].idxmax(axis=1)
+    results['Highest_Proba_Value'] = results[TARGET_COLUMNS].max(axis=1)
+    return results
+def main():
+    """Fonction principale"""
+    try:
+        print("🚀 Démarrage du processus d'analyse et modélisation...")
+        # Étape 1: Téléchargement des données
+        print("\n⏳ Téléchargement des données...")
+        df = fetch_football_data()
+        # Étape 2: Prétraitement
+        print("\n🧹 Prétraitement des données...")
+        df = preprocess_data(df)
+        print(f"\n📊 {len(df)} matchs prêts à l'analyse.")
+        # Étape 3: Préparation des features
+        print("\n🔧 Préparation des features...")
+        X, y = prepare_features(df)
+        print(f"\nFeatures utilisées ({len(X.columns)}):")
+        print(", ".join(X.columns))
+        # Étape 4: Entraînement du modèle
+        print("\n🤖 Entraînement du modèle...")
+        model, X_test, y_test, best_params = train_model(X, y)
+        # Étape 5: Évaluation finale
+        print("\n🔍 Évaluation finale...")
+        evaluate_model(model, X_test, y_test)
+        # Étape 6: Sauvegarde
+        save_model_info(model, X, best_params, list(y.columns))
+        # Bonus: Préparer un modèle pour de futures prédictions
+        latest_data = df.sort_values('Date').tail(100)
+        print(f"\n📝 Les {len(latest_data)} matchs les plus récents sont disponibles pour des prédictions futures.")
+        # Démonstration: prédire les 5 prochains matchs (simulation)
+        print("\n🔮 Démonstration de prédiction pour les 5 derniers matchs:")
+        sample_matches = X_test.head(5)
+        predictions = predict_new_matches(model, sample_matches, X.columns)
+        # Afficher HomeTeam et AwayTeam s'ils sont disponibles dans l'index
+        if 'HomeTeam' in df.columns and 'AwayTeam' in df.columns:
+            sample_info = df.loc[sample_matches.index, ['HomeTeam', 'AwayTeam']]
+            predictions = pd.concat([sample_info, predictions], axis=1)
+        print(predictions)
+        print("\n✅ Processus terminé avec succès!")
+    except Exception as e:
+        print(f"\n❌ Erreur: {str(e)}")
+        import traceback
+        traceback.print_exc()
+if __name__ == "__main__":
+    main()