File size: 15,460 Bytes

import sqlite3
from datetime import datetime, timedelta
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt
import sendgrid
from sendgrid.helpers.mail import Mail, Email, To, Content
import os
from dotenv import load_dotenv

# Charger les variabels d'environnement
load_dotenv()
SENDGRID_API_KEY = os.getenv("SENDGRID_API_KEY")
FROM_EMAIL = os.getenv("FROM_EMAIL")
RECIPIENT_EMAIL = os.getenv("RECIPIENT_EMAIL")

# Chemin vers la DB
db_path = "sqlite:///../../database/db_logsv2.db"


class SecurityReport:
    def __init__(

        self,

        db_path=db_path,

        sendgrid_api_key=SENDGRID_API_KEY,

        from_email=FROM_EMAIL,

        recipient_email=RECIPIENT_EMAIL,

    ):
        self.DB_PATH = db_path
        self.sendgrid_api_key = sendgrid_api_key
        self.from_email = from_email
        self.recipient_email = recipient_email

    def query_logs(self, day:str = None) -> pd.DataFrame:
        """

        Récupère les logs de la journée sous forme de DataFrame.



        Cette fonction effectue les opérations suivantes :

        1. Détermine les horaires de début et de fin de la journée actuelle.

        2. Établit une connexion à la base de données SQLite.

        3. Exécute une requête SQL pour récupérer les logs du jour en effectuant des jointures 

        avec les tables `prompt`, `status` et `origin` afin d'obtenir des informations 

        détaillées sur chaque log.

        4. Retourne les données sous forme d'un DataFrame pandas.



        Returns:

            pd.DataFrame: Un DataFrame contenant les logs de la journée avec les colonnes suivantes :

                - timestamp: Horodatage du log.

                - prompt: Texte de la requête.

                - response: Réponse associée.

                - status: Statut du log.

                - origin: Adresse IP de l'utilisateur.

        """

        # Connection à la BDD et requete
        conn = sqlite3.connect(self.DB_PATH)
        query = """

            SELECT 

                log.timestamp AS timestamp,

                prompt.prompt AS prompt,

                prompt.response AS response,

                status.status AS status,

                origin.origin AS origin

            FROM log

            LEFT JOIN prompt ON log.id_prompt = prompt.id_prompt

            LEFT JOIN status ON log.id_status = status.id_status

            LEFT JOIN origin ON log.id_origin = origin.id_origin

        """
        # Initialisation des paramètres
        params = ()

        # Initialisation des horaires si date présente 
        if day:
            start_of_day = datetime.combine(day, datetime.min.time())
            end_of_day = datetime.combine(day, datetime.max.time())
            query += " WHERE log.timestamp BETWEEN ? AND ?"
            params = (start_of_day, end_of_day)

        # Logs récupérés au format DataFrame
        df = pd.read_sql_query(query, conn, params=params)
        conn.close()
        df["timestamp"] = df["timestamp"].astype(str)
        df= df.fillna("unknow")

        return df

    def _create_pipeline(self):
        """

        Crée un pipeline de prétraitement des données pour le clustering.



        Cette fonction met en place un pipeline de transformation des données, qui comprend :

        1. Un pipeline spécifique pour les données textuelles, appliquant une vectorisation TF-IDF

        avec un nombre de caractéristiques limité à 50.

        2. Un pipeline pour les données catégorielles, appliquant un encodage One-Hot tout en

        ignorant les valeurs inconnues lors de la transformation.

        3. Une combinaison de ces transformations à l'aide d'un `ColumnTransformer` pour appliquer

        les transformations appropriées aux bonnes colonnes du dataset.

        4. Un pipeline principal qui applique ces transformations et normalise les données avec 

        `StandardScaler` (sans soustraction de la moyenne, car TF-IDF produit des matrices creuses).



        Returns:

            sklearn.pipeline.Pipeline: Un pipeline scikit-learn qui prépare les données 

            avant leur utilisation en Machine Learning.

        """

        # Colonnes catégorielles et textuelles
        categorical_features = ["status"]
        text_features = ["timestamp", "prompt", "response", "origin"]

        # Pipeline pour les données textuelles
        text_pipelines = {
            feature: Pipeline([("tfidf", TfidfVectorizer(max_features=50, stop_words=None, analyzer="word"))])
            for feature in text_features
        }

        # Pipeline pour les données catgéorielles
        cat_pipeline = Pipeline(
            [("onehot", OneHotEncoder(handle_unknown="ignore", sparse_output=False))]
        )

        # Combinaison des méthodes
        preprocessor = ColumnTransformer(
            transformers=[
                ("text_" + feature, text_pipelines[feature], feature) 
                for feature in text_features
            ] + [("cat", cat_pipeline, categorical_features)],
            remainder="drop"
        )

        # Pipeline principale
        pipeline = Pipeline(
            [
                ("preprocessor", preprocessor),
                ("scaler", StandardScaler(with_mean=False)),
            ]
        )

        return pipeline

    def clustering_log(self, max_clusters:int=10) -> int:
        """

        Effectue un clustering sur les logs journaliers et détermine le nombre optimal de clusters.



        Cette fonction réalise les étapes suivantes :

        1. **Initialisation** :

        - Définit les variables pour suivre le meilleur score Silhouette et le nombre optimal de clusters.

        2. **Récupération des logs journaliers** :

        - Charge les logs du jour via `query_daily_logs()`.

        3. **Prétraitement des données** :

        - Applique le pipeline de transformation `_create_pipeline()` pour préparer les logs.

        4. **Clustering avec K-Means** :

        - Teste différentes valeurs de `n_clusters` (de 2 à `max_clusters`).

        - Entraîne un modèle K-Means et calcule le **score de Silhouette** pour mesurer la qualité du clustering.

        - Identifie la valeur de `n_clusters` offrant le meilleur score.

        5. **Affichage des résultats** :

        - Affiche les scores pour chaque nombre de clusters testé.

        - Retourne le nombre optimal de clusters.



        Args:

            max_clusters (int, optional): Nombre maximal de clusters à tester. Par défaut, 10.



        Returns:

            int: Le nombre optimal de clusters basé sur le meilleur score Silhouette.

        """
            
        # Initialisation des paramètres
        best_score = -1  # Score Silhouette le plus élevé trouvé
        best_n_clusters = 2  # Nombre optimal de clusters

        # Récupère les logs journaliers
        logs = self.query_logs()

        # Prétraitement des logs
        preprocessor = self._create_pipeline()
        logs = preprocessor.fit_transform(logs)

        # Teste plusieurs nombres de clusters pour identifier le meilleur
        for n_clusters in range(2, max_clusters + 1):
            self.model = KMeans(n_clusters=n_clusters, random_state=0)
            self.model.fit(logs)
            
            # Calcul du score de Silhouette
            score = silhouette_score(logs, self.model.labels_)
            print(f"Nombre de clusters : {n_clusters}, Silhouette Score : {score:.4f}")

            # Mise à jour du meilleur score et du meilleur nombre de clusters
            if score > best_score:
                best_score = score
                best_n_clusters = n_clusters

        # Affichage du meilleur nombre de clusters
        print(
            f"\nMeilleur nombre de clusters : {best_n_clusters}, Silhouette Score : {best_score:.4f}"
        )

        return best_n_clusters

    def generate_report(self, logs:pd.DataFrame) -> str:
        """

        Génère un rapport HTML sur les logs journaliers, incluant des statistiques et des résultats de clustering.



        Cette fonction effectue les étapes suivantes :

        1. **Calcul des statistiques** :

        - Récupère la date actuelle.

        - Calcule le nombre total de logs.

        - Effectue un comptage des occurrences de chaque statut dans les logs.

        - Exécute un clustering sur les logs pour déterminer le nombre de comportements différents.

        2. **Construction du rapport HTML** :

        - Crée une page HTML contenant les statistiques sous forme de texte et de liste.

        - Ajoute un titre, les informations de répartition des statuts, et le nombre de clusters détectés.

        - Applique un style simple pour rendre le rapport lisible et structuré.

        3. **Retourne le rapport sous forme de chaîne HTML** :

        - Le rapport est sous forme de code HTML prêt à être envoyé ou affiché.



        Args:

            logs (pd.DataFrame): Un DataFrame contenant les logs à analyser, avec au moins une colonne `status`.



        Returns:

            str: Un rapport HTML sous forme de chaîne de caractères.

        """
        
        # Récupération de la date actuelle sous format dd/mm/yyyy
        date_str = datetime.now().strftime("%d/%m/%Y")
        
        # Nombre total de logs
        total_logs = len(logs)
        
        # Comptage des occurrences de chaque statut
        status_counts = logs["status"].value_counts().to_dict()
        
        # Exécution du clustering pour obtenir le nombre de comportements différents détectés
        n_clusters = self.clustering_log()

        # Création d'une liste HTML des statuts et de leurs occurrences
        status_html = "".join(
            f"<li><strong>{status}:</strong> {count}</li>"
            for status, count in status_counts.items()
        )

        # Construction du rapport HTML
        report = f"""

        <html>

        <head>

            <style>

                body {{

                    font-family: Arial, sans-serif;

                    color: #333;

                    line-height: 1.6;

                }}

                .container {{

                    max-width: 600px;

                    margin: 20px auto;

                    padding: 20px;

                    border: 1px solid #ddd;

                    border-radius: 8px;

                    background-color: #f9f9f9;

                }}

                h2 {{

                    background-color: #007BFF;

                    color: white;

                    padding: 10px;

                    border-radius: 5px;

                    text-align: center;

                }}

                ul {{

                    list-style-type: none;

                    padding: 0;

                }}

                li {{

                    padding: 5px 0;

                }}

                .footer {{

                    margin-top: 20px;

                    font-size: 12px;

                    text-align: center;

                    color: #777;

                }}

            </style>

        </head>

        <body>

            <div class="container">

                <h2>📋 Rapport de Sécurité - {date_str}</h2>

                <p><u><strong>Nombre total de logs :</strong></u> {total_logs}</p>

                <p><u><strong>Répartition des statuts :</strong></u></p>

                <ul>

                    {status_html}

                </ul>

                <p><u><strong>🔍 Nombre de comportements différents détectés :</strong></u> {n_clusters}</p>

                <div class="footer">

                    Rapport généré avec amour et passion par le système de surveillance. 🫶 🛡️

                </div>

            </div>

        </body>

        </html>

        """

        return report

    def send_email(self, subject, body):
        """

        Envoie un email en utilisant l'API SendGrid.



        Cette fonction réalise les étapes suivantes :

        1. **Initialisation de l'API SendGrid** :

        - Utilise la clé API de SendGrid (`self.sendgrid_api_key`) pour configurer l'accès à l'API.

        2. **Préparation du contenu de l'email** :

        - Définit l'expéditeur (`from_email`), le destinataire (`to_email`), le sujet (`subject`) 

            et le corps de l'email (`body`), qui est en format HTML.

        3. **Envoi de l'email** :

        - Envoie l'email via l'API SendGrid en utilisant la méthode `send.post`.

        4. **Gestion des erreurs** :

        - Si l'envoi échoue, un message d'erreur est affiché.



        Args:

            subject (str): Le sujet de l'email.

            body (str): Le contenu de l'email en format HTML.



        Returns:

            None: Si l'email est envoyé avec succès, aucun retour n'est généré, 

                sinon un message d'erreur est imprimé.

        """
        
        # Initialisation de l'API SendGrid
        sg = sendgrid.SendGridAPIClient(api_key=self.sendgrid_api_key)
        
        # Création des objets pour l'expéditeur, le destinataire et le contenu
        from_email = Email(self.from_email)
        to_email = To(self.recipient_email)
        content = Content("text/html", body)
        
        # Création de l'objet Mail avec les informations nécessaires
        mail = Mail(from_email, to_email, subject, content)

        try:
            # Envoi de l'email via l'API SendGrid
            response = sg.client.mail.send.post(request_body=mail.get())
            print(f"Email envoyé avec succès: {response.status_code}")
        except Exception as e:
            # Si une erreur survient, affichage du message d'erreur
            print(f"Erreur, email non-envoyé: {e}")

    def run_report(self):
        """

        Exécute le rapport journalier de sécurité et l'envoie par email.



        Cette fonction réalise les étapes suivantes :

        1. **Récupération des logs journaliers** :

        - Utilise la méthode `query_daily_logs()` pour obtenir les logs du jour à analyser.

        2. **Génération du rapport** :

        - Utilise la méthode `generate_report()` pour créer un rapport HTML contenant les statistiques et autres informations pertinentes sur les logs.

        3. **Envoi du rapport par email** :

        - Utilise la méthode `send_email()` pour envoyer l'email avec le rapport généré en pièce jointe dans le corps du message.



        Returns:

            None: Cette fonction n'a pas de valeur de retour. Elle exécute des actions (générer et envoyer un rapport).

        """
        
        # Récupérer les logs de la journée
        logs = self.query_logs()
        
        # Générer un rapport à partir des logs récupérés
        report = self.generate_report(logs)

        # Envoi du rapport par email
        self.send_email(subject="Rapport de sécurité journalier", body=report)