Spaces:

krislette
/

bach-or-bot

Sleeping

App Files Files Community

krislette commited on Oct 26, 2025

Commit

0534c29

1 Parent(s): a312a53

Auto-deploy from GitHub: bb659763110ffbe4c2a85e186bebb84edb7010de

Browse files

Files changed (7) hide show

app/schemas.py +18 -0
app/server.py +69 -2
scripts/explain.py +184 -1
scripts/explain_combined_runner.py +92 -0
scripts/predict.py +126 -0
scripts/predict_combined_runner.py +65 -0
src/musiclime/explainer.py +85 -0

app/schemas.py CHANGED Viewed

@@ -54,3 +54,21 @@ class AudioOnlyPredictionXAIResponse(BaseModel):
     audio_content_type: str
     audio_file_size: int
     results: dict

     audio_content_type: str
     audio_file_size: int
     results: dict
+class CombinedExplanationResponse(BaseModel):
+    status: str
+    lyrics: str
+    audio_file_name: str
+    audio_content_type: str
+    audio_file_size: int
+    results: dict  # Contains both multimodal and audio_only results
+class CombinedPredictionResponse(BaseModel):
+    status: str
+    lyrics: str
+    audio_file_name: str
+    audio_content_type: str
+    audio_file_size: int
+    results: dict  # Contains both multimodal and audio_only predictions

app/server.py CHANGED Viewed

@@ -10,13 +10,15 @@ from app.schemas import (
     AudioOnlyPredictionResponse,
     AudioOnlyPredictionXAIResponse,
     WelcomeResponse,
 )
 from app.utils import load_server_config, load_model_config
 from app.validators import validate_lyrics, validate_audio_source, validate_audio_only
 # Model/XAI-related imports
-from scripts.explain import musiclime_multimodal, musiclime_unimodal
-from scripts.predict import predict_multimodal, predict_unimodal
 # Other imports
 import io
@@ -64,6 +66,8 @@ def root():
             "/api/v1/explain/multimodal": "POST endpoint for multimodal explainability",
             "/api/v1/predict/audio": "POST endpoint for audio-only prediction",
             "/api/v1/explain/audio": "POST endpoint for audio-only explainability",
         },
     )
@@ -217,6 +221,69 @@ async def explain_audio_only_endpoint(
         raise HTTPException(status_code=500, detail=str(e))
 @app.get("/api/v1/model/info", response_model=ModelInfoResponse, tags=["Model"])
 async def get_model_info():
     """

     AudioOnlyPredictionResponse,
     AudioOnlyPredictionXAIResponse,
     WelcomeResponse,
+    CombinedExplanationResponse,
+    CombinedPredictionResponse,
 )
 from app.utils import load_server_config, load_model_config
 from app.validators import validate_lyrics, validate_audio_source, validate_audio_only
 # Model/XAI-related imports
+from scripts.explain import musiclime_multimodal, musiclime_unimodal, musiclime_combined
+from scripts.predict import predict_multimodal, predict_unimodal, predict_combined
 # Other imports
 import io
             "/api/v1/explain/multimodal": "POST endpoint for multimodal explainability",
             "/api/v1/predict/audio": "POST endpoint for audio-only prediction",
             "/api/v1/explain/audio": "POST endpoint for audio-only explainability",
+            "/api/v1/predict/combined": "POST endpoint for BOTH predictions",
+            "/api/v1/explain/combined": "POST endpoint for BOTH explanations",
         },
     )
         raise HTTPException(status_code=500, detail=str(e))
+# New combined endpoints (multimodal and audio-only)
+@app.post("/api/v1/predict/combined", response_model=CombinedPredictionResponse)
+async def predict_combined_endpoint(
+    lyrics: str = Depends(validate_lyrics),
+    audio_data_tuple: Tuple = Depends(validate_audio_source),
+):
+    """Combined multimodal and audio-only prediction endpoint (optimized)."""
+    try:
+        audio_content, audio_file_name, audio_content_type = audio_data_tuple
+        try:
+            audio_data, sr = librosa.load(io.BytesIO(audio_content))
+        except Exception as e:
+            raise HTTPException(status_code=400, detail=f"Invalid audio file: {str(e)}")
+        # Generate both predictions with shared audio processing
+        results = predict_combined(audio_data, lyrics)
+        return CombinedPredictionResponse(
+            status="success",
+            lyrics=lyrics,
+            audio_file_name=audio_file_name,
+            audio_content_type=audio_content_type,
+            audio_file_size=len(audio_content),
+            results=results,
+        )
+    except HTTPException:
+        raise
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
+@app.post("/api/v1/explain/combined", response_model=CombinedExplanationResponse)
+async def explain_combined_endpoint(
+    lyrics: str = Depends(validate_lyrics),
+    audio_data_tuple: Tuple = Depends(validate_audio_source),
+):
+    """Combined multimodal and audio-only explanation endpoint (optimized)."""
+    try:
+        audio_content, audio_file_name, audio_content_type = audio_data_tuple
+        try:
+            audio_data, sr = librosa.load(io.BytesIO(audio_content))
+        except Exception as e:
+            raise HTTPException(status_code=400, detail=f"Invalid audio file: {str(e)}")
+        # Generate both explanations with single source separation
+        results = musiclime_combined(audio_data, lyrics)
+        return CombinedExplanationResponse(
+            status="success",
+            lyrics=lyrics,
+            audio_file_name=audio_file_name,
+            audio_content_type=audio_content_type,
+            audio_file_size=len(audio_content),
+            results=results,
+        )
+    except HTTPException:
+        raise
+    except Exception as e:
+        raise HTTPException(status_code=500, detail=str(e))
 @app.get("/api/v1/model/info", response_model=ModelInfoResponse, tags=["Model"])
 async def get_model_info():
     """

scripts/explain.py CHANGED Viewed

@@ -3,6 +3,7 @@ import numpy as np
 from datetime import datetime
 from src.musiclime.explainer import MusicLIMEExplainer
 from src.musiclime.wrapper import MusicLIMEPredictor, AudioOnlyPredictor
 def musiclime_multimodal(audio_data, lyrics_text):
@@ -31,7 +32,7 @@ def musiclime_multimodal(audio_data, lyrics_text):
     print(f"[MusicLIME] Using num_samples={num_samples}, num_features={num_features}")
     # Create musiclime instances
-    explainer = MusicLIMEExplainer()
     predictor = MusicLIMEPredictor()
     # Then generate explanations
@@ -179,3 +180,185 @@ def musiclime_unimodal(audio_data, modality="audio"):
             "timestamp": start_time.isoformat(),
         },
     }

 from datetime import datetime
 from src.musiclime.explainer import MusicLIMEExplainer
 from src.musiclime.wrapper import MusicLIMEPredictor, AudioOnlyPredictor
+from src.musiclime.print_utils import green_bold
 def musiclime_multimodal(audio_data, lyrics_text):
     print(f"[MusicLIME] Using num_samples={num_samples}, num_features={num_features}")
     # Create musiclime instances
+    explainer = MusicLIMEExplainer(random_state=42)
     predictor = MusicLIMEPredictor()
     # Then generate explanations
             "timestamp": start_time.isoformat(),
         },
     }
+def musiclime_combined(audio_data, lyrics_text):
+    """
+    Generate both multimodal and audio-only MusicLIME explanations efficiently.
+    Performs source separation once and generates both explanation types
+    to reduce total processing time by ~50% compared to separate calls.
+    Parameters
+    ----------
+    audio_data : array-like
+        Audio waveform data from librosa.load or similar
+    lyrics_text : str
+        String containing song lyrics
+    Returns
+    -------
+    dict
+        Combined results containing both multimodal and audio-only explanations
+    """
+    from src.musiclime.factorization import OpenUnmixFactorization
+    from src.musiclime.text_utils import LineIndexedString
+    start_time = datetime.now()
+    # Get configuration
+    num_samples = int(os.getenv("MUSICLIME_NUM_SAMPLES", "1000"))
+    num_features = int(os.getenv("MUSICLIME_NUM_FEATURES", "10"))
+    print(
+        "[MusicLIME] Combined mode: generating both multimodal and audio-only explanations"
+    )
+    print(f"[MusicLIME] Using num_samples={num_samples}, num_features={num_features}")
+    # Create factorizations once
+    print("[MusicLIME] Creating factorizations once for both explanations...")
+    factorization_start = datetime.now()
+    audio_factorization = OpenUnmixFactorization(
+        audio_data, temporal_segmentation_params=10
+    )
+    text_factorization = LineIndexedString(lyrics_text)
+    factorization_time = (datetime.now() - factorization_start).total_seconds()
+    print(
+        green_bold(f"[MusicLIME] Factorization completed in {factorization_time:.2f}s")
+    )
+    # Create explainer and predictors
+    explainer = MusicLIMEExplainer(random_state=42)
+    multimodal_predictor = MusicLIMEPredictor()
+    audio_predictor = AudioOnlyPredictor()
+    # Generate multimodal explanation (reusing factorizations)
+    print("[MusicLIME] Generating multimodal explanation...")
+    multimodal_start = datetime.now()
+    multimodal_explanation = explainer.explain_instance_with_factorization(
+        audio_factorization,
+        text_factorization,
+        multimodal_predictor,
+        num_samples=num_samples,
+        labels=(1,),
+        modality="both",
+    )
+    multimodal_time = (datetime.now() - multimodal_start).total_seconds()
+    print(
+        green_bold(
+            f"[MusicLIME] Multimodal explanation completed in {multimodal_time:.2f}s"
+        )
+    )
+    # Generate audio-only explanation (reusing the same factorization)
+    print("[MusicLIME] Generating audio-only explanation (reusing factorizations)...")
+    audio_start = datetime.now()
+    audio_explanation = explainer.explain_instance_with_factorization(
+        audio_factorization,
+        text_factorization,
+        audio_predictor,
+        num_samples=num_samples,
+        labels=(1,),
+        modality="audio",
+    )
+    audio_time = (datetime.now() - audio_start).total_seconds()
+    print(
+        green_bold(f"[MusicLIME] Audio-only explanation completed in {audio_time:.2f}s")
+    )
+    # Process multimodal results
+    multimodal_prediction = multimodal_explanation.predictions[0]
+    multimodal_class = np.argmax(multimodal_prediction)
+    multimodal_confidence = float(np.max(multimodal_prediction))
+    multimodal_features = multimodal_explanation.get_explanation(
+        label=1, num_features=num_features
+    )
+    # Process audio-only results
+    audio_prediction = audio_explanation.predictions[0]
+    audio_class = np.argmax(audio_prediction)
+    audio_confidence = float(np.max(audio_prediction))
+    audio_features = audio_explanation.get_explanation(
+        label=1, num_features=num_features
+    )
+    # Calculate total runtime
+    end_time = datetime.now()
+    total_runtime = (end_time - start_time).total_seconds()
+    print(green_bold("[MusicLIME] Combined explanation completed!"))
+    print(f"[MusicLIME] Factorization: {factorization_time:.2f}s (done once)")
+    print(f"[MusicLIME] Multimodal: {multimodal_time:.2f}s")
+    print(f"[MusicLIME] Audio-only: {audio_time:.2f}s")
+    print(f"[MusicLIME] Total: {total_runtime:.2f}s")
+    return {
+        "multimodal": {
+            "prediction": {
+                "class": int(multimodal_class),
+                "class_name": (
+                    "Human-Composed" if multimodal_class == 1 else "AI-Generated"
+                ),
+                "confidence": multimodal_confidence,
+                "probabilities": multimodal_prediction.tolist(),
+            },
+            "explanations": [
+                {
+                    "rank": i + 1,
+                    "modality": item["type"],
+                    "feature_text": item["feature"],
+                    "weight": float(item["weight"]),
+                    "importance": abs(float(item["weight"])),
+                }
+                for i, item in enumerate(multimodal_features)
+            ],
+            "summary": {
+                "total_features_analyzed": len(multimodal_features),
+                "audio_features_count": len(
+                    [f for f in multimodal_features if f["type"] == "audio"]
+                ),
+                "lyrics_features_count": len(
+                    [f for f in multimodal_features if f["type"] == "lyrics"]
+                ),
+                "runtime_seconds": multimodal_time,
+                "samples_generated": num_samples,
+            },
+        },
+        "audio_only": {
+            "prediction": {
+                "class": int(audio_class),
+                "class_name": "Human-Composed" if audio_class == 1 else "AI-Generated",
+                "confidence": audio_confidence,
+                "probabilities": audio_prediction.tolist(),
+            },
+            "explanations": [
+                {
+                    "rank": i + 1,
+                    "modality": item["type"],
+                    "feature_text": item["feature"],
+                    "weight": float(item["weight"]),
+                    "importance": abs(float(item["weight"])),
+                }
+                for i, item in enumerate(audio_features)
+            ],
+            "summary": {
+                "total_features_analyzed": len(audio_features),
+                "audio_features_count": len(audio_features),
+                "lyrics_features_count": 0,
+                "runtime_seconds": audio_time,
+                "samples_generated": num_samples,
+            },
+        },
+        "combined_summary": {
+            "total_runtime_seconds": total_runtime,
+            "factorization_time_seconds": factorization_time,
+            "source_separation_reused": True,
+            "timestamp": start_time.isoformat(),
+        },
+    }

scripts/explain_combined_runner.py ADDED Viewed

	@@ -0,0 +1,92 @@

+import librosa
+from scripts.explain import musiclime_combined
+def explain_combined_runner(sample: str):
+    # Load test audio and lyrics
+    audio_path = f"data/external/{sample}.mp3"
+    lyrics_path = f"data/external/{sample}.txt"
+    # Load audio
+    audio_data, sr = librosa.load(audio_path)
+    # Load lyrics
+    with open(lyrics_path, "r", encoding="utf-8") as f:
+        lyrics_text = f.read()
+    print("Running combined MusicLIME explanation (optimized)...")
+    result = musiclime_combined(audio_data, lyrics_text)
+    # Display multimodal results
+    print(f"\n{'='*60}")
+    print("=== MULTIMODAL EXPLANATION RESULTS ===")
+    print(f"{'='*60}")
+    multimodal = result["multimodal"]
+    print(
+        f"Prediction: {multimodal['prediction']['class_name']} ({multimodal['prediction']['confidence']:.3f})"
+    )
+    print(f"Runtime: {multimodal['summary']['runtime_seconds']:.2f}s")
+    print("\n=== TOP MULTIMODAL FEATURES ===")
+    for feature in multimodal["explanations"]:
+        print(
+            f"Rank {feature['rank']}: {feature['modality']} | Weight: {feature['weight']:.4f} | Importance: {feature['importance']:.4f}"
+        )
+        print(f"  Feature: {feature['feature_text'][:80]}...")
+        print()
+    # Display audio-only results
+    print(f"\n{'='*60}")
+    print("=== AUDIO-ONLY EXPLANATION RESULTS ===")
+    print(f"{'='*60}")
+    audio_only = result["audio_only"]
+    print(
+        f"Prediction: {audio_only['prediction']['class_name']} ({audio_only['prediction']['confidence']:.3f})"
+    )
+    print(f"Runtime: {audio_only['summary']['runtime_seconds']:.2f}s")
+    print("\n=== TOP AUDIO-ONLY FEATURES ===")
+    for feature in audio_only["explanations"]:
+        print(
+            f"Rank {feature['rank']}: {feature['modality']} | Weight: {feature['weight']:.4f} | Importance: {feature['importance']:.4f}"
+        )
+        print(f"  Feature: {feature['feature_text'][:80]}...")
+        print()
+    # Display performance summary
+    print(f"\n{'='*60}")
+    print("=== PERFORMANCE SUMMARY ===")
+    print(f"{'='*60}")
+    summary = result["combined_summary"]
+    print(
+        f"Factorization time: {summary['factorization_time_seconds']:.2f}s (done once)"
+    )
+    print(f"Multimodal explanation: {multimodal['summary']['runtime_seconds']:.2f}s")
+    print(f"Audio-only explanation: {audio_only['summary']['runtime_seconds']:.2f}s")
+    print(f"Total runtime: {summary['total_runtime_seconds']:.2f}s")
+    print(f"Source separation reused: {summary['source_separation_reused']}")
+    # Comparison
+    print("\n=== PREDICTION COMPARISON ===")
+    print(
+        f"Multimodal: {multimodal['prediction']['class_name']} ({multimodal['prediction']['confidence']:.3f})"
+    )
+    print(
+        f"Audio-only: {audio_only['prediction']['class_name']} ({audio_only['prediction']['confidence']:.3f})"
+    )
+    if multimodal["prediction"]["class"] == audio_only["prediction"]["class"]:
+        print("Both modalities agree on the prediction")
+    else:
+        print("Modalities disagree on the prediction")
+    confidence_diff = abs(
+        multimodal["prediction"]["confidence"] - audio_only["prediction"]["confidence"]
+    )
+    print(f"Confidence difference: {confidence_diff:.3f}")
+if __name__ == "__main__":
+    sample = "sample"
+    explain_combined_runner(sample)

scripts/predict.py CHANGED Viewed

@@ -126,6 +126,132 @@ def predict_unimodal(audio_file):
     }
 if __name__ == "__main__":
     # Example usage (replace with real inputs, place song inside data/raw.)
     data = pd.read_csv("data/raw/predict_data_final.csv")

     }
+def predict_combined(audio_file, lyrics):
+    """
+    Generate both multimodal and audio-only predictions efficiently.
+    Follows the exact same logic as separate functions but reuses audio features.
+    Parameters
+    ----------
+    audio_file : audio_object
+        Audio object file
+    lyrics : str
+        Lyric string
+    Returns
+    -------
+    dict
+        Combined results containing both multimodal and audio-only predictions
+    """
+    import time
+    start_time = time.time()
+    # Load config once
+    config = load_config("config/model_config.yml")
+    # [1] Multimdoal prediction
+    print("[Predict] Running multimodal prediction...")
+    multimodal_start = time.time()
+    # 1.) Load LLM2Vec Model
+    llm2vec_model = load_llm2vec_model()
+    # 2.) Preprocess both audio and lyrics
+    audio_mm, lyrics_mm = single_preprocessing(audio_file, lyrics)
+    # 3.) Extract features
+    audio_features_mm = spectttra_predict(audio_mm)
+    audio_features_mm = audio_features_mm.reshape(1, -1)
+    lyrics_features = l2vec_single_train(llm2vec_model, lyrics_mm)
+    # 4.) Scale the vectors using Z-Score
+    audio_features_mm_scaled, lyrics_features_scaled = instance_scaler(
+        audio_features_mm, lyrics_features
+    )
+    # 5.) Reduce the lyrics using saved PCA model
+    reduced_lyrics = load_pca_model(lyrics_features_scaled)
+    # 6.) Concatenate the vectors
+    multimodal_features = np.concatenate(
+        [audio_features_mm_scaled, reduced_lyrics], axis=1
+    )
+    # Load MLP Classifier
+    multimodal_classifier = build_mlp(
+        input_dim=multimodal_features.shape[1], config=config
+    )
+    multimodal_classifier.load_model("models/mlp/mlp_best_multimodal.pth")
+    multimodal_classifier.model.eval()
+    # Run prediction
+    mm_confidence, mm_prediction, mm_label, mm_probability = (
+        multimodal_classifier.predict_single(multimodal_features.flatten())
+    )
+    multimodal_time = time.time() - multimodal_start
+    print(f"[Predict] Multimodal prediction completed in {multimodal_time:.2f}s")
+    # [2] Unimodal prediction (audio-only)
+    print("[Predict] Running audio-only prediction...")
+    audio_only_start = time.time()
+    # 1.) Preprocess the audio
+    audio_au = single_audio_preprocessing(audio_file)
+    # 2.) Extract audio features
+    audio_features_au = spectttra_predict(audio_au)
+    audio_features_au = audio_features_au.reshape(1, -1)
+    # 3.) Scale the vector using Z-Score
+    audio_features_au_scaled = audio_instance_scaler(audio_features_au)
+    # Load MLP Classifier
+    audio_classifier = build_mlp(
+        input_dim=audio_features_au_scaled.shape[1], config=config
+    )
+    audio_classifier.load_model("models/mlp/mlp_best_unimodal.pth")
+    audio_classifier.model.eval()
+    # Run prediction
+    au_confidence, au_prediction, au_label, au_probability = (
+        audio_classifier.predict_single(audio_features_au_scaled.flatten())
+    )
+    audio_only_time = time.time() - audio_only_start
+    print(f"[Predict] Audio-only prediction completed in {audio_only_time:.2f}s")
+    # Summary
+    total_time = time.time() - start_time
+    print("\n[Predict] Combined prediction completed!")
+    print(f"[Predict] Multimodal: {multimodal_time:.2f}s")
+    print(f"[Predict] Audio-only: {audio_only_time:.2f}s")
+    print(f"[Predict] Total: {total_time:.2f}s")
+    return {
+        "multimodal": {
+            "confidence": mm_confidence,
+            "prediction": mm_prediction,
+            "label": mm_label,
+            "probability": mm_probability,
+        },
+        "audio_only": {
+            "confidence": au_confidence,
+            "prediction": au_prediction,
+            "label": au_label,
+            "probability": au_probability,
+        },
+        "performance": {
+            "total_time_seconds": total_time,
+            "multimodal_time_seconds": multimodal_time,
+            "audio_only_time_seconds": audio_only_time,
+        },
+    }
 if __name__ == "__main__":
     # Example usage (replace with real inputs, place song inside data/raw.)
     data = pd.read_csv("data/raw/predict_data_final.csv")

scripts/predict_combined_runner.py ADDED Viewed

	@@ -0,0 +1,65 @@

+import librosa
+from scripts.predict import predict_combined
+def predict_combined_runner(sample: str):
+    # Load test audio and lyrics
+    audio_path = f"data/external/{sample}.mp3"
+    lyrics_path = f"data/external/{sample}.txt"
+    # Load audio
+    audio_data, sr = librosa.load(audio_path)
+    # Load lyrics
+    with open(lyrics_path, "r", encoding="utf-8") as f:
+        lyrics_text = f.read()
+    print("Running combined prediction (optimized)...")
+    result = predict_combined(audio_data, lyrics_text)
+    # Display results
+    print(f"\n{'='*50}")
+    print("=== MULTIMODAL PREDICTION ===")
+    print(f"{'='*50}")
+    mm = result["multimodal"]
+    print(f"Prediction: {mm['prediction']}")
+    print(f"Label: {mm['label']}")
+    print(f"Confidence: {mm['confidence']:.4f}")
+    print(f"Probability: {mm['probability']:.4f}")
+    print(f"\n{'='*50}")
+    print("=== AUDIO-ONLY PREDICTION ===")
+    print(f"{'='*50}")
+    au = result["audio_only"]
+    print(f"Prediction: {au['prediction']}")
+    print(f"Label: {au['label']}")
+    print(f"Confidence: {au['confidence']:.4f}")
+    print(f"Probability: {au['probability']:.4f}")
+    print(f"\n{'='*50}")
+    print("=== PERFORMANCE SUMMARY ===")
+    print(f"{'='*50}")
+    perf = result["performance"]
+    print(f"Multimodal prediction: {perf['multimodal_time_seconds']:.2f}s")
+    print(f"Audio-only prediction: {perf['audio_only_time_seconds']:.2f}s")
+    print(f"Total time: {perf['total_time_seconds']:.2f}s")
+    print(f"\n{'='*50}")
+    print("=== COMPARISON ===")
+    print(f"{'='*50}")
+    print(f"Multimodal: {mm['prediction']} ({mm['probability']:.4f})")
+    print(f"Audio-only: {au['prediction']} ({au['probability']:.4f})")
+    prob_diff = abs(mm["probability"] - au["probability"])
+    print(f"Probability difference: {prob_diff:.4f}")
+    if mm["prediction"] == au["prediction"]:
+        print("Both modalities agree on the prediction")
+    else:
+        print("Modalities disagree on the prediction")
+if __name__ == "__main__":
+    sample = "sample"
+    predict_combined_runner(sample)

src/musiclime/explainer.py CHANGED Viewed

@@ -154,6 +154,91 @@ class MusicLIMEExplainer:
         return explanation
     def _generate_neighborhood(
         self, audio_fact, text_fact, predict_fn, num_samples, modality="both"
     ):

         return explanation
+    def explain_instance_with_factorization(
+        self,
+        audio_factorization,
+        text_factorization,
+        predict_fn,
+        num_samples=1000,
+        labels=(1,),
+        modality="both",
+    ):
+        """
+        Generate LIME explanations using pre-computed factorizations.
+        This method allows reusing expensive source separation across multiple explanations,
+        which significantly improves performance when generating both multimodal and audio-only
+        explanations for the same audio file.
+        Parameters
+        ----------
+        audio_factorization : OpenUnmixFactorization
+            Pre-computed audio source separation components
+        text_factorization : LineIndexedString
+            Pre-computed text line factorization
+        predict_fn : callable
+            Prediction function that takes (texts, audios) and returns probabilities
+        num_samples : int, default=1000
+            Number of perturbed samples to generate for LIME
+        labels : tuple, default=(1,)
+            Target labels to explain (0=AI-Generated, 1=Human-Composed)
+        modality : str, default='both'
+            Explanation modality: 'both', 'audio', or 'lyrical'
+        Returns
+        -------
+        MusicLIMEExplanation
+            Explanation object containing feature importance weights and metadata
+        Raises
+        ------
+        ValueError
+            If modality is not one of ['both', 'audio', 'lyrical']
+        """
+        # Validate modality
+        if modality not in ["both", "audio", "lyrical"]:
+            raise ValueError('Set modality argument to "both", "audio" or "lyrical".')
+        print("[MusicLIME] Using pre-computed factorizations (optimized mode)")
+        print(f"[MusicLIME] Modality: {modality}")
+        print(
+            f"[MusicLIME] Audio components: {audio_factorization.get_number_components()}"
+        )
+        print(f"[MusicLIME] Text lines: {text_factorization.num_words()}")
+        # Generate perturbations and get predictions
+        print(f"[MusicLIME] Generating {num_samples} perturbations...")
+        data, predictions, distances = self._generate_neighborhood(
+            audio_factorization, text_factorization, predict_fn, num_samples, modality
+        )
+        # LIME fitting, create explanation object
+        start_time = time.time()
+        print("[MusicLIME] Fitting LIME model...")
+        explanation = MusicLIMEExplanation(
+            audio_factorization,
+            text_factorization,
+            data,
+            predictions,
+        )
+        for label in labels:
+            print(f"[MusicLIME] Explaining label {label}...")
+            (
+                explanation.intercept[label],
+                explanation.local_exp[label],
+                explanation.score[label],
+                explanation.local_pred[label],
+            ) = self.base.explain_instance_with_data(
+                data, predictions, distances, label, num_features=20
+            )
+        lime_time = time.time() - start_time
+        print(green_bold(f"[MusicLIME] LIME fitting completed in {lime_time:.2f}s"))
+        print("[MusicLIME] MusicLIME explanation complete!")
+        return explanation
     def _generate_neighborhood(
         self, audio_fact, text_fact, predict_fn, num_samples, modality="both"
     ):