Spaces:

lukhsaankumar
/

DeepFakeDetectorBackend

Sleeping

App Files Files Community

lukhsaankumar commited on 26 days ago

Commit

9fd7a87

1 Parent(s): 3c57c7f

Deploy DeepFake Detector API - 2026-04-20 02:01:56

Browse files

Files changed (3) hide show

COLD_START_OPTIMIZATION.md +28 -6
app/main.py +25 -0
app/services/model_registry.py +43 -0

COLD_START_OPTIMIZATION.md CHANGED Viewed

@@ -284,16 +284,38 @@ Source log window:
 - The previous runtime download cost was eliminated from startup.
 - The remaining startup time is now dominated by model wrapper initialization and import/init overhead rather than repo downloads.
 ## Comparison Template (Fill After Implementation)
 | Metric | Baseline (2026-04-20) | After Phase 1 | After Phase 2 | Final |
 |---|---:|---:|---:|---:|
-| Queue/build to app startup | 28s | 36s |  |  |
-| App startup to model-ready | 94s | 99s |  |  |
-| API model load phase | 21s | 5s |  |  |
-| vit-base load | 13s | 1s |  |  |
-| deit-distilled load | 5s | 2s |  |  |
-| Total visible build timed stages | 20.4s | 28.0s |  |  |
 ## Expected Outcome

 - The previous runtime download cost was eliminated from startup.
 - The remaining startup time is now dominated by model wrapper initialization and import/init overhead rather than repo downloads.
+## Phase 2 Results From Latest Logs
+Source log window:
+- Build queued at 2026-04-20 05:46:19
+- Application startup begins at 2026-04-20 05:48:18
+- Models loaded successfully at 2026-04-20 05:49:56
+### Phase 2 Timing Summary
+| Segment | Start | End | Duration | Notes |
+|---|---:|---:|---:|---|
+| Queue/build to app startup | 05:46:19 | 05:48:18 | 119s | Includes scheduling, build finalization, image start |
+| App startup to model-ready | 05:48:18 | 05:49:56 | 98s | Time from uvicorn start message to models loaded |
+| API model load phase | 05:49:52 | 05:49:56 | 4s | From "Starting DeepFake Detector API..." to "Models loaded successfully!" |
+### Phase 2 Observations
+- Submodel loading now overlaps in runtime logs (bounded parallel local initialization is active).
+- Runtime API model load phase improved slightly (5s -> 4s).
+- End-to-end startup remained dominated by pre-lifespan/init time (98s still much larger than model load slice).
+- Runtime hygiene warnings no longer appeared in this run (no OMP warning and no sklearn pickle version warning).
 ## Comparison Template (Fill After Implementation)
 | Metric | Baseline (2026-04-20) | After Phase 1 | After Phase 2 | Final |
 |---|---:|---:|---:|---:|
+| Queue/build to app startup | 28s | 36s | 119s |  |
+| App startup to model-ready | 94s | 99s | 98s |  |
+| API model load phase | 21s | 5s | 4s |  |
+| vit-base load | 13s | 1s | 2s |  |
+| deit-distilled load | 5s | 2s | 2s |  |
+| Total visible build timed stages | 20.4s | 28.0s | 112.7s |  |
 ## Expected Outcome

app/main.py CHANGED Viewed

@@ -4,9 +4,17 @@ FastAPI application entry point.
 DeepFake Detector API - Milestone 1: Hugging Face hosted dummy models.
 """
 from contextlib import asynccontextmanager
 from typing import AsyncGenerator
 from fastapi import FastAPI, Request
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse
@@ -20,6 +28,10 @@ from app.services.model_registry import get_model_registry
 # Set up logging
 setup_logging()
 logger = get_logger(__name__)
 @asynccontextmanager
@@ -31,6 +43,9 @@ async def lifespan(app: FastAPI) -> AsyncGenerator[None, None]:
     - Startup: Load models from Hugging Face
     - Shutdown: Cleanup resources
     """
     # Startup
     logger.info("Starting DeepFake Detector API...")
     logger.info(f"Configuration: HF_FUSION_REPO_ID={settings.HF_FUSION_REPO_ID}")
@@ -38,12 +53,22 @@ async def lifespan(app: FastAPI) -> AsyncGenerator[None, None]:
     # Load models from Hugging Face
     try:
         registry = get_model_registry()
         await registry.load_from_fusion_repo(settings.HF_FUSION_REPO_ID)
         logger.info("Models loaded successfully!")
     except Exception as e:
         logger.error(f"Failed to load models on startup: {e}")
         logger.warning("API will start but /ready will report not_ready until models are loaded")
     yield  # Application runs here

 DeepFake Detector API - Milestone 1: Hugging Face hosted dummy models.
 """
+import time
+from datetime import datetime, timezone
 from contextlib import asynccontextmanager
 from typing import AsyncGenerator
+MAIN_IMPORT_T0 = time.perf_counter()
+print(
+    f"{datetime.now(timezone.utc).isoformat()} | INFO     | app.main | phase3 module_import_start",
+    flush=True,
+)
 from fastapi import FastAPI, Request
 from fastapi.middleware.cors import CORSMiddleware
 from fastapi.responses import JSONResponse
 # Set up logging
 setup_logging()
 logger = get_logger(__name__)
+logger.info(
+    "phase3 module_import_complete duration_seconds=%.3f",
+    time.perf_counter() - MAIN_IMPORT_T0,
+)
 @asynccontextmanager
     - Startup: Load models from Hugging Face
     - Shutdown: Cleanup resources
     """
+    startup_t0 = time.perf_counter()
+    logger.info("phase3 startup_lifespan_begin")
     # Startup
     logger.info("Starting DeepFake Detector API...")
     logger.info(f"Configuration: HF_FUSION_REPO_ID={settings.HF_FUSION_REPO_ID}")
     # Load models from Hugging Face
     try:
+        model_load_t0 = time.perf_counter()
         registry = get_model_registry()
         await registry.load_from_fusion_repo(settings.HF_FUSION_REPO_ID)
+        logger.info(
+            "phase3 startup_model_load_duration_seconds=%.3f",
+            time.perf_counter() - model_load_t0,
+        )
         logger.info("Models loaded successfully!")
     except Exception as e:
         logger.error(f"Failed to load models on startup: {e}")
         logger.warning("API will start but /ready will report not_ready until models are loaded")
+    logger.info(
+        "phase3 startup_lifespan_total_duration_seconds=%.3f",
+        time.perf_counter() - startup_t0,
+    )
     yield  # Application runs here

app/services/model_registry.py CHANGED Viewed

@@ -4,6 +4,7 @@ Model registry for managing loaded models.
 import asyncio
 import json
 from pathlib import Path
 from typing import Any, Dict, List, Optional, Type
@@ -128,6 +129,8 @@ class ModelRegistry:
             fusion_repo_id: Hugging Face repository ID for fusion model
             force_reload: If True, reload even if already loaded
         """
         async with self._load_lock:
             if self._is_loaded and not force_reload:
                 logger.info("Models already loaded, skipping")
@@ -136,9 +139,15 @@ class ModelRegistry:
             logger.info(f"Loading models from fusion repo: {fusion_repo_id}")
             # Download fusion repo
             fusion_path = await asyncio.to_thread(
                 self._hf_service.download_repo, fusion_repo_id
             )
             # Read fusion config
             fusion_config = self._read_config(fusion_path)
@@ -154,11 +163,17 @@ class ModelRegistry:
             # Prepare submodels sequentially to avoid concurrent Hugging Face
             # download contention, then load the already-downloaded artifacts in parallel.
             prepared_submodels = []
             for submodel_repo_id in submodel_repos:
                 prepared_submodels.append(
                     await self._prepare_submodel(submodel_repo_id)
                 )
             max_concurrent_loads = 2
             semaphore = asyncio.Semaphore(max_concurrent_loads)
@@ -167,10 +182,16 @@ class ModelRegistry:
                 async with semaphore:
                     return await self._load_prepared_submodel(prepared_submodel)
             load_results = await asyncio.gather(
                 *(load_with_limit(prepared_submodel) for prepared_submodel in prepared_submodels),
                 return_exceptions=True
             )
             errors = [result for result in load_results if isinstance(result, Exception)]
             if errors:
@@ -193,11 +214,20 @@ class ModelRegistry:
                 config=fusion_config,
                 local_path=fusion_path
             )
             fusion_wrapper.load()
             self._fusion = fusion_wrapper
             self._submodels = loaded_submodels
             self._is_loaded = True
             logger.info(f"Successfully loaded {len(self._submodels)} submodels and fusion model")
     async def _prepare_submodel(self, repo_id: str) -> Dict[str, Any]:
@@ -207,6 +237,7 @@ class ModelRegistry:
         This stays sequential to avoid concurrent Hugging Face download issues.
         """
         logger.info(f"Preparing submodel: {repo_id}")
         local_path = await asyncio.to_thread(
             self._hf_service.download_repo, repo_id
@@ -214,6 +245,12 @@ class ModelRegistry:
         config = self._read_config(local_path)
         wrapper_class = get_wrapper_class(config)
         return {
             "repo_id": repo_id,
             "local_path": local_path,
@@ -232,6 +269,7 @@ class ModelRegistry:
         logger.info(f"Loading submodel: {repo_id}")
         logger.info(f"Using wrapper class {wrapper_class.__name__} for {repo_id}")
         # Create and load wrapper
         wrapper = wrapper_class(
@@ -241,6 +279,11 @@ class ModelRegistry:
         )
         await asyncio.to_thread(wrapper.load)
         logger.info(f"Loaded submodel: {wrapper.name}")
         return wrapper
     def _read_config(self, local_path: str) -> Dict[str, Any]:

 import asyncio
 import json
+import time
 from pathlib import Path
 from typing import Any, Dict, List, Optional, Type
             fusion_repo_id: Hugging Face repository ID for fusion model
             force_reload: If True, reload even if already loaded
         """
+        total_t0 = time.perf_counter()
         async with self._load_lock:
             if self._is_loaded and not force_reload:
                 logger.info("Models already loaded, skipping")
             logger.info(f"Loading models from fusion repo: {fusion_repo_id}")
             # Download fusion repo
+            fusion_download_t0 = time.perf_counter()
             fusion_path = await asyncio.to_thread(
                 self._hf_service.download_repo, fusion_repo_id
             )
+            logger.info(
+                "phase3 fusion_repo_download_duration_seconds=%.3f repo_id=%s",
+                time.perf_counter() - fusion_download_t0,
+                fusion_repo_id,
+            )
             # Read fusion config
             fusion_config = self._read_config(fusion_path)
             # Prepare submodels sequentially to avoid concurrent Hugging Face
             # download contention, then load the already-downloaded artifacts in parallel.
+            prepare_t0 = time.perf_counter()
             prepared_submodels = []
             for submodel_repo_id in submodel_repos:
                 prepared_submodels.append(
                     await self._prepare_submodel(submodel_repo_id)
                 )
+            logger.info(
+                "phase3 submodel_prepare_total_duration_seconds=%.3f count=%d",
+                time.perf_counter() - prepare_t0,
+                len(prepared_submodels),
+            )
             max_concurrent_loads = 2
             semaphore = asyncio.Semaphore(max_concurrent_loads)
                 async with semaphore:
                     return await self._load_prepared_submodel(prepared_submodel)
+            load_t0 = time.perf_counter()
             load_results = await asyncio.gather(
                 *(load_with_limit(prepared_submodel) for prepared_submodel in prepared_submodels),
                 return_exceptions=True
             )
+            logger.info(
+                "phase3 submodel_parallel_load_total_duration_seconds=%.3f concurrency=%d",
+                time.perf_counter() - load_t0,
+                max_concurrent_loads,
+            )
             errors = [result for result in load_results if isinstance(result, Exception)]
             if errors:
                 config=fusion_config,
                 local_path=fusion_path
             )
+            fusion_wrapper_t0 = time.perf_counter()
             fusion_wrapper.load()
+            logger.info(
+                "phase3 fusion_wrapper_load_duration_seconds=%.3f",
+                time.perf_counter() - fusion_wrapper_t0,
+            )
             self._fusion = fusion_wrapper
             self._submodels = loaded_submodels
             self._is_loaded = True
+            logger.info(
+                "phase3 load_from_fusion_repo_total_duration_seconds=%.3f",
+                time.perf_counter() - total_t0,
+            )
             logger.info(f"Successfully loaded {len(self._submodels)} submodels and fusion model")
     async def _prepare_submodel(self, repo_id: str) -> Dict[str, Any]:
         This stays sequential to avoid concurrent Hugging Face download issues.
         """
         logger.info(f"Preparing submodel: {repo_id}")
+        prepare_t0 = time.perf_counter()
         local_path = await asyncio.to_thread(
             self._hf_service.download_repo, repo_id
         config = self._read_config(local_path)
         wrapper_class = get_wrapper_class(config)
+        logger.info(
+            "phase3 prepare_submodel_duration_seconds=%.3f repo_id=%s",
+            time.perf_counter() - prepare_t0,
+            repo_id,
+        )
         return {
             "repo_id": repo_id,
             "local_path": local_path,
         logger.info(f"Loading submodel: {repo_id}")
         logger.info(f"Using wrapper class {wrapper_class.__name__} for {repo_id}")
+        load_t0 = time.perf_counter()
         # Create and load wrapper
         wrapper = wrapper_class(
         )
         await asyncio.to_thread(wrapper.load)
         logger.info(f"Loaded submodel: {wrapper.name}")
+        logger.info(
+            "phase3 load_prepared_submodel_duration_seconds=%.3f repo_id=%s",
+            time.perf_counter() - load_t0,
+            repo_id,
+        )
         return wrapper
     def _read_config(self, local_path: str) -> Dict[str, Any]: