Spaces:

KinetoLabs
/

SmokeScan

Paused

KinetoLabs Claude Opus 4.5 commited on 7 days ago

Commit

0699c5f

1 Parent(s): 333c083

Reduce thinking model max_new_tokens to fix slow inference

Root cause: max_new_tokens=32768 caused ~27 min inference time,
appearing as a "hang". Reduced to 8192 for ~7 min thinking stage.

The device mismatch warning is expected behavior - transformers
handles routing internally for device_map="auto" models.

Also includes ruff auto-fixes for unused imports.

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Files changed (8) hide show

app.py +1 -1
config/inference.py +1 -1
pipeline/calculations.py +1 -1
pipeline/main.py +1 -1
rag/index_builder.py +2 -2
scripts/qwen3_vl/qwen3_vl_reranker.py +1 -1
ui/components.py +1 -2
ui/tabs/results.py +0 -1

app.py CHANGED Viewed

@@ -16,7 +16,7 @@ import logging
 logger = logging.getLogger(__name__)
 from models.loader import get_models
-from ui.state import SessionState, create_new_session, session_to_json, session_from_json
 from ui.storage import get_head_html
 from ui.tabs import room, images, observations, results
 from ui import samples

 logger = logging.getLogger(__name__)
 from models.loader import get_models
+from ui.state import SessionState, create_new_session
 from ui.storage import get_head_html
 from ui.tabs import room, images, observations, results
 from ui import samples

config/inference.py CHANGED Viewed

@@ -15,7 +15,7 @@ class ThinkingInferenceConfig:
     Used for deep analysis with <think> chains.
     """
-    max_new_tokens: int = 32768  # Extended for reasoning chains (model supports 40960)
     temperature: float = 0.6  # Per Qwen3-VL GitHub docs
     top_p: float = 0.95
     top_k: int = 20

     Used for deep analysis with <think> chains.
     """
+    max_new_tokens: int = 8192  # Balanced for reasoning + reasonable time (~7 min)
     temperature: float = 0.6  # Per Qwen3-VL GitHub docs
     top_p: float = 0.95
     top_k: int = 20

pipeline/calculations.py CHANGED Viewed

@@ -10,7 +10,7 @@ Implements deterministic calculations from FDAM v4.0.1:
 import logging
 import math
 from dataclasses import dataclass, field
-from typing import Literal, Optional
 from ui.state import SessionState

 import logging
 import math
 from dataclasses import dataclass, field
+from typing import Literal
 from ui.state import SessionState

pipeline/main.py CHANGED Viewed

@@ -326,7 +326,7 @@ class FDAMPipeline:
         logger.info("=" * 60)
         logger.info("PIPELINE EXECUTION SUMMARY")
         logger.info("=" * 60)
-        logger.info(f"Success: True")
         logger.info(f"Total execution time: {total_time:.2f}s")
         logger.info(f"Images analyzed: {len(vision_results)}")
         logger.info(f"Dispositions generated: {len(dispositions)}")

         logger.info("=" * 60)
         logger.info("PIPELINE EXECUTION SUMMARY")
         logger.info("=" * 60)
+        logger.info("Success: True")
         logger.info(f"Total execution time: {total_time:.2f}s")
         logger.info(f"Images analyzed: {len(vision_results)}")
         logger.info(f"Dispositions generated: {len(dispositions)}")

rag/index_builder.py CHANGED Viewed

@@ -9,7 +9,7 @@ Usage:
 import argparse
 from pathlib import Path
-from rag.chunker import SemanticChunker, Chunk
 from rag.vectorstore import ChromaVectorStore
@@ -160,7 +160,7 @@ def build_index(rebuild: bool = False) -> dict:
     # Print collection stats
     collection_stats = vectorstore.get_stats()
-    print(f"\nCollection stats:")
     print(f"  Total chunks in DB: {collection_stats['total_chunks']}")
     print(f"  Categories: {collection_stats['categories']}")
     print(f"  Priorities: {collection_stats['priorities']}")

 import argparse
 from pathlib import Path
+from rag.chunker import SemanticChunker
 from rag.vectorstore import ChromaVectorStore
     # Print collection stats
     collection_stats = vectorstore.get_stats()
+    print("\nCollection stats:")
     print(f"  Total chunks in DB: {collection_stats['total_chunks']}")
     print(f"  Categories: {collection_stats['categories']}")
     print(f"  Priorities: {collection_stats['priorities']}")

scripts/qwen3_vl/qwen3_vl_reranker.py CHANGED Viewed

@@ -9,7 +9,7 @@ import numpy as np
 import logging
 from PIL import Image
-from typing import List, Optional, Union, Dict, Any
 from qwen_vl_utils import process_vision_info
 from transformers import Qwen3VLForConditionalGeneration, AutoProcessor

 import logging
 from PIL import Image
+from typing import List, Dict, Any
 from qwen_vl_utils import process_vision_info
 from transformers import Qwen3VLForConditionalGeneration, AutoProcessor

ui/components.py CHANGED Viewed

@@ -3,8 +3,7 @@
 Provides helper functions for common Gradio UI patterns.
 """
-import gradio as gr
-from typing import Callable, Optional
 from .state import SessionState, AssessmentHistory

 Provides helper functions for common Gradio UI patterns.
 """
+from typing import Optional
 from .state import SessionState, AssessmentHistory

ui/tabs/results.py CHANGED Viewed

@@ -10,7 +10,6 @@ import tempfile
 from ui.state import SessionState
 from ui.components import create_stats_dict, create_progress_html, image_store
-from config.settings import settings
 from pipeline import FDAMPipeline, PipelineResult, PDFGenerator

 from ui.state import SessionState
 from ui.components import create_stats_dict, create_progress_html, image_store
 from pipeline import FDAMPipeline, PipelineResult, PDFGenerator