Spaces:

tech-daskalos
/

CyberSecChatbot

Paused

Andrew McCracken Claude commited on Oct 13, 2025

Commit

b7fb901

1 Parent(s): 6e83384

Optimize for 8vCPU/32GB instance

- Use 6 threads (leave 2 for system/API)
- Restore n_ctx=4096 and n_batch=512 for better quality
- Restore max_tokens=512 for complete responses
- Enable verbose logging for debugging
- f16_kv=True for memory efficiency with sufficient RAM

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (2) hide show

llm_handler.py +5 -5
main.py +1 -1

llm_handler.py CHANGED Viewed

@@ -51,17 +51,17 @@ class CybersecurityLLM:
         logger.info("Initializing model...")
         self.llm = Llama(
             model_path=model_path,
-            n_ctx=2048,  # Reduced context window for faster inference
-            n_batch=256,  # Smaller batch size for lower memory usage
-            n_threads=4,  # Reduced threads for HF Spaces CPU limits
             n_gpu_layers=0,  # CPU only
             seed=-1,  # Random seed
-            f16_kv=False,  # Use f32 for better CPU performance
             logits_all=False,  # Only compute logits for last token
             vocab_only=False,  # Load full model
             use_mmap=True,  # Memory-map model for efficiency
             use_mlock=False,  # Don't lock model in RAM
-            verbose=False
         )
         # Store model info

         logger.info("Initializing model...")
         self.llm = Llama(
             model_path=model_path,
+            n_ctx=4096,  # Context window
+            n_batch=512,  # Batch size for prompt processing
+            n_threads=6,  # Use 6 of 8 vCPUs (leave 2 for system/API)
             n_gpu_layers=0,  # CPU only
             seed=-1,  # Random seed
+            f16_kv=True,  # Use f16 for key/value cache (saves memory)
             logits_all=False,  # Only compute logits for last token
             vocab_only=False,  # Load full model
             use_mmap=True,  # Memory-map model for efficiency
             use_mlock=False,  # Don't lock model in RAM
+            verbose=True  # Enable verbose for debugging
         )
         # Store model info

main.py CHANGED Viewed

@@ -158,7 +158,7 @@ app.add_middleware(
 class ChatRequest(BaseModel):
     message: str = Field(..., description="User's security question")
     session_id: Optional[str] = Field(None, description="Session ID for conversation continuity")
-    max_tokens: Optional[int] = Field(256, description="Maximum response length")
     temperature: Optional[float] = Field(0.7, description="Response creativity (0-1)")
     use_rag: Optional[bool] = Field(True, description="Use RAG for enhanced accuracy")
     use_cache: Optional[bool] = Field(True, description="Use cached responses if available")

 class ChatRequest(BaseModel):
     message: str = Field(..., description="User's security question")
     session_id: Optional[str] = Field(None, description="Session ID for conversation continuity")
+    max_tokens: Optional[int] = Field(512, description="Maximum response length")
     temperature: Optional[float] = Field(0.7, description="Response creativity (0-1)")
     use_rag: Optional[bool] = Field(True, description="Use RAG for enhanced accuracy")
     use_cache: Optional[bool] = Field(True, description="Use cached responses if available")