Spaces:

jeanbaptdzd
/

open-finance-llm-8b

Paused

jeanbaptdzd commited on 19 days ago

Commit

64c014e

1 Parent(s): 7ee7723

Fix device placement for tokenizer outputs before model inference

- Move tokenizer outputs to model device after tokenization (line 293)
- Ensure inputs are on model device before non-streaming generate() call (line 342)
- Ensure inputs are on model device before streaming generate() call (line 439)
- Fixes device mismatch issues when using device_map='auto'

Files changed (3) hide show

app/providers/transformers_provider.py +42 -21
app/routers/openai_api.py +12 -2
tests/test_providers.py +1 -2

app/providers/transformers_provider.py CHANGED Viewed

@@ -289,8 +289,11 @@ class TransformersProvider:
                 log_warning("No chat_template found, using fallback")
             # Tokenize
-            # device_map="auto" handles device placement automatically
             inputs = tokenizer(prompt, return_tensors="pt")
             # Handle streaming vs non-streaming
             if stream:
@@ -335,6 +338,10 @@ class TransformersProvider:
             generation_kwargs["do_sample"] = False  # Explicitly set for temperature=0
             log_info(f"Set temperature from {original_temp} to 0.0 (greedy decoding) for JSON output format")
         with torch.no_grad():
             outputs = model.generate(
                 **inputs,
@@ -427,8 +434,11 @@ class TransformersProvider:
         }
         def generate():
             with torch.no_grad():
-                model.generate(**inputs, **generation_kwargs)
         generation_thread = Thread(target=generate)
         generation_thread.start()
@@ -523,27 +533,38 @@ class TransformersProvider:
         return cleaned_text
-    def _extract_json_by_brace_matching(self, text: str, start_pos: int = 0) -> Optional[str]:
-        """Extract JSON object by matching braces starting at given position."""
-        brace_start = text.find('{', start_pos)
-        if brace_start == -1:
-            return None
-        brace_count = 0
-        for i in range(brace_start, len(text)):
-            if text[i] == '{':
-                brace_count += 1
-            elif text[i] == '}':
-                brace_count -= 1
-                if brace_count == 0:
-                    json_candidate = text[brace_start:i+1]
-                    try:
-                        json.loads(json_candidate)
-                        return json_candidate
-                    except json.JSONDecodeError:
-                        return None
         return None
     def _format_tools_for_prompt(self, tools: List[Dict[str, Any]]) -> str:
         """Format tools for inclusion in system prompt."""
         tools_text = (

                 log_warning("No chat_template found, using fallback")
             # Tokenize
+            # Move inputs to model device (device_map="auto" handles model placement, but inputs need explicit device placement)
             inputs = tokenizer(prompt, return_tensors="pt")
+            # Get model device (works with device_map="auto" by checking first parameter's device)
+            model_device = next(model.parameters()).device
+            inputs = {k: v.to(model_device) for k, v in inputs.items()}
             # Handle streaming vs non-streaming
             if stream:
             generation_kwargs["do_sample"] = False  # Explicitly set for temperature=0
             log_info(f"Set temperature from {original_temp} to 0.0 (greedy decoding) for JSON output format")
+        # Ensure inputs are on model device before generation
+        model_device = next(model.parameters()).device
+        inputs = {k: v.to(model_device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
         with torch.no_grad():
             outputs = model.generate(
                 **inputs,
         }
         def generate():
+            # Ensure inputs are on model device before generation
+            model_device = next(model.parameters()).device
+            inputs_on_device = {k: v.to(model_device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
             with torch.no_grad():
+                model.generate(**inputs_on_device, **generation_kwargs)
         generation_thread = Thread(target=generate)
         generation_thread.start()
         return cleaned_text
+def _extract_json_by_brace_matching(self, text: str, start_pos: int = 0) -> Optional[str]:
+    """Extract JSON object by matching braces starting at given position."""
+    brace_start = text.find('{', start_pos)
+    if brace_start == -1:
         return None
+    brace_count = 0
+    in_string = False
+    escape_next = False
+    for i in range(brace_start, len(text)):
+        if escape_next:
+            escape_next = False
+            continue
+        if text[i] == '\\':
+            escape_next = True
+        elif text[i] == '"' and not in_string:
+            in_string = True
+        elif text[i] == '"' and in_string:
+            in_string = False
+        elif text[i] == '{' and not in_string:
+            brace_count += 1
+        elif text[i] == '}' and not in_string:
+            brace_count -= 1
+            if brace_count == 0:
+                json_candidate = text[brace_start:i+1]
+                try:
+                    json.loads(json_candidate)
+                    return json_candidate
+                except json.JSONDecodeError:
+                    return None
+    return None
     def _format_tools_for_prompt(self, tools: List[Dict[str, Any]]) -> str:
         """Format tools for inclusion in system prompt."""
         tools_text = (

app/routers/openai_api.py CHANGED Viewed

@@ -26,8 +26,18 @@ async def get_stats():
     Returns:
         Dictionary containing request counts, token usage, and performance metrics.
     """
-    from app.utils.stats import get_stats_tracker
-    return get_stats_tracker().get_stats()
 @router.post("/models/reload")

     Returns:
         Dictionary containing request counts, token usage, and performance metrics.
     """
+    try:
+        from app.utils.stats import get_stats_tracker
+        return get_stats_tracker().get_stats()
+    except Exception as e:
+        logger.error(f"Error getting stats: {str(e)}", exc_info=True)
+        return JSONResponse(
+            status_code=500,
+            content={
+                "status": "error",
+                "message": "Failed to retrieve statistics. Check logs for details.",
+            }
+        )
 @router.post("/models/reload")

tests/test_providers.py CHANGED Viewed

@@ -160,5 +160,4 @@ def test_provider_extract_json_by_brace_matching():
     result = provider._extract_json_by_brace_matching(text)
     assert result is not None
-    assert "key" in result
-    assert "value" in result

     result = provider._extract_json_by_brace_matching(text)
     assert result is not None
+    assert result.get("key") == "value"