Spaces:

cloud450
/

coderound-bkl

Sleeping

App Files Files Community

cloud450 commited on Apr 17

Commit

394c1b4

verified ·

1 Parent(s): 112ba22

Update app/utils/groq_client.py

Browse files

Files changed (1) hide show

app/utils/groq_client.py +30 -8

app/utils/groq_client.py CHANGED Viewed

@@ -1,37 +1,59 @@
 import os
 import logging
 from groq import AsyncGroq
 from app.utils.key_manager import key_manager
 logger = logging.getLogger(__name__)
 async def get_groq_completion(messages: list, model: str = None) -> str:
-    """
-    Calls Groq API with automatic key rotation on failure.
-    Retries across all available keys before raising.
-    """
     if model is None:
         model = os.getenv("GROQ_MODEL", "llama3-70b-8192")
-    max_retries = max(key_manager.key_count(), 1)
     last_error = None
     for attempt in range(max_retries):
         try:
             api_key = key_manager.get_next_key()
             client = AsyncGroq(api_key=api_key)
             response = await client.chat.completions.create(
                 messages=messages,
                 model=model,
-                temperature=0.2,          # Low temp for deterministic structured output
-                max_tokens=2048,
             )
             return response.choices[0].message.content
         except Exception as e:
             logger.warning(f"[Groq] Attempt {attempt + 1}/{max_retries} failed: {e}")
             last_error = e
             continue
-    raise Exception(f"[Groq] All API keys exhausted. Last error: {last_error}")

 import os
 import logging
+import asyncio
+import re
 from groq import AsyncGroq
 from app.utils.key_manager import key_manager
 logger = logging.getLogger(__name__)
+def extract_wait_time(error_msg: str) -> float:
+    """Extract wait time from Groq error message."""
+    match = re.search(r"try again in ([\d\.]+)s", error_msg.lower())
+    if match:
+        return float(match.group(1))
+    return 1.0  # fallback
 async def get_groq_completion(messages: list, model: str = None) -> str:
     if model is None:
         model = os.getenv("GROQ_MODEL", "llama3-70b-8192")
+    max_retries = max(key_manager.key_count(), 3)
     last_error = None
     for attempt in range(max_retries):
         try:
             api_key = key_manager.get_next_key()
             client = AsyncGroq(api_key=api_key)
             response = await client.chat.completions.create(
                 messages=messages,
                 model=model,
+                temperature=0.2,
+                max_tokens=800,  # ✅ reduced from 2048
             )
             return response.choices[0].message.content
         except Exception as e:
+            error_msg = str(e).lower()
             logger.warning(f"[Groq] Attempt {attempt + 1}/{max_retries} failed: {e}")
             last_error = e
+            # ✅ Handle rate limit properly
+            if "rate_limit" in error_msg:
+                wait_time = extract_wait_time(error_msg)
+                wait_time = max(wait_time, 0.5)
+                logger.warning(f"[Groq] Rate limited. Waiting {wait_time:.2f}s...")
+                await asyncio.sleep(wait_time)
+            else:
+                # small delay for other errors
+                await asyncio.sleep(0.5)
             continue
+    raise Exception(f"[Groq] All retries failed. Last error: {last_error}")