Spaces:

jomasego
/

Antientropy

Sleeping

App Files Files Community

Jose-Maria Segui commited on Jan 18

Commit

d161c86

1 Parent(s): 4c8ff37

Switch to llama-3.3-70b-versatile and add rate limit handling

Browse files

Files changed (1) hide show

agent.py +17 -9

agent.py CHANGED Viewed

@@ -742,9 +742,9 @@ def build_graph():
     """Build the graph"""
     # Use Groq (fast, reliable, free tier)
-    # Model: qwen/qwen3-32b (same as reference implementation)
     llm = ChatGroq(
-        model="qwen/qwen3-32b",
         temperature=0,
         api_key=os.environ.get("GROQ_API_KEY")
     )
@@ -755,26 +755,34 @@ def build_graph():
     # Node
     def assistant(state: MessagesState):
         """Assistant node"""
         messages = state["messages"]
         # Ensure system prompt is first
         if not messages or not isinstance(messages[0], SystemMessage):
              messages = [sys_msg] + messages
-        # Retry mechanism for 504 errors
-        max_retries = 3
         for attempt in range(max_retries):
             try:
                 response = llm_with_tools.invoke(messages)
                 return {"messages": [response]}
             except Exception as e:
                 error_str = str(e)
-                if "504" in error_str or "Gateway Time-out" in error_str or "500" in error_str:
                     if attempt < max_retries - 1:
-                        print(f"⚠️ LLM Timeout (Attempt {attempt+1}/{max_retries}). Retrying...")
-                        import time
-                        time.sleep(2)
                         continue
-                # If it's not a timeout or we ran out of retries, raise or return error
                 return {"messages": [HumanMessage(content=f"Error communicating with LLM: {e}")]}
     def retriever(state: MessagesState):

     """Build the graph"""
     # Use Groq (fast, reliable, free tier)
+    # Model: llama-3.3-70b-versatile has higher rate limits than qwen
     llm = ChatGroq(
+        model="llama-3.3-70b-versatile",
         temperature=0,
         api_key=os.environ.get("GROQ_API_KEY")
     )
     # Node
     def assistant(state: MessagesState):
         """Assistant node"""
+        import time
         messages = state["messages"]
         # Ensure system prompt is first
         if not messages or not isinstance(messages[0], SystemMessage):
              messages = [sys_msg] + messages
+        # Retry mechanism for errors (504, 429 rate limit, etc)
+        max_retries = 5
         for attempt in range(max_retries):
             try:
                 response = llm_with_tools.invoke(messages)
                 return {"messages": [response]}
             except Exception as e:
                 error_str = str(e)
+                # Handle rate limits with longer waits
+                if "429" in error_str or "rate_limit" in error_str.lower():
                     if attempt < max_retries - 1:
+                        wait_time = 30 * (attempt + 1)  # 30s, 60s, 90s...
+                        print(f"⚠️ Rate limit hit (Attempt {attempt+1}/{max_retries}). Waiting {wait_time}s...")
+                        time.sleep(wait_time)
                         continue
+                # Handle server errors
+                elif "504" in error_str or "Gateway Time-out" in error_str or "500" in error_str:
+                    if attempt < max_retries - 1:
+                        print(f"⚠️ Server error (Attempt {attempt+1}/{max_retries}). Retrying in 5s...")
+                        time.sleep(5)
+                        continue
+                # If we can't recover, return the error
                 return {"messages": [HumanMessage(content=f"Error communicating with LLM: {e}")]}
     def retriever(state: MessagesState):