Final_Assignment_Template

Running

App Files Files Community

Ghisalbertifederico commited on 18 days ago

Commit

e8675f6

verified ·

1 Parent(s): 41a2285

Update app.py

Browse files

Files changed (1) hide show

app.py +10 -5

app.py CHANGED Viewed

@@ -108,9 +108,9 @@ def web_search(query: str) -> str:
 # Model fallback chain (primary → backup → last-resort)
 # ---------------------------------------------------------------------------
 MODEL_CONFIGS = [
-    {"model_id": "llama-3.3-70b-versatile"},
-    {"model_id": "meta-llama/llama-4-scout-17b-16e-instruct"},  # 500K TPD, 30K TPM, fast
-    {"model_id": "qwen/qwen3-32b"},                              # 500K TPD,  6K TPM, strong backup
     {"model_id": "llama-3.1-8b-instant"},                        # 500K TPD,  6K TPM, last resort
 ]
@@ -361,7 +361,7 @@ class WebSearchAgent:
             print("Agent error:", e)
             msg = str(e)
             # Re-raise rate-limit errors so _answer_question can fall back to the next model
-            if "rate_limit_exceeded" in msg or "429" in msg:
                 raise
             return f"AGENT ERROR: {e}"
@@ -431,12 +431,17 @@ def _answer_question(item: dict) -> str:
                 return result
             except Exception as e:
                 msg = str(e)
-                if "rate_limit_exceeded" in msg or "429" in msg:
                     # Check if it's a daily (TPD) limit — skip model for all remaining questions
                     if "on tokens per day" in msg or "TPD" in msg:
                         _exhausted_models.add(model_id)
                         print(f"[{model_id}] Daily token limit hit — skipping for remaining questions")
                         break  # move to next model immediately
                     wait = _parse_retry_after(msg) + 5
                     print(f"[{model_id}] Rate limit hit, waiting {wait:.0f}s (attempt {attempt + 1}/2)...")
                     time.sleep(wait)

 # Model fallback chain (primary → backup → last-resort)
 # ---------------------------------------------------------------------------
 MODEL_CONFIGS = [
+    {"model_id": "llama-3.3-70b-versatile"},              # 100K TPD, 12K TPM
+    {"model_id": "meta-llama/llama-4-scout-17b-16e-instruct"},  # 500K TPD, 30K TPM
+    {"model_id": "gemma2-9b-it"},                               # 500K TPD, 15K TPM
     {"model_id": "llama-3.1-8b-instant"},                        # 500K TPD,  6K TPM, last resort
 ]
             print("Agent error:", e)
             msg = str(e)
             # Re-raise rate-limit errors so _answer_question can fall back to the next model
+            if "rate_limit_exceeded" in msg or "429" in msg or "413" in msg or "Request too large" in msg:
                 raise
             return f"AGENT ERROR: {e}"
                 return result
             except Exception as e:
                 msg = str(e)
+                if "rate_limit_exceeded" in msg or "429" in msg or "413" in msg or "Request too large" in msg:
                     # Check if it's a daily (TPD) limit — skip model for all remaining questions
                     if "on tokens per day" in msg or "TPD" in msg:
                         _exhausted_models.add(model_id)
                         print(f"[{model_id}] Daily token limit hit — skipping for remaining questions")
                         break  # move to next model immediately
+                    # Check if request itself exceeds the model's TPM limit
+                    # (413 or "Request too large" — retrying won't help, skip immediately)
+                    if "413" in msg or "Request too large" in msg or "please reduce your message size" in msg:
+                        print(f"[{model_id}] Request too large for model's TPM limit — skipping to next model")
+                        break  # move to next model immediately
                     wait = _parse_retry_after(msg) + 5
                     print(f"[{model_id}] Rate limit hit, waiting {wait:.0f}s (attempt {attempt + 1}/2)...")
                     time.sleep(wait)