Spaces:

ManalifeAI
/

Pathora_Colposcopy_Assistant

Sleeping

App Files Files Community

nusaibah0110 commited on Mar 6

Commit

cb3b2ec

1 Parent(s): dbbb9cd

Prioritize Gemini 2.5 models and cache quota-blocked model fallbacks

Browse files

Files changed (1) hide show

backend/app.py +51 -30

backend/app.py CHANGED Viewed

@@ -80,6 +80,43 @@ def get_supported_gemini_models() -> List[str]:
             seen.add(name)
     return unique_models
 # Pydantic models for LLM endpoints
 class ChatMessage(BaseModel):
     role: str
@@ -168,21 +205,9 @@ Be professional, evidence-based, and concise."""
                 "Check API key permissions and Gemini API enablement."
             )
-        preferred_models = [
-            "models/gemini-2.0-flash",
-            "gemini-2.0-flash",
-            "models/gemini-2.0-flash-lite",
-            "gemini-2.0-flash-lite",
-            "models/gemini-1.5-flash",
-            "gemini-1.5-flash",
-            "models/gemini-1.5-pro",
-            "gemini-1.5-pro",
-            "models/gemini-pro",
-            "gemini-pro",
-        ]
-        model_names = [m for m in preferred_models if m in available_models]
-        model_names.extend(m for m in available_models if m not in model_names)
         print(f"✅ Chat available models: {available_models}")
         response_text = None
         used_model = None
@@ -215,7 +240,11 @@ Be professional, evidence-based, and concise."""
                 print(f"✅ Successfully used chat model: {model_name}")
                 break
             except Exception as model_err:
-                print(f"⚠️ Chat model {model_name} failed: {str(model_err)}")
                 continue
         if not response_text:
@@ -298,21 +327,9 @@ Analyse ALL the clinical data and the attached colposcopy images to generate a p
                 "Check API key permissions and Gemini API enablement."
             )
-        preferred_models = [
-            "models/gemini-2.0-flash",
-            "gemini-2.0-flash",
-            "models/gemini-2.0-flash-lite",
-            "gemini-2.0-flash-lite",
-            "models/gemini-1.5-flash",
-            "gemini-1.5-flash",
-            "models/gemini-1.5-pro",
-            "gemini-1.5-pro",
-            "models/gemini-pro",
-            "gemini-pro",
-        ]
-        model_names = [m for m in preferred_models if m in available_models]
-        model_names.extend(m for m in available_models if m not in model_names)
         print(f"✅ Report available models: {available_models}")
         response_text = None
         used_model = None
@@ -333,7 +350,11 @@ Analyse ALL the clinical data and the attached colposcopy images to generate a p
                 print(f"✅ Successfully used model: {model_name}")
                 break
             except Exception as model_err:
-                print(f"⚠️ Model {model_name} failed: {str(model_err)}")
                 continue
         if not response_text:

             seen.add(name)
     return unique_models
+# Cache models that fail due to quota so we skip them on subsequent requests.
+QUOTA_BLOCKED_MODELS: set[str] = set()
+def get_ordered_model_candidates(available_models: List[str]) -> List[str]:
+    """Order models by preference and exclude quota-blocked models."""
+    preferred_models = [
+        # Put models that are usually available on free keys first.
+        "models/gemini-2.5-flash",
+        "gemini-2.5-flash",
+        "models/gemini-flash-latest",
+        "gemini-flash-latest",
+        "models/gemini-2.5-flash-lite",
+        "gemini-2.5-flash-lite",
+        "models/gemini-flash-lite-latest",
+        "gemini-flash-lite-latest",
+        # Keep older families as fallback.
+        "models/gemini-2.0-flash",
+        "gemini-2.0-flash",
+        "models/gemini-2.0-flash-lite",
+        "gemini-2.0-flash-lite",
+        "models/gemini-1.5-flash",
+        "gemini-1.5-flash",
+        "models/gemini-1.5-pro",
+        "gemini-1.5-pro",
+        "models/gemini-pro-latest",
+        "gemini-pro-latest",
+        "models/gemini-pro",
+        "gemini-pro",
+    ]
+    available = [m for m in available_models if m not in QUOTA_BLOCKED_MODELS]
+    ordered = [m for m in preferred_models if m in available]
+    ordered.extend(m for m in available if m not in ordered)
+    return ordered
 # Pydantic models for LLM endpoints
 class ChatMessage(BaseModel):
     role: str
                 "Check API key permissions and Gemini API enablement."
             )
+        model_names = get_ordered_model_candidates(available_models)
         print(f"✅ Chat available models: {available_models}")
+        print(f"✅ Chat candidate models: {model_names}")
         response_text = None
         used_model = None
                 print(f"✅ Successfully used chat model: {model_name}")
                 break
             except Exception as model_err:
+                err_str = str(model_err)
+                if "429" in err_str or "quota exceeded" in err_str.lower():
+                    QUOTA_BLOCKED_MODELS.add(model_name)
+                    print(f"⏭️ Skipping quota-blocked chat model: {model_name}")
+                print(f"⚠️ Chat model {model_name} failed: {err_str}")
                 continue
         if not response_text:
                 "Check API key permissions and Gemini API enablement."
             )
+        model_names = get_ordered_model_candidates(available_models)
         print(f"✅ Report available models: {available_models}")
+        print(f"✅ Report candidate models: {model_names}")
         response_text = None
         used_model = None
                 print(f"✅ Successfully used model: {model_name}")
                 break
             except Exception as model_err:
+                err_str = str(model_err)
+                if "429" in err_str or "quota exceeded" in err_str.lower():
+                    QUOTA_BLOCKED_MODELS.add(model_name)
+                    print(f"⏭️ Skipping quota-blocked report model: {model_name}")
+                print(f"⚠️ Model {model_name} failed: {err_str}")
                 continue
         if not response_text: