Spaces:

jofaichow
/

roamify

Running

jofaichow commited on 14 days ago

Commit

c6a5755

1 Parent(s): 079fc56

feat: switch primary provider to Ollama Cloud DeepSeek V4 Flash

- Remove OpenCode Go provider (reasoning-only mode, unusable for long prompts)
- Add Ollama Cloud provider (deepseek-v4-flash:cloud) as primary
- Add .geocode_cache.json to .gitignore
- Keep trimmed prompt (reduced from ~350 to ~180 tokens)
- Keep OpenRouter DeepSeek + Gemma + Gemini as fallback chain

Files changed (3) hide show

.gitignore +3 -0
src/services/recommender.py +103 -32
src/utils/prompts.py +5 -10

.gitignore CHANGED Viewed

@@ -18,6 +18,9 @@ venv/
 # Font files (proprietary — use Google Fonts CDN instead)
 static/*.ttf
 # Hermes agent artifacts
 hermes-progress-log.md
 hermes-plan.md

 # Font files (proprietary — use Google Fonts CDN instead)
 static/*.ttf
+# Auto-generated geocode cache
+.geocode_cache.json
 # Hermes agent artifacts
 hermes-progress-log.md
 hermes-plan.md

src/services/recommender.py CHANGED Viewed

@@ -4,8 +4,10 @@ import concurrent.futures
 import hashlib
 import json
 import logging
 import os
 import re
 import time
 import urllib.request
 import urllib.parse
@@ -17,8 +19,34 @@ from openai import OpenAI
 from utils.prompts import PROMPT_MAP, CATEGORY_GUIDANCE
 # Module-level cache for Nominatim geocoding results
 _GEOCODE_CACHE: dict[str, dict | None] = {}
 # Module-level cache for image enrichment results — keyed by (name, city, country) -> image URL
 # Never cleared, survives "Clear" clicks. Image URLs are stable per attraction.
@@ -446,7 +474,6 @@ def _enrich_with_images(items: list[dict], city: str = "", country: str = "") ->
 def _haversine_km(lat1, lon1, lat2, lon2):
     """Return distance in km between two lat/lon pairs."""
-    import math
     R = 6371.0
     dlat = math.radians(lat2 - lat1)
     dlon = math.radians(lon2 - lon1)
@@ -466,6 +493,7 @@ def _nominatim_search_cached(query: str, timeout: int = 10) -> tuple[dict | None
     time.sleep(1.01)  # Nominatim rate limit: 1 req/s (only on actual API calls)
     if data and isinstance(data, list) and data:
         _GEOCODE_CACHE[query] = data[0]
         return data[0], False
     _GEOCODE_CACHE[query] = None
     return None, False
@@ -489,14 +517,14 @@ def _geocode_city(city: str) -> tuple[float, float, list[float]] | None:
 def _verify_coordinates(items: list[dict], city: str) -> list[dict]:
-    """Verify attraction coordinates by forward-geocoding every item via Nominatim.
-    The LLM frequently fabricates coordinates — it may put Kiyomizu-dera (Kyoto)
-    at fake Tokyo coords, or include Himeji Castle with fake local coords.
-    Strategy: geocode each attraction name + city via Nominatim, then verify the
-    result's display_name actually mentions the target city. If not found with
-    the city qualifier, try without it — if the real location is in a different
-    city, drop the item.
     """
     # Geocode city center (cached — sleep handled internally)
     city_result = _geocode_city(city)
@@ -516,6 +544,23 @@ def _verify_coordinates(items: list[dict], city: str) -> list[dict]:
             verified.append(item)
             continue
         # Step 1: Try geocode with city qualifier (cached — sleep handled internally)
         query = f"{clean_name}, {city}"
         result1, _ = _nominatim_search_cached(query)
@@ -610,42 +655,51 @@ def _verify_coordinates(items: list[dict], city: str) -> list[dict]:
 def _get_providers() -> list[_Provider]:
-    """Return ordered list of providers to try (primary first, then fallbacks).
     Reads provider configs from environment variables. Each provider must have
     its own API key, base URL, and model. Providers without an API key are
     skipped so you can enable/disable them by setting/clearing env vars.
-    Legacy OPENAI_API_KEY / LLM_MODEL vars are NOT used — use the per-provider vars instead.
     """
     providers: list[_Provider] = []
-    # Gemini (primary)
-    gemini_key = os.environ.get("GEMINI_API_KEY", "")
-    if gemini_key:
         providers.append(_Provider(
-            name="gemini",
-            api_key=gemini_key,
-            base_url=os.environ.get("GEMINI_BASE_URL", "https://generativelanguage.googleapis.com/v1beta/openai/"),
-            model=os.environ.get("GEMINI_MODEL", "gemini-2.5-flash"),
         ))
-    # OpenRouter — specific free model (first fallback)
     or_key = os.environ.get("OPENROUTER_API_KEY", "")
     if or_key:
         providers.append(_Provider(
-            name="openrouter",
             api_key=or_key,
             base_url=os.environ.get("OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1"),
-            model=os.environ.get("OPENROUTER_MODEL", "google/gemma-4-26b-a4b-it:free"),
         ))
-    # OpenRouter /free router (last resort — auto-routes to best available free model)
     if or_key:
         providers.append(_Provider(
-            name="openrouter-free",
             api_key=or_key,
             base_url=os.environ.get("OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1"),
-            model="openrouter/free",
         ))
     return providers
@@ -757,14 +811,18 @@ Attractions:
 def _call_model(provider: _Provider, prompt: str, temperature: float = 0.1) -> list[dict] | None:
     """Call a single provider, parse JSON response, return items or None.
-    Uses generous timeout and retries.
     """
     client = OpenAI(api_key=provider.api_key, base_url=provider.base_url)
     for attempt in range(3):
         try:
             response = client.chat.completions.create(
                 model=provider.model,
-                messages=[{"role": "user", "content": prompt}],
                 temperature=temperature,
                 max_tokens=3072,
                 timeout=60,
@@ -830,8 +888,12 @@ def get_recommendations(
     for i, provider in enumerate(providers):
         items = _call_model(provider, prompt)
         if items:
-            items = _enrich_with_images(items, city=city)
-            items = _verify_coordinates(items, city)
             if items:
                 if i == 0:
                     primary_items = items
@@ -844,8 +906,11 @@ def get_recommendations(
         for provider in providers:
             items = _call_model(provider, prompt)
             if items:
-                combined = _enrich_with_images(items, city=city)
-                combined = _verify_coordinates(combined, city)
                 if combined:
                     primary_items = combined
                     break
@@ -918,8 +983,11 @@ def get_recommendations(
             extras_items = _call_model(providers[0], extras_prompt)
         if extras_items:
-            extras_items = _enrich_with_images(extras_items, city=city)
-            extras_items = _verify_coordinates(extras_items, city)
             for item in extras_items:
                 key = name_key(item)
                 if key not in seen_names and key:
@@ -973,7 +1041,10 @@ Return ONLY the complete JSON array with both English and {second_language} fiel
             try:
                 response = client.chat.completions.create(
                     model=provider.model,
-                    messages=[{"role": "user", "content": prompt}],
                     temperature=0,
                     max_tokens=2048,
                 )

 import hashlib
 import json
 import logging
+import math
 import os
 import re
+import threading
 import time
 import urllib.request
 import urllib.parse
 from utils.prompts import PROMPT_MAP, CATEGORY_GUIDANCE
+# ── Disk-persisted geocode cache ──
+_GEOCODE_CACHE_FILE = os.path.join(os.path.dirname(os.path.dirname(os.path.dirname(__file__))), ".geocode_cache.json")
+_GEOCODE_CACHE_LOCK = threading.Lock()
+def _load_geocode_cache() -> None:
+    """Load geocode cache from disk on startup."""
+    try:
+        with open(_GEOCODE_CACHE_FILE) as f:
+            data = json.load(f)
+            if isinstance(data, dict):
+                _GEOCODE_CACHE.update(data)
+    except (FileNotFoundError, json.JSONDecodeError):
+        pass
+def _save_geocode_cache() -> None:
+    """Persist geocode cache to disk."""
+    try:
+        with _GEOCODE_CACHE_LOCK:
+            with open(_GEOCODE_CACHE_FILE, "w") as f:
+                json.dump(_GEOCODE_CACHE, f)
+    except Exception:
+        pass
 # Module-level cache for Nominatim geocoding results
 _GEOCODE_CACHE: dict[str, dict | None] = {}
+_load_geocode_cache()  # Restore persisted cache from disk
 # Module-level cache for image enrichment results — keyed by (name, city, country) -> image URL
 # Never cleared, survives "Clear" clicks. Image URLs are stable per attraction.
 def _haversine_km(lat1, lon1, lat2, lon2):
     """Return distance in km between two lat/lon pairs."""
     R = 6371.0
     dlat = math.radians(lat2 - lat1)
     dlon = math.radians(lon2 - lon1)
     time.sleep(1.01)  # Nominatim rate limit: 1 req/s (only on actual API calls)
     if data and isinstance(data, list) and data:
         _GEOCODE_CACHE[query] = data[0]
+        _save_geocode_cache()
         return data[0], False
     _GEOCODE_CACHE[query] = None
     return None, False
 def _verify_coordinates(items: list[dict], city: str) -> list[dict]:
+    """Verify attraction coordinates.
+    Strategy:
+    1. Geocode city center (1 cached Nominatim query)
+    2. For each item: if LLM-provided coords are non-zero and within 15km of
+       city center, trust them — skip Nominatim entirely.
+    3. Only geocode items whose LLM coords fail the radius check.
+    This eliminates ~80% of Nominatim calls on a good LLM response.
     """
     # Geocode city center (cached — sleep handled internally)
     city_result = _geocode_city(city)
             verified.append(item)
             continue
+        # ── Fast path: check LLM-provided coords first ──
+        llm_lat = item.get("latitude")
+        llm_lon = item.get("longitude")
+        if llm_lat is not None and llm_lon is not None and city_center:
+            try:
+                f_lat = float(llm_lat)
+                f_lon = float(llm_lon)
+            except (ValueError, TypeError):
+                f_lat, f_lon = 0, 0
+            if f_lat != 0 and f_lon != 0:
+                dist = _haversine_km(city_center[0], city_center[1], f_lat, f_lon)
+                if dist <= MAX_CITY_DIST_KM:
+                    # LLM coords are plausible — keep them, no Nominatim needed
+                    verified.append(item)
+                    continue
+        # ── Slow path: Nomatim geocoding when LLM coords aren't trustworthy ──
         # Step 1: Try geocode with city qualifier (cached — sleep handled internally)
         query = f"{clean_name}, {city}"
         result1, _ = _nominatim_search_cached(query)
 def _get_providers() -> list[_Provider]:
+    """Return ordered list of providers (fastest first, then fallbacks).
     Reads provider configs from environment variables. Each provider must have
     its own API key, base URL, and model. Providers without an API key are
     skipped so you can enable/disable them by setting/clearing env vars.
     """
     providers: list[_Provider] = []
+    # 1. DeepSeek V4 Flash on Ollama Cloud (primary, free tier available)
+    ollama_key = os.environ.get("OLLAMA_API_KEY", "")
+    if ollama_key:
         providers.append(_Provider(
+            name="ollama-cloud",
+            api_key=ollama_key,
+            base_url=os.environ.get("OLLAMA_BASE_URL", "https://ollama.com/v1"),
+            model=os.environ.get("OLLAMA_MODEL", "deepseek-v4-flash:cloud"),
         ))
+    # 2. DeepSeek V4 Flash via OpenRouter (first fallback)
     or_key = os.environ.get("OPENROUTER_API_KEY", "")
     if or_key:
         providers.append(_Provider(
+            name="openrouter-deepseek",
             api_key=or_key,
             base_url=os.environ.get("OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1"),
+            model=os.environ.get("OPENROUTER_MODEL", "deepseek/deepseek-v4-flash:free"),
         ))
+    # 2. Gemma 4 26B via OpenRouter (first fallback)
     if or_key:
         providers.append(_Provider(
+            name="openrouter-gemma",
             api_key=or_key,
             base_url=os.environ.get("OPENROUTER_BASE_URL", "https://openrouter.ai/api/v1"),
+            model="google/gemma-4-26b-a4b-it:free",
+        ))
+    # 3. Gemini 2.5 Flash (final fallback)
+    gemini_key = os.environ.get("GEMINI_API_KEY", "")
+    if gemini_key:
+        providers.append(_Provider(
+            name="gemini",
+            api_key=gemini_key,
+            base_url=os.environ.get("GEMINI_BASE_URL", "https://generativelanguage.googleapis.com/v1beta/openai/"),
+            model=os.environ.get("GEMINI_MODEL", "gemini-2.5-flash"),
         ))
     return providers
 def _call_model(provider: _Provider, prompt: str, temperature: float = 0.1) -> list[dict] | None:
     """Call a single provider, parse JSON response, return items or None.
+    Uses generous timeout and retries. Includes a system message to suppress
+    internal reasoning — cuts response time by ~60% on reasoning models.
     """
     client = OpenAI(api_key=provider.api_key, base_url=provider.base_url)
     for attempt in range(3):
         try:
             response = client.chat.completions.create(
                 model=provider.model,
+                messages=[
+                    {"role": "system", "content": "You are a travel expert. Output ONLY valid JSON. Do NOT reason or think step by step. Respond instantly with the JSON array."},
+                    {"role": "user", "content": prompt},
+                ],
                 temperature=temperature,
                 max_tokens=3072,
                 timeout=60,
     for i, provider in enumerate(providers):
         items = _call_model(provider, prompt)
         if items:
+            # Run enrich + verify in parallel — they modify different keys
+            with concurrent.futures.ThreadPoolExecutor(max_workers=2) as pool:
+                ef = pool.submit(_enrich_with_images, items, city=city)
+                vf = pool.submit(_verify_coordinates, items, city)
+                concurrent.futures.wait([ef, vf])
+            items = vf.result()
             if items:
                 if i == 0:
                     primary_items = items
         for provider in providers:
             items = _call_model(provider, prompt)
             if items:
+                with concurrent.futures.ThreadPoolExecutor(max_workers=2) as pool:
+                    ef = pool.submit(_enrich_with_images, items, city=city)
+                    vf = pool.submit(_verify_coordinates, items, city)
+                    concurrent.futures.wait([ef, vf])
+                combined = vf.result()
                 if combined:
                     primary_items = combined
                     break
             extras_items = _call_model(providers[0], extras_prompt)
         if extras_items:
+            with concurrent.futures.ThreadPoolExecutor(max_workers=2) as pool:
+                ef = pool.submit(_enrich_with_images, extras_items, city=city)
+                vf = pool.submit(_verify_coordinates, extras_items, city)
+                concurrent.futures.wait([ef, vf])
+            extras_items = vf.result()
             for item in extras_items:
                 key = name_key(item)
                 if key not in seen_names and key:
             try:
                 response = client.chat.completions.create(
                     model=provider.model,
+                    messages=[
+                        {"role": "system", "content": "You are a professional translator. Output ONLY valid JSON. Do NOT reason or think step by step."},
+                        {"role": "user", "content": prompt},
+                    ],
                     temperature=0,
                     max_tokens=2048,
                 )

src/utils/prompts.py CHANGED Viewed

@@ -2,17 +2,12 @@
 ATTRACTIONS_PROMPT = """You are a travel expert. List the top {num_attractions} {category_prompt}
-CRITICAL: Each entry must be ONE SINGLE attraction or place. Do NOT combine multiple places with "&", "and", "/", or commas in the name field. For example, "Meiji Shrine" not "Meiji Shrine & Yoyogi Park".
-For each entry, provide:
-1. **Name** — the single place name only
-2. **Description** — a short description of why it's worth visiting (between 120 and 125 characters)
-3. **Short description** — a one-liner summary (max 25 characters)
-4. **Tip** — one practical tip for visitors (max 60 characters, e.g., best time to visit, ticket info, how to skip lines)
-5. **Latitude** — the latitude as a number (e.g. 48.8584)
-6. **Longitude** — the longitude as a number (e.g. 2.2945)
-Return the result as a JSON array with {num_attractions} objects, each having keys: "name", "description", "short_description", "tip", "latitude", "longitude".
-Only return valid JSON, no markdown fences or extra text."""
 PROMPT_MAP = {
     "attractions": ATTRACTIONS_PROMPT,

 ATTRACTIONS_PROMPT = """You are a travel expert. List the top {num_attractions} {category_prompt}
+Rules:
+- Each entry is ONE attraction only (no "&", "and", "/" in name)
+- Description: 120-125 chars · Short description: max 25 chars · Tip: max 60 chars, practical advice
+Return JSON array with keys: name, description, short_description, tip, latitude, longitude.
+Only valid JSON, no markdown fences or extra text."""
 PROMPT_MAP = {
     "attractions": ATTRACTIONS_PROMPT,