Spaces:

hchevva
/

TOXRA.AI

Sleeping

App Files Files Community

hchevva commited on Feb 6

Commit

0f2aafd

verified ·

1 Parent(s): ee87da6

Upload 3 files

Browse files

Files changed (3) hide show

core/sources/ctx.py +38 -28
core/sources/fema.py +4 -2
core/sources/ntp.py +29 -8

core/sources/ctx.py CHANGED Viewed

@@ -1,4 +1,6 @@
 import re
 from typing import Any, Dict, List, Optional
 from urllib.parse import quote
@@ -43,11 +45,26 @@ def _as_rows(data: Any) -> List[Any]:
     return []
 async def _ctx_get(path: str, http: httpx.AsyncClient, params: Dict[str, Any] | None = None) -> Any:
     url = settings.ctx_base_url.rstrip("/") + path
-    headers = {"accept": "application/json"}
-    if settings.ctx_api_key:
-        headers["x-api-key"] = settings.ctx_api_key
     r = await http.get(url, params=params, headers=headers, timeout=25.0, follow_redirects=True)
     r.raise_for_status()
@@ -81,6 +98,9 @@ async def _resolve_from_cas(cas: str, http: httpx.AsyncClient) -> Optional[str]:
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
         except Exception:
             pass
@@ -95,6 +115,9 @@ async def _resolve_from_cas(cas: str, http: httpx.AsyncClient) -> Optional[str]:
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
         except Exception:
             pass
@@ -123,6 +146,9 @@ async def _resolve_from_name(name: str, http: httpx.AsyncClient) -> Optional[str
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
         except Exception:
             pass
@@ -137,6 +163,9 @@ async def _resolve_from_name(name: str, http: httpx.AsyncClient) -> Optional[str
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
         except Exception:
             pass
@@ -239,31 +268,12 @@ async def fetch_ctx_genetox(cas_or_query: str, http: httpx.AsyncClient) -> Dict[
     if not q:
         return {"ok": False, "error": "Empty query"}
-    # Prefer worker proxy if configured (matches production behavior)
-    if settings.worker_base_url:
-        try:
-            worker_url = settings.worker_base_url.rstrip("/") + "/ctx-genetox"
-            payload = {"dtxsid": q} if q.upper().startswith("DTXSID") else {"query": q}
-            r = await http.post(worker_url, json=payload, timeout=25.0)
-            if r.status_code < 400:
-                data = r.json()
-                if data.get("summary"):
-                    dtxsid = data.get("dtxsid")
-                    return {
-                        "ok": True,
-                        "dtxsid": dtxsid,
-                        "summary": data.get("summary"),
-                        "dashboard_url": dashboard_details_url(dtxsid or q),
-                    }
-                if data.get("resolveUrl"):
-                    return {
-                        "ok": False,
-                        "error": data.get("message") or "No DTXSID found for this query.",
-                        "dashboard_search": data.get("resolveUrl"),
-                    }
-            # If worker errors, fall through to direct CTX
-        except Exception:
-            pass
     dtxsid = await resolve_dtxsid(q, http)
     if not dtxsid:

+import os
 import re
+import json
 from typing import Any, Dict, List, Optional
 from urllib.parse import quote
     return []
+def _extract_dtxsid_any(data: Any) -> Optional[str]:
+    try:
+        text = json.dumps(data)
+    except Exception:
+        text = str(data)
+    m = DTXSID_RE.search(text)
+    return m.group(0) if m else None
+def _ctx_headers() -> Dict[str, str]:
+    headers = {"accept": "application/json"}
+    key = settings.ctx_api_key or os.getenv("CTX_API_KEY") or os.getenv("COMPTOX_API_KEY") or os.getenv("CTX_KEY")
+    if key:
+        headers["x-api-key"] = key
+    return headers
 async def _ctx_get(path: str, http: httpx.AsyncClient, params: Dict[str, Any] | None = None) -> Any:
     url = settings.ctx_base_url.rstrip("/") + path
+    headers = _ctx_headers()
     r = await http.get(url, params=params, headers=headers, timeout=25.0, follow_redirects=True)
     r.raise_for_status()
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
+            dtxsid = _extract_dtxsid_any(data)
+            if dtxsid:
+                return dtxsid
         except Exception:
             pass
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
+            dtxsid = _extract_dtxsid_any(data)
+            if dtxsid:
+                return dtxsid
         except Exception:
             pass
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
+            dtxsid = _extract_dtxsid_any(data)
+            if dtxsid:
+                return dtxsid
         except Exception:
             pass
             dtxsid = _pick_dtxsid(rows)
             if dtxsid:
                 return dtxsid
+            dtxsid = _extract_dtxsid_any(data)
+            if dtxsid:
+                return dtxsid
         except Exception:
             pass
     if not q:
         return {"ok": False, "error": "Empty query"}
+    if not _ctx_headers().get("x-api-key"):
+        return {
+            "ok": False,
+            "error": "CTX_API_KEY not configured. Please set it in HF Secrets.",
+            "dashboard_search": dashboard_search_url(q),
+        }
     dtxsid = await resolve_dtxsid(q, http)
     if not dtxsid:

core/sources/fema.py CHANGED Viewed

@@ -13,5 +13,7 @@ def fema_link(cas_or_query: str) -> dict:
     # NOTE: domain spelling matters; the older '...materialssafety...' variant often 404s.
     base = "https://fragrancematerialsafetyresource.elsevier.com/"
-    url = f"{base}?field_cas_tid_1={quote_plus(q)}&field_chemical_synonym_tid="
-    return {"ok": True, "url": url}

     # NOTE: domain spelling matters; the older '...materialssafety...' variant often 404s.
     base = "https://fragrancematerialsafetyresource.elsevier.com/"
+    cas_url = f"{base}?field_cas_tid_1={quote_plus(q)}&field_chemical_synonym_tid="
+    # Generic search fallback (some deployments ignore CAS filter params)
+    search_url = f"{base}search/node?keys={quote_plus(q)}"
+    return {"ok": True, "url": cas_url, "alt_url": search_url}

core/sources/ntp.py CHANGED Viewed

@@ -52,7 +52,12 @@ def _extract_pdf_url(page_html: str, page_url: str) -> Optional[str]:
 async def _fetch_tr_page(num: str, http: httpx.AsyncClient) -> Optional[Dict[str, Any]]:
     page_url = f"{BASE}/publications/reports/tr{num}"
     try:
-        r = await http.get(page_url, timeout=25, follow_redirects=True)
         if r.status_code >= 400:
             return None
         page_html = r.text
@@ -116,12 +121,18 @@ async def search_technical_reports(query: str, http: httpx.AsyncClient, limit: i
                             "pdf": row.get("pdf"),
                         }
                     )
-                return {"ok": True, "query": q, "items": items}
         except Exception:
             pass
     try:
-        r = await http.get(REPORTS_URL, timeout=25, follow_redirects=True)
         r.raise_for_status()
         index_html = r.text
     except Exception as e:
@@ -129,6 +140,8 @@ async def search_technical_reports(query: str, http: httpx.AsyncClient, limit: i
     plain = _strip_tags(index_html)
     q_low = q.lower()
     nums: List[str] = []
     seen = set()
@@ -138,9 +151,13 @@ async def search_technical_reports(query: str, http: httpx.AsyncClient, limit: i
         # neighborhood window similar to production
         start = max(0, m.start() - 250)
         end = min(len(plain), m.end() + 250)
-        neighborhood = plain[start:end].lower()
-        if q_low not in neighborhood:
-            continue
         if num in seen:
             continue
         seen.add(num)
@@ -167,8 +184,12 @@ async def search_technical_reports(query: str, http: httpx.AsyncClient, limit: i
                 continue
             block = " ".join(idx_lines[i : i + 6])
             block_text = _strip_tags(block)
-            if q_low not in block_text.lower():
-                continue
             m = TR_RE.search(block_text)
             if not m:
                 continue

 async def _fetch_tr_page(num: str, http: httpx.AsyncClient) -> Optional[Dict[str, Any]]:
     page_url = f"{BASE}/publications/reports/tr{num}"
     try:
+        r = await http.get(
+            page_url,
+            timeout=25,
+            follow_redirects=True,
+            headers={"User-Agent": "Mozilla/5.0"},
+        )
         if r.status_code >= 400:
             return None
         page_html = r.text
                             "pdf": row.get("pdf"),
                         }
                     )
+                if items:
+                    return {"ok": True, "query": q, "items": items}
         except Exception:
             pass
     try:
+        r = await http.get(
+            REPORTS_URL,
+            timeout=25,
+            follow_redirects=True,
+            headers={"User-Agent": "Mozilla/5.0"},
+        )
         r.raise_for_status()
         index_html = r.text
     except Exception as e:
     plain = _strip_tags(index_html)
     q_low = q.lower()
+    is_cas = bool(re.match(r"^\\d{2,7}-\\d{2}-\\d$", q))
+    q_digits = re.sub(r"\\D", "", q) if is_cas else ""
     nums: List[str] = []
     seen = set()
         # neighborhood window similar to production
         start = max(0, m.start() - 250)
         end = min(len(plain), m.end() + 250)
+        neighborhood = plain[start:end]
+        if is_cas:
+            if q_digits not in re.sub(r"\\D", "", neighborhood):
+                continue
+        else:
+            if q_low not in neighborhood.lower():
+                continue
         if num in seen:
             continue
         seen.add(num)
                 continue
             block = " ".join(idx_lines[i : i + 6])
             block_text = _strip_tags(block)
+            if is_cas:
+                if q_digits not in re.sub(r"\\D", "", block_text):
+                    continue
+            else:
+                if q_low not in block_text.lower():
+                    continue
             m = TR_RE.search(block_text)
             if not m:
                 continue