Spaces:

BinKhoaLe1812
/

QuerySearcher

Sleeping

LiamKhoaLe commited on Jun 18, 2025

Commit

047622e

1 Parent(s): 0d7e5cb

Upd search engine

Files changed (3) hide show

app/main.py CHANGED Viewed

@@ -5,10 +5,13 @@
 # │   ├── routers/
 # │   │   ├── search.py
 # │   │   └── import_doc.py
-# │   └── services/
-# │       ├── google_books.py
-# │       ├── open_library.py
-# │       └── internet_archive.py
 # ├── Dockerfile
 # ├── docker-compose.yml
 # └── README.md

 # │   ├── routers/
 # │   │   ├── search.py
 # │   │   └── import_doc.py
+# │   ├── services/
+# │   │   ├── google_books.py
+# │   │   ├── open_library.py
+# │   │   └── internet_archive.py
+# │   │   └── project_gutenberg.py
+# │   └── health/
+# │       └── check_status.py
 # ├── Dockerfile
 # ├── docker-compose.yml
 # └── README.md

app/routers/search.py CHANGED Viewed

@@ -17,10 +17,14 @@ def _tokenize(text: str):
     """lower-case & keep only alnum tokens"""
     return re.findall(r"[a-z0-9]+", text.lower())
 def _title_matches(title: str, query_tokens: list[str]) -> bool:
-    title_lc = title.lower()
-    joined = "".join(query_tokens)  # “specialistmath” use-case
-    return all(tok in title_lc for tok in query_tokens) or joined in title_lc
 @router.get("")
 async def search_books(q: str = Query(...)):

     """lower-case & keep only alnum tokens"""
     return re.findall(r"[a-z0-9]+", text.lower())
+def normalize(text):
+    return re.sub(r'\s+', '', text.lower())
 def _title_matches(title: str, query_tokens: list[str]) -> bool:
+    """Check if all query tokens exist in title (unordered), or title contains all joined as a single word"""
+    title_norm = normalize(title)
+    joined_query = "".join(query_tokens)
+    return all(tok in title_norm for tok in query_tokens) or joined_query in title_norm
 @router.get("")
 async def search_books(q: str = Query(...)):

app/services/ingest.py CHANGED Viewed

@@ -1,6 +1,6 @@
 # app/services/ingest.py
 import os
-import fitz  # PyMuPDF
 import io
 from app.db import db, grid_fs_bucket
 from sentence_transformers import SentenceTransformer

 # app/services/ingest.py
 import os
+import fitz  # PyMuPDF - convert PDF to plaintext for semantic embedding
 import io
 from app.db import db, grid_fs_bucket
 from sentence_transformers import SentenceTransformer