Spaces:

BinKhoaLe1812
/

QuerySearcher

Sleeping

LiamKhoaLe commited on Jun 18, 2025

Commit

0d7e5cb

1 Parent(s): d443075

Upd pg search method with hardcode url technique

Files changed (3) hide show

app/.DS_Store CHANGED Viewed

Binary files a/app/.DS_Store and b/app/.DS_Store differ

app/services/project_gutenberg.py CHANGED Viewed

@@ -18,14 +18,26 @@ async def search(q: str):
     results = []
     for b in books:
-        # Find a PDF format, ignore non-PDF rows
         pdf_link = next(
-            (v for k, v in b["formats"].items() if k.endswith("pdf")), None
         )
         if not pdf_link:
             logger.debug(f"[GUT] skipped (no PDF): {b['title']}")
             continue
         results.append(
             {
                 "title": b["title"],

     results = []
     for b in books:
         pdf_link = next(
+            (v for k, v in b["formats"].items() if k.lower().endswith("pdf")), None
         )
+        # Link not from public details
+        if not pdf_link:
+            try:
+                # Attempt fallback hardcoded PDF URL
+                fallback_url = f"https://www.gutenberg.org/files/{b['id']}/{b['id']}-pdf.pdf"
+                async with httpx.AsyncClient(timeout=5) as client:
+                    head_resp = await client.head(fallback_url)
+                    if head_resp.status_code == 200:
+                        pdf_link = fallback_url
+            # PDF not accessible from
+            except Exception as e:
+                logger.debug(f"[GUT] fallback failed for {b['id']}: {e}")
+        # Fallback book not having preview/download url from both details and hardcode method
         if not pdf_link:
             logger.debug(f"[GUT] skipped (no PDF): {b['title']}")
             continue
+        # Final JSON
         results.append(
             {
                 "title": b["title"],

test/db_debug.py ADDED Viewed

+"""
+Quick CLI helper to peek at MongoDB + GridFS.
+Usage:
+    python test/db_debug.py
+or   python test/db_debug.py --doc <document_id>
+"""
+import argparse, os, json, pprint
+from pymongo import MongoClient
+from gridfs import GridFSBucket
+MONGO_URI = os.getenv("MONGODB_URI")
+MONGO_DB_NAME = os.getenv("MONGODB_DB", "querysearcher")
+client = MongoClient(MONGO_URI)
+db = client[MONGO_DB_NAME]
+fs = GridFSBucket(db)
+def list_documents():
+    for doc in db.documents.find():
+        print(f"{doc['_id']}  |  {doc['title']:<60}  |  {doc['status']}")
+def doc_detail(doc_id):
+    doc = db.documents.find_one({"_id": doc_id})
+    if not doc:
+        print("No such doc.")
+        return
+    pprint.pp(doc)
+    # print how many embeddings
+    cnt = db.embeddings.count_documents({"document_id": doc_id})
+    print(f"Embeddings chunks: {cnt}")
+    # confirm pdf file exists
+    try:
+        fs.open_download_stream_by_name(f"{doc_id}.pdf").close()
+        print("✅ PDF present in GridFS")
+    except:
+        print("⚠️  PDF missing in GridFS")
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--doc", help="document_id to inspect")
+    args = parser.parse_args()
+    if args.doc:
+        doc_detail(args.doc)
+    else:
+        list_documents()