Spaces:

OnlyTheTruth03
/

OTT_Bot

Running

App Files Files Community

OnlyTheTruth03 commited on Dec 23, 2025

Commit

07a5b4f

1 Parent(s): 11a6288

Paraquet dataset correction

Browse files

Files changed (1) hide show

src/ingest.py +9 -18

src/ingest.py CHANGED Viewed

@@ -2,11 +2,10 @@
 import os
 import pickle
 import faiss
-from pypdf import PdfReader
 from datasets import load_dataset
 from sentence_transformers import SentenceTransformer
-# ---------------- CONFIG ----------------
 DATASET_NAME = "OnlyTheTruth03/ott"
 INDEX_DIR = "src/index"
@@ -16,46 +15,38 @@ embedder = SentenceTransformer("all-MiniLM-L6-v2")
 def build_index():
-    print("📥 Loading dataset from Hugging Face...")
     dataset = load_dataset(DATASET_NAME, split="train")
-    print("📄 Dataset columns:", dataset.column_names)
     documents = []
     for row in dataset:
-        # HF Pdf feature → object with `.path`
         pdf_obj = row[dataset.column_names[0]]
-        if not pdf_obj or not hasattr(pdf_obj, "path"):
-            raise RuntimeError("❌ Invalid PDF object from HF dataset")
         pdf_path = pdf_obj.path
-        print(f"📂 Reading PDF from {pdf_path}")
         reader = PdfReader(pdf_path)
-        for page_num, page in enumerate(reader.pages, start=1):
             text = page.extract_text()
             if not text:
                 continue
             documents.append({
                 "text": text.strip(),
-                "page": page_num
             })
     if not documents:
         raise RuntimeError("❌ No text extracted from PDF")
-    print(f"✂️ Extracted {len(documents)} text chunks")
     texts = [d["text"] for d in documents]
-    embeddings = embedder.encode(texts, show_progress_bar=True).astype("float32")
-    print("📦 Building FAISS index...")
-    dimension = embeddings.shape[1]
-    index = faiss.IndexFlatL2(dimension)
     index.add(embeddings)
     faiss.write_index(index, f"{INDEX_DIR}/faiss.index")

 import os
 import pickle
 import faiss
 from datasets import load_dataset
+from pypdf import PdfReader
 from sentence_transformers import SentenceTransformer
 DATASET_NAME = "OnlyTheTruth03/ott"
 INDEX_DIR = "src/index"
 def build_index():
+    print("📥 Loading HF dataset...")
     dataset = load_dataset(DATASET_NAME, split="train")
     documents = []
     for row in dataset:
+        # HF auto-parquet PDF object
         pdf_obj = row[dataset.column_names[0]]
+        # ✅ THIS is the key line
         pdf_path = pdf_obj.path
+        print(f"📄 Reading PDF from: {pdf_path}")
         reader = PdfReader(pdf_path)
+        for page_no, page in enumerate(reader.pages, start=1):
             text = page.extract_text()
             if not text:
                 continue
             documents.append({
                 "text": text.strip(),
+                "page": page_no
             })
     if not documents:
         raise RuntimeError("❌ No text extracted from PDF")
     texts = [d["text"] for d in documents]
+    embeddings = embedder.encode(texts).astype("float32")
+    index = faiss.IndexFlatL2(embeddings.shape[1])
     index.add(embeddings)
     faiss.write_index(index, f"{INDEX_DIR}/faiss.index")