Spaces:

luciagomez
/

Mr.Phil

Paused

App Files Files Community

luciagomez commited on Aug 13, 2025

Commit

110cabc

verified ·

1 Parent(s): 98c4bb5

delete rag.py

Browse files

Files changed (1) hide show

rag.py +0 -47

rag.py DELETED Viewed

@@ -1,47 +0,0 @@
-from pathlib import Path
-from typing import List, Dict, Any, Optional
-from langchain_community.document_loaders import PyPDFLoader
-from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain_community.vectorstores import FAISS
-from langchain_community.embeddings import HuggingFaceEmbeddings
-INDEX_DIR = Path("data/vectorstore/faiss_index")
-INDEX_DIR.mkdir(parents=True, exist_ok=True)
-# Small + strong enough CPU embedding
-EMB_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
-def load_embeddings():
-    return HuggingFaceEmbeddings(model_name=EMB_MODEL)
-def split_pdf(file_path: str):
-    loader = PyPDFLoader(file_path)
-    pages = loader.load()
-    splitter = RecursiveCharacterTextSplitter(chunk_size=1024, chunk_overlap=64)
-    return splitter.split_documents(pages)
-def _faiss_paths():
-    return str(INDEX_DIR / "index.faiss"), str(INDEX_DIR / "index.pkl")
-def load_or_create_faiss(emb):
-    faiss_path, pkl_path = _faiss_paths()
-    if Path(faiss_path).exists() and Path(pkl_path).exists():
-        return FAISS.load_local(INDEX_DIR, emb, allow_dangerous_deserialization=True)
-    # empty new index
-    return FAISS.from_texts([""], emb).delete(["0"]) or FAISS(embeddings=emb, index=None, docstore=None, index_to_docstore_id=None)
-def add_pdf_to_index(file_path: str, metadata: Optional[Dict[str, Any]] = None):
-    emb = load_embeddings()
-    vectordb = load_or_create_faiss(emb)
-    splits = split_pdf(file_path)
-    # attach metadata to each chunk
-    md = metadata or {}
-    for d in splits:
-        d.metadata.update(md)
-    vectordb.add_documents(splits)
-    vectordb.save_local(INDEX_DIR)
-def get_retriever(k: int = 4):
-    emb = load_embeddings()
-    vectordb = load_or_create_faiss(emb)
-    return vectordb.as_retriever(search_kwargs={"k": k})