Spaces:

danicafisher
/

PrototypingApp

Sleeping

App Files Files Community

danicafisher commited on Oct 2, 2024

Commit

8a474d4

verified ·

1 Parent(s): e3026b3

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -0

app.py CHANGED Viewed

@@ -2,11 +2,53 @@
 """
 IMPORTS HERE
 """
 ### Global Section ###
 """
 GLOBAL CODE HERE
 """
 ### On Chat Start (Session Start) Section ###
 @cl.on_chat_start

 """
 IMPORTS HERE
 """
+from langchain_text_splitters import RecursiveCharacterTextSplitter
+from langchain_community.document_loaders import PyMuPDFLoader
+from qdrant_client import QdrantClient
+from qdrant_client.http.models import Distance, VectorParams
+from langchain_openai.embeddings import OpenAIEmbeddings
+from langchain.storage import LocalFileStore
+from langchain_qdrant import QdrantVectorStore
+from langchain.embeddings import CacheBackedEmbeddings
 ### Global Section ###
 """
 GLOBAL CODE HERE
 """
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+Loader = PyMuPDFLoader
+loader = Loader(file_path)
+documents = loader.load()
+docs = text_splitter.split_documents(documents)
+for i, doc in enumerate(docs):
+    doc.metadata["source"] = f"source_{i}"
+# Typical Embedding Model
+core_embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
+# Typical QDrant Client Set-up
+collection_name = f"pdf_to_parse_{uuid.uuid4()}"
+client = QdrantClient(":memory:")
+client.create_collection(
+    collection_name=collection_name,
+    vectors_config=VectorParams(size=1536, distance=Distance.COSINE),
+)
+# Adding cache!
+store = LocalFileStore("./cache/")
+cached_embedder = CacheBackedEmbeddings.from_bytes_store(
+    core_embeddings, store, namespace=core_embeddings.model
+)
+# Typical QDrant Vector Store Set-up
+vectorstore = QdrantVectorStore(
+    client=client,
+    collection_name=collection_name,
+    embedding=cached_embedder)
+vectorstore.add_documents(docs)
+retriever = vectorstore.as_retriever(search_type="mmr", search_kwargs={"k": 3})
 ### On Chat Start (Session Start) Section ###
 @cl.on_chat_start