Spaces:

Michtiii
/

RAG_Test

Sleeping

App Files Files Community

Michtiii commited on 17 days ago

Commit

d277fdd

verified ·

1 Parent(s): 9581cf4

Update app.py

Browse files

Files changed (1) hide show

app.py +44 -47

app.py CHANGED Viewed

@@ -1,68 +1,65 @@
-# app.py
 import os
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
-from langchain.llms import HuggingFaceHub
 import gradio as gr
-# --------- Configuration ---------
-DOCS_FOLDER = "Docs"  # Folder containing PDF files
-HF_API_KEY = os.getenv("HF_TOKEN")  # HuggingFace API token
-# --------- Load and process PDFs ---------
-def load_pdfs(folder):
-    texts = []
-    for file in os.listdir(folder):
-        if file.endswith(".pdf"):
-            pdf_path = os.path.join(folder, file)
-            reader = PdfReader(pdf_path)
-            for page in reader.pages:
-                texts.append(page.extract_text())
-    return texts
-raw_texts = load_pdfs(DOCS_FOLDER)
-# Split into smaller chunks for embeddings
 text_splitter = RecursiveCharacterTextSplitter(
     chunk_size=1000,
-    chunk_overlap=50
 )
-docs = text_splitter.split_text(" ".join(raw_texts))
-# --------- Create embeddings and vectorstore ---------
-embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-vectorstore = FAISS.from_texts(docs, embedding=embeddings)
-# --------- Setup LLM & Retrieval QA chain ---------
-llm = HuggingFaceHub(
-    repo_id="google/flan-t5-large",
-    model_kwargs={"temperature": 0, "max_length": 512},
-    huggingfacehub_api_token=HF_API_KEY
-)
-qa_chain = RetrievalQA.from_chain_type(
-    llm=llm,
-    chain_type="stuff",
-    retriever=vectorstore.as_retriever()
 )
-# --------- Gradio interface ---------
-def answer_query(query):
-    return qa_chain.run(query)
 with gr.Blocks() as demo:
-    gr.Markdown("## PDF Document RAG QA System")
-    chatbot = gr.Chatbot()
-    msg = gr.Textbox(label="Enter your question:")
-    submit = gr.Button("Ask")
-    def chat_fn(user_input, chat_history):
-        answer = answer_query(user_input)
-        chat_history.append((user_input, answer))
-        return chat_history, ""
-    submit.click(chat_fn, inputs=[msg, chatbot], outputs=[chatbot, msg])
 demo.launch(server_name="0.0.0.0", server_port=7860)

 import os
 from PyPDF2 import PdfReader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain.vectorstores import FAISS
+from langchain.embeddings import SentenceTransformerEmbeddings
 from langchain.chains import RetrievalQA
+from langchain.chat_models import ChatOpenAI  # or HuggingFaceChatModel
 import gradio as gr
+# -----------------------------
+# 1. Load PDF files
+# -----------------------------
+docs_path = "Docs"
+all_texts = []
+for file in os.listdir(docs_path):
+    if file.endswith(".pdf"):
+        pdf = PdfReader(os.path.join(docs_path, file))
+        text = ""
+        for page in pdf.pages:
+            text += page.extract_text() or ""
+        all_texts.append(text)
+full_text = "\n".join(all_texts)
+# -----------------------------
+# 2. Split text into chunks
+# -----------------------------
 text_splitter = RecursiveCharacterTextSplitter(
     chunk_size=1000,
+    chunk_overlap=200
 )
+texts = text_splitter.split_text(full_text)
+# -----------------------------
+# 3. Create embeddings and vector store
+# -----------------------------
+embedding_model = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
+vectorstore = FAISS.from_texts(texts, embedding_model)
+# -----------------------------
+# 4. Create retrieval QA chain
+# -----------------------------
+llm = ChatOpenAI(temperature=0)  # or use HuggingFace model if you prefer
+qa = RetrievalQA.from_chain_type(
+    llm=llm,
+    retriever=vectorstore.as_retriever(),
+    chain_type="stuff"  # simple summarization chain
 )
+# -----------------------------
+# 5. Gradio interface
+# -----------------------------
+def answer_question(query):
+    return qa.run(query)
 with gr.Blocks() as demo:
+    gr.Markdown("# PDF RAG + Summarization Chatbot")
+    with gr.Row():
+        query_input = gr.Textbox(label="Ask a question about your PDFs")
+        output_box = gr.Textbox(label="Answer")
+    query_input.submit(answer_question, inputs=query_input, outputs=output_box)
+    gr.Button("Submit").click(answer_question, inputs=query_input, outputs=output_box)
 demo.launch(server_name="0.0.0.0", server_port=7860)