Spaces:

Nav772
/

rag-document-qa

Runtime error

App Files Files Community

Nav772 commited on 3 days ago

Commit

1103643

verified ·

1 Parent(s): ec5ce14

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +25 -61

app.py CHANGED Viewed

@@ -12,87 +12,51 @@ embedding_model = HuggingFaceEmbeddings(
 )
 client = InferenceClient(model="HuggingFaceH4/zephyr-7b-beta")
 vectorstore = None
 def process_pdf(pdf_file):
     global vectorstore
     if pdf_file is None:
         return "Please upload a PDF file."
     try:
         loader = PyPDFLoader(pdf_file.name)
         documents = loader.load()
-        text_splitter = RecursiveCharacterTextSplitter(
-            chunk_size=1000,
-            chunk_overlap=200,
-        )
         chunks = text_splitter.split_documents(documents)
-        vectorstore = FAISS.from_documents(
-            documents=chunks,
-            embedding=embedding_model
-        )
-        return f"Processed {len(documents)} pages into {len(chunks)} chunks. Ready!"
     except Exception as e:
-        return f"Error: {str(e)}"
 def answer_question(question):
     global vectorstore
     if vectorstore is None:
-        return "Please upload and process a PDF first.", ""
     if not question.strip():
-        return "Please enter a question.", ""
     try:
         docs = vectorstore.similarity_search(question, k=3)
         context = "\n\n".join([doc.page_content for doc in docs])
-        prompt = f"""<|system|>
-You are a helpful assistant. Answer based on the context only.
-</s>
-<|user|>
-Context:
-{context}
-Question: {question}
-</s>
-<|assistant|>"""
-        response = client.text_generation(
-            prompt,
-            max_new_tokens=512,
-            temperature=0.7,
-        )
-        sources = []
-        for i, doc in enumerate(docs, 1):
-            page = doc.metadata.get('page', 'N/A')
-            if isinstance(page, int):
-                page += 1
-            preview = doc.page_content[:150].replace('\n', ' ')
-            sources.append(f"{i}. Page {page}: {preview}...")
         return response, "\n".join(sources)
     except Exception as e:
         return f"Error: {str(e)}", ""
-demo = gr.Interface(
-    fn=answer_question,
-    inputs=gr.Textbox(label="Question"),
-    outputs=[
-        gr.Textbox(label="Answer"),
-        gr.Textbox(label="Sources")
-    ],
-    title="RAG Document Q&A",
-    description="Ask questions about uploaded documents."
-)
-demo.launch()

 )
 client = InferenceClient(model="HuggingFaceH4/zephyr-7b-beta")
 vectorstore = None
 def process_pdf(pdf_file):
     global vectorstore
     if pdf_file is None:
         return "Please upload a PDF file."
     try:
         loader = PyPDFLoader(pdf_file.name)
         documents = loader.load()
+        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
         chunks = text_splitter.split_documents(documents)
+        vectorstore = FAISS.from_documents(documents=chunks, embedding=embedding_model)
+        return f"✅ Processed {len(documents)} pages into {len(chunks)} chunks."
     except Exception as e:
+        return f"❌ Error: {str(e)}"
 def answer_question(question):
     global vectorstore
     if vectorstore is None:
+        return "Upload a PDF first.", ""
     if not question.strip():
+        return "Enter a question.", ""
     try:
         docs = vectorstore.similarity_search(question, k=3)
         context = "\n\n".join([doc.page_content for doc in docs])
+        prompt = f"<|system|>\nAnswer based on context only.\n</s>\n<|user|>\nContext:\n{context}\n\nQuestion: {question}\n</s>\n<|assistant|>\n"
+        response = client.text_generation(prompt, max_new_tokens=512, temperature=0.7)
+        sources = [f"{i}. Page {doc.metadata.get('page', 'N/A')}" for i, doc in enumerate(docs, 1)]
         return response, "\n".join(sources)
     except Exception as e:
         return f"Error: {str(e)}", ""
+with gr.Blocks() as demo:
+    gr.Markdown("# 📚 RAG Document Q&A")
+    with gr.Row():
+        with gr.Column():
+            pdf = gr.File(label="Upload PDF", file_types=[".pdf"])
+            btn1 = gr.Button("Process PDF")
+            status = gr.Textbox(label="Status")
+        with gr.Column():
+            question = gr.Textbox(label="Question")
+            btn2 = gr.Button("Ask")
+            answer = gr.Textbox(label="Answer", lines=5)
+            sources = gr.Textbox(label="Sources")
+    btn1.click(process_pdf, pdf, status)
+    btn2.click(answer_question, question, [answer, sources])
+demo.launch(server_name="0.0.0.0", server_port=7860)