Spaces:

manabb
/

CharBotWithPDF

Running

App Files Files Community

manabb commited on Dec 28, 2025

Commit

b954e3d

verified ·

1 Parent(s): 87a3c7e

Update app.py

Browse files

Files changed (1) hide show

app.py +50 -5

app.py CHANGED Viewed

@@ -49,6 +49,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 # Wrap in pipeline
 pipe1 = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_length=512)
 if llm1 is None:
     llm1 = HuggingFacePipeline(pipeline=pipe1)
@@ -75,6 +76,13 @@ if llm is None:
     llm = HuggingFacePipeline(pipeline=pipe)
 #=============================================
 def create_faiss_index(repo_id, file, embedding_model="sentence-transformers/all-MiniLM-L6-v2"):
     """Create FAISS index from PDF and upload to HF dataset repo"""
     message = "Index creation started"
@@ -284,7 +292,33 @@ def upload_and_prepare_old(file,user):
   #return mm
 #create_faiss_index(repo_id, file_input)
 #======================================================================
 def generate_qa_chain(repo_id, embedding_model="sentence-transformers/all-MiniLM-L6-v2", llm=None):
     """
     Generate QA chain from HF dataset repo FAISS index
@@ -370,6 +404,7 @@ def ask_question(query):
     response = qa_chain.invoke({"query": query})
     result = response["result"]
     sources = response.get("source_documents", [])
     source_info = ""
@@ -379,7 +414,7 @@ def ask_question(query):
         repo_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/docs/{filename}"
         source_info += f"\n**Source {i+1}:** [{filename} (Page {page_num})]({repo_url})"
-    return f"{result}\n\n**📄 Sources:**{source_info}"
 def ask_question1(query):
     if not query or not qa_chain1:
@@ -387,6 +422,7 @@ def ask_question1(query):
     response = qa_chain1.invoke({"query": query})
     result = response["result"]
     sources = response.get("source_documents", [])
     source_info = ""
@@ -396,7 +432,7 @@ def ask_question1(query):
         repo_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/docs/{filename}"
         source_info += f"\n**Source {i+1}:** [{filename} (Page {page_num})]({repo_url})"
-    return f"{result}\n\n**📄 Sources:**{source_info}"
 #===============================================
 #delete entire repo
 def delete_entire_repo(user):
@@ -445,7 +481,7 @@ with gr.Blocks(title="N R L C H A T B O T - for commercial procurement - Supply"
 """) as demo:
     gr.Markdown("## 🧠 For use of NRL procurement department Only")
     with gr.Row():
-        # LEFT COLUMN: Document Management
         with gr.Column(elem_id="blue-col",scale=1):
             gr.Markdown("## 🧠 Using heavy TinyLama Model")
             with gr.Row():
@@ -463,7 +499,7 @@ with gr.Blocks(title="N R L C H A T B O T - for commercial procurement - Supply"
                     lines=8
                 )
                 query_btn.click(ask_question, inputs=query_input, outputs=answer_output)
-        # RIGHT COLUMN: Document Management
         with gr.Column(elem_id="green-col",scale=2):
             gr.Markdown("## 🧠 Using ligth model - google flan-t5")
             Index_processing_output1=gr.Textbox(label="📁 Status for google flan-t5", interactive=False)
@@ -475,7 +511,16 @@ with gr.Blocks(title="N R L C H A T B O T - for commercial procurement - Supply"
                 label="✅ Answer with Document Links",
                 lines=8
             )
-            query_btn1.click(ask_question1, inputs=query_input1, outputs=answer_output1)
     with gr.Row():
          # LEFT COLUMN: Document Management

 model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
 # Wrap in pipeline
+#pipe1 = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_length=512)
 pipe1 = pipeline("text2text-generation", model=model, tokenizer=tokenizer, max_length=512)
 if llm1 is None:
     llm1 = HuggingFacePipeline(pipeline=pipe1)
     llm = HuggingFacePipeline(pipeline=pipe)
 #=============================================
+def format_as_bullets(text):
+    """Convert answer to bullet points"""
+    lines = text.strip().split('\n')
+    bullet_lines = [f"• {line.strip()}" for line in lines if line.strip()]
+    return '\n'.join(bullet_lines) if bullet_lines else text
+#=============================================
 def create_faiss_index(repo_id, file, embedding_model="sentence-transformers/all-MiniLM-L6-v2"):
     """Create FAISS index from PDF and upload to HF dataset repo"""
     message = "Index creation started"
   #return mm
 #create_faiss_index(repo_id, file_input)
 #======================================================================
+def get_document_summary(repo_id,query,llm=None):
+    """Generate summary of all documents in repo"""
+    try:
+        # Load vectorstore
+        embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
+        faiss_path = hf_hub_download(repo_id=repo_id, filename="index.faiss", repo_type="dataset")
+        vectorstore = FAISS.load_local(os.path.dirname(faiss_path), embeddings, allow_dangerous_deserialization=True)
+        # Get top documents
+        docs = vectorstore.similarity_search(query, k=20)
+        context = "\n".join([doc.page_content[:200] for doc in docs])
+        # Summarize with your LLM
+        summary_prompt = f"""
+        Summarize these context:
+        {context[:3000]}
+        Summary:
+        """
+        summary = llm(summary_prompt)  # Uses TinyLlama
+        return summary
+    except:
+        return "Summary unavailable"
+#======================================================================
 def generate_qa_chain(repo_id, embedding_model="sentence-transformers/all-MiniLM-L6-v2", llm=None):
     """
     Generate QA chain from HF dataset repo FAISS index
     response = qa_chain.invoke({"query": query})
     result = response["result"]
+    bullet_result = format_as_bullets(result)
     sources = response.get("source_documents", [])
     source_info = ""
         repo_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/docs/{filename}"
         source_info += f"\n**Source {i+1}:** [{filename} (Page {page_num})]({repo_url})"
+    return f"{result}\n\n In bullet form \n{bullet_result}\n\n**📄 Sources:**{source_info}"
 def ask_question1(query):
     if not query or not qa_chain1:
     response = qa_chain1.invoke({"query": query})
     result = response["result"]
+     bullet_result = format_as_bullets(result)
     sources = response.get("source_documents", [])
     source_info = ""
         repo_url = f"https://huggingface.co/datasets/{repo_id}/resolve/main/docs/{filename}"
         source_info += f"\n**Source {i+1}:** [{filename} (Page {page_num})]({repo_url})"
+    return f"{result}\n\n In bullet form \n{bullet_result}\n\n**📄 Sources:**{source_info}"
 #===============================================
 #delete entire repo
 def delete_entire_repo(user):
 """) as demo:
     gr.Markdown("## 🧠 For use of NRL procurement department Only")
     with gr.Row():
+        # LEFT COLUMN: TinyLama Model
         with gr.Column(elem_id="blue-col",scale=1):
             gr.Markdown("## 🧠 Using heavy TinyLama Model")
             with gr.Row():
                     lines=8
                 )
                 query_btn.click(ask_question, inputs=query_input, outputs=answer_output)
+        # RIGHT COLUMN: google\flan-t5
         with gr.Column(elem_id="green-col",scale=2):
             gr.Markdown("## 🧠 Using ligth model - google flan-t5")
             Index_processing_output1=gr.Textbox(label="📁 Status for google flan-t5", interactive=False)
                 label="✅ Answer with Document Links",
                 lines=8
             )
+            summary_output = gr.Markdown("**Summary will appear here**")
+            query_btn1.click(
+                ask_question1,
+                inputs=query_input1,
+                outputs=answer_output1
+            ).then(  # Auto-trigger after answer
+                get_document_summary,
+                inputs=[repo_id=repo_id,query=query_input1,llm=llm1],
+                outputs=summary_output
+            )
     with gr.Row():
          # LEFT COLUMN: Document Management