Spaces:

IW2025
/

InclusiveWorldChatbot

Sleeping

App Files Files Community

IW2025 commited on Jul 19, 2025

Commit

be4a77c

verified ·

1 Parent(s): a9f34af

Upload 7 files

Browse files

Files changed (3) hide show

app.py +91 -14
app_config.toml +12 -8
requirements.txt +10 -9

app.py CHANGED Viewed

@@ -5,6 +5,11 @@ import fitz  # PyMuPDF
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 import base64
 from PIL import Image
 import io
@@ -20,8 +25,11 @@ class FastPDFSearch:
         self.chunk_metadata = []
         self.vector_db = None
         self.embeddings = None
         self._process_pdfs(slides_dir)
         self._build_vector_db()
     def _process_pdfs(self, slides_dir):
         slides_path = Path(slides_dir)
@@ -53,6 +61,50 @@ class FastPDFSearch:
             metadatas=self.chunk_metadata,
             persist_directory="./chroma_db"
         )
     def get_pdf_page_image(self, pdf_path, page_num):
         try:
@@ -74,19 +126,44 @@ class FastPDFSearch:
             return None
     def search(self, query):
-        # Find the most relevant chunk (page)
-        results = self.vector_db.similarity_search(query, k=1)
         if not results:
-            return "No relevant page found.", None, None
-        result = results[0]
-        filename = result.metadata["filename"]
-        page_number = result.metadata["page_number"]
-        text = result.page_content
         img = self.get_pdf_page_image(self.pdf_files[filename], page_number)
         if img:
-            return text, img, f"{filename} - Page {page_number}"
         else:
-            return text, None, f"{filename} - Page {page_number}"
 # --- Gradio UI ---
 searcher = FastPDFSearch()
@@ -98,15 +175,15 @@ def gradio_search(query):
     else:
         return text, []
-with gr.Blocks(title="Fast PDF Curriculum Search", theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 📄 Fast PDF Curriculum Search\nAsk a question and see the most relevant slide page!")
     with gr.Row():
         with gr.Column():
             question = gr.Textbox(label="Ask a question", placeholder="e.g., What are for loops?", lines=2)
-            submit = gr.Button("🔍 Search")
-            answer = gr.Markdown(label="Relevant Page Text")
         with gr.Column():
-            gallery = gr.Gallery(label="Relevant PDF Page", columns=1, rows=1, height="auto", object_fit="contain")
     submit.click(fn=gradio_search, inputs=question, outputs=[answer, gallery])
     question.submit(fn=gradio_search, inputs=question, outputs=[answer, gallery])

 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import Chroma
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain_community.llms import HuggingFacePipeline
+from langchain.prompts import PromptTemplate
+from langchain.chains import LLMChain
+from transformers import pipeline
+import torch
 import base64
 from PIL import Image
 import io
         self.chunk_metadata = []
         self.vector_db = None
         self.embeddings = None
+        self.llm = None
+        self.qa_chain = None
         self._process_pdfs(slides_dir)
         self._build_vector_db()
+        self._setup_llm()
     def _process_pdfs(self, slides_dir):
         slides_path = Path(slides_dir)
             metadatas=self.chunk_metadata,
             persist_directory="./chroma_db"
         )
+    def _setup_llm(self):
+        try:
+            # Use Llama 3.1-8B for better question answering
+            model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
+            pipe = pipeline(
+                "text-generation",
+                model=model_name,
+                max_new_tokens=200,
+                temperature=0.3,
+                do_sample=True,
+                top_p=0.9,
+                repetition_penalty=1.1,
+                device_map="auto" if torch.cuda.is_available() else None
+            )
+            self.llm = HuggingFacePipeline(pipeline=pipe)
+            # Create a better QA prompt template for Llama
+            qa_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
+You are a helpful AI assistant that answers questions about programming concepts based on curriculum content. Provide clear, accurate, and educational answers.
+<|eot_id|><|start_header_id|>user<|end_header_id|>
+Based on the following curriculum content, please answer this question:
+Context: {context}
+Question: {question}
+<|eot_id|><|start_header_id|>assistant<|end_header_id|>"""
+            prompt = PromptTemplate(
+                input_variables=["context", "question"],
+                template=qa_template
+            )
+            self.qa_chain = LLMChain(llm=self.llm, prompt=prompt)
+            print("✅ Llama 3.1-8B loaded successfully!")
+        except Exception as e:
+            print(f"Warning: Could not load Llama 3.1-8B: {e}")
+            print("Falling back to basic search mode...")
+            self.llm = None
+            self.qa_chain = None
     def get_pdf_page_image(self, pdf_path, page_num):
         try:
             return None
     def search(self, query):
+        # Find multiple relevant chunks for better context
+        results = self.vector_db.similarity_search(query, k=3)
         if not results:
+            return "No relevant content found in the curriculum.", None, None
+        # Get the most relevant page for display
+        best_result = results[0]
+        filename = best_result.metadata["filename"]
+        page_number = best_result.metadata["page_number"]
+        # Combine context from multiple pages
+        context = "\n\n".join([result.page_content for result in results])
+        # Generate answer if LLM is available
+        if self.qa_chain:
+            try:
+                answer = self.qa_chain.run(context=context, question=query)
+                # Clean up the answer (remove any extra formatting)
+                answer = answer.strip()
+                # Remove any remaining prompt artifacts
+                if "<|eot_id|>" in answer:
+                    answer = answer.split("<|eot_id|>")[-1].strip()
+                if answer.startswith("Answer:"):
+                    answer = answer[7:].strip()
+            except Exception as e:
+                print(f"Error generating answer: {e}")
+                answer = f"Based on the curriculum content:\n\n{best_result.page_content}"
+        else:
+            # Fallback to showing the most relevant page content
+            answer = f"Most relevant content from the curriculum:\n\n{best_result.page_content}"
+        # Get the image of the most relevant page
         img = self.get_pdf_page_image(self.pdf_files[filename], page_number)
         if img:
+            return answer, img, f"{filename} - Page {page_number}"
         else:
+            return answer, None, f"{filename} - Page {page_number}"
 # --- Gradio UI ---
 searcher = FastPDFSearch()
     else:
         return text, []
+with gr.Blocks(title="AI Curriculum Assistant", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🤖 AI Curriculum Assistant\nAsk questions about programming concepts and get AI-generated answers based on the curriculum!")
     with gr.Row():
         with gr.Column():
             question = gr.Textbox(label="Ask a question", placeholder="e.g., What are for loops?", lines=2)
+            submit = gr.Button("🤖 Ask AI")
+            answer = gr.Markdown(label="AI Answer")
         with gr.Column():
+            gallery = gr.Gallery(label="Relevant Slide Page", columns=1, rows=1, height="auto", object_fit="contain")
     submit.click(fn=gradio_search, inputs=question, outputs=[answer, gallery])
     question.submit(fn=gradio_search, inputs=question, outputs=[answer, gallery])

app_config.toml CHANGED Viewed

@@ -11,7 +11,7 @@ HF_HOME = "/tmp/hf_home"
 [models]
 # Preload models for faster startup
-"microsoft/DialoGPT-medium" = "dialo-medium"
 "sentence-transformers/all-MiniLM-L6-v2" = "all-minilm-l6-v2"
 [datasets]
@@ -19,13 +19,17 @@ HF_HOME = "/tmp/hf_home"
 [hardware]
 # Hardware requirements for Gradio
-cpu = "2"
-memory = "8GB"
-disk = "10GB"
 [gradio]
 # Gradio specific settings
-title = "Inclusive World Curriculum Assistant"
-description = "AI-powered assistant that answers questions about curriculum and shows relevant slide pages"
-theme = "soft"
-share = false

 [models]
 # Preload models for faster startup
+"meta-llama/Meta-Llama-3.1-8B-Instruct" = "llama-3.1-8b"
 "sentence-transformers/all-MiniLM-L6-v2" = "all-minilm-l6-v2"
 [datasets]
 [hardware]
 # Hardware requirements for Gradio
+cpu = "4"
+memory = "16GB"
+disk = "20GB"
 [gradio]
 # Gradio specific settings
+title = "AI Curriculum Assistant"
+emoji = "🤖"
+colorFrom = "blue"
+colorTo = "purple"
+sdk = "gradio"
+sdk_version = "4.0.0"
+app_file = "app.py"
+pinned = false

requirements.txt CHANGED Viewed

@@ -1,9 +1,10 @@
-gradio
-langchain
-langchain-community
-chromadb
-sentence-transformers
-transformers
-torch
-PyMuPDF
-accelerate

+gradio>=4.0.0
+PyMuPDF>=1.23.0
+langchain>=0.1.0
+langchain-community>=0.0.20
+sentence-transformers>=2.2.0
+chromadb>=0.4.0
+transformers>=4.35.0
+torch>=2.0.0
+Pillow>=10.0.0
+accelerate>=0.20.0