Spaces:

IW2025
/

InclusiveWorldChatbot

Sleeping

App Files Files Community

IW2025 commited on Jul 27, 2025

Commit

ed9eeda

verified ·

1 Parent(s): 0ca62f4

Upload app.py

Browse files

Files changed (1) hide show

app.py +60 -63

app.py CHANGED Viewed

@@ -83,9 +83,13 @@ class CurriculumChatbot:
             # Create QA prompt template
             qa_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
-You are a helpful AI programming tutor. Answer questions about programming concepts clearly and educationally. If the question is about curriculum content, use the provided context. If not, provide a general programming answer.
-Make sure to check the curriculum content and answer the question based on the curriculum content if possible. The RAG is not perfect, so if the question is not related to that slide, change it to be related to question.
 <|eot_id|><|start_header_id|>user<|end_header_id|>
@@ -177,7 +181,7 @@ Which slide is most relevant? Return only: "filename.pdf - Page X"
             # Calculate relevance score based on similarity
             curriculum_relevance_score = len([r for r in results if r.page_content.strip()])
-        # Generate LLM answer
         if self.qa_chain:
             try:
                 if curriculum_relevance_score > 0:
@@ -201,81 +205,74 @@ Which slide is most relevant? Return only: "filename.pdf - Page X"
             except Exception as e:
                 print(f"Error generating answer: {e}")
                 if curriculum_relevance_score > 0:
-                    answer = f"Based on the curriculum content:\n\n{results[0].page_content}"
                 else:
-                    answer = "I'm sorry, I couldn't generate an answer at the moment."
         else:
-            # Fallback without LLM
             if curriculum_relevance_score > 0:
-                answer = f"Most relevant content from the curriculum:\n\n{results[0].page_content}"
             else:
-                answer = "No relevant content found in the curriculum."
-        # Get recommended slide
-        recommended_slide = None
-        if curriculum_relevance_score > 0 and self.slide_selection_chain:
-            try:
-                available_slides = self.get_available_slides_text()
-                slide_response = self.slide_selection_chain.run(
-                    question=query,
-                    available_slides=available_slides
-                )
-                # Extract filename and page from response
-                slide_response = slide_response.strip()
-                if "<|eot_id|>" in slide_response:
-                    slide_response = slide_response.split("<|eot_id|>")[-1].strip()
-                # Parse the response to get filename and page
-                match = re.search(r'(.+\.pdf)\s*-\s*Page\s*(\d+)', slide_response)
-                if match:
-                    filename = match.group(1)
-                    page_num = int(match.group(2))
-                    if filename in self.pdf_files:
-                        recommended_slide = self.get_pdf_page_image(self.pdf_files[filename], page_num)
-                        recommended_label = f"{filename} - Page {page_num}"
-                    else:
-                        # Fallback to most relevant result
-                        recommended_slide = self.get_pdf_page_image(
-                            self.pdf_files[results[0].metadata["filename"]],
-                            results[0].metadata["page_number"]
-                        )
-                        recommended_label = f"{results[0].metadata['filename']} - Page {results[0].metadata['page_number']}"
-                else:
-                    # Fallback to most relevant result
-                    recommended_slide = self.get_pdf_page_image(
-                        self.pdf_files[results[0].metadata["filename"]],
-                        results[0].metadata["page_number"]
-                    )
-                    recommended_label = f"{results[0].metadata['filename']} - Page {results[0].metadata['page_number']}"
-            except Exception as e:
-                print(f"Error selecting slide: {e}")
-                # Fallback to most relevant result
-                if results:
-                    recommended_slide = self.get_pdf_page_image(
-                        self.pdf_files[results[0].metadata["filename"]],
-                        results[0].metadata["page_number"]
-                    )
-                    recommended_label = f"{results[0].metadata['filename']} - Page {results[0].metadata['page_number']}"
-        # Get all slides for navigation
-        all_slides = self.get_all_slides()
-        return answer, recommended_slide, recommended_label if 'recommended_label' in locals() else None, all_slides
 # --- Gradio UI ---
 chatbot = CurriculumChatbot()
 def gradio_chat(query):
-    answer, recommended_slide, recommended_label, all_slides = chatbot.chat(query)
-    # Create gallery with recommended slide first, then all slides
-    if recommended_slide and recommended_label:
-        gallery_items = [(recommended_slide, f"📌 {recommended_label} (Recommended)")]
-        gallery_items.extend(all_slides)
-    else:
-        gallery_items = all_slides
     return answer, gallery_items

             # Create QA prompt template
             qa_template = """<|begin_of_text|><|start_header_id|>system<|end_header_id|>
+You are a helpful AI programming tutor. You MUST ALWAYS provide a clear, educational answer to every question. Never say you cannot answer or that you don't know.
+If the question is about curriculum content, use the provided context to give a detailed, educational explanation. If the curriculum content doesn't perfectly match the question, adapt your answer to be relevant while using the curriculum information.
+If the question is not covered in the curriculum, provide a comprehensive general programming answer based on your knowledge.
+Always be educational, clear, and helpful.
 <|eot_id|><|start_header_id|>user<|end_header_id|>
             # Calculate relevance score based on similarity
             curriculum_relevance_score = len([r for r in results if r.page_content.strip()])
+        # ALWAYS generate LLM answer (never fallback to raw text)
         if self.qa_chain:
             try:
                 if curriculum_relevance_score > 0:
             except Exception as e:
                 print(f"Error generating answer: {e}")
+                # Even if LLM fails, try to provide a helpful response
                 if curriculum_relevance_score > 0:
+                    answer = f"Based on the curriculum content, here's what I found:\n\n{results[0].page_content}\n\n*Note: I'm having trouble generating a custom answer right now, but here's the relevant curriculum content.*"
                 else:
+                    answer = "I'm sorry, I couldn't generate an answer at the moment. Please try rephrasing your question."
         else:
+            # If no LLM available, still provide helpful response
             if curriculum_relevance_score > 0:
+                answer = f"Based on the curriculum content:\n\n{results[0].page_content}\n\n*Note: AI generation is not available, but here's the relevant curriculum content.*"
             else:
+                answer = "I couldn't find relevant content in the curriculum for this question. Please try rephrasing or ask about a different programming topic."
+        # Get the most relevant slide and its neighboring pages
+        relevant_slides = []
+        if curriculum_relevance_score > 0:
+            # Get the most relevant result
+            best_result = results[0]
+            filename = best_result.metadata["filename"]
+            page_number = best_result.metadata["page_number"]
+            # Get the specific PDF and its pages
+            if filename in self.pdf_files:
+                pdf_path = self.pdf_files[filename]
+                doc = fitz.open(pdf_path)
+                total_pages = len(doc)
+                doc.close()
+                # Get the target page and neighboring pages (2 before, 2 after)
+                start_page = max(1, page_number - 2)
+                end_page = min(total_pages, page_number + 2)
+                for page_num in range(start_page, end_page + 1):
+                    img = self.get_pdf_page_image(pdf_path, page_num)
+                    if img:
+                        if page_num == page_number:
+                            # Highlight the most relevant page
+                            label = f"📌 {filename} - Page {page_num} (Most Relevant)"
+                        else:
+                            label = f"{filename} - Page {page_num}"
+                        relevant_slides.append((img, label))
+                recommended_slide = relevant_slides[0][0] if relevant_slides else None
+                recommended_label = relevant_slides[0][1] if relevant_slides else None
+            else:
+                # Fallback if filename not found
+                recommended_slide = None
+                recommended_label = None
+        else:
+            # If no curriculum content, show a few slides from different PDFs
+            relevant_slides = []
+            for filename, pages in list(self.pdf_pages.items())[:3]:  # Show first 3 PDFs
+                for page_num in list(pages.keys())[:2]:  # Show first 2 pages of each
+                    img = self.get_pdf_page_image(self.pdf_files[filename], page_num)
+                    if img:
+                        relevant_slides.append((img, f"{filename} - Page {page_num}"))
+            recommended_slide = relevant_slides[0][0] if relevant_slides else None
+            recommended_label = relevant_slides[0][1] if relevant_slides else None
+        return answer, recommended_slide, recommended_label, relevant_slides
 # --- Gradio UI ---
 chatbot = CurriculumChatbot()
 def gradio_chat(query):
+    answer, recommended_slide, recommended_label, relevant_slides = chatbot.chat(query)
+    # Use the relevant slides (specific PDF with neighboring pages)
+    gallery_items = relevant_slides if relevant_slides else []
     return answer, gallery_items