Spaces:

MiakOnline
/

learning_with_fun_app.py5

Sleeping

App Files Files Community

MiakOnline commited on May 18, 2025

Commit

f82cc7b

verified ·

1 Parent(s): 260a142

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -17

app.py CHANGED Viewed

@@ -3,53 +3,80 @@ from pypdf import PdfReader
 from docx import Document
 import tempfile
 from gtts import gTTS
 from PIL import Image
-from langchain_community.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.prompts import PromptTemplate
 from langchain.llms import HuggingFacePipeline
 from transformers import pipeline
 # Setup HuggingFace pipeline with distilgpt2 (CPU)
-text_gen_pipeline = pipeline("text-generation", model="distilgpt2", device=-1)
 llm = HuggingFacePipeline(pipeline=text_gen_pipeline)
 st.set_page_config(page_title="Learning with Fun", layout="wide")
 st.title("📘 Learning with Fun - Kids QA App")
 st.markdown("Ask questions from your syllabus! 📚")
 grade = st.sidebar.selectbox("Select Grade", ["Grade 5", "Grade 6"])
 subject = st.sidebar.selectbox("Select Subject", ["Science", "Math", "Computer", "Islamiyat"])
 mode = st.sidebar.radio("Answer Format", ["🧠 Beginner Explanation", "📖 Storytelling"])
 voice_enabled = st.sidebar.checkbox("🔈 Enable Voice", value=True)
 uploaded_file = st.file_uploader(
     "Upload your syllabus file (PDF, DOCX, JPEG, PNG, JPG)",
     type=["pdf", "docx", "jpeg", "png", "jpg"]
 )
 def extract_text_from_uploaded(file) -> str:
     text = ""
     if file is None:
         return text
     if file.type == "application/pdf":
-        reader = PdfReader(file)
-        for page in reader.pages:
-            page_text = page.extract_text()
-            if page_text:
-                text += page_text
     elif file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
-        doc = Document(file)
-        for para in doc.paragraphs:
-            text += para.text + "\n"
     elif file.type in ["image/jpeg", "image/png"]:
         st.warning("Image files currently are not supported for text extraction.")
     else:
         st.error("Unsupported file format.")
     return text
 story_prompt = PromptTemplate.from_template(
     "ایک طالب علم نے سوال کیا: {question}\n"
     "نصاب کی معلومات: {context}\n"
@@ -62,19 +89,14 @@ explain_prompt = PromptTemplate.from_template(
     "براہ کرم بچے کو اردو زبان میں آسان انداز میں سمجھائیں۔"
 )
 def generate_voice(text: str, lang='ur') -> str:
     tts = gTTS(text=text, lang=lang)
     tts_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
     tts.save(tts_file.name)
     return tts_file.name
-def create_vectorstore(text: str) -> FAISS:
-    splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
-    docs = splitter.create_documents([text])
-    embeddings = HuggingFaceEmbeddings()
-    vectorstore = FAISS.from_documents(docs, embeddings)
-    return vectorstore
 def get_answer(query: str, vectorstore: FAISS, mode: str) -> str:
     retriever = vectorstore.as_retriever()
     docs = retriever.get_relevant_documents(query)
@@ -88,6 +110,7 @@ def get_answer(query: str, vectorstore: FAISS, mode: str) -> str:
     answer = llm.invoke(prompt)
     return answer
 if uploaded_file:
     raw_text = extract_text_from_uploaded(uploaded_file)
     if not raw_text.strip():

 from docx import Document
 import tempfile
 from gtts import gTTS
 from PIL import Image
+from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import CharacterTextSplitter
 from langchain.prompts import PromptTemplate
 from langchain.llms import HuggingFacePipeline
 from transformers import pipeline
 # Setup HuggingFace pipeline with distilgpt2 (CPU)
+text_gen_pipeline = pipeline(
+    "text-generation",
+    model="distilgpt2",
+    device=-1  # CPU only
+)
 llm = HuggingFacePipeline(pipeline=text_gen_pipeline)
+# Streamlit app config
 st.set_page_config(page_title="Learning with Fun", layout="wide")
 st.title("📘 Learning with Fun - Kids QA App")
 st.markdown("Ask questions from your syllabus! 📚")
+# Sidebar widgets
 grade = st.sidebar.selectbox("Select Grade", ["Grade 5", "Grade 6"])
 subject = st.sidebar.selectbox("Select Subject", ["Science", "Math", "Computer", "Islamiyat"])
 mode = st.sidebar.radio("Answer Format", ["🧠 Beginner Explanation", "📖 Storytelling"])
 voice_enabled = st.sidebar.checkbox("🔈 Enable Voice", value=True)
+# File uploader for syllabus
 uploaded_file = st.file_uploader(
     "Upload your syllabus file (PDF, DOCX, JPEG, PNG, JPG)",
     type=["pdf", "docx", "jpeg", "png", "jpg"]
 )
+# Extract text content from uploaded file directly
 def extract_text_from_uploaded(file) -> str:
     text = ""
     if file is None:
         return text
     if file.type == "application/pdf":
+        try:
+            reader = PdfReader(file)
+            for page in reader.pages:
+                page_text = page.extract_text()
+                if page_text:
+                    text += page_text
+        except Exception as e:
+            st.error(f"Error reading PDF file: {e}")
     elif file.type == "application/vnd.openxmlformats-officedocument.wordprocessingml.document":
+        try:
+            doc = Document(file)
+            for para in doc.paragraphs:
+                text += para.text + "\n"
+        except Exception as e:
+            st.error(f"Error reading DOCX file: {e}")
     elif file.type in ["image/jpeg", "image/png"]:
         st.warning("Image files currently are not supported for text extraction.")
     else:
         st.error("Unsupported file format.")
     return text
+# Create vector store for similarity search
+def create_vectorstore(text: str) -> FAISS:
+    splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    docs = splitter.create_documents([text])
+    embeddings = HuggingFaceEmbeddings()
+    vectorstore = FAISS.from_documents(docs, embeddings)
+    return vectorstore
+# Prompt templates
 story_prompt = PromptTemplate.from_template(
     "ایک طالب علم نے سوال کیا: {question}\n"
     "نصاب کی معلومات: {context}\n"
     "براہ کرم بچے کو اردو زبان میں آسان انداز میں سمجھائیں۔"
 )
+# Generate speech audio from text
 def generate_voice(text: str, lang='ur') -> str:
     tts = gTTS(text=text, lang=lang)
     tts_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
     tts.save(tts_file.name)
     return tts_file.name
+# Generate answer using vectorstore context and LLM
 def get_answer(query: str, vectorstore: FAISS, mode: str) -> str:
     retriever = vectorstore.as_retriever()
     docs = retriever.get_relevant_documents(query)
     answer = llm.invoke(prompt)
     return answer
+# Main app flow
 if uploaded_file:
     raw_text = extract_text_from_uploaded(uploaded_file)
     if not raw_text.strip():