learning_with_fun_app.py

Sleeping

App Files Files Community

MiakOnline commited on May 18, 2025

Commit

9b60ea9

verified ·

1 Parent(s): b0dbdf5

Update app.py

Browse files

Files changed (1) hide show

app.py +120 -86

app.py CHANGED Viewed

@@ -1,101 +1,135 @@
 import streamlit as st
-from langchain_community.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
-from langchain_community.document_loaders import PyMuPDFLoader, Docx2txtLoader, UnstructuredFileLoader
 from langchain.text_splitter import CharacterTextSplitter
-from langchain_community.llms import ChatGroq
 from langchain.chains import RetrievalQA
-from gtts import gTTS
-from langdetect import detect
-import os
-import shutil
-import pickle
-import tempfile
-# Title
-st.set_page_config(page_title="Learning with Fun 👦📚", layout="centered")
-st.title("🎓 Learning with Fun – Grade 5 & 6 📘")
-st.markdown("Ask your questions in Urdu or English. Get simple and storytelling-style answers!")
-# Temp directory for file upload
-temp_dir = tempfile.mkdtemp()
-# File upload
-uploaded_file = st.file_uploader("📄 Upload a textbook file (PDF, DOCX, or TXT)", type=["pdf", "docx", "txt"])
-# Load documents
-def load_document(file_path):
-    if file_path.endswith(".pdf"):
-        loader = PyMuPDFLoader(file_path)
-    elif file_path.endswith(".docx"):
-        loader = Docx2txtLoader(file_path)
     else:
-        loader = UnstructuredFileLoader(file_path)
-    return loader.load()
-# Vector DB functions
-def create_vectorstore(docs):
-    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
-    texts = text_splitter.split_documents(docs)
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    db = FAISS.from_documents(texts, embeddings)
-    return db
-# Load or create vectorstore
-def get_vectorstore(file):
-    file_path = os.path.join(temp_dir, file.name)
-    with open(file_path, "wb") as f:
-        f.write(file.getbuffer())
-    pickle_path = os.path.join(temp_dir, f"{file.name}.pkl")
-    if os.path.exists(pickle_path):
-        with open(pickle_path, "rb") as f:
-            db = pickle.load(f)
     else:
-        docs = load_document(file_path)
-        db = create_vectorstore(docs)
-        with open(pickle_path, "wb") as f:
-            pickle.dump(db, f)
-    return db
-# Generate text to speech
-def generate_tts(text, lang):
     tts = gTTS(text, lang=lang)
-    output_path = os.path.join(temp_dir, "output.mp3")
-    tts.save(output_path)
-    return output_path
-# Run QA chain
-def run_chain(db, query, response_type):
-    llm = ChatGroq(temperature=0.3, model_name="llama3-8b-8192")
-    qa_chain = RetrievalQA.from_chain_type(llm=llm, retriever=db.as_retriever())
-    if response_type == "Explain Simply":
-        prompt = f"Explain this to a Grade 5 kid in simple Urdu:\n{query}"
     else:
-        prompt = f"Tell a short fun story in Urdu to explain:\n{query}"
-    result = qa_chain.run(prompt)
-    return result
-# UI Controls
 if uploaded_file:
-    query = st.text_input("❓ Ask a question:")
-    response_type = st.radio("Select answer format:", ["Explain Simply", "Storytelling"])
     if query:
-        with st.spinner("🤖 Thinking..."):
-            db = get_vectorstore(uploaded_file)
-            answer = run_chain(db, query, response_type)
-            st.markdown("### 🧠 Answer:")
-            st.success(answer)
-            # Detect language and speak
-            lang = "ur" if detect(answer) == "ur" else "en"
-            audio_path = generate_tts(answer, lang)
-            st.audio(audio_path, format="audio/mp3")
-# Cleanup
-st.markdown("---")
-st.caption("Made with 💙 using Streamlit + LLaMA 3 + Hugging Face")

 import streamlit as st
+from PyPDF2 import PdfReader
+from docx import Document
+from PIL import Image
+import requests
+import os
+import tempfile
+import base64
+from gtts import gTTS
+from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import CharacterTextSplitter
+from langchain_core.documents import Document as LCDocument
+from langchain_core.runnables import RunnableLambda, RunnablePassthrough
+from langchain_core.prompts import PromptTemplate
+from langchain_community.llms import Groq
 from langchain.chains import RetrievalQA
+# GROQ API setup
+groq_api_key = st.secrets["GROQ_API_KEY"] if "GROQ_API_KEY" in st.secrets else os.getenv("GROQ_API_KEY")
+llm = Groq(temperature=0.3, model_name="llama3-8b-8192", groq_api_key=groq_api_key)
+# App UI
+st.set_page_config(page_title="Learning with Fun", layout="wide")
+st.title("📘 Learning with Fun - Kids QA App")
+st.markdown("Ask questions from your syllabus! 📚")
+# Sidebar
+grade = st.sidebar.selectbox("Select Grade", ["Grade 5", "Grade 6"])
+subject = st.sidebar.selectbox("Select Subject", ["Science", "Math", "Computer", "Islamiyat"])
+mode = st.sidebar.radio("Answer Format", ["🧠 Beginner Explanation", "📖 Storytelling"])
+voice_enabled = st.sidebar.checkbox("🔈 Enable Voice", value=True)
+# Google Drive PDF/DOC support
+def fetch_from_gdrive(link):
+    if "id=" in link:
+        file_id = link.split("id=")[1]
+    elif "/d/" in link:
+        file_id = link.split("/d/")[1].split("/")[0]
     else:
+        return None
+    url = f"https://drive.google.com/uc?export=download&id={file_id}"
+    response = requests.get(url)
+    if response.status_code == 200:
+        tmp_file = tempfile.NamedTemporaryFile(delete=False)
+        tmp_file.write(response.content)
+        tmp_file.close()
+        return tmp_file.name
+    return None
+uploaded_file = None
+file_link = st.text_input("Paste Google Drive Link to Syllabus File (.pdf or .docx)")
+if file_link:
+    filepath = fetch_from_gdrive(file_link)
+    if filepath:
+        uploaded_file = filepath
     else:
+        st.error("Invalid Google Drive link or download error.")
+# Extract text
+def extract_text(file_path):
+    text = ""
+    if file_path.endswith(".pdf"):
+        reader = PdfReader(file_path)
+        for page in reader.pages:
+            text += page.extract_text()
+    elif file_path.endswith(".docx"):
+        doc = Document(file_path)
+        for para in doc.paragraphs:
+            text += para.text + "\n"
+    return text
+# Embeddings + Vectorstore
+def create_vectorstore(text):
+    text_splitter = CharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    docs = text_splitter.create_documents([text])
+    embeddings = HuggingFaceEmbeddings()
+    vectorstore = FAISS.from_documents(docs, embeddings)
+    return vectorstore
+# Prompt templates
+story_prompt = PromptTemplate.from_template(
+    "ایک طالب علم نے سوال کیا: {question}\n"
+    "نصاب کی معلومات: {context}\n"
+    "برائے مہربانی ایک دلچسپ کہانی کی صورت میں بچے کو اردو میں جواب دیں۔"
+)
+explain_prompt = PromptTemplate.from_template(
+    "سوال: {question}\n"
+    "نصاب کا سیاق و سباق: {context}\n"
+    "براہ کرم بچے کو اردو زبان میں آسان انداز میں سمجھائیں۔"
+)
+# TTS
+def generate_voice(text, lang='ur'):
     tts = gTTS(text, lang=lang)
+    tts_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    tts.save(tts_file.name)
+    return tts_file.name
+# QA pipeline
+def get_answer(query, vectorstore, mode):
+    retriever = vectorstore.as_retriever()
+    docs = retriever.get_relevant_documents(query)
+    context = "\n".join([doc.page_content for doc in docs])
+    if mode == "📖 Storytelling":
+        prompt = story_prompt.format(question=query, context=context)
     else:
+        prompt = explain_prompt.format(question=query, context=context)
+    answer = llm.invoke(prompt)
+    return answer
+# Main logic
 if uploaded_file:
+    raw_text = extract_text(uploaded_file)
+    st.success("📄 Syllabus loaded successfully!")
+    query = st.text_input("❓ Ask your question (Urdu or English)")
     if query:
+        with st.spinner("Thinking..."):
+            vs = create_vectorstore(raw_text)
+            answer = get_answer(query, vs, mode)
+            st.markdown("### ✅ Answer:")
+            st.write(answer)
+            if voice_enabled:
+                audio_file = generate_voice(answer)
+                with open(audio_file, "rb") as audio:
+                    audio_bytes = audio.read()
+                    st.audio(audio_bytes, format="audio/mp3")