Spaces:

engrphoenix
/

ADS

Sleeping

App Files Files Community

engrphoenix commited on Jan 3, 2025

Commit

c3a4d93

verified ·

1 Parent(s): 5eedd0a

Update app.py

Browse files

Files changed (1) hide show

app.py +60 -51

app.py CHANGED Viewed

@@ -1,16 +1,16 @@
-# app.py
 import os
 import streamlit as st
-from langchain.document_loaders import PyPDFLoader
-from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.llms import HuggingFacePipeline
 from transformers import pipeline
 from groq import Groq
-import requests
-from PyPDF2 import PdfReader
-import io
 # Set up API key for Groq API
 #GROQ_API_KEY = "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"
@@ -27,58 +27,67 @@ def get_groq_client():
 groq_client = get_groq_client()
-# Predefined PDF link
-pdf_url = "https://drive.google.com/file/d/1P9InkDWyaybb8jR_xS4f4KsxTlYip8RA/view?usp=drive_link"
-def extract_text_from_pdf(pdf_url):
-    """Extract text from a PDF file given its Google Drive shared link."""
-    # Extract file ID from the Google Drive link
-    file_id = pdf_url.split('/d/')[1].split('/view')[0]
-    download_url = f"https://drive.google.com/uc?export=download&id={file_id}"
-    response = requests.get(download_url)
-    if response.status_code == 200:
-        pdf_content = io.BytesIO(response.content)
-        reader = PdfReader(pdf_content)
-        text = "\n".join([page.extract_text() for page in reader.pages])
-        return text
-    else:
-        st.error("Failed to download PDF.")
-        return ""
-# Streamlit Interface
-st.title("ASD Diagnosis Retrieval-Augmented Generation App")
-st.info("Processing predefined PDF...")
-extracted_text = extract_text_from_pdf(pdf_url)
-if extracted_text:
-    st.success("Text extraction complete.")
-    # Preprocess text for embeddings
-    st.info("Generating embeddings...")
-    embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    embeddings = embeddings_model.embed_documents([extracted_text])
-    # Store embeddings in FAISS
-    st.info("Storing embeddings in FAISS...")
-    faiss_index = FAISS.from_texts([extracted_text], embeddings_model)
-    # Set up Hugging Face LLM pipeline
-    st.info("Setting up RAG pipeline...")
-    hf_pipeline = pipeline("text-generation", model="google/flan-t5-base", tokenizer="google/flan-t5-base")
-    llm = HuggingFacePipeline(pipeline=hf_pipeline)
-    retriever = faiss_index.as_retriever()
-    qa_chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=retriever)
-    # Query interface
-    st.success("RAG pipeline ready.")
-    user_query = st.text_input("Enter your query about ASD:")
-    if user_query:
-        st.info("Fetching response...")
-        response = qa_chain.run(user_query)
-        st.success(response)
-else:
-    st.error("No text extracted from the PDF.")

 import os
+import requests
+from io import BytesIO
+from PyPDF2 import PdfReader
+from sentence_transformers import SentenceTransformer
+import faiss
 import streamlit as st
 from langchain.chains import RetrievalQA
+from langchain.vectorstores import FAISS
+from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.llms import HuggingFacePipeline
 from transformers import pipeline
 from groq import Groq
 # Set up API key for Groq API
 #GROQ_API_KEY = "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"
 groq_client = get_groq_client()
+def download_pdf(url):
+    response = requests.get(url)
+    response.raise_for_status()
+    return BytesIO(response.content)
+def extract_text_from_pdf(pdf_data):
+    reader = PdfReader(pdf_data)
+    text = "\n".join(page.extract_text() for page in reader.pages if page.extract_text())
+    return text
+def preprocess_text(text):
+    return " ".join(text.split())
+def build_faiss_index(embeddings, texts):
+    index = faiss.IndexFlatL2(embeddings.embedding_dim)
+    text_store = FAISS(embeddings, index)
+    text_store.add_texts(texts)
+    return text_store
+# URLs of ASD-related PDF documents
+pdf_links = [
+    "https://drive.google.com/file/d/1P9InkDWyaybb8jR_xS4f4KsxTlYip8RA/view?usp=drive_link",  # Replace X, Y, Z with actual URLs of ASD-related literature
+    "https://drive.google.com/file/d/1P9InkDWyaybb8jR_xS4f4KsxTlYip8RA/view?usp=drive_link",
+    "https://drive.google.com/file/d/1P9InkDWyaybb8jR_xS4f4KsxTlYip8RA/view?usp=drive_link"
+]
+st.title("ASD Diagnosis and Therapy Chatbot")
+st.markdown("This application assists in diagnosing types of ASD and recommends evidence-based therapies and treatments.")
+with st.spinner("Downloading and extracting text from PDFs..."):
+    texts = []
+    for link in pdf_links:
+        pdf_data = download_pdf(link)
+        text = extract_text_from_pdf(pdf_data)
+        cleaned_text = preprocess_text(text)
+        texts.append(cleaned_text)
+with st.spinner("Generating embeddings..."):
+    embeddings_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    text_store = build_faiss_index(embeddings_model, texts)
+with st.spinner("Setting up the RAG pipeline..."):
+    hf_pipeline = pipeline("text-generation", model="gpt-2")  # Replace with a model optimized for medical text, if available
+    llm = HuggingFacePipeline(pipeline=hf_pipeline)
+    qa_chain = RetrievalQA(llm=llm, retriever=text_store.as_retriever())
+query = st.text_input("Ask a question about ASD diagnosis, types, or therapies:")
+if query:
+    with st.spinner("Processing your query..."):
+        answer = qa_chain.run(query)
+    st.success("Answer:")
+    st.write(answer)
+st.markdown("---")
+st.markdown("### Example Queries:")
+st.markdown("- What type of ASD does an individual with sensory issues have?")
+st.markdown("- What therapies are recommended for social communication challenges?")
+st.markdown("- What treatments are supported by clinical guidelines for repetitive behaviors?")
+st.markdown("---")
+st.markdown("Powered by Streamlit, Hugging Face, and LangChain")