Spaces:

goldrode
/

testRAG

Sleeping

App Files Files Community

goldrode commited on Dec 17, 2024

Commit

4971391

verified ·

1 Parent(s): 8a83bd4

Update app.py

Browse files

Files changed (1) hide show

app.py +35 -33

app.py CHANGED Viewed

@@ -1,66 +1,68 @@
 import gradio as gr
-import PyPDF2
 import re
-import chromadb
 import google.generativeai as gemini
-from langchain.embeddings.openai import OpenAIEmbeddings
-from langchain.vectorstores import Chroma
-from langchain_openai import OpenAIEmbeddings
 # Step 1: Configure Gemini API
 gemini.configure(api_key="AIzaSyCOxpeeq4qUMjZje8sNtwnQZiQ9xVShLd0")
-# Step 2: Initialize ChromaDB and Medical Knowledge Base
-embeddings = OpenAIEmbeddings()
-chroma_db = Chroma(persist_directory="./chroma_db", embedding_function=embeddings)
 def load_medical_knowledge():
-    """Load medical knowledge into ChromaDB (only run once)."""
-    documents = [
-        "Normal hemoglobin levels are between 12-16 g/dL for women and 13-17 g/dL for men.",
-        "Low hemoglobin levels can indicate anemia, which may cause fatigue and weakness.",
-        "High glucose levels can indicate diabetes or prediabetes.",
-        "Cholesterol above 200 mg/dL is considered high and increases cardiovascular risks."
     ]
-    chroma_db.add_texts(documents)
     print("Medical knowledge loaded.")
 # Step 3: Extract Text from PDF
 def extract_text_from_pdf(pdf_file):
-    reader = PyPDF2.PdfFileReader(pdf_file)
-    text = ''
-    for page_num in range(reader.numPages):
-        text += reader.getPage(page_num).extract_text()
     return text
 # Step 4: Parse Blood Test Results
 def parse_blood_test_results(text):
     results = {}
-    # Example regex for Hemoglobin
-    hemoglobin_match = re.search(r"Hemoglobin:\s*(\d+\.\d+)\s*g/dL", text)
     if hemoglobin_match:
         results['Hemoglobin'] = float(hemoglobin_match.group(1))
-    # Add more parameters like Glucose, Cholesterol, etc.
     return results
-# Step 5: Retrieve Medical Knowledge from ChromaDB
 def retrieve_medical_knowledge(parameter):
-    results = chroma_db.similarity_search(parameter, k=1)  # Retrieve most relevant knowledge
-    return results[0].page_content if results else "No relevant knowledge found."
-# Step 6: Generate Advice using Gemini API
 def generate_advice(test_results):
     advice = {}
     for parameter, value in test_results.items():
         medical_knowledge = retrieve_medical_knowledge(parameter)
-        prompt = (f"Patient's {parameter} level is {value}. {medical_knowledge}."
-                  " Provide clear, personalized health advice.")
         response = gemini.generate_text(prompt)
         advice[parameter] = response.result
     return advice
-# Step 7: Main Function for Gradio
 def analyze_blood_test(pdf_file):
     text = extract_text_from_pdf(pdf_file)
     test_results = parse_blood_test_results(text)
@@ -69,15 +71,15 @@ def analyze_blood_test(pdf_file):
     advice = generate_advice(test_results)
     return advice
-# Step 8: Gradio Interface
 iface = gr.Interface(
     fn=analyze_blood_test,
     inputs=gr.inputs.File(label="Upload Blood Test PDF"),
     outputs="json",
-    title="Blood Test Analysis with RAG and Gemini",
     description="Upload a PDF with blood test results to receive personalized health advice."
 )
 if __name__ == "__main__":
-    load_medical_knowledge()  # Run once to populate the vector store
     iface.launch()

 import gradio as gr
+import fitz  # PyMuPDF
 import re
+import numpy as np
+from chromadb import Client
+from sklearn.metrics.pairwise import cosine_similarity
 import google.generativeai as gemini
 # Step 1: Configure Gemini API
 gemini.configure(api_key="AIzaSyCOxpeeq4qUMjZje8sNtwnQZiQ9xVShLd0")
+# Step 2: Set up ChromaDB for Knowledge Retrieval
+client = Client()
+collection = client.get_or_create_collection("medical_knowledge")
+# Load medical knowledge into ChromaDB (run once)
 def load_medical_knowledge():
+    knowledge = [
+        {"name": "hemoglobin_normal", "text": "Normal hemoglobin levels are 13.8-17.2 g/dL for men and 12.1-15.1 g/dL for women."},
+        {"name": "hemoglobin_low", "text": "Low hemoglobin levels indicate anemia, causing fatigue and weakness."},
+        {"name": "glucose_normal", "text": "Normal fasting blood glucose levels are 70-99 mg/dL."},
+        {"name": "glucose_high", "text": "High glucose levels suggest diabetes or prediabetes and need further testing."},
     ]
+    for item in knowledge:
+        collection.add(documents=[item["text"]], metadatas={"name": item["name"]}, ids=[item["name"]])
     print("Medical knowledge loaded.")
 # Step 3: Extract Text from PDF
 def extract_text_from_pdf(pdf_file):
+    text = ""
+    with fitz.open(stream=pdf_file.read(), filetype="pdf") as pdf:
+        for page in pdf:
+            text += page.get_text()
     return text
 # Step 4: Parse Blood Test Results
 def parse_blood_test_results(text):
     results = {}
+    hemoglobin_match = re.search(r'Hemoglobin:\s*(\d+\.\d+)\s*g/dL', text, re.IGNORECASE)
+    glucose_match = re.search(r'Glucose:\s*(\d+)\s*mg/dL', text, re.IGNORECASE)
     if hemoglobin_match:
         results['Hemoglobin'] = float(hemoglobin_match.group(1))
+    if glucose_match:
+        results['Glucose'] = int(glucose_match.group(1))
     return results
+# Step 5: Retrieve Knowledge Dynamically from ChromaDB
 def retrieve_medical_knowledge(parameter):
+    results = collection.query(query_texts=[parameter], n_results=1)
+    return results['documents'][0] if results['documents'] else "No relevant knowledge found."
+# Step 6: Generate Personalized Advice
 def generate_advice(test_results):
     advice = {}
     for parameter, value in test_results.items():
         medical_knowledge = retrieve_medical_knowledge(parameter)
+        prompt = (
+            f"The patient's {parameter} level is {value}. {medical_knowledge} "
+            "Provide a clear, concise health recommendation."
+        )
         response = gemini.generate_text(prompt)
         advice[parameter] = response.result
     return advice
+# Step 7: Main Function for Gradio Interface
 def analyze_blood_test(pdf_file):
     text = extract_text_from_pdf(pdf_file)
     test_results = parse_blood_test_results(text)
     advice = generate_advice(test_results)
     return advice
+# Gradio interface
 iface = gr.Interface(
     fn=analyze_blood_test,
     inputs=gr.inputs.File(label="Upload Blood Test PDF"),
     outputs="json",
+    title="Blood Test Analysis with Full RAG Implementation",
     description="Upload a PDF with blood test results to receive personalized health advice."
 )
 if __name__ == "__main__":
+    load_medical_knowledge()  # Run once to load knowledge into ChromaDB
     iface.launch()