Spaces:

taha454
/

AidMateLLM

Running

App Files Files Community

TahaFawzyElshrif commited on Aug 22, 2025

Commit

2ebf9ad

1 Parent(s): 2e950a2

published first version

Browse files

Files changed (28) hide show

Embedder/E5_Embeddedr.py +18 -0
Embedder/Embedder.py +5 -0
Embedder/__pycache__/E5_Embeddedr.cpython-311.pyc +0 -0
Embedder/__pycache__/E5_Embeddedr.cpython-312.pyc +0 -0
Embedder/__pycache__/Embedder.cpython-311.pyc +0 -0
Embedder/__pycache__/Embedder.cpython-312.pyc +0 -0
Models/GPT.py +25 -0
Models/Gemini.py +32 -0
Models/LLMModel.py +22 -0
Models/Prompts.py +28 -0
Models/Utils.py +16 -0
Models/__pycache__/GPT.cpython-311.pyc +0 -0
Models/__pycache__/GPT.cpython-312.pyc +0 -0
Models/__pycache__/Gemini.cpython-311.pyc +0 -0
Models/__pycache__/Gemini.cpython-312.pyc +0 -0
Models/__pycache__/LLMModel.cpython-311.pyc +0 -0
Models/__pycache__/LLMModel.cpython-312.pyc +0 -0
Models/__pycache__/Prompts.cpython-312.pyc +0 -0
Models/__pycache__/Utils.cpython-311.pyc +0 -0
Models/__pycache__/Utils.cpython-312.pyc +0 -0
OLAP_Conn/DuckConn.py +39 -0
OLAP_Conn/OLAP_Connection.py +7 -0
OLAP_Conn/__pycache__/DuckConn.cpython-312.pyc +0 -0
OLAP_Conn/__pycache__/OLAP_Connection.cpython-312.pyc +0 -0
RAG/RAG_Retrival.py +99 -0
RAG/__pycache__/RAG_Retrival.cpython-312.pyc +0 -0
app.py +20 -0
requirements.txt +12 -0

Embedder/E5_Embeddedr.py ADDED Viewed

	@@ -0,0 +1,18 @@

+from sentence_transformers import SentenceTransformer,util
+from Embedder.Embedder import Embedder
+class E5_Embeddedr(Embedder):
+    def __init__(self):
+        self.model_name = "intfloat/multilingual-e5-small"
+        self.model = SentenceTransformer(self.model_name)
+        self.embedding_size = 384 # Fixed fot this model
+    def embed(self,text):
+      '''
+      Embeds one text
+      Prefixed it with passage "passage" as e5 expect
+      '''
+      return self.model.encode(f"passage: {text}", normalize_embeddings=True)
+#embed = E5_Embeddedr()
+#embed.embed("مرحبا بك فى وى")

Embedder/Embedder.py ADDED Viewed

	@@ -0,0 +1,5 @@

+class Embedder:
+    def __init__(self) -> None:
+        pass
+    def embed(text):
+        pass

Embedder/__pycache__/E5_Embeddedr.cpython-311.pyc ADDED Viewed

Binary file (1.31 kB). View file

Embedder/__pycache__/E5_Embeddedr.cpython-312.pyc ADDED Viewed

Binary file (1.18 kB). View file

Embedder/__pycache__/Embedder.cpython-311.pyc ADDED Viewed

Binary file (696 Bytes). View file

Embedder/__pycache__/Embedder.cpython-312.pyc ADDED Viewed

Binary file (603 Bytes). View file

Models/GPT.py ADDED Viewed

	@@ -0,0 +1,25 @@

+from openai import OpenAI
+import os
+from Models.LLMModel import LLMModel
+base_gpt_url = "https://router.huggingface.co/v1"
+class GPT(LLMModel):
+    def __init__(self,model_name):
+        """
+        Top_k , stop_sequences is not supported by GPT
+        """
+        super().__init__()
+        self.model_name = model_name
+        self.client = OpenAI(base_url=base_gpt_url,api_key=os.environ["HF_TOKEN"])
+    def send_message(self,messages_json):
+        response = self.client.chat.completions.create(
+                        model = self.model_name,
+                        messages=messages_json,
+                        temperature=self.temperature,
+                        max_tokens=self.max_tokens )
+        return (response.choices[0].message.content)

Models/Gemini.py ADDED Viewed

	@@ -0,0 +1,32 @@

+import google.generativeai as genai
+from Models.LLMModel import LLMModel
+import os
+class Gemini(LLMModel):
+    def __init__(self,model_name='gemini-1.5-flash'):
+        super().__init__()
+        self.model_name = model_name
+        genai.configure(api_key=os.environ["GEMINI_API_KEY"])
+        self.model = genai.GenerativeModel(self.model_name)
+        self.set_config()
+    def set_config(self,temperature=1,top_k=40,top_p=.85,stop_sequences=None,max_tokens=200):
+        super().set_config(temperature,top_k,top_p,stop_sequences,max_tokens)
+        self.config = genai.types.GenerationConfig(
+            temperature=self.temperature,
+            max_output_tokens = self.max_tokens,
+            top_p =self.top_p,
+            top_k =self.top_k,
+            stop_sequences = self.stop_sequences
+        )
+    def send_message(self,prompt):
+        if not isinstance(prompt,str):
+            prompt = str(prompt)
+        response = self.model.generate_content((prompt),generation_config=self.config)
+        return str(response.text)

Models/LLMModel.py ADDED Viewed

	@@ -0,0 +1,22 @@

+class LLMModel:
+    def __init__(self):
+        self.model_name = ""
+        self.temperature=1
+        self.top_k=40
+        self.top_p=.85
+        self.stop_sequences=[]
+        self.max_tokens=200
+    def set_config(self,temperature=1,top_k=40,top_p=.85,stop_sequences=[],max_tokens=200):
+        """
+        Set the configuration for the model (Some Parameters may not work according to model)
+        """
+        self.temperature=temperature
+        self.top_k=top_k
+        self.top_p=top_p
+        self.stop_sequences=stop_sequences
+        self.max_tokens = max_tokens
+    def send_message(self,messages_json):
+        pass

Models/Prompts.py ADDED Viewed

	@@ -0,0 +1,28 @@

+PromptHead = """أنت مساعد متخصص في الإسعافات الأولية والطوارئ الطبية.
+وظيفتك هي تقديم نصائح وإرشادات آمنة وعملية لمواجهة حالات الطوارئ الصحية البسيطة، مثل الجروح، الحروق، الاختناق، النزيف، الإغماء، أو أي حادث منزلي أو خارجي.
+عند الإجابة:
+1. قدم خطوات واضحة ومرتبة (مثل خطوة 1، خطوة 2...).
+2. لا تعطي تعليمات قد تكون خطيرة بدون تحذير واضح.
+3. شجع المستخدم على الاتصال بالإسعاف أو الطبيب إذا كانت الحالة خطيرة.
+4. لا تكتب معلومات طبية متقدمة أو تشخيصات، ركز فقط على الإسعافات الأولية.
+5. استخدم لغة بسيطة وسهلة الفهم.
+مثال على الاستجابة:
+سؤال المستخدم: "كيف أوقف نزيف من جرح في الإصبع؟"
+ردك:
+1. نظف الجرح بلطف بالماء الجاري.
+2. ضع قطعة شاش نظيفة على الجرح واضغط برفق لوقف النزيف.
+3. إذا استمر النزيف أكثر من 10 دقائق، اتصل بالإسعاف فوراً.
+4. غطِّ الجرح بضمادة نظيفة بعد توقف النزيف.
+"""
+get_summary_prompt = lambda x: "اعطنى ملخص فى سطر واحد او اثنين بالكثير للنص الاتى:\n" + x
+final_prompt = lambda query, context: (
+    f"أجب على السؤال التالي: {query}\n"
+    f"اعتمد فقط على المعلومات الواردة في النص التالي: {context}\n"
+)

Models/Utils.py ADDED Viewed

	@@ -0,0 +1,16 @@

+from Models.Gemini import Gemini
+from Models.GPT import GPT
+message_user = lambda x: ({"role": "user", "content": x})
+message_system = lambda x: ({"role": "system", "content": x})
+# Core Functions here ,if want more write in backend
+def get_specific_model(model_name):
+    if model_name in ["gemini-1.5-flash","gemini"]:
+        return Gemini()
+    elif model_name in ["openai/gpt-oss-120b","gpt 120"]:
+        return GPT("openai/gpt-oss-20b")
+    else :
+        return GPT("openai/gpt-oss-120b")

Models/__pycache__/GPT.cpython-311.pyc ADDED Viewed

Binary file (1.69 kB). View file

Models/__pycache__/GPT.cpython-312.pyc ADDED Viewed

Binary file (1.59 kB). View file

Models/__pycache__/Gemini.cpython-311.pyc ADDED Viewed

Binary file (2.41 kB). View file

Models/__pycache__/Gemini.cpython-312.pyc ADDED Viewed

Binary file (2.17 kB). View file

Models/__pycache__/LLMModel.cpython-311.pyc ADDED Viewed

Binary file (1.38 kB). View file

Models/__pycache__/LLMModel.cpython-312.pyc ADDED Viewed

Binary file (1.28 kB). View file

Models/__pycache__/Prompts.cpython-312.pyc ADDED Viewed

Binary file (2.15 kB). View file

Models/__pycache__/Utils.cpython-311.pyc ADDED Viewed

Binary file (2.12 kB). View file

Models/__pycache__/Utils.cpython-312.pyc ADDED Viewed

Binary file (904 Bytes). View file

OLAP_Conn/DuckConn.py ADDED Viewed

	@@ -0,0 +1,39 @@

+import duckdb
+from OLAP_Conn.OLAP_Connection import OLAP_Connection
+from sentence_transformers import util
+class DuckConn(OLAP_Connection):
+    def __init__(self,path_duckdb="first_aid.duckdb"):
+        super().__init__()
+        self.path_duckdb = path_duckdb
+        self.con = duckdb.connect(self.path_duckdb)
+    def make_data_frame(self,data_,name):
+        self.con.register(name, data_)
+        self.con.execute("CREATE TABLE IF NOT EXISTS documents AS SELECT * FROM "+name)
+        self.con.commit()
+    def get_relevant_docs(self, embedded_query, top_k=3,limit=100):
+        # Retrive docs
+        docs = self.con.execute(f"SELECT * FROM documents;").fetchall()
+        # Calcualte distance
+        scored_docs = []
+        for page_content, embedding_doc in docs:
+            score = util.cos_sim(embedded_query, embedding_doc)
+            scored_docs.append((page_content, score))
+        #  Sort Desc
+        scored_docs.sort(key=lambda x: -x[1])
+        # Return top k result
+        return [doc[0] for doc in scored_docs[:top_k]]
+    def close(self):
+          self.con.commit()
+          self.con.close()

OLAP_Conn/OLAP_Connection.py ADDED Viewed

	@@ -0,0 +1,7 @@

+class OLAP_Connection:
+    def __init__(self,):
+        pass
+    def make_data_frame(self,data_,name):
+        pass
+    def get_relevant_docs(self, embedded_query, top_k=3):
+        pass

OLAP_Conn/__pycache__/DuckConn.cpython-312.pyc ADDED Viewed

Binary file (2.53 kB). View file

OLAP_Conn/__pycache__/OLAP_Connection.cpython-312.pyc ADDED Viewed

Binary file (840 Bytes). View file

RAG/RAG_Retrival.py ADDED Viewed

	@@ -0,0 +1,99 @@

+from tqdm import tqdm
+from tqdm.notebook import tqdm as tqdmk
+from langchain.document_loaders import PyPDFLoader
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.llms import HuggingFaceHub
+from langchain import PromptTemplate
+from langchain.document_loaders import PyPDFLoader
+import pandas as pd
+import duckdb
+import numpy as np
+import os
+class RAG_Retrival:
+    def __init__(self,db,model,embedder):
+        self.conn = db
+        self.model = model
+        self.embedder = embedder
+    def read_data(self,path_data):
+        # Count total files first for tqdm's total
+        total_files = sum(len(files) for _, _, files in os.walk(path_data))
+        all_text = ""
+        with tqdm(total=total_files, desc="Reading files", unit="file") as pbar:
+            for root, dirs, files in os.walk(path_data):
+                for file in files:
+                    full_path = os.path.join(root, file)
+                    if full_path.endswith(".txt"):
+                      all_text += self.load_text_file(full_path)
+                    elif full_path.endswith(".pdf"):
+                      all_text += self.load_pdf(full_path)
+                    pbar.update(1)
+        return all_text
+    def load_text_file(self,path):
+        text = ""
+        with open(path, 'r') as file:
+          for line in file:
+              text += line
+        return text
+    def load_pdf(self,pdf_folder):
+        loader = PyPDFLoader(pdf_folder)
+        pages = loader.load_and_split()
+        text = "\n".join([doc.page_content for doc in pages])
+        return text
+    def text_splitter(self,text,chunk_size=1000,chunk_overlap=100,is_separator_regex=False):
+        text_splitter = RecursiveCharacterTextSplitter(
+            chunk_size=chunk_size,
+            chunk_overlap=chunk_overlap,
+            length_function=len,
+            is_separator_regex=is_separator_regex,
+        )
+        docs = text_splitter.create_documents([text])
+        for i, d in enumerate(docs):
+            d.metadata = {"doc_id": i}
+        return docs
+    def prepare_text_df(self,docs):
+        # Get the page_content from the documents and create a new list
+        content_list = [doc.page_content for doc in docs]
+        # Send one page_content at a time
+        print("Making embedding...")
+        embeddings = [self.embedder.embed(content) for content in tqdmk(content_list)]
+        print("Finished embedding...")
+        # Create a dataframe to ingest it to the database
+        dataframe = pd.DataFrame({
+            'page_content': content_list,
+            'embeddings': embeddings})
+        return dataframe
+    def make_data_frame(self,path,chunk_size=1000,chunk_overlap=100,is_separator_regex=False):
+        all_texts = self.read_data(path)
+        docs = self.text_splitter(all_texts,chunk_size,chunk_overlap,is_separator_regex)
+        dataframe = self.prepare_text_df(docs)
+        self.upload_file(dataframe)
+        return dataframe
+    def upload_file(self,embedding_df,name='first_aid'):
+        '''
+        Upload data and close database to be commited
+        '''
+        self.conn.make_data_frame(embedding_df,name)
+        self.conn.close()
+    def query_relevant(self,user_query):
+        embedded_query = self.embedder.embed(user_query)
+        result = self.conn.get_relevant_docs(embedded_query)
+        return result

RAG/__pycache__/RAG_Retrival.cpython-312.pyc ADDED Viewed

Binary file (5.4 kB). View file

app.py ADDED Viewed

	@@ -0,0 +1,20 @@

+from fastapi import FastAPI
+from pydantic import BaseModel
+from typing import List, Dict
+app = FastAPI()
+# Define the request body model
+class Message(BaseModel):
+    role: str
+    content: str
+@app.post("/chat")
+async def chat(messages: List[Message]):
+    # Convert Pydantic objects to dict
+    messages_data = [msg.dict() for msg in messages]
+    # Example: send to model (here just a placeholder)
+    response_text = f"Received {len(messages_data)} messages. First message: {messages_data[0]['content']}"
+    return {"status": "success", "response": response_text}

requirements.txt ADDED Viewed

	@@ -0,0 +1,12 @@

+fastapi
+uvicorn[standard]
+sentence_transformers
+google.generativeai
+openai
+duckdb
+tqdm
+langchain
+langchain-community
+pypdf
+pandas
+numpy