Spaces:

PraneshJs
/

thiruvasagmbot

Sleeping

PraneshJs commited on Aug 31, 2025

Commit

64d7b51

verified ·

1 Parent(s): 25269f7

fixed embedding function

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,10 +1,10 @@
 import os
 import gradio as gr
 from openai import AzureOpenAI
-from sentence_transformers import SentenceTransformer
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import Chroma
 # Load PDF (Tiruvāsagam)
 loader = PyPDFLoader("tiru.pdf")
@@ -15,27 +15,24 @@ splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
 chunks = splitter.split_documents(docs)
 # Local embedding model (Tamil capable)
-embedding_model = SentenceTransformer("intfloat/multilingual-e5-large")
-def embed(texts): return embedding_model.encode(texts, convert_to_numpy=True)
 # Store in Chroma
-vectorstore = Chroma.from_documents(chunks, embedding_function=embed)
 retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k":3})
 # Azure OpenAI client
 client = AzureOpenAI(
-    api_key=os.getenv("AZURE_OPENAI_API_KEY"),
     api_version="2025-01-01-preview",
-    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT")
 )
 # Chat function
 def chat_fn(message, history):
-    # Retrieve relevant chunks
     docs = retriever.get_relevant_documents(message)
     context = "\n\n".join([d.page_content for d in docs])
-    # Call Azure OpenAI (GPT-4)
     completion = client.chat.completions.create(
         model="gpt-4.1",  # your Azure deployment name
         messages=[

 import os
 import gradio as gr
 from openai import AzureOpenAI
 from langchain_community.document_loaders import PyPDFLoader
 from langchain_text_splitters import RecursiveCharacterTextSplitter
 from langchain_community.vectorstores import Chroma
+from langchain_community.embeddings import HuggingFaceEmbeddings
 # Load PDF (Tiruvāsagam)
 loader = PyPDFLoader("tiru.pdf")
 chunks = splitter.split_documents(docs)
 # Local embedding model (Tamil capable)
+embedding_model = HuggingFaceEmbeddings(model_name="intfloat/multilingual-e5-large")
 # Store in Chroma
+vectorstore = Chroma.from_documents(chunks, embedding=embedding_model)
 retriever = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k":3})
 # Azure OpenAI client
 client = AzureOpenAI(
+    api_key=os.getenv("AZURE_OPENAI_API_KEY").strip(),
     api_version="2025-01-01-preview",
+    azure_endpoint=os.getenv("AZURE_OPENAI_ENDPOINT").strip()
 )
 # Chat function
 def chat_fn(message, history):
     docs = retriever.get_relevant_documents(message)
     context = "\n\n".join([d.page_content for d in docs])
     completion = client.chat.completions.create(
         model="gpt-4.1",  # your Azure deployment name
         messages=[