Spaces:

AIGuardForAgents
/

AgentGuard

Sleeping

App Files Files Community

Hariprasad Navilur N commited on Jan 23

Commit

d372dcc

1 Parent(s): e0f2ca2

global vars fixed

Browse files

Files changed (2) hide show

Dockerfile +2 -0
app.py +19 -28

Dockerfile CHANGED Viewed

@@ -7,4 +7,6 @@ RUN pip install --no-cache-dir --upgrade pip && pip install -r requirements.txt
 COPY . .
 CMD ["gunicorn", "app:app", "-b", "0.0.0.0:7860"]

 COPY . .
+EXPOSE 7860:7860
 CMD ["gunicorn", "app:app", "-b", "0.0.0.0:7860"]

app.py CHANGED Viewed

@@ -12,9 +12,7 @@ from flask_cors import CORS
 from groq import Groq
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader
-from langchain_community.embeddings.sentence_transformer import (
-    SentenceTransformerEmbeddings
-)
 from langchain_community.vectorstores import Chroma
 logging.basicConfig(
@@ -26,6 +24,10 @@ logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
 app = Flask(__name__)
 CORS(app)
@@ -77,9 +79,7 @@ def ingest_documents(pdf_folder_location, tenant_id=None, policy_set_id=None, do
     len(compliance_chunks)
-    compliance_collection = 'compliance_collection'
-    embedding_model = SentenceTransformerEmbeddings(model_name='thenlper/gte-large')
     vectorstore = Chroma(
         collection_name=compliance_collection,
@@ -97,29 +97,15 @@ def ingest_documents(pdf_folder_location, tenant_id=None, policy_set_id=None, do
 def callLlm(data):
     import os
     # Loading the Chroma DB and using the retriever to retreive the chunks just for testing
-    compliance_collection = 'compliance_collection'
-    embedding_model = SentenceTransformerEmbeddings(model_name='thenlper/gte-large')
-    vectorstore_persisted = Chroma(
-        collection_name=compliance_collection,
-        persist_directory='./compliance_db',
-        embedding_function=embedding_model
-    )
     transcript = data["transcript"]
     combined_text = " ".join(turn["content"] for turn in transcript if "content" in turn)
     client = Groq()
     model_name = 'openai/gpt-oss-20b'
-    #
-    # retriever = vectorstore_persisted.as_retriever(
-    #     search_type='similarity',
-    #     search_kwargs={'k': 5}
-    # )
     # # Original cell: 26E1QcvAR-OO
     # # Retrieve the first two chunks from the vector store
     # retrieved_data = vectorstore_persisted.get(
@@ -157,15 +143,19 @@ def callLlm(data):
     {transcript}
     """
-    # # Original cell: MUBRJsi12e59
-    # relevant_document_chunks = retriever.get_relevant_documents(combined_text)
     tenant_id = data["tenant_id"]
-    relevant_document_chunks = vectorstore_persisted.similarity_search(combined_text, k=3,
-                                                                       filter={"tenant_id": tenant_id})
     len(relevant_document_chunks)
     for document in relevant_document_chunks:
         logger.info(document.page_content.replace("\t", " "))
         break
@@ -182,7 +172,7 @@ def callLlm(data):
          }
     ]
-    logger.info(prompt)
     try:
         response = client.chat.completions.create(
@@ -200,10 +190,11 @@ def callLlm(data):
 if __name__ == '__main__':
     import os
     # todo: list all policy documents and ingest them once
     pdf_folder_location = "Bank_Contact_Center_Compliance_Policies.pdf"
-    ingest_documents(
         pdf_folder_location=pdf_folder_location,
         tenant_id="tenant_123",
         policy_set_id="policy_set_abc",

 from groq import Groq
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.document_loaders import PyPDFLoader
+from langchain_community.embeddings.sentence_transformer import SentenceTransformerEmbeddings
 from langchain_community.vectorstores import Chroma
 logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
+compliance_collection = 'compliance_collection'
+embedding_model = SentenceTransformerEmbeddings(model_name='thenlper/gte-large')
+vectorstore = None
 app = Flask(__name__)
 CORS(app)
     len(compliance_chunks)
+    os.environ["CHROMA_TELEMETRY"] = "FALSE"
     vectorstore = Chroma(
         collection_name=compliance_collection,
 def callLlm(data):
     import os
+    global compliance_collection, embedding_model, vectorstore
     # Loading the Chroma DB and using the retriever to retreive the chunks just for testing
     transcript = data["transcript"]
     combined_text = " ".join(turn["content"] for turn in transcript if "content" in turn)
     client = Groq()
     model_name = 'openai/gpt-oss-20b'
     # # Original cell: 26E1QcvAR-OO
     # # Retrieve the first two chunks from the vector store
     # retrieved_data = vectorstore_persisted.get(
     {transcript}
     """
+    retriever = vectorstore.as_retriever(
+        search_type='similarity',
+        search_kwargs={'k': 5}
+    )
     tenant_id = data["tenant_id"]
+    relevant_document_chunks = retriever.get_relevant_documents(combined_text, metadata = {"tenant_id": tenant_id})
+    # relevant_document_chunks = vectorstore_persisted.similarity_search(combined_text, k=3,
+                                                                    #    filter={"tenant_id": tenant_id})
     len(relevant_document_chunks)
+    logger.info("relevent chunks: ")
     for document in relevant_document_chunks:
         logger.info(document.page_content.replace("\t", " "))
         break
          }
     ]
+    logger.info("prompt: " + prompt)
     try:
         response = client.chat.completions.create(
 if __name__ == '__main__':
     import os
+    global vectorstore
     # todo: list all policy documents and ingest them once
     pdf_folder_location = "Bank_Contact_Center_Compliance_Policies.pdf"
+    vectorstore = ingest_documents(
         pdf_folder_location=pdf_folder_location,
         tenant_id="tenant_123",
         policy_set_id="policy_set_abc",