Spaces:

techconspartners
/

ConversAI

Build error

Rauhan commited on Aug 7, 2024

Commit

88d2fdc

1 Parent(s): 6febb6b

UPDATE: New Endpoints

Files changed (4) hide show

Dockerfile CHANGED Viewed

@@ -10,7 +10,9 @@ RUN apt-get update && apt-get install -y \
     build-essential \
     cmake \
     && apt-get clean \
-    && rm -rf /var/lib/apt/lists/*
 RUN mkdir -p /app/nltk_data && chmod -R 777 /app/nltk_data

     build-essential \
     cmake \
     && apt-get clean \
+    && rm -rf /var/lib/apt/lists/*
+RUN apt-get install poppler-utils -y
 RUN mkdir -p /app/nltk_data && chmod -R 777 /app/nltk_data

app.py CHANGED Viewed

@@ -8,7 +8,6 @@ from fastapi.middleware.cors import CORSMiddleware
 from langchain_community.document_loaders import UnstructuredURLLoader
 app = FastAPI(title = "ConversAI", root_path = "/api/v1")
 app.add_middleware(
     CORSMiddleware,
@@ -64,6 +63,24 @@ async def addPDFData(vectorstore: str, pdf: UploadFile = File(...)):
         }
 @app.post("/addText")
 async def addText(vectorstore: str, text: str):
     username, chatbotname = vectorstore.split("-")[1], vectorstore.split("-")[2]

 from langchain_community.document_loaders import UnstructuredURLLoader
 app = FastAPI(title = "ConversAI", root_path = "/api/v1")
 app.add_middleware(
     CORSMiddleware,
         }
+@app.post("/addImagePDF")
+async def addPDFData(vectorstore: str, pdf: UploadFile = File(...)):
+    pdf = await pdf.read()
+    text = getTextFromImagePDF(pdfBytes = pdf)
+    username, chatbotname = vectorstore.split("-")[1], vectorstore.split("-")[2]
+    df = pd.DataFrame(client.table("ConversAI_ChatbotInfo").select("*").execute().data)
+    currentCount = df[(df["username"] == username) & (df["chatbotname"] == chatbotname)]["charactercount"].iloc[0]
+    limit = client.table("ConversAI_UserConfig").select("tokenLimit").eq("username", username).execute().data[0]["tokenLimit"]
+    newCount = currentCount + len(text)
+    if newCount < int(limit):
+        client.table("ConversAI_ChatbotInfo").update({"charactercount": str(newCount)}).eq("username", username).eq("chatbotname", chatbotname).execute()
+        return addDocuments(text = text, vectorstore = vectorstore)
+    else:
+        return {
+            "output": "DOCUMENT EXCEEDING LIMITS, PLEASE TRY WITH A SMALLER DOCUMENT."
+        }
 @app.post("/addText")
 async def addText(vectorstore: str, text: str):
     username, chatbotname = vectorstore.split("-")[1], vectorstore.split("-")[2]

functions.py CHANGED Viewed

@@ -18,6 +18,9 @@ from langchain.retrievers.document_compressors import FlashrankRerank
 from supabase.client import create_client
 from qdrant_client import QdrantClient
 from langchain_groq import ChatGroq
 from bs4 import BeautifulSoup
 from urllib.parse import urlparse, urljoin
 from supabase import create_client
@@ -37,6 +40,7 @@ vectorEmbeddings = HuggingFaceEmbeddings(
     model_kwargs = model_kwargs,
     encode_kwargs = encode_kwargs
 )
 sparseEmbeddings = FastEmbedSparse(model = "Qdrant/BM25")
 prompt = """
 INSTRUCTIONS:
@@ -282,4 +286,19 @@ def getLinks(url: str, timeout = 30):
             break
         else:
             uniqueLinks = uniqueLinks.union(set(getLinksFromPage(link)))
-    return list(set([x[:len(x) - 1] if x[-1] == "/" else x for x in uniqueLinks]))

 from supabase.client import create_client
 from qdrant_client import QdrantClient
 from langchain_groq import ChatGroq
+from pdf2image import convert_from_bytes
+import numpy as np
+from paddleocr import PaddleOCR
 from bs4 import BeautifulSoup
 from urllib.parse import urlparse, urljoin
 from supabase import create_client
     model_kwargs = model_kwargs,
     encode_kwargs = encode_kwargs
 )
+ocr = PaddleOCR(use_angle_cls=True, lang='en')
 sparseEmbeddings = FastEmbedSparse(model = "Qdrant/BM25")
 prompt = """
 INSTRUCTIONS:
             break
         else:
             uniqueLinks = uniqueLinks.union(set(getLinksFromPage(link)))
+    return list(set([x[:len(x) - 1] if x[-1] == "/" else x for x in uniqueLinks]))
+def getTextFromImagePDF(pdfBytes):
+    global ocr
+    allImages = convert_from_bytes(pdfBytes)
+    allImages = [np.array(image) for image in allImages]
+    pageWiseText = []
+    for page in allImages:
+        result = ocr.ocr(page)
+        if result[0]:
+            retrievedText = "\n".join([result[0][x][1][0] for x in range(len(result[0]))])
+        else:
+            retrievedText = ""
+    pageWiseText.append(retrievedText)
+    return "\n\n\n".join(pageWiseText)

requirements.txt CHANGED Viewed

@@ -12,10 +12,14 @@ langchain-qdrant
 langchain-groq
 langsmith
 lxml
 PyPDF2
 python-dotenv
 pydantic
 pandas
 sentence-transformers
 supabase
 unstructured

 langchain-groq
 langsmith
 lxml
+numpy
 PyPDF2
 python-dotenv
 pydantic
 pandas
+paddlepaddle-gpu
+paddleocr
+pdf2image
 sentence-transformers
 supabase
 unstructured