Experiment

Runtime error

App Files Files Community

Raghav001 commited on Apr 26, 2023

Commit

7558fdd

1 Parent(s): 8bb5a1a

PPTx Feature

Browse files

Files changed (1) hide show

app.py +38 -10

app.py CHANGED Viewed

@@ -10,6 +10,12 @@ from cnocr import CnOcr
 # from langchain.document_loaders import PyPDFLoader
 from langchain.document_loaders import UnstructuredWordDocumentLoader
 from sentence_transformers import SentenceTransformer, models, util
 word_embedding_model = models.Transformer('sentence-transformers/all-MiniLM-L6-v2', do_lower_case=True)
 pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension(), pooling_mode='cls')
@@ -109,32 +115,54 @@ def get_response(msg, bot, doc_text_list, doc_embeddings):
 def up_file(fls):
     doc_text_list = []
-    names = []
     for i in fls:
         names.append(str(i.name))
-    files = []
     docs = []
     for i in names:
         if(i[-3:] == "pdf"):
-            files.append(i)
-        else:
             docs.append(i)
     for i in docs:
-        loader = UnstructuredWordDocumentLoader(i, mode="elements")
         data = loader.load()
         content = str(data).split("'")
         cnt = content[1]
-        c = cnt.split('\\n\\n')
-        final = "".join(c)
-        doc_text_list.append(final)
-    for idx, file in enumerate(files):
         print("11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111")
         #print(file.name)
         with pdfplumber.open(file) as pdf:

 # from langchain.document_loaders import PyPDFLoader
 from langchain.document_loaders import UnstructuredWordDocumentLoader
+from langchain.document_loaders import UnstructuredPowerPointLoader
+from langchain.document_loaders.image import UnstructuredImageLoader
 from sentence_transformers import SentenceTransformer, models, util
 word_embedding_model = models.Transformer('sentence-transformers/all-MiniLM-L6-v2', do_lower_case=True)
 pooling_model = models.Pooling(word_embedding_model.get_word_embedding_dimension(), pooling_mode='cls')
 def up_file(fls):
     doc_text_list = []
+    names = []
     for i in fls:
         names.append(str(i.name))
+    pdf = []
     docs = []
+    pptx = []
     for i in names:
         if(i[-3:] == "pdf"):
+            pdf.append(i)
+        elif(i[-4:] == "docx"):
             docs.append(i)
+        else:
+            pptx.append(i)
+    #pptx Extracting
     for i in docs:
+        loader = UnstructuredPowerPointLoader(i)
         data = loader.load()
         content = str(data).split("'")
         cnt = content[1]
+        # c = cnt.split('\\n\\n')
+        # final = "".join(c)
+        c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
+        doc_text_list.append(c)
+    #Doc Extracting
+    for i in docs:
+        loader = UnstructuredWordDocumentLoader(i)
+        data = loader.load()
+        content = str(data).split("'")
+        cnt = content[1]
+        # c = cnt.split('\\n\\n')
+        # final = "".join(c)
+        c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
+        doc_text_list.append(c)
+    #Pdf Extracting
+    for idx, file in enumerate(pdf):
         print("11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111")
         #print(file.name)
         with pdfplumber.open(file) as pdf: