Experiment

Runtime error

App Files Files Community

Raghav001 commited on Apr 26, 2023

Commit

547bc24

1 Parent(s): 377bd9b

Image Extraction Feature

Browse files

Files changed (1) hide show

app.py +41 -27

app.py CHANGED Viewed

@@ -126,6 +126,7 @@ def up_file(fls):
     pdf = []
     docs = []
     pptx = []
     for i in names:
@@ -133,35 +134,12 @@ def up_file(fls):
             pdf.append(i)
         elif i[-4:] == "docx":
             docs.append(i)
-        else:
             pptx.append(i)
-    #pptx Extracting
-    for i in pptx:
-        loader = UnstructuredPowerPointLoader(i)
-        data = loader.load()
-        content = str(data).split("'")
-        cnt = content[1]
-        # c = cnt.split('\\n\\n')
-        # final = "".join(c)
-        c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
-        doc_text_list.append(c)
-    #Doc Extracting
-    for i in docs:
-        loader = UnstructuredWordDocumentLoader(i)
-        data = loader.load()
-        content = str(data).split("'")
-        cnt = content[1]
-        # c = cnt.split('\\n\\n')
-        # final = "".join(c)
-        c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
-        doc_text_list.append(c)
     #Pdf Extracting
     for idx, file in enumerate(pdf):
         print("11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111")
@@ -198,6 +176,42 @@ def up_file(fls):
                         res_list.append(str(df))
                 doc_text_list += res_list
     doc_text_list = [str(text).strip() for text in doc_text_list if len(str(text).strip()) > 0]
     # print(doc_text_list)
     return gr.Textbox.update(value='\n'.join(doc_text_list), visible=True), gr.Button.update(
@@ -211,7 +225,7 @@ def up_file(fls):
 with gr.Blocks(css=".gradio-container {background-color: #f7f377}, footer {visibility: hidden}") as demo:
     with gr.Row():
         with gr.Column():
-            file = gr.File(file_types=['.pptx','.docx','.pdf'], label='Click to upload Document', file_count='multiple')
             doc_bu = gr.Button(value='Submit', visible=False)

     pdf = []
     docs = []
     pptx = []
+    jpg = []
     for i in names:
             pdf.append(i)
         elif i[-4:] == "docx":
             docs.append(i)
+        elif i[-4:] == "pptx":
             pptx.append(i)
+        else:
+            jpg.append(i)
     #Pdf Extracting
     for idx, file in enumerate(pdf):
         print("11111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111111")
                         res_list.append(str(df))
                 doc_text_list += res_list
+        #pptx Extracting
+    for i in pptx:
+        loader = UnstructuredPowerPointLoader(i)
+        # data = loader.load()
+        # content = str(data).split("'")
+        # cnt = content[1]
+        # # c = cnt.split('\\n\\n')
+        # # final = "".join(c)
+        # c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
+        doc_text_list.append(data)
+    #Doc Extracting
+    for i in docs:
+        loader = UnstructuredWordDocumentLoader(i)
+        # data = loader.load()
+        # content = str(data).split("'")
+        # cnt = content[1]
+        # # c = cnt.split('\\n\\n')
+        # # final = "".join(c)
+        # c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
+        doc_text_list.append(data)
+    #Image Extraction
+    for i in jpg:
+        loader = UnstructuredImageLoader(i)
+        # data = loader.load()
+        # content = str(data).split("'")
+        # cnt = content[1]
+        # # c = cnt.split('\\n\\n')
+        # # final = "".join(c)
+        # c = cnt.replace('\\n\\n',"").replace("<PAGE BREAK>","").replace("\t","")
+        doc_text_list.append(data)
     doc_text_list = [str(text).strip() for text in doc_text_list if len(str(text).strip()) > 0]
     # print(doc_text_list)
     return gr.Textbox.update(value='\n'.join(doc_text_list), visible=True), gr.Button.update(
 with gr.Blocks(css=".gradio-container {background-color: #f7f377}, footer {visibility: hidden}") as demo:
     with gr.Row():
         with gr.Column():
+            file = gr.File(file_types=['.jpeg','jpg','.pptx','.docx','.pdf'], label='Click to upload Document', file_count='multiple')
             doc_bu = gr.Button(value='Submit', visible=False)