Spaces:

DoazInc
/

ComparePDFs

Runtime error

App Files Files Community

viboognesh commited on Aug 29, 2024

Commit

748d430

verified ·

1 Parent(s): 3073f86

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -14

app.py CHANGED Viewed

@@ -2,6 +2,9 @@ import streamlit as st
 from PyPDF2 import PdfReader
 from anthropic import Anthropic
 from prompts import DIFFERENTIATE_PROMPT
 def extract_differences(input_text):
         input_text = input_text.strip()
@@ -44,23 +47,53 @@ def get_llm_response(extractedtext1, extractedtext2):
     message_text = message.content[0].text
     try:
-        before_differences = message_text.split("<differences>")[0]
-        after_differences = message_text.split("</differences>")[1]
-        differences_list = extract_differences(message_text.split("<differences>")[1].split("</differences>")[0].strip())
     except Exception as e:
         print("Error:", e)
         return message_text, []
-    difference_content = "\n\n\n".join([f"**Text1:**\n\n{d['text1']}\n\n**Text2:**\n\n{d['text2']}\n\n**Explanation:**\n\n{d['explanation']}\n\n----------------------" for d in differences_list])
-    display_text = f"{before_differences}\n\n{difference_content}\n\n{after_differences}"
     return display_text, differences_list
 def extract_text_with_pypdf(pdf_path):
     reader = PdfReader(pdf_path)
-    text = ""
     for page in reader.pages:
-        text += page.extract_text() + "\n"
     return text
@@ -87,10 +120,10 @@ def main():
             extracted_text1 = extract_text_with_pypdf(uploaded_file1)
             extracted_text2 = extract_text_with_pypdf(uploaded_file2)
             with col1.expander(filename1):
-                st.write("\n\n".join(extracted_text1.splitlines()))
             with col2.expander(filename2):
-                st.write("\n\n".join(extracted_text2.splitlines()))
             st.success(f"Content of files **{filename1}** and **{filename2}** have been extracted successfully.")
         except Exception as e:
@@ -99,13 +132,21 @@ def main():
         # Add button at the bottom to run Find Differences function
         if st.button("Find Differences"):
             try:
-                display_text, parsed_data = get_llm_response(extracted_text1, extracted_text2)
-                display_text1 = extracted_text1
-                display_text2 = extracted_text2
                 for diff in parsed_data:
                     diff_text1 = diff['text1'].strip()
-                    diff_text2 = diff['text2'].strip()
                     diff_text1_phrase = "\n".join([f"<span style='background-color: grey;'>{t}</span>" for t in diff_text1.splitlines()])
                     diff_text2_phrase = "\n".join([f"<span style='background-color: grey;'>{t}</span>" for t in diff_text2.splitlines()])
                     display_text1 = diff_text1_phrase.join(display_text1.split(diff_text1)) if diff_text1 in display_text1 else display_text1
@@ -121,4 +162,4 @@ def main():
                 st.error(f"Error finding differences: {str(e)}")
 if __name__ == "__main__":
-    main()

 from PyPDF2 import PdfReader
 from anthropic import Anthropic
 from prompts import DIFFERENTIATE_PROMPT
+from concurrent.futures import ProcessPoolExecutor
 def extract_differences(input_text):
         input_text = input_text.strip()
     message_text = message.content[0].text
     try:
+        try:
+            before_differences = message_text.split("<differences>")[0]
+            after_differences = message_text.split("</differences>")[1]
+            differences_list = extract_differences(message_text.split("<differences>")[1].split("</differences>")[0].strip())
+        except Exception as e:
+            differences_list = extract_differences(message_text)
     except Exception as e:
         print("Error:", e)
         return message_text, []
+    difference_content = "\n\n\n".join([f"**Text1:**\n\n{d['text1']}\n\n**Text2:**\n\n{d['text2']}\n\n**Explanation:**\n\n{d['explanation']}\n\n----------------------\n" for d in differences_list])
+    # display_text = f"{before_differences}\n\n{difference_content}\n\n{after_differences}"
+    display_text = difference_content
     return display_text, differences_list
+def process_text_pair(pair):
+    etext1, etext2 = pair
+    dtext, pdata = get_llm_response(etext1, etext2)
+    return dtext, pdata
+def process_concurrently(extracted_text1, extracted_text2):
+    # Create a pool of worker processes
+    with ProcessPoolExecutor(max_workers=5) as executor:
+        # Submit tasks to the pool
+        futures = [executor.submit(process_text_pair, (etext1, etext2))
+                   for etext1, etext2 in zip(extracted_text1, extracted_text2)]
+        # Collect results
+        display_text = ""
+        parsed_data = []
+        for future in futures:
+            result = future.result()
+            display_text += result[0]
+            parsed_data += result[1]
+    # Combine results
+    # display_text = ''.join(display_texts)
+    # parsed_data = ''.join(parsed_datas)
+    return display_text, parsed_data
 def extract_text_with_pypdf(pdf_path):
     reader = PdfReader(pdf_path)
+    text = []
     for page in reader.pages:
+        text.append(page.extract_text())
     return text
             extracted_text1 = extract_text_with_pypdf(uploaded_file1)
             extracted_text2 = extract_text_with_pypdf(uploaded_file2)
             with col1.expander(filename1):
+                st.write("\n\n".join("\n\n------------------------\n\n".join(extracted_text1).splitlines()))
             with col2.expander(filename2):
+                st.write("\n\n".join("\n\n------------------------\n\n".join(extracted_text2).splitlines()))
             st.success(f"Content of files **{filename1}** and **{filename2}** have been extracted successfully.")
         except Exception as e:
         # Add button at the bottom to run Find Differences function
         if st.button("Find Differences"):
             try:
+                display_text = ""
+                parsed_data = []
+                # for etext1, etext2 in zip(extracted_text1, extracted_text2):
+                #     dtext, pdata = get_llm_response(etext1, etext2)
+                #     display_text += dtext
+                #     parsed_data += pdata
+                display_text, parsed_data = process_concurrently(extracted_text1, extracted_text2)
+                # display_text, parsed_data = get_llm_response(extracted_text1, extracted_text2)
+                display_text1 = "\n\n------------------------\n\n".join(extracted_text1)
+                display_text2 = "\n\n------------------------\n\n".join(extracted_text2)
                 for diff in parsed_data:
                     diff_text1 = diff['text1'].strip()
+                    diff_text2 = diff['text2'].strip()
+                    if diff_text1 == "" or diff_text2 == "": continue
                     diff_text1_phrase = "\n".join([f"<span style='background-color: grey;'>{t}</span>" for t in diff_text1.splitlines()])
                     diff_text2_phrase = "\n".join([f"<span style='background-color: grey;'>{t}</span>" for t in diff_text2.splitlines()])
                     display_text1 = diff_text1_phrase.join(display_text1.split(diff_text1)) if diff_text1 in display_text1 else display_text1
                 st.error(f"Error finding differences: {str(e)}")
 if __name__ == "__main__":
+    main()