Spaces:

ProfessorLeVesseur
/

PDF_Topic_Extraction_Analysis_App

Sleeping

App Files Files Community

ProfessorLeVesseur commited on Apr 9, 2025

Commit

cce5718

verified ·

1 Parent(s): cc08b36

Update app.py

Browse files

Files changed (1) hide show

app.py +32 -9

app.py CHANGED Viewed

@@ -17,6 +17,13 @@ import torch
 # import logging
 # logging.basicConfig(level=logging.INFO)
 # ---------------------------------------------------------------------------------------
 # API Configuration
 # ---------------------------------------------------------------------------------------
@@ -276,19 +283,29 @@ st.title("Choose Your Own Adventure (Topic Extraction) PDF Analysis App")
 uploaded_file = st.file_uploader("Upload PDF file", type=["pdf"])
 if uploaded_file:
-    with st.spinner("Processing PDF..."):
-        images = convert_pdf_to_images(uploaded_file)
-        markdown_texts = []
-        for idx, image in enumerate(images):
-            markdown_text = extract_markdown_from_image(image)
-            markdown_texts.append(markdown_text)
-        df = pd.DataFrame({'Document_Text': markdown_texts})
-    st.success("PDF processed successfully!")
-    # Check if extraction was successful
     if df.empty or df['Document_Text'].isnull().all():
         st.error("No meaningful text extracted from the PDF.")
         st.stop()
@@ -296,6 +313,12 @@ if uploaded_file:
     st.markdown("### Extracted Markdown Preview")
     st.write(df.head())
     # ---------------------------------------------------------------------------------------
     # User Input for Topics
     # ---------------------------------------------------------------------------------------

 # import logging
 # logging.basicConfig(level=logging.INFO)
+if 'pdf_processed' not in st.session_state:
+    st.session_state['pdf_processed'] = False
+if 'markdown_texts' not in st.session_state:
+    st.session_state['markdown_texts'] = []
+if 'df' not in st.session_state:
+    st.session_state['df'] = pd.DataFrame()
 # ---------------------------------------------------------------------------------------
 # API Configuration
 # ---------------------------------------------------------------------------------------
 uploaded_file = st.file_uploader("Upload PDF file", type=["pdf"])
 if uploaded_file:
+    if not st.session_state['pdf_processed']:
+        with st.spinner("Processing PDF..."):
+            images = convert_pdf_to_images(uploaded_file)
+            markdown_texts = []
+            for idx, image in enumerate(images):
+                markdown_text = extract_markdown_from_image(image)
+                markdown_texts.append(markdown_text)
+            df = pd.DataFrame({'Document_Text': markdown_texts})
+            # Save results into session state
+            st.session_state['markdown_texts'] = markdown_texts
+            st.session_state['df'] = df
+            st.session_state['pdf_processed'] = True
+        st.success("PDF processed successfully!")
+    else:
+        st.success("PDF already processed. Using cached results.")
+    # Use cached dataframe for further processing
+    df = st.session_state['df']
     if df.empty or df['Document_Text'].isnull().all():
         st.error("No meaningful text extracted from the PDF.")
         st.stop()
     st.markdown("### Extracted Markdown Preview")
     st.write(df.head())
+if st.button("Reset / Upload New PDF"):
+    st.session_state['pdf_processed'] = False
+    st.session_state['markdown_texts'] = []
+    st.session_state['df'] = pd.DataFrame()
+    st.experimental_rerun()
     # ---------------------------------------------------------------------------------------
     # User Input for Topics
     # ---------------------------------------------------------------------------------------