Spaces:

kritsadaK
/

FinBrief

Running

App Files Files Community

kritsadaK commited on Feb 23, 2025

Commit

d59e674

verified ·

1 Parent(s): 2afc718

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -13

app.py CHANGED Viewed

@@ -11,6 +11,9 @@ os.environ["TORCH_HOME"] = "/home/user/.cache/torch"
 os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"] = "1"
 import torch
 # Set Streamlit page config
 st.set_page_config(page_title="FinBrief: Financial Document Insights", layout="wide")
@@ -160,10 +163,8 @@ def split_into_chunks(text, max_tokens=1024):
     Returns:
         List[str]: A list of text chunks.
     """
-    import nltk
-    from nltk.tokenize import sent_tokenize
-    # Download the Punkt tokenizer if not already downloaded
     nltk.download('punkt', quiet=True)
     sentences = sent_tokenize(text)
@@ -189,6 +190,7 @@ def split_into_chunks(text, max_tokens=1024):
     return chunks
 # Ensure session state is initialized
 if "pdf_text" not in st.session_state:
     st.session_state["pdf_text"] = ""
@@ -285,8 +287,10 @@ else:
     # Step 4: Summarization (Using full text)
     st.subheader("Summarization")
     input_text = st.text_area(
         "Enter text to summarize",
         height=400,
@@ -295,7 +299,8 @@ else:
     if st.button("Summarize"):
         text_to_summarize = input_text.strip()
-        text_to_summarize = re.sub(r'\s+', ' ', text_to_summarize)
         st.write(f"Original text length: {len(text_to_summarize.split())} words")
         if not text_to_summarize:
@@ -305,25 +310,35 @@ else:
                 with st.spinner("Generating summary..."):
                     # Split text into manageable chunks
                     chunks = split_into_chunks(text_to_summarize)
                     summaries = []
                     for i, chunk in enumerate(chunks):
                         st.write(f"Summarizing chunk {i+1}/{len(chunks)}")
                         summary_output = summarizer(
                             chunk,
-                            max_length=150,
-                            min_length=50,
                             do_sample=False,
                             truncation=True
                         )
-                        summary = summary_output[0]['summary_text'].strip()
-                        summaries.append(summary)
-                    # Combine summaries
-                    final_summary = ' '.join(summaries)
-                    st.write("Final Summary:")
-                    st.success(final_summary)
             except Exception as e:
                 st.error(f"Summarization failed: {e}")
-                st.text(traceback.format_exc())

 os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"] = "1"
 import torch
+import nltk
+from nltk.tokenize import sent_tokenize
+import traceback
 # Set Streamlit page config
 st.set_page_config(page_title="FinBrief: Financial Document Insights", layout="wide")
     Returns:
         List[str]: A list of text chunks.
     """
+    # Ensure NLTK 'punkt' resource is downloaded
     nltk.download('punkt', quiet=True)
     sentences = sent_tokenize(text)
     return chunks
 # Ensure session state is initialized
 if "pdf_text" not in st.session_state:
     st.session_state["pdf_text"] = ""
     # Step 4: Summarization (Using full text)
     st.subheader("Summarization")
+    # Display full extracted text
     input_text = st.text_area(
         "Enter text to summarize",
         height=400,
     if st.button("Summarize"):
         text_to_summarize = input_text.strip()
+        text_to_summarize = re.sub(r'\s+', ' ', text_to_summarize)  # Replace multiple whitespaces with a single space
         st.write(f"Original text length: {len(text_to_summarize.split())} words")
         if not text_to_summarize:
                 with st.spinner("Generating summary..."):
                     # Split text into manageable chunks
                     chunks = split_into_chunks(text_to_summarize)
+                    st.write(f"Text has been split into {len(chunks)} chunks.")
                     summaries = []
                     for i, chunk in enumerate(chunks):
                         st.write(f"Summarizing chunk {i+1}/{len(chunks)}")
                         summary_output = summarizer(
                             chunk,
+                            max_length=150,  # Adjust as needed
+                            min_length=50,   # Adjust as needed
                             do_sample=False,
                             truncation=True
                         )
+                        if summary_output and 'summary_text' in summary_output[0]:
+                            summary = summary_output[0]['summary_text'].strip()
+                            summaries.append(summary)
+                        else:
+                            st.error(f"Summarization failed for chunk {i+1}: No summary text returned.")
+                            continue
+                    if summaries:
+                        # Combine summaries
+                        final_summary = ' '.join(summaries)
+                        st.write("Final Summary:")
+                        st.success(final_summary)
+                    else:
+                        st.error("No summaries were generated.")
             except Exception as e:
                 st.error(f"Summarization failed: {e}")
+                st.text(traceback.format_exc())