Spaces:

kritsadaK
/

FinBrief

Running

App Files Files Community

kritsadaK commited on Feb 23, 2025

Commit

4719733

verified ·

1 Parent(s): 447a5b6

Update app.py

Browse files

Files changed (1) hide show

app.py +22 -13

app.py CHANGED Viewed

@@ -253,7 +253,6 @@ else:
     if st.button("Summarize"):
         text_to_summarize = st.session_state["pdf_text"].strip() if st.session_state["pdf_text"] else input_text.strip()
-        # Debugging: Print text length before processing
         st.write(f"Original text length: {len(text_to_summarize.split())} words")
         if not text_to_summarize:
@@ -261,26 +260,36 @@ else:
         else:
             try:
                 with st.spinner("Generating summary..."):
-                    # Tokenize input and truncate properly
-                    input_tokens = tokenizer.encode(text_to_summarize, truncation=True, max_length=1024)
-                    truncated_text = tokenizer.decode(input_tokens)
-                    # Debugging: Check tokenized text length
-                    st.write(f"Tokenized length: {len(input_tokens)} tokens")
-                    summary = summarizer(
-                        truncated_text,
-                        max_length=256,  # Keep max summary length reasonable
                         min_length=50,
                         do_sample=False
                     )
                     st.write("Summary:")
-                    st.success(summary[0]["summary_text"])
             except IndexError:
                 st.error("Summarization failed: Index out of range.")
-                st.write(f"Debugging Info:\n- Original text length: {len(text_to_summarize.split())} words\n- Tokenized length: {len(input_tokens)} tokens\n- Model: {summarizer.model}")
             except Exception as e:
-                st.error(f"Summarization failed: {e}")

     if st.button("Summarize"):
         text_to_summarize = st.session_state["pdf_text"].strip() if st.session_state["pdf_text"] else input_text.strip()
         st.write(f"Original text length: {len(text_to_summarize.split())} words")
         if not text_to_summarize:
         else:
             try:
                 with st.spinner("Generating summary..."):
+                    # Tokenize and truncate input properly
+                    input_tokens = tokenizer.encode_plus(
+                        text_to_summarize,
+                        truncation=True,
+                        max_length=1024,
+                        return_tensors="pt"  # Ensure proper tensor formatting for PyTorch
+                    )
+                    st.write(f"Tokenized length: {input_tokens['input_ids'].shape[1]} tokens")  # Check final token count
+                    # Move tensor to CPU (or change to CUDA if available)
+                    device = torch.device("cpu")
+                    summarizer.model.to(device)
+                    # Generate summary with strict max_length settings
+                    summary_ids = summarizer.model.generate(
+                        input_tokens["input_ids"].to(device),
+                        max_length=256,
                         min_length=50,
                         do_sample=False
                     )
+                    # Decode output summary
+                    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
                     st.write("Summary:")
+                    st.success(summary)
             except IndexError:
                 st.error("Summarization failed: Index out of range.")
+                st.write(f"Debugging Info:\n- Original text length: {len(text_to_summarize.split())} words\n- Tokenized length: {input_tokens['input_ids'].shape[1]} tokens")
             except Exception as e:
+                st.error(f"Summarization failed: {e}")