Spaces:

kritsadaK
/

FinBrief

Sleeping

App Files Files Community

kritsadaK commited on Feb 23, 2025

Commit

5d6cd67

verified ·

1 Parent(s): 4719733

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -7

app.py CHANGED Viewed

@@ -244,6 +244,9 @@ else:
     # Step 4: Summarization (Using full text)
     input_text = st.text_area(
         "Enter text to summarize",
         height=400,
@@ -268,28 +271,35 @@ else:
                         return_tensors="pt"  # Ensure proper tensor formatting for PyTorch
                     )
-                    st.write(f"Tokenized length: {input_tokens['input_ids'].shape[1]} tokens")  # Check final token count
                     # Move tensor to CPU (or change to CUDA if available)
                     device = torch.device("cpu")
                     summarizer.model.to(device)
-                    # Generate summary with strict max_length settings
                     summary_ids = summarizer.model.generate(
                         input_tokens["input_ids"].to(device),
-                        max_length=256,
                         min_length=50,
                         do_sample=False
                     )
                     # Decode output summary
-                    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
-                    st.write("Summary:")
-                    st.success(summary)
             except IndexError:
                 st.error("Summarization failed: Index out of range.")
-                st.write(f"Debugging Info:\n- Original text length: {len(text_to_summarize.split())} words\n- Tokenized length: {input_tokens['input_ids'].shape[1]} tokens")
             except Exception as e:
                 st.error(f"Summarization failed: {e}")

     # Step 4: Summarization (Using full text)
+    st.subheader("Summarization")
+    # Display full extracted text
     input_text = st.text_area(
         "Enter text to summarize",
         height=400,
                         return_tensors="pt"  # Ensure proper tensor formatting for PyTorch
                     )
+                    tokenized_length = input_tokens["input_ids"].shape[1]
+                    st.write(f"Tokenized length: {tokenized_length} tokens")  # Check final token count
                     # Move tensor to CPU (or change to CUDA if available)
                     device = torch.device("cpu")
                     summarizer.model.to(device)
+                    # Generate summary
                     summary_ids = summarizer.model.generate(
                         input_tokens["input_ids"].to(device),
+                        max_length=256,  # Ensure output is within reasonable size
                         min_length=50,
                         do_sample=False
                     )
                     # Decode output summary
+                    summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True).strip()
+                    # **🔹 Print debugging logs**
+                    st.write(f"Generated summary token length: {len(summary.split())} words")
+                    if not summary:
+                        st.error("Summarization failed: The model did not return any output.")
+                    else:
+                        st.write("Summary:")
+                        st.success(summary)
             except IndexError:
                 st.error("Summarization failed: Index out of range.")
+                st.write(f"Debugging Info:\n- Original text length: {len(text_to_summarize.split())} words\n- Tokenized length: {tokenized_length} tokens")
             except Exception as e:
                 st.error(f"Summarization failed: {e}")