Spaces:

EE21
/

ToS-Summarization

Running

EmreYY20 commited on Dec 13, 2023

Commit

47639e3

1 Parent(s): 353c1f3

update

Files changed (1) hide show

extractive_model.py CHANGED Viewed

@@ -15,32 +15,24 @@ from sumy.summarizers.text_rank import TextRankSummarizer
 import nltk
 nltk.download('punkt')
-def summarize_pdf_with_textrank(pdf_path, sentences_count=5):
     """
-    Summarizes the content of a PDF file using TextRank algorithm.
     Args:
-    pdf_path (str): Path to the PDF file.
     sentences_count (int): Number of sentences for the summary.
     Returns:
     str: Summarized text.
     """
-    # Extract text from the PDF
-    """
-    pdf_text = ""
-    with open(pdf_path, "rb") as pdf_file:
-        pdf_reader = PyPDF2.PdfReader(pdf_file)
-        for page in pdf_reader.pages:
-            pdf_text += page.extract_text() or ""
-    """
-    # Check if text extraction was successful
-    if not pdf_text.strip():
-        return "Text extraction from PDF failed or PDF is empty."
-    # Create a parser for the extracted text
-    parser = PlaintextParser.from_string(pdf_text, Tokenizer("english"))
     # Use TextRank for summarization
     text_rank_summarizer = TextRankSummarizer()

 import nltk
 nltk.download('punkt')
+def summarize_text_with_textrank(text, sentences_count=5):
     """
+    Summarizes the provided text using TextRank algorithm.
     Args:
+    text (str): Text to summarize.
     sentences_count (int): Number of sentences for the summary.
     Returns:
     str: Summarized text.
     """
+    # Check if the text is not empty
+    if not text.strip():
+        return "Provided text is empty."
+    # Create a parser for the provided text
+    parser = PlaintextParser.from_string(text, Tokenizer("english"))
     # Use TextRank for summarization
     text_rank_summarizer = TextRankSummarizer()