Spaces:

swamisharan
/

text-sum

Sleeping

App Files Files Community

swamisharan commited on Jan 15, 2024

Commit

1f526ca

verified ·

1 Parent(s): 6a0efd8

Create app.py

Browse files

Files changed (1) hide show

app.py +45 -0

app.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import streamlit as st
+from PyPDF2 import PdfReader
+from gensim import corpora
+from gensim.models import TfidfModel
+import nltk
+nltk.download('punkt')
+from nltk.tokenize import word_tokenize
+import requests
+from io import BytesIO
+from transformers import BartTokenizer, BartForConditionalGeneration, pipeline
+@st.cache(allow_output_mutation=True)
+def load_model():
+    # Load pre-trained model and tokenizer
+    tokenizer = BartTokenizer.from_pretrained('facebook/bart-large-cnn')
+    model = BartForConditionalGeneration.from_pretrained('facebook/bart-large-cnn')
+    return model, tokenizer
+def read_pdf_from_url(url):
+    # Fetch PDF file from URL
+    response = requests.get(url)
+    pdf = PdfReader(BytesIO(response.content))
+    text = "https://huggingface.co/spaces/swamisharan/text-sum/blob/6a0efd87210bbefad5f6640dad9968e96389fcd6/The%20Art%20of%20War.pdf"
+    for page in range(len(pdf.pages)):
+        text += pdf.pages[page].extract_text()
+    return text
+def generate_summary(model, tokenizer, text):
+    # Use the pre-trained model to generate a summary
+    inputs = tokenizer([text], max_length=1024, return_tensors='pt')
+    summary_ids = model.generate(inputs['input_ids'], num_beams=40, max_length=1024, early_stopping=False)
+    summary = [tokenizer.decode(g, skip_special_tokens=True, clean_up_tokenization_spaces=False) for g in summary_ids]
+    return summary
+def main():
+    st.title("PDF Summarizer")
+    pdf_url = st.text_input("Enter the URL of the PDF file:")
+    if pdf_url:
+        model, tokenizer = load_model()
+        text = read_pdf_from_url(pdf_url)
+        summary = generate_summary(model, tokenizer, text)
+        st.write(f"Summary: {summary}")
+if __name__ == '__main__':
+    main()