Spaces:

shamim237
/

summarize

Runtime error

App Files Files Community

shamim237 commited on Jan 26, 2023

Commit

ffcb423

1 Parent(s): 774e2fe

Upload 6 files

Browse files

Files changed (7) hide show

.gitattributes +1 -0
app.py +17 -0
chromedriver.exe +3 -0
paraphrase.py +45 -0
requirements.txt +4 -0
scrap.py +17 -0
summary.py +13 -0

.gitattributes CHANGED Viewed

@@ -32,3 +32,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+chromedriver.exe filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import streamlit as st
+from scrap import extract
+from paraphrase import para
+from summary import summarize
+st.title("Let's Summarize!")
+link = st.text_input("Enter a product link from amazon....")
+print(link)
+def process():
+    data = extract(link)
+    #print(data)
+    paras = para(data)
+    summ = summarize(paras)
+    st.success(summ)
+st.button('Extract', on_click=process)
+st.text("Here is the product description...")

chromedriver.exe ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:93af100505b192263d8dba3b9d735e8ba803ce58c45f0b1bee9efe53a3ec831b
+size 12358144

paraphrase.py ADDED Viewed

	@@ -0,0 +1,45 @@

+import re
+import torch
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
+def para(paragraph):
+    model = AutoModelForSeq2SeqLM.from_pretrained("ramsrigouthamg/t5-large-paraphraser-diverse-high-quality")
+    tokenizer = AutoTokenizer.from_pretrained("ramsrigouthamg/t5-large-paraphraser-diverse-high-quality")
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    model = model.to(device)
+    sen = []
+    for i in paragraph:
+        res = len(re.findall(r'\w+', i))
+        if res == 2:
+            pass
+        else:
+            res = i.replace('"', "'").replace("\n", "")
+            sen.append(res)
+    para = []
+    for sentence in sen:
+        text = "paraphrase: " + sentence + " </s>"
+        encoding = tokenizer.encode_plus(text,max_length =1024, padding=True, return_tensors="pt")
+        input_ids,attention_mask  = encoding["input_ids"].to(device), encoding["attention_mask"].to(device)
+        model.eval()
+        beam_outputs = model.generate(
+            input_ids=input_ids,attention_mask=attention_mask,
+            max_length=1024,
+            early_stopping=True,
+            num_beams=15,
+            num_return_sequences=3)
+        #for beam_output in beam_outputs:
+        sent = tokenizer.decode(beam_outputs[2], skip_special_tokens=True,clean_up_tokenization_spaces=True)
+        para.append(sent)
+    paras = []
+    for i in para:
+        resf = i.replace("paraphrasedoutput: ", "")
+        paras.append(resf)
+    return paras

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+selenium==4.8.0
+sentencepiece==0.1.97
+torch==1.13.1
+transformers==4.25.1

scrap.py ADDED Viewed

	@@ -0,0 +1,17 @@

+import time
+from selenium.webdriver import Chrome
+from selenium.webdriver.common.by import By
+def extract(link):
+    url = link
+    driver_path = "./chromedriver.exe"
+    browser = Chrome(executable_path = driver_path)
+    browser.get(url)
+    data = browser.find_element(By.ID,"aplus_feature_div")
+    data = data.text
+    data = data.split("\n")
+    time.sleep(2)
+    return data
+ss = extract("https://www.amazon.com/dp/B09B9TB61G?th=1")
+print(ss)

summary.py ADDED Viewed

	@@ -0,0 +1,13 @@

+import torch
+from transformers import PegasusForConditionalGeneration, AutoTokenizer
+def summarize(passage):
+    txt = " ".join(passage)
+    model_name = 'google/pegasus-cnn_dailymail'
+    device = 'cuda' if torch.cuda.is_available() else 'cpu'
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    model = PegasusForConditionalGeneration.from_pretrained(model_name).to(device)
+    batch = tokenizer(txt, truncation=True, padding='longest', return_tensors="pt").to(device)
+    translated = model.generate(**batch)
+    summy = tokenizer.batch_decode(translated, skip_special_tokens=True)
+    return summy