Spaces:

Atulit23
/

deceptive-rev

Sleeping

App Files Files Community

Atulit23 commited on Feb 8, 2024

Commit

9fcf5e1

verified ·

1 Parent(s): 69ba60f

Upload folder using huggingface_hub

Browse files

Files changed (2) hide show

app.py +14 -24
flagged/log.csv +2 -0

app.py CHANGED Viewed

@@ -10,6 +10,7 @@ import re, sys
 from tensorflow.keras.models import load_model
 import joblib
 import gradio as gr
 headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36, Opera/9.80 (Windows NT 6.1; WOW64) Presto/2.12.388 Version/12.18'
@@ -76,6 +77,8 @@ def getReviews(soup, site, url):
         text = []
         for t in Review_text_sec:
             text.append(t.text)
         Rating = soup.find_all("div", {"class": ["_3LWZlK _1BLPMq", "_3LWZlK _32lA32 _1BLPMq", "_3LWZlK _1rdVr6 _1BLPMq"]})
         rate = []
@@ -114,6 +117,7 @@ def getReviews(soup, site, url):
         text = []
         for t in Review_text_sec:
             text.append(t.text.replace('\n', ''))
         Rating = soup.find_all(attrs={"data-hook": "review-star-rating"})
         rate = []
@@ -142,7 +146,6 @@ def getReviews(soup, site, url):
     collate_df = pd.DataFrame.from_dict(collate)
     return collate_df
 def preprocess_text(text):
     stemmer = snowballstemmer.EnglishStemmer()
     text = " ".join(stemmer.stemWords(re.sub('[!"#%\'()*+,-./:;<=>?@[\\]^_`{|}~1234567890’”“′‘\\\\]', ' ', text).split(' ')))
@@ -166,10 +169,10 @@ def scraper(url):
     df2 = []
     soup = getsoup(url)
     site = url.split('.')[1]
-    if site == 'flipkart':
-        url = url + '&page=1'
-    elif site == 'amazon':
-        url = url + '&pageNumber=1'
     product = url.split('/')[3]
     lastPage = 1
     urllistPages = geturllist(url, lastPage)
@@ -214,26 +217,13 @@ def scraper(url):
     arr = []
     for i, j in enumerate(argMax):
         if j == 2 or j == 1:
-            arr.append(list(df3['Review_text'])[i])
-    return len(arr)
-# @app.route('/', methods=['GET'])
-# def index():
-#     results = []
-#     if request.args.get('url'):
-#         results = scraper(request.args.get('url'))
-#     return results
-# if __name__ == "__main__":
-#     app.run(debug=True)
 def index(img_url):
-    # results = []
-    # print(img_url)
-    # results =
-    return scraper(img_url)
 inputs_image_url = [
     gr.Textbox(type="text", label="Image URL"),
@@ -254,4 +244,4 @@ interface_image_url = gr.Interface(
 gr.TabbedInterface(
     [interface_image_url],
     tab_names=['Reviews inference']
-).queue().launch()

 from tensorflow.keras.models import load_model
 import joblib
 import gradio as gr
+import json
 headers = {
     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36, Opera/9.80 (Windows NT 6.1; WOW64) Presto/2.12.388 Version/12.18'
         text = []
         for t in Review_text_sec:
             text.append(t.text)
+        print(Review_text_sec)
         Rating = soup.find_all("div", {"class": ["_3LWZlK _1BLPMq", "_3LWZlK _32lA32 _1BLPMq", "_3LWZlK _1rdVr6 _1BLPMq"]})
         rate = []
         text = []
         for t in Review_text_sec:
             text.append(t.text.replace('\n', ''))
+        print(Review_text_sec)
         Rating = soup.find_all(attrs={"data-hook": "review-star-rating"})
         rate = []
     collate_df = pd.DataFrame.from_dict(collate)
     return collate_df
 def preprocess_text(text):
     stemmer = snowballstemmer.EnglishStemmer()
     text = " ".join(stemmer.stemWords(re.sub('[!"#%\'()*+,-./:;<=>?@[\\]^_`{|}~1234567890’”“′‘\\\\]', ' ', text).split(' ')))
     df2 = []
     soup = getsoup(url)
     site = url.split('.')[1]
+    # if site == 'flipkart':
+    #     url = url + '&page=1'
+    # elif site == 'amazon':
+    #     url = url + '&pageNumber=1'
     product = url.split('/')[3]
     lastPage = 1
     urllistPages = geturllist(url, lastPage)
     arr = []
     for i, j in enumerate(argMax):
         if j == 2 or j == 1:
+            arr.append(i)
+    return {'class': 'review-text-content', 'indices': arr}
 def index(img_url):
+    results = scraper(img_url)
+    print(results)
+    return json.dumps(results)
 inputs_image_url = [
     gr.Textbox(type="text", label="Image URL"),
 gr.TabbedInterface(
     [interface_image_url],
     tab_names=['Reviews inference']
+).queue().launch()

flagged/log.csv ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ Image URL,Result Dictionary,flag,username,timestamp
2	+ ,,,,2024-01-30 14:40:30.105261