JSON-Crawl

Build error

App Files Files Community

Omnibus commited on Feb 27, 2024

Commit

0d9e44b

verified ·

1 Parent(s): 707168a

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -26

app.py CHANGED Viewed

@@ -2,29 +2,16 @@ import gradio as gr
 import requests
 import bs4
-def sort_doc(text,steps_in=0,control=None):
-    text=str(text)
 ########################################
-    sen_list=get_sen_list(text)
-    key_cnt=len(sen_list)
-    sen_obj_box=[]
-    for ii,ee in enumerate(sen_list):
-        sen_obj=proc_sen(sen_list,ii)
-        sen_obj_box.append(sen_obj)
-    sen_list=sen_obj_box
 ######################################
-    key_cnt=len(sen_obj_box)
     print(key_cnt)
-    #noun_cnt=len(noun_box)
-    #print(noun_cnt)
     if not steps_in:
         control_char=list(control_json['control'])
         char_len=len(control_char)
         n_cnt=0
@@ -49,8 +36,6 @@ def sort_doc(text,steps_in=0,control=None):
         control_val=list(control_json['control'][control_len:])
         val_len=len(control_val)
     json_out={}
     noun_list={}
     step_list=[]
@@ -92,7 +77,7 @@ def sort_doc(text,steps_in=0,control=None):
                 for iii,j in enumerate(step_cont_box):
                     print(j)
                     out_js = out_js+control_char[j]
-                sen_obj=sen_obj_box[i]
                 #sen_obj=proc_sen(sen_list,i)
                 #json_out[out_js]={'nouns':ea}
@@ -106,10 +91,11 @@ def sort_doc(text,steps_in=0,control=None):
                 if big_cnt==key_cnt:
                     print("DONE")
                     go=False
-    noun_list=proc_nouns(json_out)
-    return json_out, noun_list
 def link_find(url):
     out = []
@@ -126,7 +112,7 @@ def link_find(url):
         #out.append(rawp)
         #out.append("HTML fragments: ")
         node1 = {"URL":url,"TITLE":soup.title,"STRING":soup.description,"TEXT":rawt,"LINKS":[],"TREE":[]}
-        node2 = {"URL":url,"LINKS":[],"TREE":[]}
         q=("a","p","span","content","article")
         for p in soup.find_all("a"):
@@ -152,12 +138,14 @@ def link_find(url):
             node1['TREE'].append({"URL":uri,"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","LINKS":[],"TREE":[]})
             node2['TREE'].append({"URL":uri,"LINKS":[],"TREE":[]})
             node2['LINKS'].append(uri)
             #out.append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
     else:
         print("NO")
         pass
     return node1,node2
 #https://huggingface.co/spaces/Omnibus/crawl
@@ -199,7 +187,9 @@ def sitemap(url,level):
                                 print (e)
                 except Exception as e:
                     print (e)
-    return link1,link2
@@ -243,8 +233,9 @@ with gr.Blocks() as app:
                 inp=gr.Textbox(label="URL")
                 level=gr.Slider(minimum=1,maximum=2,step=1,value=1)
             btn=gr.Button()
             outp=gr.JSON()
         with gr.Column(scale=1):
             outmap=gr.JSON()
-    btn.click(sitemap,[inp,level],[outp,outmap])
 app.launch()

 import requests
 import bs4
+def sort_doc(in_list,steps_in=8,control=None):
+    text=str(in_list)
 ########################################
+    sen_list=in_list
 ######################################
+    key_cnt=len(sen_list)
     print(key_cnt)
     if not steps_in:
         control_char=list(control_json['control'])
         char_len=len(control_char)
         n_cnt=0
         control_val=list(control_json['control'][control_len:])
         val_len=len(control_val)
     json_out={}
     noun_list={}
     step_list=[]
                 for iii,j in enumerate(step_cont_box):
                     print(j)
                     out_js = out_js+control_char[j]
+                sen_obj=sen_list[i]
                 #sen_obj=proc_sen(sen_list,i)
                 #json_out[out_js]={'nouns':ea}
                 if big_cnt==key_cnt:
                     print("DONE")
                     go=False
+    #noun_list=proc_nouns(json_out)
+    return json_out
+link_box = []
 def link_find(url):
     out = []
         #out.append(rawp)
         #out.append("HTML fragments: ")
         node1 = {"URL":url,"TITLE":soup.title,"STRING":soup.description,"TEXT":rawt,"LINKS":[],"TREE":[]}
+        node2 = {"URL":url,"LINK_KEY":[],"LINKS":[],"TREE":[]}
         q=("a","p","span","content","article")
         for p in soup.find_all("a"):
             node1['TREE'].append({"URL":uri,"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","LINKS":[],"TREE":[]})
             node2['TREE'].append({"URL":uri,"LINKS":[],"TREE":[]})
             node2['LINKS'].append(uri)
+            #node2['LINK_KEY'].append(uri_key)
+            link_box.append(uri)
             #out.append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
     else:
         print("NO")
         pass
     return node1,node2
 #https://huggingface.co/spaces/Omnibus/crawl
                                 print (e)
                 except Exception as e:
                     print (e)
+        uri_key=sort_doc(uri)
+    return link1,link2,uri_key
                 inp=gr.Textbox(label="URL")
                 level=gr.Slider(minimum=1,maximum=2,step=1,value=1)
             btn=gr.Button()
+            key_json=gr.JSON()
             outp=gr.JSON()
         with gr.Column(scale=1):
             outmap=gr.JSON()
+    btn.click(sitemap,[inp,level],[outp,outmap,key_json])
 app.launch()