Spaces:

Omnibus
/

crawl

Paused

Omnibus commited on Feb 28, 2024

Commit

2987ca0

verified ·

1 Parent(s): 2299f1b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -270,31 +270,34 @@ def link_find(url):
         q=("a","p","span","content","article")
         for p in soup.find_all("a"):
             url0=p.get('href')
-            if url0.startswith("//"):
-                print(url0)
-                uri1=url.split("//")[0]
-                #uri2=url.split("//")[1]
-                #uri3=uri2.split("/")[0]
-                #uri=f'{uri1}//{uri3}'
-                uri=f'{uri1}{url0}'
-                #print(uri)
-            elif url0.startswith("/") and not url0.startswith("//"):
-                uri1=url.split("//")[0]
-                uri2=url.split("//")[1]
-                uri3=uri2.split("/")[0]
-                uri=f'{uri1}//{uri3}'
-                uri=f'{uri}{url0}'
-                #print(uri)
-            else:
-                uri=url0
-            node1['LINKS'].append(uri)
-            node1['TREE'].append({"URL":uri,"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","LINKS":[],"TREE":[]})
-            node2['TREE'].append({"URL":uri,"LINKS":[],"TREE":[]})
-            node2['LINKS'].append(uri)
-            #node2['LINK_KEY'].append(uri_key)
-            link_box.append(uri)
-            #out.append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
     else:
         print("NO")
         pass

         q=("a","p","span","content","article")
         for p in soup.find_all("a"):
             url0=p.get('href')
+            try:
+                if url0.startswith("//"):
+                    print(url0)
+                    uri1=url.split("//")[0]
+                    #uri2=url.split("//")[1]
+                    #uri3=uri2.split("/")[0]
+                    #uri=f'{uri1}//{uri3}'
+                    uri=f'{uri1}{url0}'
+                    #print(uri)
+                elif url0.startswith("/") and not url0.startswith("//"):
+                    uri1=url.split("//")[0]
+                    uri2=url.split("//")[1]
+                    uri3=uri2.split("/")[0]
+                    uri=f'{uri1}//{uri3}'
+                    uri=f'{uri}{url0}'
+                    #print(uri)
+                else:
+                    uri=url0
+                node1['LINKS'].append(uri)
+                node1['TREE'].append({"URL":uri,"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","LINKS":[],"TREE":[]})
+                node2['TREE'].append({"URL":uri,"LINKS":[],"TREE":[]})
+                node2['LINKS'].append(uri)
+                #node2['LINK_KEY'].append(uri_key)
+                link_box.append(uri)
+                #out.append({"URL":p.get('href'),"TITLE":p.get('title'),"STRING":p.string,"TEXT":"","TREE":[]})
+            except Exception as e:
+                print (e)
     else:
         print("NO")
         pass