Spaces:

LianHP
/

Web_page_data_html

Sleeping

App Files Files Community

LianHP commited on Dec 9, 2025

Commit

530143f

verified ·

1 Parent(s): eed5224

Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

.gradio/certificate.pem +31 -0
README.md +3 -9
app.py +95 -0
requirements.txt +3 -0

.gradio/certificate.pem ADDED Viewed

	@@ -0,0 +1,31 @@

+-----BEGIN CERTIFICATE-----
+MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
+TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
+cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
+WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
+ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
+MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
+h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
+0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
+A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
+T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
+B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
+B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
+KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
+OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
+jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
+qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
+rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
+HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
+hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
+ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
+3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
+NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
+ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
+TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
+jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
+oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
+4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
+mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
+emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
+-----END CERTIFICATE-----

README.md CHANGED Viewed

@@ -1,12 +1,6 @@
 ---
-title: Web Page Data Html
-emoji: 🐨
-colorFrom: blue
-colorTo: green
-sdk: gradio
-sdk_version: 6.0.2
 app_file: app.py
-pinned: false
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: Web_page_data_html
 app_file: app.py
+sdk: gradio
+sdk_version: 5.47.2
 ---

app.py ADDED Viewed

	@@ -0,0 +1,95 @@

+import re
+import requests
+from bs4 import BeautifulSoup
+import gradio as gr
+def fetch_webpage(url: str) -> str:
+    """Fetch raw HTML from a webpage."""
+    try:
+        response = requests.get(url, timeout=10)
+        response.raise_for_status()
+        return response.text
+    except Exception as e:
+        return f"ERROR: Unable to fetch page -> {e}"
+def extract_company_signals_from_html(html: str):
+    """Extract meaningful company-related fields using simple rule-based patterns."""
+    if html.startswith("ERROR:"):
+        return html, {}
+    soup = BeautifulSoup(html, "html.parser")
+    # Extract visible text
+    text = soup.get_text(separator=" ", strip=True)
+    text = re.sub(r"\s+", " ", text)
+    # --- Example Extractors ---
+    emails = re.findall(r"[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}", text)
+    phones = re.findall(r"\+?\d[\d\-\(\) ]{6,}\d", text)
+    # Detect possible addresses (very simple pattern)
+    address_pattern = r"\d{1,5}\s+[A-Za-z0-9\.\- ]+\s+(Street|St|Rd|Road|Ave|Avenue|Blvd|Lane|Ln|Way|Dr)\b.*"
+    addresses = re.findall(address_pattern, text, flags=re.IGNORECASE)
+    # Social media profile links
+    links = [a.get("href", "") for a in soup.find_all("a")]
+    social = {
+        "linkedin": [l for l in links if "linkedin.com" in l],
+        "facebook": [l for l in links if "facebook.com" in l],
+        "twitter": [l for l in links if "twitter.com" in l],
+        "instagram": [l for l in links if "instagram.com" in l],
+    }
+    # Company name guess (based on <title>)
+    title_tag = soup.title.string.strip() if soup.title and soup.title.string else "Unknown"
+    structured = {
+        "company_name_guess": title_tag,
+        "emails_found": list(set(emails)),
+        "phones_found": list(set(phones)),
+        "possible_addresses": list(set(addresses)),
+        "social_profiles": social,
+    }
+    return text[:2000] + "...", structured  # limit raw text output
+def run_extraction(url: str):
+    """Pipeline: URL -> HTML -> extracted signals."""
+    html = fetch_webpage(url)
+    return extract_company_signals_from_html(html)
+with gr.Blocks() as demo:
+    gr.Markdown(
+        "# Web Company Data Extractor\n"
+        "Enter a company website URL. The app fetches the page and extracts useful "
+        "unstructured company data signals (emails, phones, social links, etc.).\n"
+        "_This is a simple rule-based demo, not a full production parser._"
+    )
+    with gr.Row():
+        url_in = gr.Textbox(
+            label="Company Website URL",
+            placeholder="https://www.example.com"
+        )
+        run_btn = gr.Button("Extract Company Data")
+    raw_text_out = gr.Textbox(
+        label="Extracted Raw Text (truncated)",
+        lines=8
+    )
+    structured_out = gr.JSON(label="Structured Company Data Signals")
+    # IMPORTANT: use run_extraction (URL -> HTML -> signals)
+    run_btn.click(
+        run_extraction,
+        inputs=[url_in],
+        outputs=[raw_text_out, structured_out]
+    )
+if __name__ == "__main__":
+    demo.launch(share=True)

requirements.txt ADDED Viewed

	@@ -0,0 +1,3 @@

+gradio>=4.16.0,<5.0.0
+beautifulsoup4
+requests