web-scraper

Sleeping

App Files Files Community

siam3310 commited on Jan 17

Commit

40ac7d2

verified ·

1 Parent(s): 3b69fa9

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -38

app.py CHANGED Viewed

@@ -19,10 +19,8 @@ import os
 def scrape_website_content(url: str) -> Tuple[str, str]:
     """
     Scrape a website and return its main content formatted as markdown and a downloadable file path.
     Args:
         url (str): The URL to scrape (can include or omit http/https protocol)
     Returns:
         Tuple[str, str]: The scraped content formatted as markdown, and a file path for download
     """
@@ -444,6 +442,7 @@ def fibwatch_latest_to_originals(url: str) -> Tuple[str, str]:
     except Exception as e:
         return str(e), None
 # Create Gradio interfaces for each function
 def create_mcp_interface():
     """Create Gradio interface that exposes web scraping tools as MCP functions."""
     # Create individual interfaces for each tool
@@ -465,7 +464,8 @@ def create_mcp_interface():
         ],
         title="Website Content Scraper",
         description="Extract and format website content as markdown",
-        api_name="scrape_content"    )
     sitemap_interface = gr.Interface(
         fn=generate_sitemap_for_ui,
@@ -487,6 +487,7 @@ def create_mcp_interface():
         description="Generate a sitemap of all links found on a webpage",
         api_name="generate_sitemap"
     )
     bulk_extract_interface = gr.Interface(
         fn=extract_all_content_for_ui,
         inputs=gr.Textbox(
@@ -505,9 +506,9 @@ def create_mcp_interface():
         ],
         title="Bulk Content Extractor",
         description="Extract text content from all internal links and download as ZIP",
-        api_name="extract_all_content"    )
-    # Enhanced sitemap interface with configurable limits
     sitemap_limited_interface = gr.Interface(
         fn=generate_sitemap_with_limit,
         inputs=[
@@ -538,20 +539,7 @@ def create_mcp_interface():
         api_name="generate_sitemap_limited"
     )
-    # Enhanced bulk extract interface with configurable limits
     bulk_limited_interface = gr.Interface(
-    fibwatch_interface = gr.Interface(
-        fn=fibwatch_latest_to_originals,
-        inputs=gr.Textbox(
-            label="Fibwatch Page",
-            placeholder="https://fibwatch.art/videos/latest?page_id=1"
-        ),
-        outputs=[
-            gr.Textbox(label="Original Links", lines=10),
-            gr.File(label="Download")
-        ],
-        title="Fibwatch Scraper"
-    )
         fn=extract_limited_content_as_zip,
         inputs=[
             gr.Textbox(
@@ -581,29 +569,41 @@ def create_mcp_interface():
         api_name="extract_limited_content"
     )
     # Combine into tabbed interface
-demo = gr.TabbedInterface(
-    [
-        scrape_interface,
-        sitemap_interface,
-        sitemap_limited_interface,
-        bulk_extract_interface,
-        bulk_limited_interface,
-        fibwatch_interface,
-    ],
-    [
-        "Content Scraper",
-        "All Links Sitemap",
-        "Limited Sitemap",
-        "Bulk Extractor",
-        "Limited Bulk Extractor",
-        "Fibwatch Scraper",
-    ],
-    title="🕷️ Web Scraper MCP Server"
-)
     return demo
 if __name__ == "__main__":
     # Create and launch the MCP server
     app = create_mcp_interface()

 def scrape_website_content(url: str) -> Tuple[str, str]:
     """
     Scrape a website and return its main content formatted as markdown and a downloadable file path.
     Args:
         url (str): The URL to scrape (can include or omit http/https protocol)
     Returns:
         Tuple[str, str]: The scraped content formatted as markdown, and a file path for download
     """
     except Exception as e:
         return str(e), None
 # Create Gradio interfaces for each function
+# Create Gradio interfaces for each function
 def create_mcp_interface():
     """Create Gradio interface that exposes web scraping tools as MCP functions."""
     # Create individual interfaces for each tool
         ],
         title="Website Content Scraper",
         description="Extract and format website content as markdown",
+        api_name="scrape_content"
+    )
     sitemap_interface = gr.Interface(
         fn=generate_sitemap_for_ui,
         description="Generate a sitemap of all links found on a webpage",
         api_name="generate_sitemap"
     )
     bulk_extract_interface = gr.Interface(
         fn=extract_all_content_for_ui,
         inputs=gr.Textbox(
         ],
         title="Bulk Content Extractor",
         description="Extract text content from all internal links and download as ZIP",
+        api_name="extract_all_content"
+    )
     sitemap_limited_interface = gr.Interface(
         fn=generate_sitemap_with_limit,
         inputs=[
         api_name="generate_sitemap_limited"
     )
     bulk_limited_interface = gr.Interface(
         fn=extract_limited_content_as_zip,
         inputs=[
             gr.Textbox(
         api_name="extract_limited_content"
     )
+    fibwatch_interface = gr.Interface(
+        fn=fibwatch_latest_to_originals,
+        inputs=gr.Textbox(
+            label="Fibwatch Page",
+            placeholder="https://fibwatch.art/videos/latest?page_id=1"
+        ),
+        outputs=[
+            gr.Textbox(label="Original Links", lines=10),
+            gr.File(label="Download")
+        ],
+        title="Fibwatch Scraper",
+        description="Extract original b-cdn.net links from Fibwatch pages"
+    )
     # Combine into tabbed interface
+    demo = gr.TabbedInterface(
+        [
+            scrape_interface,
+            sitemap_interface,
+            bulk_extract_interface,
+            bulk_limited_interface,
+            fibwatch_interface,
+        ],
+        [
+            "Content Scraper",
+            "All Links Sitemap",
+            "Bulk Extractor",
+            "Limited Bulk Extractor",
+            "Fibwatch Scraper",
+        ],
+        title="🕷️ Web Scraper MCP Server"
+    )
     return demo
 if __name__ == "__main__":
     # Create and launch the MCP server
     app = create_mcp_interface()