Spaces:

ositamiles
/

Spider-crawler

Build error

App Files Files Community

ositamiles commited on Sep 28, 2024

Commit

d445fc3

verified ·

1 Parent(s): 08ceabd

Create app.py

Browse files

Files changed (1) hide show

app.py +59 -0

app.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import streamlit as st
+import scrapy
+from scrapy.crawler import CrawlerProcess
+import pandas as pd
+import io
+class MySpider(scrapy.Spider):
+    name = 'myspider'
+    def __init__(self, start_url=None, *args, **kwargs):
+        super(MySpider, self).__init__(*args, **kwargs)
+        self.start_urls = [start_url]
+    def parse(self, response):
+        # Define your parsing logic here
+        # For example, extracting all text from p tags:
+        for p in response.css('p::text'):
+            yield {'text': p.get()}
+def run_spider(url):
+    process = CrawlerProcess(settings={
+        'FEED_FORMAT': 'csv',
+        'FEED_URI': 'output.csv'
+    })
+    process.crawl(MySpider, start_url=url)
+    process.start()
+def main():
+    st.title('Web Scraper and CSV Generator')
+    # URL input
+    url = st.text_input('Enter the URL to scrape:', 'https://example.com')
+    if st.button('Start Scraping'):
+        if url:
+            with st.spinner('Scraping in progress...'):
+                run_spider(url)
+            st.success('Scraping completed!')
+            # Read the CSV file
+            df = pd.read_csv('output.csv')
+            # Display the data
+            st.write(df)
+            # Provide download link
+            csv = df.to_csv(index=False)
+            b = io.BytesIO(csv.encode())
+            st.download_button(
+                label="Download CSV",
+                data=b,
+                file_name="scraped_data.csv",
+                mime="text/csv"
+            )
+        else:
+            st.error('Please enter a valid URL')
+if __name__ == '__main__':
+    main()