url-scraper

Paused

App Files Files Community

url-scraper / app.py

NanobotzAI

Update app.py

97ec75c verified about 1 year ago

raw

history blame contribute delete

11.8 kB

	from flask import Flask, request, jsonify
	from scrapy import Spider, Request
	from scrapy.crawler import CrawlerRunner
	from scrapy.utils.project import get_project_settings
	from twisted.internet import reactor
	from twisted.internet.defer import inlineCallbacks, returnValue, Deferred
	from urllib.parse import urljoin, urlparse
	import json
	import threading
	import time
	import logging
	import traceback
	from queue import Queue
	from functools import wraps

	# Configure logging
	logging.basicConfig(
	level=logging.INFO,
	format='%(asctime)s - %(levelname)s - %(message)s',
	datefmt='%Y-%m-%d %H:%M:%S'
	)
	logger = logging.getLogger(__name__)

	app = Flask(__name__)

	# Thread-safe queue for results
	result_queue = Queue()

	class URLSpider(Spider):
	name = 'url_spider'
	found_urls = set() # Class variable to store all found URLs

	def __init__(self, start_url=None, max_urls=10, args, *kwargs):
	super(URLSpider, self).__init__(args, *kwargs)
	self.start_urls = [start_url]
	self.allowed_domain = urlparse(start_url).netloc
	self.max_urls = max_urls
	self.url_count = 0
	logger.info(f"Starting spider for URL: {start_url} with max_urls={max_urls}")

	def start_requests(self):
	for url in self.start_urls:
	yield Request(url, callback=self.parse, dont_filter=True, errback=self.handle_error)

	def handle_error(self, failure):
	logger.error(f"Request failed: {failure.value}")
	return None

	def parse(self, response):
	try:
	if self.url_count >= self.max_urls:
	logger.info(f"Reached maximum URL limit ({self.max_urls}). Stopping crawl.")
	return

	links = response.css('a::attr(href)').getall()
	logger.info(f"Found {len(links)} links on {response.url}")

	for link in links:
	if self.url_count >= self.max_urls:
	return

	absolute_url = urljoin(response.url, link)
	parsed_url = urlparse(absolute_url)

	if parsed_url.netloc == self.allowed_domain and absolute_url not in self.found_urls:
	self.found_urls.add(absolute_url)
	self.url_count += 1
	logger.info(f"Found URL ({self.url_count}/{self.max_urls}): {absolute_url}")

	if self.url_count < self.max_urls:
	logger.info(f"Following link: {absolute_url}")
	yield Request(absolute_url, callback=self.parse, errback=self.handle_error)
	except Exception as e:
	logger.error(f"Error in parse method: {str(e)}")
	traceback.print_exc()

	def run_spider(url, max_urls):
	try:
	settings = get_project_settings()
	settings.update({
	'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
	'LOG_ENABLED': True,
	'LOG_LEVEL': 'INFO',
	'ROBOTSTXT_OBEY': True,
	'CONCURRENT_REQUESTS': 16,
	'DOWNLOAD_TIMEOUT': 30,
	'RETRY_TIMES': 3,
	})

	runner = CrawlerRunner(settings)

	# Create a deferred to store the results
	results = {'urls': set()}

	def crawler_callback(result):
	try:
	# Get URLs from the spider's class variable
	urls = list(URLSpider.found_urls)
	logger.info(f"Crawling completed. Found {len(urls)} URLs.")

	# Put the results in the queue
	result_queue.put({
	'status': 'success',
	'urls': urls,
	'count': len(urls)
	})
	return result
	except Exception as e:
	logger.error(f"Error in crawler_callback: {str(e)}")
	traceback.print_exc()
	result_queue.put({
	'status': 'error',
	'error': str(e),
	'urls': []
	})
	return result

	# Run the spider
	logger.info("Starting crawler...")
	try:
	deferred = runner.crawl(URLSpider, start_url=url, max_urls=max_urls)
	deferred.addCallback(crawler_callback)
	deferred.addErrback(lambda f: result_queue.put({
	'status': 'error',
	'error': str(f.value),
	'urls': []
	}))
	return deferred
	except Exception as e:
	logger.error(f"Error starting crawler: {str(e)}")
	traceback.print_exc()
	result_queue.put({
	'status': 'error',
	'error': str(e),
	'urls': []
	})
	return None
	except Exception as e:
	logger.error(f"Error in run_spider: {str(e)}")
	traceback.print_exc()
	result_queue.put({'error': str(e)})

	@app.route('/scrape', methods=['POST'])
	def scrape_url():
	try:
	data = request.get_json()
	if not data:
	logger.error("No JSON data provided in request")
	return jsonify({'error': 'No JSON data provided'}), 400

	url = data.get('url')
	max_urls = data.get('max_urls', 50)

	if not url:
	logger.error("No URL provided in request")
	return jsonify({'error': 'URL is required'}), 400

	logger.info(f"Received scrape request for URL: {url} with max_urls={max_urls}")

	# Run the spider in the reactor thread
	reactor.callFromThread(run_spider, url, max_urls)

	# Wait for results with timeout
	try:
	result = result_queue.get(timeout=60)
	if 'error' in result:
	logger.error(f"Scraping error: {result['error']}")
	return jsonify({'error': 'Failed to scrape URL', 'details': {'error': result['error']}}), 500
	return jsonify(result)
	except Exception as e:
	logger.error(f"Timeout waiting for results: {str(e)}")
	return jsonify({'error': 'Scraping timed out'}), 500

	except Exception as e:
	logger.error(f"Error during scraping: {str(e)}")
	traceback.print_exc()
	return jsonify({'error': str(e)}), 500

	@app.route('/health', methods=['GET'])
	def health_check():
	return jsonify({'status': 'ok'})

	def run_reactor():
	reactor.run(installSignalHandlers=False)

	# Start reactor in a separate thread when the app starts
	if not reactor.running:
	reactor_thread = threading.Thread(target=run_reactor, daemon=True)
	reactor_thread.start()

	class ContentSpider(Spider):
	name = 'content_spider'
	content_results = {} # Class variable to store content results

	def __init__(self, urls=None, args, *kwargs):
	super(ContentSpider, self).__init__(args, *kwargs)
	self.start_urls = urls if urls else []
	logger.info(f"Starting content spider for {len(self.start_urls)} URLs")

	def parse(self, response):
	try:
	# Extract title
	title = response.css('title::text').get() or ''

	# Extract main content (this is a simple example, adjust selectors as needed)
	content = ' '.join(response.css('p::text, h1::text, h2::text, h3::text, h4::text, h5::text, h6::text').getall())

	# Store the result
	self.content_results[response.url] = {
	'title': title,
	'content': content[:20000] + '...' if len(content) > 20000 else content, # Limit content length
	'status': 'success'
	}

	logger.info(f"Scraped content from {response.url}")
	except Exception as e:
	logger.error(f"Error scraping content from {response.url}: {str(e)}")
	self.content_results[response.url] = {
	'title': '',
	'content': '',
	'status': 'error',
	'error': str(e)
	}

	def run_content_spider(urls):
	try:
	settings = get_project_settings()
	settings.update({
	'USER_AGENT': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
	'LOG_ENABLED': True,
	'LOG_LEVEL': 'INFO',
	'ROBOTSTXT_OBEY': True,
	'CONCURRENT_REQUESTS': 16,
	'DOWNLOAD_TIMEOUT': 30,
	'RETRY_TIMES': 3,
	})

	runner = CrawlerRunner(settings)

	def content_crawler_callback(result):
	try:
	# Get content results from the spider's class variable
	content_results = ContentSpider.content_results
	logger.info(f"Content scraping completed for {len(content_results)} URLs.")

	# Put the results in the queue
	result_queue.put({
	'status': 'success',
	'results': content_results
	})
	return result
	except Exception as e:
	logger.error(f"Error in content_crawler_callback: {str(e)}")
	traceback.print_exc()
	result_queue.put({
	'status': 'error',
	'error': str(e),
	'results': {}
	})
	return result

	# Run the spider
	logger.info("Starting content crawler...")
	try:
	deferred = runner.crawl(ContentSpider, urls=urls)
	deferred.addCallback(content_crawler_callback)
	deferred.addErrback(lambda f: result_queue.put({
	'status': 'error',
	'error': str(f.value),
	'results': {}
	}))
	return deferred
	except Exception as e:
	logger.error(f"Error starting content crawler: {str(e)}")
	traceback.print_exc()
	result_queue.put({
	'status': 'error',
	'error': str(e),
	'results': {}
	})
	return None
	except Exception as e:
	logger.error(f"Error in run_content_spider: {str(e)}")
	traceback.print_exc()
	result_queue.put({'error': str(e)})

	@app.route('/scrape-content', methods=['POST'])
	def scrape_content():
	try:
	data = request.get_json()
	if not data:
	logger.error("No JSON data provided in request")
	return jsonify({'error': 'No JSON data provided'}), 400

	urls = data.get('urls', [])
	if not urls:
	logger.error("No URLs provided in request")
	return jsonify({'error': 'URLs are required'}), 400

	logger.info(f"Received content scrape request for {len(urls)} URLs")

	# Run the content spider in the reactor thread
	reactor.callFromThread(run_content_spider, urls)

	# Wait for results with timeout
	try:
	result = result_queue.get(timeout=60)
	if 'error' in result:
	logger.error(f"Content scraping error: {result['error']}")
	return jsonify({'error': 'Failed to scrape content', 'details': {'error': result['error']}}), 500
	return jsonify(result)
	except Exception as e:
	logger.error(f"Timeout waiting for content results: {str(e)}")
	return jsonify({'error': 'Content scraping timed out'}), 500

	except Exception as e:
	logger.error(f"Error during content scraping: {str(e)}")
	traceback.print_exc()
	return jsonify({'error': str(e)}), 500

	if __name__ == '__main__':
	logger.info("Starting URL Scraper API on port 5001")
	app.run(host='0.0.0.0', port=5001, threaded=True, use_reloader=False)