Spaces:

Raj718
/

Voucher-Bot

Sleeping

App Files Files Community

Voucher-Bot / comprehensive_address_fix.py

Raj718

Initial commit: NYC Voucher Housing Navigator

dbaeeae 8 months ago

raw

history blame contribute delete

16 kB

	#!/usr/bin/env python3
	"""
	Comprehensive Address Extraction Fix
	Handles Google Maps, JavaScript content, and all address sources
	"""

	def comprehensive_address_extraction():
	"""
	Most comprehensive address extraction script that checks ALL possible sources.
	"""
	return """
	function extractAllAddresses() {
	let allAddresses = [];
	let debug = { sources: {}, raw_content: {} };

	// Function to score address quality
	function scoreAddress(addr) {
	if (!addr \|\| addr.length < 5) return 0;

	let score = 0;
	// Full address with house number + street + borough + state + zip
	if (/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)\s,?\sNY\s+\d{5}/.test(addr)) {
	score = 10;
	}
	// Partial address with house number + street + borough
	else if (/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)/.test(addr)) {
	score = 8;
	}
	// Street with house number
	else if (/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)/.test(addr)) {
	score = 6;
	}
	// Intersection
	else if (addr.includes('near') \|\| addr.includes('&') \|\| addr.includes(' and ')) {
	score = 4;
	}
	// Generic area
	else if (/bronx\|brooklyn\|manhattan\|queens\|staten/i.test(addr)) {
	score = 2;
	}

	return score;
	}

	// 1. Check all text elements for addresses
	function scanAllTextElements() {
	let found = [];
	let allElements = document.querySelectorAll('*');

	for (let el of allElements) {
	if (el.children.length === 0 && el.textContent.trim()) {
	let text = el.textContent.trim();

	// Full address patterns
	let fullMatches = text.match(/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)\s,?\sNY\s*\d{5}?/gi);
	if (fullMatches) {
	fullMatches.forEach(addr => {
	found.push({
	address: addr.trim(),
	source: 'text_scan_full',
	element: el.tagName.toLowerCase(),
	quality: scoreAddress(addr)
	});
	});
	}

	// Partial address patterns
	let partialMatches = text.match(/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)/gi);
	if (partialMatches) {
	partialMatches.forEach(addr => {
	found.push({
	address: addr.trim(),
	source: 'text_scan_partial',
	element: el.tagName.toLowerCase(),
	quality: scoreAddress(addr)
	});
	});
	}
	}
	}

	return found;
	}

	// 2. Check all data attributes and hidden content
	function scanDataAttributes() {
	let found = [];
	let allElements = document.querySelectorAll('*');

	for (let el of allElements) {
	// Check all attributes
	for (let attr of el.attributes \|\| []) {
	if (attr.value && attr.value.length > 10) {
	let matches = attr.value.match(/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)/gi);
	if (matches) {
	matches.forEach(addr => {
	found.push({
	address: addr.trim(),
	source: 'data_attribute',
	attribute: attr.name,
	quality: scoreAddress(addr)
	});
	});
	}
	}
	}
	}

	return found;
	}

	// 3. Check iframe content (Google Maps)
	function scanIframes() {
	let found = [];
	let iframes = document.querySelectorAll('iframe');

	for (let iframe of iframes) {
	if (iframe.src && (iframe.src.includes('maps') \|\| iframe.src.includes('google'))) {
	// Extract from Google Maps URL parameters
	let url = iframe.src;

	// Look for address in URL parameters
	let addressMatch = url.match(/q=([^&]+)/);
	if (addressMatch) {
	let addr = decodeURIComponent(addressMatch[1]);
	if (scoreAddress(addr) > 0) {
	found.push({
	address: addr,
	source: 'google_maps_url',
	quality: scoreAddress(addr)
	});
	}
	}

	// Look for coordinates that might be converted
	let coordMatch = url.match(/[@!](-?\d+\.\d+),(-?\d+\.\d+)/);
	if (coordMatch) {
	found.push({
	address: `Coordinates: ${coordMatch[1]}, ${coordMatch[2]}`,
	source: 'google_maps_coords',
	quality: 3
	});
	}
	}
	}

	return found;
	}

	// 4. Check meta tags and structured data
	function scanMetaData() {
	let found = [];

	// Check meta tags
	let metaTags = document.querySelectorAll('meta[property], meta[name]');
	for (let meta of metaTags) {
	if (meta.content && meta.content.length > 10) {
	let matches = meta.content.match(/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)/gi);
	if (matches) {
	matches.forEach(addr => {
	found.push({
	address: addr.trim(),
	source: 'meta_tag',
	property: meta.getAttribute('property') \|\| meta.getAttribute('name'),
	quality: scoreAddress(addr)
	});
	});
	}
	}
	}

	// Check JSON-LD structured data
	let scripts = document.querySelectorAll('script[type="application/ld+json"]');
	for (let script of scripts) {
	try {
	let data = JSON.parse(script.textContent);
	let dataStr = JSON.stringify(data);
	let matches = dataStr.match(/\d+\s+[A-Za-z\s]+(?:Street\|St\|Avenue\|Ave\|Road\|Rd\|Boulevard\|Blvd\|Drive\|Dr\|Place\|Pl\|Lane\|Ln)\s,?\s(?:Bronx\|Brooklyn\|Manhattan\|Queens\|Staten Island)/gi);
	if (matches) {
	matches.forEach(addr => {
	found.push({
	address: addr.trim(),
	source: 'structured_data',
	quality: scoreAddress(addr)
	});
	});
	}
	} catch (e) {
	// Invalid JSON, skip
	}
	}

	return found;
	}

	// 5. Wait for and check dynamic content
	function scanDynamicContent() {
	return new Promise((resolve) => {
	let found = [];
	let checkCount = 0;
	let maxChecks = 10;

	function checkForNewAddresses() {
	checkCount++;

	// Look for any new address-containing elements
	let newElements = document.querySelectorAll('[data-address], .address, .location, .geo');
	for (let el of newElements) {
	if (el.textContent && el.textContent.trim()) {
	let addr = el.textContent.trim();
	if (scoreAddress(addr) > 0) {
	found.push({
	address: addr,
	source: 'dynamic_content',
	quality: scoreAddress(addr)
	});
	}
	}
	}

	if (checkCount < maxChecks) {
	setTimeout(checkForNewAddresses, 200);
	} else {
	resolve(found);
	}
	}

	checkForNewAddresses();
	});
	}

	// Execute all scanning methods
	try {
	// Immediate scans
	allAddresses = allAddresses.concat(scanAllTextElements());
	allAddresses = allAddresses.concat(scanDataAttributes());
	allAddresses = allAddresses.concat(scanIframes());
	allAddresses = allAddresses.concat(scanMetaData());

	// Store debug info
	debug.sources = {
	text_scan: allAddresses.filter(a => a.source.includes('text_scan')).length,
	data_attributes: allAddresses.filter(a => a.source === 'data_attribute').length,
	google_maps: allAddresses.filter(a => a.source.includes('google_maps')).length,
	meta_data: allAddresses.filter(a => a.source.includes('meta')).length
	};

	// Remove duplicates and sort by quality
	let uniqueAddresses = [];
	let seen = new Set();

	for (let addr of allAddresses) {
	let normalized = addr.address.toLowerCase().replace(/[^\w\s]/g, '');
	if (!seen.has(normalized) && addr.address.length > 5) {
	seen.add(normalized);
	uniqueAddresses.push(addr);
	}
	}

	uniqueAddresses.sort((a, b) => b.quality - a.quality);

	debug.total_candidates = uniqueAddresses.length;
	debug.best_quality = uniqueAddresses.length > 0 ? uniqueAddresses[0].quality : 0;
	debug.all_candidates = uniqueAddresses;

	let bestAddress = uniqueAddresses.length > 0 ? uniqueAddresses[0].address : null;

	return {
	address: bestAddress,
	debug: debug,
	all_candidates: uniqueAddresses
	};

	} catch (error) {
	debug.error = error.toString();
	return {
	address: null,
	debug: debug,
	all_candidates: []
	};
	}
	}

	return extractAllAddresses();
	"""

	def apply_comprehensive_extraction():
	"""Apply comprehensive address extraction to browser agent."""
	import browser_agent

	original_function = browser_agent._get_detailed_data_with_enhanced_address

	def comprehensive_extraction(url):
	"""Enhanced version with comprehensive address extraction."""
	try:
	import helium

	print(f"🔍 Comprehensive address extraction for {url}")
	helium.go_to(url)
	browser_agent._smart_delay(3, 4) # Wait longer for dynamic content

	# Use comprehensive extraction
	extraction_script = comprehensive_address_extraction()
	result = helium.get_driver().execute_script(extraction_script)

	# Get additional data
	additional_script = """
	return {
	price: (document.querySelector('.price') \|\|
	document.querySelector('[class*="price"]') \|\|
	{textContent: 'N/A'}).textContent.trim(),
	description: (document.querySelector('#postingbody') \|\|
	document.querySelector('.postingbody') \|\|
	{textContent: 'N/A'}).textContent.trim(),
	title: (document.querySelector('.postingtitle') \|\|
	{textContent: 'N/A'}).textContent.trim()
	};
	"""
	additional_data = helium.get_driver().execute_script(additional_script)

	# Combine results
	final_result = {
	'address': result.get('address') or 'N/A',
	'price': additional_data.get('price', 'N/A'),
	'description': additional_data.get('description', 'N/A'),
	'title': additional_data.get('title', 'N/A'),
	'debug': result.get('debug', {}),
	'all_candidates': result.get('all_candidates', [])
	}

	# Enhanced logging
	if final_result.get('debug'):
	debug = final_result['debug']
	print(f"📊 Comprehensive scan found {debug.get('total_candidates', 0)} total candidates")
	print(f"🔍 Sources: {debug.get('sources', {})}")
	print(f"🏆 Best quality: {debug.get('best_quality', 0)}")

	if debug.get('all_candidates'):
	print(f"🎯 Top 5 candidates:")
	for i, candidate in enumerate(debug['all_candidates'][:5], 1):
	print(f" {i}. {candidate['address']} (Q:{candidate['quality']}, {candidate['source']})")

	# Validate best address
	if final_result.get('address') and final_result['address'] != 'N/A':
	final_result['address'] = browser_agent._normalize_address(final_result['address'])
	if browser_agent._validate_address(final_result['address']):
	print(f"✅ Best address: {final_result['address']}")
	else:
	print(f"❌ Address validation failed: {final_result['address']}")
	final_result['address'] = 'N/A'

	return final_result

	except Exception as e:
	print(f"Comprehensive extraction failed for {url}: {e}")
	return original_function(url)

	browser_agent._get_detailed_data_with_enhanced_address = comprehensive_extraction
	print("✅ Applied comprehensive address extraction to browser agent")

	if __name__ == "__main__":
	print("🔧 Comprehensive Address Extraction Fix")
	print("Scans ALL possible address sources including Google Maps and dynamic content")