Spaces:

Noo88ear
/

Job-Application-Assistant

Runtime error

App Files Files Community

Job-Application-Assistant / agents /context_scaler.py

Noo88ear

🚀 Initial deployment of Multi-Agent Job Application Assistant

7498f2c 6 months ago

raw

history blame contribute delete

17.7 kB

	"""
	Context Scaling System
	Handles length scaling (millions of tokens) and multi-modal/structural scaling
	Implements advanced attention methods and memory techniques from the article
	"""

	import logging
	from typing import Dict, List, Any, Optional, Tuple
	from dataclasses import dataclass
	import numpy as np
	from datetime import datetime
	import heapq

	logger = logging.getLogger(__name__)


	@dataclass
	class ScaledContext:
	"""Context that can scale to millions of tokens"""
	segments: List[str] # Segmented content
	attention_map: np.ndarray # Attention weights for segments
	token_count: int
	compression_level: int # 0=none, 1=light, 2=medium, 3=heavy
	modalities: Dict[str, Any] # Different context modalities


	class AttentionOptimizer:
	"""
	Advanced attention methods for handling extremely long contexts
	Implements sliding window, sparse attention, and hierarchical attention
	"""

	def __init__(self, window_size: int = 512, stride: int = 256):
	self.window_size = window_size
	self.stride = stride

	def sliding_window_attention(
	self,
	context: str,
	query: str,
	max_windows: int = 10
	) -> List[Tuple[str, float]]:
	"""
	Process context using sliding window attention
	Returns relevant windows with attention scores
	"""
	tokens = context.split()
	windows = []

	# Create sliding windows
	for i in range(0, len(tokens) - self.window_size + 1, self.stride):
	window = ' '.join(tokens[i:i + self.window_size])
	score = self._calculate_attention_score(window, query)
	windows.append((window, score))

	# Return top windows
	windows.sort(key=lambda x: x[1], reverse=True)
	return windows[:max_windows]

	def hierarchical_attention(
	self,
	context: str,
	query: str,
	levels: int = 3
	) -> Dict[int, List[str]]:
	"""
	Multi-level hierarchical attention
	Higher levels = more compressed/abstract
	"""
	hierarchy = {}
	current_text = context

	for level in range(levels):
	if level == 0:
	# Finest level - full detail
	hierarchy[level] = self._segment_text(current_text, 500)
	elif level == 1:
	# Middle level - paragraphs/sections
	hierarchy[level] = self._extract_key_sentences(current_text)
	else:
	# Highest level - summary
	hierarchy[level] = [self._generate_summary(current_text)]

	# Compress for next level
	current_text = ' '.join(hierarchy[level])

	return hierarchy

	def sparse_attention(
	self,
	context: str,
	query: str,
	sparsity: float = 0.1
	) -> List[str]:
	"""
	Sparse attention - only attend to most relevant tokens
	Reduces computation from O(n²) to O(n*k)
	"""
	tokens = context.split()
	query_tokens = set(query.lower().split())

	# Calculate relevance for each token
	token_scores = []
	for i, token in enumerate(tokens):
	score = 1.0 if token.lower() in query_tokens else np.random.random() * 0.5
	token_scores.append((i, token, score))

	# Keep only top k% tokens
	k = int(len(tokens) * sparsity)
	top_tokens = heapq.nlargest(k, token_scores, key=lambda x: x[2])

	# Sort by original position to maintain order
	top_tokens.sort(key=lambda x: x[0])

	# Reconstruct sparse context
	sparse_context = []
	last_idx = -1
	for idx, token, score in top_tokens:
	if idx > last_idx + 1:
	sparse_context.append("...")
	sparse_context.append(token)
	last_idx = idx

	return sparse_context

	def _calculate_attention_score(self, window: str, query: str) -> float:
	"""Calculate attention score between window and query"""
	window_words = set(window.lower().split())
	query_words = set(query.lower().split())

	if not query_words:
	return 0.0

	overlap = len(window_words & query_words)
	return overlap / len(query_words)

	def _segment_text(self, text: str, segment_size: int) -> List[str]:
	"""Segment text into chunks"""
	words = text.split()
	segments = []
	for i in range(0, len(words), segment_size):
	segments.append(' '.join(words[i:i + segment_size]))
	return segments

	def _extract_key_sentences(self, text: str) -> List[str]:
	"""Extract key sentences (simplified)"""
	sentences = text.split('.')
	# Keep sentences with more than 10 words (likely more informative)
	key_sentences = [s.strip() + '.' for s in sentences if len(s.split()) > 10]
	return key_sentences[:10] # Top 10 sentences

	def _generate_summary(self, text: str) -> str:
	"""Generate summary (simplified - would use LLM in production)"""
	sentences = text.split('.')[:3] # First 3 sentences as summary
	return '. '.join(sentences) + '.'


	class LengthScaler:
	"""
	Handle context scaling from thousands to millions of tokens
	Maintains coherence across long documents
	"""

	def __init__(self, max_tokens: int = 1000000):
	self.max_tokens = max_tokens
	self.attention_optimizer = AttentionOptimizer()

	def scale_context(
	self,
	context: str,
	query: str,
	target_tokens: int = 2000
	) -> ScaledContext:
	"""Scale context to target token count while maintaining relevance"""

	tokens = context.split()
	current_tokens = len(tokens)

	# Determine compression level needed
	compression_ratio = current_tokens / target_tokens

	if compression_ratio <= 1:
	# No compression needed
	return ScaledContext(
	segments=[context],
	attention_map=np.array([1.0]),
	token_count=current_tokens,
	compression_level=0,
	modalities={}
	)

	# Apply appropriate scaling strategy
	if compression_ratio < 5:
	# Light compression - sliding window
	segments = self._light_compression(context, query, target_tokens)
	compression_level = 1
	elif compression_ratio < 20:
	# Medium compression - hierarchical
	segments = self._medium_compression(context, query, target_tokens)
	compression_level = 2
	else:
	# Heavy compression - sparse attention
	segments = self._heavy_compression(context, query, target_tokens)
	compression_level = 3

	# Calculate attention map
	attention_map = self._calculate_attention_map(segments, query)

	return ScaledContext(
	segments=segments,
	attention_map=attention_map,
	token_count=sum(len(s.split()) for s in segments),
	compression_level=compression_level,
	modalities={}
	)

	def _light_compression(
	self,
	context: str,
	query: str,
	target_tokens: int
	) -> List[str]:
	"""Light compression using sliding windows"""
	windows = self.attention_optimizer.sliding_window_attention(
	context, query, max_windows=target_tokens // 100
	)
	return [w for w, _ in windows]

	def _medium_compression(
	self,
	context: str,
	query: str,
	target_tokens: int
	) -> List[str]:
	"""Medium compression using hierarchical attention"""
	hierarchy = self.attention_optimizer.hierarchical_attention(context, query)

	segments = []
	remaining_tokens = target_tokens

	# Add from each level based on available tokens
	for level in sorted(hierarchy.keys()):
	level_segments = hierarchy[level]
	for segment in level_segments:
	segment_tokens = len(segment.split())
	if segment_tokens <= remaining_tokens:
	segments.append(segment)
	remaining_tokens -= segment_tokens
	if remaining_tokens <= 0:
	break

	return segments

	def _heavy_compression(
	self,
	context: str,
	query: str,
	target_tokens: int
	) -> List[str]:
	"""Heavy compression using sparse attention"""
	sparsity = target_tokens / len(context.split())
	sparse_tokens = self.attention_optimizer.sparse_attention(
	context, query, sparsity=min(sparsity, 0.3)
	)

	# Group sparse tokens into segments
	segments = []
	current_segment = []
	for token in sparse_tokens:
	if token == "...":
	if current_segment:
	segments.append(' '.join(current_segment))
	current_segment = []
	segments.append("...")
	else:
	current_segment.append(token)

	if current_segment:
	segments.append(' '.join(current_segment))

	return segments

	def _calculate_attention_map(
	self,
	segments: List[str],
	query: str
	) -> np.ndarray:
	"""Calculate attention weights for each segment"""
	query_words = set(query.lower().split())
	attention_scores = []

	for segment in segments:
	if segment == "...":
	attention_scores.append(0.0)
	else:
	segment_words = set(segment.lower().split())
	overlap = len(query_words & segment_words)
	score = overlap / max(len(query_words), 1)
	attention_scores.append(score)

	# Normalize
	scores = np.array(attention_scores)
	if scores.sum() > 0:
	scores = scores / scores.sum()

	return scores


	class MultiModalScaler:
	"""
	Handle multi-modal and structural context scaling
	Temporal, spatial, participant states, intentional, cultural
	"""

	def __init__(self):
	self.modality_handlers = {
	'temporal': self._scale_temporal,
	'spatial': self._scale_spatial,
	'participant': self._scale_participant,
	'intentional': self._scale_intentional,
	'cultural': self._scale_cultural
	}

	def scale_multimodal(
	self,
	modalities: Dict[str, Any],
	importance_weights: Optional[Dict[str, float]] = None
	) -> Dict[str, Any]:
	"""Scale multiple modalities based on importance"""

	if importance_weights is None:
	importance_weights = {
	'temporal': 0.3,
	'spatial': 0.1,
	'participant': 0.3,
	'intentional': 0.2,
	'cultural': 0.1
	}

	scaled = {}
	for modality, data in modalities.items():
	if modality in self.modality_handlers:
	weight = importance_weights.get(modality, 0.1)
	scaled[modality] = self.modality_handlers[modality](data, weight)

	return scaled

	def _scale_temporal(self, data: List[Dict], weight: float) -> List[Dict]:
	"""Scale temporal context - keep most recent and important events"""
	# Sort by timestamp
	sorted_data = sorted(data, key=lambda x: x.get('timestamp', datetime.min), reverse=True)

	# Keep based on weight (more weight = more events kept)
	keep_count = max(1, int(len(sorted_data) * weight))
	return sorted_data[:keep_count]

	def _scale_spatial(self, data: Dict, weight: float) -> Dict:
	"""Scale spatial context - simplify based on importance"""
	if weight < 0.3:
	# Low importance - just keep basic location
	return {'location': data.get('primary_location', 'unknown')}
	else:
	# Higher importance - keep more detail
	return data

	def _scale_participant(self, data: Dict, weight: float) -> Dict:
	"""Scale participant states - keep most active participants"""
	if not data:
	return {}

	# Sort by activity level (approximated by state changes)
	participants = []
	for pid, pdata in data.items():
	activity = len(pdata.get('history', []))
	participants.append((pid, pdata, activity))

	participants.sort(key=lambda x: x[2], reverse=True)

	# Keep based on weight
	keep_count = max(1, int(len(participants) * weight))

	return {pid: pdata for pid, pdata, _ in participants[:keep_count]}

	def _scale_intentional(self, data: Dict, weight: float) -> Dict:
	"""Scale intentional context - keep high priority goals"""
	if not data:
	return {}

	# Sort by priority
	goals = [(k, v) for k, v in data.items()]
	goals.sort(key=lambda x: x[1].get('priority', 0), reverse=True)

	# Keep based on weight
	keep_count = max(1, int(len(goals) * weight))

	return {k: v for k, v in goals[:keep_count]}

	def _scale_cultural(self, data: Dict, weight: float) -> Dict:
	"""Scale cultural context - keep if important"""
	if weight < 0.2:
	return {} # Skip if low importance
	return data


	class ContextScalingOrchestrator:
	"""
	Main orchestrator for context scaling
	Combines length and multi-modal scaling
	"""

	def __init__(self, max_context_tokens: int = 100000):
	self.length_scaler = LengthScaler(max_context_tokens)
	self.multimodal_scaler = MultiModalScaler()

	def scale_complete_context(
	self,
	text_context: str,
	multimodal_context: Dict[str, Any],
	query: str,
	target_tokens: int = 2000,
	modality_weights: Optional[Dict[str, float]] = None
	) -> Dict[str, Any]:
	"""
	Scale both text and multi-modal context
	Returns optimally scaled context
	"""

	# Scale text context
	scaled_text = self.length_scaler.scale_context(
	text_context, query, target_tokens
	)

	# Scale multi-modal context
	scaled_multimodal = self.multimodal_scaler.scale_multimodal(
	multimodal_context, modality_weights
	)

	# Combine
	result = {
	'text': {
	'segments': scaled_text.segments,
	'attention_map': scaled_text.attention_map.tolist(),
	'token_count': scaled_text.token_count,
	'compression_level': scaled_text.compression_level
	},
	'multimodal': scaled_multimodal,
	'metadata': {
	'original_tokens': len(text_context.split()),
	'scaled_tokens': scaled_text.token_count,
	'compression_ratio': len(text_context.split()) / max(scaled_text.token_count, 1),
	'modalities_preserved': list(scaled_multimodal.keys())
	}
	}

	return result


	# Demo usage
	def demo_context_scaling():
	"""Demonstrate context scaling capabilities"""

	# Create a very long context
	long_context = " ".join([
	f"Sentence {i} about various topics including AI, engineering, and software development."
	for i in range(10000)
	]) # ~100k tokens

	# Multi-modal context
	multimodal = {
	'temporal': [
	{'event': f'Event {i}', 'timestamp': datetime.now()}
	for i in range(50)
	],
	'participant': {
	f'person_{i}': {'state': 'active', 'history': []}
	for i in range(20)
	},
	'intentional': {
	f'goal_{i}': {'priority': np.random.random()}
	for i in range(10)
	}
	}

	# Scale the context
	orchestrator = ContextScalingOrchestrator()
	scaled = orchestrator.scale_complete_context(
	text_context=long_context,
	multimodal_context=multimodal,
	query="AI engineering position requirements",
	target_tokens=2000
	)

	print(f"Scaling Results:")
	print(f"Original tokens: {scaled['metadata']['original_tokens']}")
	print(f"Scaled tokens: {scaled['metadata']['scaled_tokens']}")
	print(f"Compression ratio: {scaled['metadata']['compression_ratio']:.2f}x")
	print(f"Compression level: {scaled['text']['compression_level']}")
	print(f"Modalities preserved: {scaled['metadata']['modalities_preserved']}")
	print(f"Text segments: {len(scaled['text']['segments'])}")
	print(f"Temporal events kept: {len(scaled['multimodal'].get('temporal', []))}")


	if __name__ == "__main__":
	demo_context_scaling()