Spaces:

crackbit
/

ai-learning-path-generator

Sleeping

ai-learning-path-generator / src /ml /context_compressor.py

“shubhamdhamal”

Deploy Flask app with Docker

7644eac about 1 month ago

6.21 kB

	"""
	Contextual compression module for reducing token usage in RAG.

	Contextual compression uses an LLM to extract only the most relevant sentences
	from retrieved documents, significantly reducing token count and cost.
	"""
	import os
	from typing import List, Optional
	from langchain.schema import Document
	from openai import OpenAI


	class ContextCompressor:
	"""
	LLM-based contextual compressor for RAG optimization.

	Takes retrieved documents and extracts only the sentences that are
	directly relevant to the user's query, reducing tokens by 40-60%.
	"""

	def __init__(
	self,
	api_key: Optional[str] = None,
	model: str = "gpt-3.5-turbo",
	max_tokens: int = 500
	):
	"""
	Initialize context compressor.

	Args:
	api_key: OpenAI API key
	model: Model to use for compression
	max_tokens: Maximum tokens per compressed chunk
	"""
	self.api_key = api_key or os.getenv("OPENAI_API_KEY")
	self.model = model
	self.max_tokens = max_tokens
	self.client = None

	if self.api_key:
	self.client = OpenAI(api_key=self.api_key)
	print(f"✅ Context compressor initialized (model: {model})")
	else:
	print("❌ OPENAI_API_KEY not set. Compression disabled.")

	def compress(
	self,
	query: str,
	documents: List[Document]
	) -> List[Document]:
	"""
	Compress documents by extracting only relevant content.

	Args:
	query: Original search query
	documents: List of documents to compress

	Returns:
	Compressed documents
	"""
	if not self.client or not documents:
	return documents

	compressed_docs = []
	total_original_tokens = 0
	total_compressed_tokens = 0

	for doc in documents:
	# Estimate original token count (rough: 1 token ≈ 4 chars)
	original_tokens = len(doc.page_content) // 4
	total_original_tokens += original_tokens

	# Skip compression for very short documents
	if original_tokens < 100:
	compressed_docs.append(doc)
	total_compressed_tokens += original_tokens
	continue

	try:
	# Compress the document
	compressed_content = self._compress_single(query, doc.page_content)

	# Create new document with compressed content
	compressed_doc = Document(
	page_content=compressed_content,
	metadata={
	**doc.metadata,
	'compressed': True,
	'original_length': len(doc.page_content),
	'compressed_length': len(compressed_content)
	}
	)

	compressed_docs.append(compressed_doc)

	# Estimate compressed token count
	compressed_tokens = len(compressed_content) // 4
	total_compressed_tokens += compressed_tokens

	except Exception as e:
	print(f"⚠️ Compression failed for document: {e}")
	# Keep original if compression fails
	compressed_docs.append(doc)
	total_compressed_tokens += original_tokens

	# Calculate savings
	if total_original_tokens > 0:
	savings_pct = ((total_original_tokens - total_compressed_tokens) / total_original_tokens) * 100
	print(f"📉 Compressed {total_original_tokens} → {total_compressed_tokens} tokens ({savings_pct:.1f}% reduction)")

	return compressed_docs

	def _compress_single(self, query: str, content: str) -> str:
	"""
	Compress a single document.

	Args:
	query: Search query
	content: Document content

	Returns:
	Compressed content
	"""
	prompt = f"""You are a text compression expert. Extract only the sentences from the following text that are directly relevant to answering this query:

	Query: "{query}"

	Text:
	{content}

	Instructions:
	1. Extract ONLY sentences that directly answer or relate to the query
	2. Preserve the original wording - do not paraphrase
	3. Remove redundant or tangential information
	4. Keep the extracted sentences in their original order
	5. If multiple sentences are relevant, separate them with a space

	Relevant sentences:"""

	try:
	response = self.client.chat.completions.create(
	model=self.model,
	messages=[
	{"role": "system", "content": "You are a helpful assistant that extracts relevant information."},
	{"role": "user", "content": prompt}
	],
	temperature=0.1, # Low temperature for consistency
	max_tokens=self.max_tokens
	)

	compressed = response.choices[0].message.content.strip()

	# If compression resulted in empty or very short text, keep original
	if len(compressed) < 50:
	return content

	return compressed

	except Exception as e:
	print(f"⚠️ Single document compression failed: {e}")
	return content

	def compress_batch(
	self,
	query: str,
	documents: List[Document],
	batch_size: int = 3
	) -> List[Document]:
	"""
	Compress documents in batches for efficiency.

	Args:
	query: Search query
	documents: Documents to compress
	batch_size: Number of documents to compress per API call

	Returns:
	Compressed documents
	"""
	# For now, process individually
	# TODO: Implement true batching for better efficiency
	return self.compress(query, documents)