Spaces:

AlphJain
/

aya-summarization

Sleeping

Alphin Jain

back to normal

1a40b86 9 months ago

13.3 kB

	import logging # Import logging
	import os
	import tempfile
	import time
	from concurrent.futures import ThreadPoolExecutor, as_completed
	from typing import List, Dict, Any, Tuple

	from app.config.settings import DOCS_FOLDER
	# Import classes from the renamed modules
	from app.document_processing.extractors import DocumentProcessorAdapter
	from app.retrieval.vector_store import Retriever
	from app.summarization.output import SummaryOutputManager
	from app.summarization.summarizer import DocumentSummarizer

	# Configure logging for the main script
	logger = logging.getLogger(__name__)



	def process_uploaded_files(uploaded_files) -> List[Dict[str, Any]]:
	"""
	Processes a list of files uploaded via Streamlit.
	Saves them temporarily into a folder and uses the DocumentProcessorAdapter
	to process that folder.

	Args:
	uploaded_files: List of Streamlit UploadedFile objects.
	Type hint is omitted here to avoid needing Streamlit import at top level.

	Returns:
	List of dictionaries with original extraction results, including chunk_size.
	"""
	# Import streamlit here, as it's used for st.warning
	import streamlit as st

	start_time = time.time()
	logger.info(f"Starting processing for {len(uploaded_files)} uploaded files.")

	# Create a temporary directory to save uploaded files
	# This directory will be automatically cleaned up when the 'with' block exits
	with tempfile.TemporaryDirectory() as tmpdir:
	logger.info(f"Using temporary directory: {tmpdir}")
	# Save all uploaded files into the temporary directory
	for uploaded_file in uploaded_files:
	# Create a safe path within the temporary directory
	# Use uploaded_file.name directly, tempfile handles uniqueness if needed
	file_path = os.path.join(tmpdir, uploaded_file.name)
	# Write the file content to the temporary path
	try:
	with open(file_path, "wb") as f:
	f.write(uploaded_file.getvalue())
	logger.debug(f"Saved uploaded file '{uploaded_file.name}' to '{file_path}'")
	except Exception as e:
	logger.error(f"Error saving uploaded file '{uploaded_file.name}' to temporary directory: {e}", exc_info=True)
	# Log a warning in Streamlit if a file couldn't be saved
	st.warning(f"Could not save uploaded file '{uploaded_file.name}' temporarily. It will be skipped.")


	# Use the DocumentProcessorAdapter to process the entire temporary folder
	processor = DocumentProcessorAdapter() # Corrected typo here
	# Call process_folder with the temporary directory path
	extraction_results = processor.process_folder(tmpdir)
	# The process_folder method returns the list of extraction results

	end_time = time.time()
	logger.info(f"Finished processing uploaded files in {end_time - start_time:.2f} seconds.")
	# The extraction_results list now contains dictionaries with 'filename', 'text', 'error', etc.
	return extraction_results


	def setup_retrieval_system(extraction_results: List[Dict[str, Any]]) -> Tuple[List[Dict[str, Any]], Retriever]:
	"""
	Sets up the retrieval system (vector store) from extraction results.

	Args:
	extraction_results: List of dictionaries from document extraction.
	Should contain 'filename' and 'text'.

	Returns:
	A tuple containing:
	- The updated extraction_results list (with 'chunk_size' populated by Retriever).
	- An initialized Retriever instance.
	"""
	start_time = time.time()
	logger.info("Setting up retrieval system.")
	try:
	retriever = Retriever()
	# create_from_documents takes extraction results, chunks text, embeds, and builds the DB.
	# It also updates the extraction_results list with the 'chunk_size' for each document.
	updated_extraction_results = retriever.create_from_documents(extraction_results)
	end_time = time.time()
	logger.info(f"Retriever setup complete in {end_time - start_time:.2f} seconds.")
	return updated_extraction_results, retriever
	except Exception as e:
	end_time = time.time()
	logger.error(f"Error during retrieval system setup: {e}", exc_info=True)
	# If retrieval setup fails, the summarization cannot proceed.
	# Re-raise the exception so the Streamlit app can catch and display it.
	raise


	def summarize_extracted_documents(extraction_results: List[Dict[str, Any]], retriever: Retriever) -> List[Dict[str, Any]]:
	"""
	Summarizes documents based on extraction results and a configured retriever.

	Args:
	extraction_results: List of dictionaries from document extraction (should include chunk_size
	populated by setup_retrieval_system).
	retriever: An initialized Retriever instance.

	Returns:
	A list of dictionaries, each containing the summary result for a file.
	Each dictionary includes:
	- 'filename': The name of the file.
	- 'success': Boolean indicating if summarization was successful.
	- 'summary': The generated summary string (if successful), or None.
	- 'error': An error message string (if not successful), or None.
	- 'processing_time': Time taken for summarization of this file.
	"""
	start_time = time.time()
	logger.info(f"Starting summarization for {len(extraction_results)} documents.")

	# Initialize the summarizer with the retriever
	summarizer = DocumentSummarizer(retriever)

	results = [] # List to store results for each document

	# Filter out results that failed extraction or have no text/chunks
	# Summarization requires extracted text and successful chunking (chunk_size > 0)
	summarizable_results = [
	res for res in extraction_results
	if res.get('text') and res.get('chunk_size', 0) > 0 and res.get('error') is None
	]
	skipped_results = [
	res for res in extraction_results
	if res not in summarizable_results
	]

	if skipped_results:
	logger.warning(f"Skipping summarization for {len(skipped_results)} files due to extraction errors or no text/chunks.")
	for res in skipped_results:
	# Add entries for skipped files to the results list
	results.append({
	'filename': res.get('filename', 'unknown'),
	'success': False,
	'summary': None,
	'error': res.get('error', 'Extraction failed or no text/chunks'),
	'processing_time': 0, # No summarization time for skipped files
	})


	def process_single_summary(result: Dict[str, Any]) -> Dict[str, Any]:
	"""Helper function to summarize a single document result."""
	file_start_time = time.time()
	filename = result.get('filename', 'unknown')
	# Use detected language, default to English if detection failed
	language = result.get('language', 'en')
	chunk_size = result.get('chunk_size', 0) # Should be > 0 for summarizable_results

	logger.info(f"Summarizing document: {filename}")

	try:
	# Call the summarizer for a single document
	# The summerize_document method handles parallel processing of components internally
	summary = summarizer.summerize_document(filename, language, chunk_size)

	file_end_time = time.time()
	logger.info(f"Finished summarizing {filename} in {file_end_time - file_start_time:.2f} seconds.")
	return {
	'filename': filename,
	'success': True,
	'summary': summary, # Return the summary string
	'error': None,
	'processing_time': file_end_time - file_start_time,
	}
	except Exception as e:
	file_end_time = time.time()
	error_msg = str(e)
	logger.error(f"Error summarizing document {filename}: {e}", exc_info=True)
	return {
	'filename': filename,
	'success': False,
	'summary': None,
	'error': error_msg,
	'processing_time': file_end_time - file_start_time,
	}

	with ThreadPoolExecutor(max_workers=None) as executor: # Adjust max_workers as needed
	# Submit summarizable document results to the executor
	futures = {executor.submit(process_single_summary, res): res['filename'] for res in summarizable_results}

	# Process results as they complete
	for future in as_completed(futures):
	filename = futures[future]
	try:
	summary_result = future.result()
	results.append(summary_result)
	logger.debug(f"Summary result received for {filename}")
	except Exception as exc:
	# This catches exceptions within the future's result retrieval
	logger.error(f"Exception retrieving summary result for {filename}: {exc}", exc_info=True)
	results.append({
	'filename': filename,
	'success': False,
	'summary': None,
	'error': f"Failed to retrieve result: {exc}",
	'processing_time': 0, # Can't determine processing time if result retrieval failed
	})

	end_time = time.time()
	logger.info(f"Finished batch summarization in {end_time - start_time:.2f} seconds.")
	return results


	# if __name__ == "__main__":
	# start_time = time.time()
	# logger.info("Starting document summarization process (command line).")
	#
	# try:
	# # Step 1: Process documents from the predefined folder
	# logger.info(f"Processing documents from: {DOCS_FOLDER}")
	# # DocumentProcessorAdapter().process_folder returns a list of extraction result dicts
	# extraction_results = DocumentProcessorAdapter().process_folder(DOCS_FOLDER)
	# logger.info(f"Document Processing Time taken: {time.time()-start_time:.2f} seconds")
	#
	# # Step 2: Setup retrieval system
	# setup_start_time = time.time()
	# # setup_retrieval_system takes extraction results and returns updated results (with chunk_size) and the retriever
	# extraction_results_with_chunks, retriever = setup_retrieval_system(extraction_results)
	# logger.info(f"Retriever Setup Time taken: {time.time() - setup_start_time:.2f} seconds")
	#
	# # Step 3: Summarize the documents
	# summarization_start_time = time.time()
	# # For command line, we might still want to save files locally
	# output_manager = SummaryOutputManager() # Uses default output_dir from settings
	# # summarize_extracted_documents performs the summarization and returns results
	# summary_results = summarize_extracted_documents(extraction_results_with_chunks, retriever)
	#
	# # Step 4: Save summaries to files (for command-line only)
	# logger.info("Saving summaries to files.")
	# saved_count = 0
	# for res in summary_results:
	# if res['success'] and res['summary']:
	# # Use the output_manager to save the summary string
	# output_manager.save_summary(res['filename'], res['summary'], formats=['markdown'])
	# saved_count += 1
	# logger.info(f"Saved {saved_count} summaries.")
	#
	#
	# logger.info(f"Summarization Time taken: {time.time() - summarization_start_time:.2f} seconds")
	#
	#
	# # Output results summary to console
	# logger.info("\n" + "=" * 50)
	# logger.info("Summarization Process Complete.")
	# logger.info("=" * 50)
	# successful_count = sum(res.get('success', False) for res in summary_results)
	# total_processed = len(summary_results) # Includes skipped files if they were added to results list earlier
	# total_time = time.time() - start_time
	#
	# logger.info(f"Total files attempted: {len(extraction_results)}") # Total files found/attempted extraction
	# logger.info(f"Files successfully extracted and summarizable: {len(extraction_results_with_chunks)}") # Files with text and chunks
	# logger.info(f"Files summarized: {successful_count}/{total_processed}")
	# logger.info(f"Total process time: {total_time:.2f} seconds")
	# logger.info("=" * 50)
	#
	# # Print individual results status
	# logger.info("\nIndividual File Results:")
	# for result in summary_results:
	# name = result.get('filename', 'unknown')
	# status = "SUCCESS" if result['success'] else "FAILED"
	# time_taken = result.get('processing_time', 0)
	# error_msg = result.get('error', '')
	# logger.info(f"- {name}: {status} ({time_taken:.2f}s) {f'Error: {error_msg}' if error_msg else ''}")
	#
	#
	# except FileNotFoundError as fnf_error:
	# logger.error(f"Configuration Error: {fnf_error}")
	# print(f"Error: {fnf_error}")
	# except Exception as main_error:
	# logger.error(f"An unexpected error occurred during the main process: {main_error}", exc_info=True)
	# print(f"An unexpected error occurred: {main_error}")