Spaces:

MissSqui
/

Static_H

Running

App Files Files Community

Static_H / abc

MissSqui

Update abc

dda0320 verified 12 months ago

raw

history blame contribute delete

15.7 kB

	from sentence_transformers import SentenceTransformer, util
	print("import done")
	# Input chunks
	retrieved_chunks = [
	"The Eiffel Tower is a landmark in Paris.",
	"Paris is the capital of France.",
	"The Louvre is also in Paris.",
	"Eiffel Tower was built in 1889.",
	"It is a famous tourist spot."
	]

	relevant_chunks = [
	"The Eiffel Tower is a landmark in Paris.",
	"Eiffel Tower was built in 1889."
	]

	# Load sentence transformer model
	model = SentenceTransformer('all-MiniLM-L6-v2')

	# Compute embeddings
	retrieved_embeddings = model.encode(retrieved_chunks, convert_to_tensor=True)
	relevant_embeddings = model.encode(relevant_chunks, convert_to_tensor=True)

	# Calculate pairwise cosine similarities
	cosine_sim_matrix = util.cos_sim(retrieved_embeddings, relevant_embeddings)

	# Print similarity matrix
	print("Cosine Similarity Matrix (rows: retrieved, columns: relevant):\n")
	for i, retrieved in enumerate(retrieved_chunks):
	for j, relevant in enumerate(relevant_chunks):
	score = cosine_sim_matrix[i][j].item()
	print(f"Similarity between:\n Retrieved: \"{retrieved}\"\n Relevant : \"{relevant}\"\n Score : {score:.4f}\n")------
	-----------------------------------------


	import numpy as np
	from nltk.translate.bleu_score import sentence_bleu
	from rouge_score import rouge_scorer
	from sentence_transformers import SentenceTransformer
	from sklearn.metrics.pairwise import cosine_similarity
	from transformers import GPT2Tokenizer, GPT2LMHeadModel
	import torch

	#client = genai.Client(api_key=os.getenv("GEMINI_API_KEY"))

	# Load models
	embedding_model = SentenceTransformer('all-MiniLM-L6-v2')
	tokenizer = GPT2Tokenizer.from_pretrained("gpt2")
	perplexity_model = GPT2LMHeadModel.from_pretrained("gpt2")
	perplexity_model.eval()

	# Evaluation Metrics
	def bleu_rouge_score(reference, generated):
	bleu = sentence_bleu([reference.split()], generated.split())
	rouge = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
	rougeL = rouge.score(reference, generated)['rougeL'].fmeasure
	return {'bleu': bleu, 'rougeL': rougeL}

	def cosine_sim(reference, generated):
	emb_ref = embedding_model.encode([reference])[0]
	emb_gen = embedding_model.encode([generated])[0]
	sim = cosine_similarity([emb_ref], [emb_gen])[0][0]
	return sim

	def perplexity_score(text):
	inputs = tokenizer(text, return_tensors="pt")
	with torch.no_grad():
	outputs = perplexity_model(**inputs, labels=inputs["input_ids"])
	loss = outputs.loss
	return torch.exp(loss).item()

	def precision_at_k(retrieved, relevant, k):
	top_k = retrieved[:k]
	correct = sum(1 for item in top_k if item in relevant)
	return correct / k

	def recall_at_k(retrieved, relevant, k):
	correct = sum(1 for item in retrieved[:k] if item in relevant)
	return correct / len(relevant)

	def ndcg_at_k(retrieved, relevant, k):
	def dcg(items):
	return sum([1 / np.log2(i+2) if items[i] in relevant else 0 for i in range(len(items))])
	ideal = dcg(relevant[:k])
	actual = dcg(retrieved[:k])
	return actual / ideal if ideal != 0 else 0

	def hit_at_k(retrieved, relevant, k):
	top_k = retrieved[:k]
	return int(any(item in relevant for item in top_k))

	# Main Evaluation
	def full_evaluation(reference, generated, retrieved, relevant_chunks):
	return {
	**bleu_rouge_score(reference, generated),
	"cosine_similarity": cosine_sim(reference, generated),
	"perplexity": perplexity_score(generated),
	"precision@5": precision_at_k(retrieved, relevant_chunks, 5),
	"recall@5": recall_at_k(retrieved, relevant_chunks, 5),
	"ndcg@5": ndcg_at_k(retrieved, relevant_chunks, 5),
	"hit@5": hit_at_k(retrieved, relevant_chunks, 5)
	}

	# Sample Run
	if __name__ == "__main__":
	reference_answer = "The Eiffel Tower is located in Paris."
	generated_response = "Eiffel Tower stands in Paris."

	retrieved_chunks = [
	"The Eiffel Tower is a landmark in Paris.",
	"Paris is the capital of France.",
	"The Louvre is also in Paris.",
	"Eiffel Tower was built in 1889.",
	"It is a famous tourist spot."
	]

	relevant_chunks = [
	"The Eiffel Tower is a landmark in Paris.",
	"Eiffel Tower was built in 1889."
	]

	scores = full_evaluation(reference_answer, generated_response, retrieved_chunks, relevant_chunks)

	for metric, score in scores.items():
	print(f"{metric}: {score:.4f}" if isinstance(score, float) else f"{metric}: {score}")

	---------------------------
	# Install dependencies first (if not already installed)
	# pip install openai sentence-transformers langchain pymupdf

	import fitz # PyMuPDF for PDF text extraction
	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from sentence_transformers import SentenceTransformer, util
	import openai

	# Configure OpenAI API Key
	openai.api_key = "YOUR_OPENAI_API_KEY" # Replace with your actual OpenAI API key

	### Step 1: Extract Text from PDF
	def extract_text_from_pdf(pdf_path):
	doc = fitz.open(pdf_path)
	text = "\n".join([page.get_text() for page in doc])
	return text

	### Step 2: Split Text Using RecursiveCharacterTextSplitter
	def split_text(text):
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
	return text_splitter.split_text(text)

	### Step 3: Compute Embeddings for Chunk Retrieval
	def get_relevant_chunks(retrieved_chunks, relevant_queries, model_name='all-MiniLM-L6-v2'):
	model = SentenceTransformer(model_name)

	retrieved_embeddings = model.encode(retrieved_chunks, convert_to_tensor=True)
	relevant_embeddings = model.encode(relevant_queries, convert_to_tensor=True)

	cosine_sim_matrix = util.cos_sim(retrieved_embeddings, relevant_embeddings)

	print("Cosine Similarity Matrix (rows: retrieved, columns: relevant queries):\n")
	relevant_scores = []

	for i, retrieved in enumerate(retrieved_chunks):
	for j, relevant in enumerate(relevant_queries):
	score = cosine_sim_matrix[i][j].item()
	relevant_scores.append((retrieved, relevant, score))
	print(f"Similarity between:\n Retrieved: \"{retrieved}\"\n Query : \"{relevant}\"\n Score : {score:.4f}\n")

	# Sort and return the top-K most relevant chunks
	relevant_scores.sort(key=lambda x: x[2], reverse=True)
	return [x[0] for x in relevant_scores[:5]] # Adjust top-K as needed

	### Step 4: Pass Top-K Chunks to OpenAI LLM
	def query_openai(prompt):
	response = openai.ChatCompletion.create(
	model="gpt-4", # You can change this to "gpt-3.5-turbo" or another model
	messages=[{"role": "system", "content": "You are an assistant."},
	{"role": "user", "content": prompt}]
	)
	return response["choices"][0]["message"]["content"]

	### Final Workflow
	def process_pdf(pdf_path):
	# Step 1: Extract text from PDF
	extracted_text = extract_text_from_pdf(pdf_path)

	# Step 2: Split text into chunks
	retrieved_chunks = split_text(extracted_text)

	# Step 3: Define relevant queries (modify as per your needs)
	relevant_queries = ["Eiffel Tower", "Paris landmarks", "French history"]

	# Step 4: Retrieve top-K relevant chunks
	top_chunks = get_relevant_chunks(retrieved_chunks, relevant_queries)

	# Step 5: Query OpenAI LLM with relevant chunks
	prompt = f"Summarize this information: {' '.join(top_chunks)}"
	openai_response = query_openai(prompt)

	print("\nOpenAI Response:\n", openai_response)

	# Run the pipeline with a sample PDF file
	process_pdf("C:\\Users\\YourName\\Documents\\sample.pdf") # Replace with your actual PDF file path

	###############################################################################
	### Step 1: Extract Text from PDF ###
	def extract_text_from_pdf(pdf_path):
	doc = fitz.open(pdf_path)
	text = "\n".join([page.get_text() for page in doc])
	return text

	### Step 2: Split Text Using RecursiveCharacterTextSplitter ###
	def split_text(text):
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
	return text_splitter.split_text(text)

	### Step 3: Compute Embeddings for Chunk Retrieval ###
	def get_relevant_chunks(retrieved_chunks, relevant_queries, model_name='all-MiniLM-L6-v2', top_k=5, similarity_threshold=0.4):
	model = SentenceTransformer(model_name)

	# Clean up empty strings
	retrieved_chunks = [chunk for chunk in retrieved_chunks if chunk.strip()]
	relevant_queries = [q for q in relevant_queries if q.strip()]

	# Debug check
	if not retrieved_chunks:
	raise ValueError("retrieved_chunks is empty!")
	if not relevant_queries:
	raise ValueError("relevant_queries is empty!")

	# Compute embeddings
	retrieved_embeddings = model.encode(retrieved_chunks, convert_to_tensor=True)
	relevant_embeddings = model.encode(relevant_queries, convert_to_tensor=True)

	# Cosine similarity matrix: (retrieved x queries)
	cosine_sim_matrix = util.cos_sim(retrieved_embeddings, relevant_embeddings)

	# Log similarity matrix
	print("Cosine Similarity Matrix (rows: chunks, columns: queries):\n", cosine_sim_matrix)

	# Score all pairs
	relevant_scores = []
	for i, retrieved in enumerate(retrieved_chunks):
	for j, relevant in enumerate(relevant_queries):
	score = cosine_sim_matrix[i][j].item()
	relevant_scores.append((retrieved, relevant, score))

	# Sort by score descending
	relevant_scores.sort(key=lambda x: x[2], reverse=True)

	# Log top matches
	print("\nTop Relevant Chunks and Scores:")
	for r, q, s in relevant_scores[:top_k]:
	print(f"\nChunk:\n{r[:150]}...\nQuery: {q}\nScore: {s:.4f}")

	# Apply threshold
	filtered = [x for x in relevant_scores if x[2] >= similarity_threshold]
	top_filtered = filtered[:top_k]

	return [x[0] for x in top_filtered]

	### Step 4: Pass Top-K Chunks to OpenAI LLM ###
	def query_openai(prompt):
	response = openai.ChatCompletion.create(
	model="gpt-4", # Or "gpt-3.5-turbo"
	messages=[
	{"role": "system", "content": "You are an assistant."},
	{"role": "user", "content": prompt}
	]
	)
	return response["choices"][0]["message"]["content"]

	### Final Workflow ###
	def process_pdf(pdf_path):
	# Step 1: Extract text
	extracted_text = extract_text_from_pdf(pdf_path)

	# Step 2: Split into chunks
	retrieved_chunks = split_text(extracted_text)

	# Step 3: Define queries
	relevant_queries = ["Eiffel Tower", "Paris landmarks", "French history"]

	# Step 4: Retrieve top-K relevant chunks
	top_chunks = get_relevant_chunks(retrieved_chunks, relevant_queries)

	# Step 5: Query OpenAI
	prompt = (
	f"You are a historical assistant. Summarize the following content "
	f"in context of the queries: {', '.join(relevant_queries)}.\n\n"
	f"Relevant content:\n{'\n\n'.join(top_chunks)}"
	)
	openai_response = query_openai(prompt)

	print("\nOpenAI Response:\n", openai_response)

	### Run the pipeline on your sample PDF ###
	if __name__ == "__main__":
	process_pdf(r"C:\Users\shalini\Desktop\Project\abc.pdf")



	=======================================================================

	import fitz
	import pytesseract
	from pdf2image import convert_from_path
	from PIL import Image

	from langchain.text_splitter import RecursiveCharacterTextSplitter
	from sentence_transformers import SentenceTransformer, util
	import openai

	# For Windows users: uncomment and set path if needed
	# pytesseract.pytesseract.tesseract_cmd = r'C:\\Program Files\\Tesseract-OCR\\tesseract.exe'

	openai.api_key = "your-api-key-here" # 🔐 Replace with your actual OpenAI API key

	### Step 1: Extract Text from PDF or Fallback to OCR ###
	def extract_text_from_pdf(pdf_path):
	doc = fitz.open(pdf_path)
	text = "\n".join([page.get_text() for page in doc])

	if text.strip(): # If text was extracted from PDF
	print("Text extracted using fitz.")
	return text

	# OCR fallback for scanned/image-based PDFs
	print("No extractable text found. Trying OCR instead...")
	images = convert_from_path(pdf_path)
	ocr_text = "\n".join(pytesseract.image_to_string(image) for image in images)
	return ocr_text

	### Step 2: Split Text into Chunks ###
	def split_text(text):
	text_splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=30)
	return text_splitter.split_text(text)

	### Step 3: Get Top-K Relevant Chunks Based on Query ###
	def get_relevant_chunks(retrieved_chunks, relevant_queries, model_name='all-MiniLM-L6-v2', top_k=5, similarity_threshold=0.4):
	model = SentenceTransformer(model_name)
	retrieved_chunks = [chunk for chunk in retrieved_chunks if chunk.strip()]
	relevant_queries = [q for q in relevant_queries if q.strip()]

	if not retrieved_chunks:
	raise ValueError("retrieved_chunks is empty!")
	if not relevant_queries:
	raise ValueError("relevant_queries is empty!")

	retrieved_embeddings = model.encode(retrieved_chunks, convert_to_tensor=True)
	relevant_embeddings = model.encode(relevant_queries, convert_to_tensor=True)
	cosine_sim_matrix = util.cos_sim(retrieved_embeddings, relevant_embeddings)

	relevant_scores = []
	for i, retrieved in enumerate(retrieved_chunks):
	for j, relevant in enumerate(relevant_queries):
	score = cosine_sim_matrix[i][j].item()
	relevant_scores.append((retrieved, relevant, score))

	relevant_scores.sort(key=lambda x: x[2], reverse=True)
	filtered = [x for x in relevant_scores if x[2] >= similarity_threshold]
	top_filtered = filtered[:top_k]

	for r, q, s in top_filtered:
	print(f"\nChunk:\n{r[:150]}...\nQuery: {q}\nScore: {s:.4f}")

	return [x[0] for x in top_filtered]

	### Step 4: Query OpenAI LLM with Prompt ###
	def query_openai(prompt):
	response = openai.ChatCompletion.create(
	model="gpt-4",
	messages=[
	{"role": "system", "content": "You are an assistant."},
	{"role": "user", "content": prompt}
	]
	)
	return response["choices"][0]["message"]["content"]

	### Final Workflow ###
	def process_pdf(pdf_path):
	extracted_text = extract_text_from_pdf(pdf_path)
	print("Extracted text length:", len(extracted_text))

	retrieved_chunks = split_text(extracted_text)
	print("Number of chunks created:", len(retrieved_chunks))

	relevant_queries = ["Eiffel Tower", "Paris landmarks", "French history"]

	top_chunks = get_relevant_chunks(retrieved_chunks, relevant_queries)

	prompt = (
	f"You are a historical assistant. Summarize the following content "
	f"in context of the queries: {', '.join(relevant_queries)}.\n\n"
	f"Relevant content:\n{'\n\n'.join(top_chunks)}"
	)

	openai_response = query_openai(prompt)
	print("\nOpenAI Response:\n", openai_response)

	### Run the pipeline ###
	if __name__ == "__main__":
	process_pdf(r"C:\Users\shalini\Desktop\Project\abc.pdf")


	=======================================
	def openai_llm_call(prompt: str, persona: str) -> str:

	client = AzureOpenAI(
	api_version=os.getenv("API_VERSION"),
	azure_endpoint=os.getenv("ENDPOINT"),
	api_key=os.getenv("OPENAI_API_KEY"),
	)
	response = client.chat.completions.create(
	messages=[
	{
	"role": "system",
	"content": persona,
	},
	{
	"role": "user",
	"content": prompt,
	}
	],
	model=os.getenv("DEPLOYMENT")
	)

	return response.choices[0].message.content