Spaces:

abakerdp
/

RAGtimeSearch

Sleeping

abakerdp commited on Nov 10, 2024

Commit

ff894bd

verified ·

1 Parent(s): 91770df

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,22 +1,32 @@
 import gradio as gr
-import pinecone
 from sentence_transformers import SentenceTransformer
-from transformers import AutoTokenizer, AutoModelForSeq2SeqLM  # Fixed this line
 import torch
 import PyPDF2
 import io
 import os
 from tqdm import tqdm
-# Initialize models and Pinecone
 embeddings_model = SentenceTransformer('all-MiniLM-L6-v2')
 tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base")
-model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base")  # And this line
 # Initialize Pinecone with environment variable
 PINECONE_API_KEY = os.getenv('PINECONE_API_KEY')
-pinecone.init(api_key=PINECONE_API_KEY, environment="gcp-starter")
-index = pinecone.Index("pdf-index")
 def process_pdf(file):
     # Read PDF content
@@ -76,7 +86,7 @@ def search_documents(query):
     )
     # Generate answer using FLAN-T5
-    context = "\n".join([match.metadata['text'] for match in results.matches])
     prompt = f"Context: {context}\n\nQuestion: {query}\n\nAnswer:"
     inputs = tokenizer(prompt, return_tensors="pt", max_length=1024, truncation=True)
@@ -92,7 +102,7 @@ def search_documents(query):
     answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
     # Format sources
-    sources = [f"Source: {match.metadata['file_name']}" for match in results.matches]
     return answer, "\n".join(sources)

 import gradio as gr
+from pinecone import Pinecone
 from sentence_transformers import SentenceTransformer
+from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
 import torch
 import PyPDF2
 import io
 import os
 from tqdm import tqdm
+# Initialize models
 embeddings_model = SentenceTransformer('all-MiniLM-L6-v2')
 tokenizer = AutoTokenizer.from_pretrained("google/flan-t5-base")
+model = AutoModelForSeq2SeqLM.from_pretrained("google/flan-t5-base")
 # Initialize Pinecone with environment variable
 PINECONE_API_KEY = os.getenv('PINECONE_API_KEY')
+pc = Pinecone(api_key=PINECONE_API_KEY)
+# Create index if it doesn't exist
+if 'pdf-index' not in pc.list_indexes().names():
+    pc.create_index(
+        name='pdf-index',
+        dimension=384,  # dimension for 'all-MiniLM-L6-v2'
+        metric='cosine'
+    )
+# Connect to index
+index = pc.Index('pdf-index')
 def process_pdf(file):
     # Read PDF content
     )
     # Generate answer using FLAN-T5
+    context = "\n".join([match['metadata']['text'] for match in results['matches']])
     prompt = f"Context: {context}\n\nQuestion: {query}\n\nAnswer:"
     inputs = tokenizer(prompt, return_tensors="pt", max_length=1024, truncation=True)
     answer = tokenizer.decode(outputs[0], skip_special_tokens=True)
     # Format sources
+    sources = [f"Source: {match['metadata']['file_name']}" for match in results['matches']]
     return answer, "\n".join(sources)