Spaces:

limapjoao
/

tech-explainer-rag

Sleeping

João Lima commited on Jan 24

Commit

26b761b

1 Parent(s): c4ff6b7

changing gradio version

Files changed (3) hide show

app.py CHANGED Viewed

@@ -16,13 +16,13 @@ def load_document(file):
 def ask(question):
     if vectorstore is None:
-        return "⚠ Upload a document first", "", ""
     if not question.strip():
-        return "⚠ Please enter a question", "", ""
     try:
         return run_rag(question, vectorstore)
     except Exception as e:
-        return f"❌ Error: {str(e)}", "", ""
 with gr.Blocks(title="Tech Explainer RAG") as demo:
     gr.Markdown("# Tech Explainer — RAG with Automatic Evaluation")

 def ask(question):
     if vectorstore is None:
+        return "Upload a document first", "", ""
     if not question.strip():
+        return "Please enter a question", "", ""
     try:
         return run_rag(question, vectorstore)
     except Exception as e:
+        return f"Error: {str(e)}", "", ""
 with gr.Blocks(title="Tech Explainer RAG") as demo:
     gr.Markdown("# Tech Explainer — RAG with Automatic Evaluation")

ingestion/pdf.py CHANGED Viewed

@@ -1,22 +1,33 @@
 from pypdf import PdfReader
-from langchain_text_splitter import RecursiveCharacterTextSplitter
-from langchain_core.document import Document
 from rag.retriever import build_vectorstore
 def process_pdf(file_path):
-    """
-    file_path: string - caminho para o arquivo PDF
-    """
     reader = PdfReader(file_path)
     text = "".join(page.extract_text() or "" for page in reader.pages)
-    splitter = RecursiveCharacterTextSplitter(
-        chunk_size=500,
-        chunk_overlap=100
-    )
-    chunks = splitter.split_text(text)
     documents = [Document(page_content=c) for c in chunks]
     return build_vectorstore(documents)

 from pypdf import PdfReader
 from rag.retriever import build_vectorstore
+class Document:
+    def __init__(self, page_content, metadata=None):
+        self.page_content = page_content
+        self.metadata = metadata or {}
+def split_text(text, chunk_size=500, chunk_overlap=100):
+    chunks = []
+    start = 0
+    text_length = len(text)
+    while start < text_length:
+        end = start + chunk_size
+        chunk = text[start:end]
+        if chunk.strip():
+            chunks.append(chunk)
+        start += chunk_size - chunk_overlap
+    return chunks
 def process_pdf(file_path):
     reader = PdfReader(file_path)
     text = "".join(page.extract_text() or "" for page in reader.pages)
+    chunks = split_text(text, chunk_size=500, chunk_overlap=100)
     documents = [Document(page_content=c) for c in chunks]
     return build_vectorstore(documents)

rag/retriever.py CHANGED Viewed

@@ -5,7 +5,6 @@ from config import EMBEDDING_MODEL
 class SimpleVectorStore:
-    """Vectorstore simples usando FAISS"""
     def __init__(self, embeddings, documents):
         self.embeddings = embeddings
@@ -14,7 +13,6 @@ class SimpleVectorStore:
         self._build_index()
     def _build_index(self):
-        """Constrói índice FAISS"""
         texts = [doc.page_content for doc in self.documents]
         vectors = self.embeddings.encode(texts)
@@ -23,7 +21,6 @@ class SimpleVectorStore:
         self.index.add(np.array(vectors).astype('float32'))
     def similarity_search(self, query, k=3):
-        """Busca os k documentos mais similares"""
         query_vector = self.embeddings.encode([query])
         distances, indices = self.index.search(
             np.array(query_vector).astype('float32'),
@@ -33,7 +30,6 @@ class SimpleVectorStore:
         return [self.documents[i] for i in indices[0]]
-# Carrega o modelo de embeddings uma vez
 _embeddings_model = SentenceTransformer(EMBEDDING_MODEL)

 class SimpleVectorStore:
     def __init__(self, embeddings, documents):
         self.embeddings = embeddings
         self._build_index()
     def _build_index(self):
         texts = [doc.page_content for doc in self.documents]
         vectors = self.embeddings.encode(texts)
         self.index.add(np.array(vectors).astype('float32'))
     def similarity_search(self, query, k=3):
         query_vector = self.embeddings.encode([query])
         distances, indices = self.index.search(
             np.array(query_vector).astype('float32'),
         return [self.documents[i] for i in indices[0]]
 _embeddings_model = SentenceTransformer(EMBEDDING_MODEL)