SucheRAG

Sleeping

App Files Files Community

alexkueck commited on Jul 3, 2024

Commit

f3bc17e

verified ·

1 Parent(s): e658dac

Update utils.py

Browse files

Files changed (1) hide show

utils.py +19 -4

utils.py CHANGED Viewed

@@ -320,18 +320,20 @@ def rag_chain(llm, prompt,  retriever):
     relevant_docs=[]
     most_relevant_docs=[]
     relevant_docs = retriever.get_relevant_documents(prompt)
     print("releant docs1......................")
-    if (len(relevant_docs)>0):
         print("releant docs2......................")
-        print(relevant_docs)
         #llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
         #result = llm_chain.run({"context": relevant_docs, "question": prompt})
         # Erstelle ein PromptTemplate mit Platzhaltern für Kontext und Frage
         #RAG_CHAIN_PROMPT = PromptTemplate(template="Context: {context}\n\nQuestion: {question}\n\nAnswer:")
         # Inahlte Abrufen der relevanten Dokumente
-        doc_contents = [doc["content"] for doc in relevant_docs]
         #Berechne die Ähnlichkeiten und finde das relevanteste Dokument
         question_embedding = embedder_modell.encode(prompt, convert_to_tensor=True)
@@ -340,7 +342,7 @@ def rag_chain(llm, prompt,  retriever):
         most_relevant_doc_indices = similarity_scores.argsort(descending=True).squeeze().tolist()
         #Erstelle eine Liste der relevantesten Dokumente
-        most_relevant_docs = [relevant_docs[i] for i in most_relevant_doc_indices]
         #Kombiniere die Inhalte aller relevanten Dokumente
         combined_content = " ".join([doc["content"] for doc in most_relevant_docs])
@@ -370,6 +372,19 @@ def rag_chain(llm, prompt,  retriever):
     return result

     relevant_docs=[]
     most_relevant_docs=[]
     relevant_docs = retriever.get_relevant_documents(prompt)
+    extracted_docs = extract_document_info(relevant_docs)
     print("releant docs1......................")
+    if (len(extracted_docs)>0):
         print("releant docs2......................")
+        print(extracted_docs)
         #llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
         #result = llm_chain.run({"context": relevant_docs, "question": prompt})
         # Erstelle ein PromptTemplate mit Platzhaltern für Kontext und Frage
         #RAG_CHAIN_PROMPT = PromptTemplate(template="Context: {context}\n\nQuestion: {question}\n\nAnswer:")
         # Inahlte Abrufen der relevanten Dokumente
+        doc_contents = [doc["content"] for doc in extracted_docs]
         #Berechne die Ähnlichkeiten und finde das relevanteste Dokument
         question_embedding = embedder_modell.encode(prompt, convert_to_tensor=True)
         most_relevant_doc_indices = similarity_scores.argsort(descending=True).squeeze().tolist()
         #Erstelle eine Liste der relevantesten Dokumente
+        most_relevant_docs = [extracted_docs[i] for i in most_relevant_doc_indices]
         #Kombiniere die Inhalte aller relevanten Dokumente
         combined_content = " ".join([doc["content"] for doc in most_relevant_docs])
     return result
+# Funktion zum Erstellen der Liste von Dictionaries
+def extract_document_info(documents):
+    extracted_info = []
+    for doc in documents:
+        info = {
+            'content': doc.page_content,
+            'page': doc.metadata['page'],
+            'path': doc.metadata['source']
+        }
+        extracted_info.append(info)
+    return extracted_info