SucheRAG

Sleeping

App Files Files Community

alexkueck commited on Jul 5, 2024

Commit

20ab343

verified ·

1 Parent(s): bb2645b

Update utils.py

Browse files

Files changed (1) hide show

utils.py +25 -20

utils.py CHANGED Viewed

@@ -145,10 +145,11 @@ urls = [
 #Modell und Tokenizer für die Anfrage der RAG Chain
 ##################################################
 # Schritt 1: Initialisiere den Sentence-Transformer und das Generierungsmodell
-embedder_modell = SentenceTransformer('all-MiniLM-L6-v2')
-HF_MODELL = "t5-small"
-modell_rag = AutoModelForSeq2SeqLM.from_pretrained(HF_MODELL)
-tokenizer_rag = AutoTokenizer.from_pretrained(HF_MODELL)
@@ -210,6 +211,8 @@ def clean_text(text):
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################
 ##################################################
 # Funktion, um für einen best. File-typ ein directory-loader zu definieren
 def create_directory_loaderBack(file_type, directory_path):
     #verscheidene Dokument loaders:
@@ -250,7 +253,7 @@ def create_directory_loader(file_type, directory_path):
 ################################################
 # Custom Loader-Funktionen zu dem DirektoryLoader
-# Custom loader functions
 def load_pdf_with_metadata(file_path):
     document = fitz.open(file_path)
     documents = []
@@ -261,7 +264,8 @@ def load_pdf_with_metadata(file_path):
         page_number = page_num + 1
         documents.append(Document(content=content, title=title, page=page_number, path=file_path))
     return documents
 def load_word_with_metadata(file_path):
     document = docx.Document(file_path)
     title = "Dokument"
@@ -315,9 +319,10 @@ def document_loading_splitting():
 ###########################################
 #Chroma DB die splits ablegen - vektorisiert...
 def document_storage_chroma(splits):
     # Embedding-Funktion definieren
-    embedding_fn = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2", model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
     # Vectorstore initialisieren und Dokumente hinzufügen
     vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_fn, persist_directory = PATH_WORK + CHROMA_DIR)
@@ -329,17 +334,18 @@ def document_storage_chroma(splits):
 ############################################
 #dokumente in chroma db vektorisiert ablegen können - die Db vorbereiten daüfur
 def document_retrieval_chroma(llm, prompt):
     #HF embeddings -----------------------------------
     #Alternative Embedding - für Vektorstore, um Ähnlichkeitsvektoren zu erzeugen - die ...InstructEmbedding ist sehr rechenaufwendig
     #embeddings = HuggingFaceInstructEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2", model_kwargs={"device": "cpu"})
     #etwas weniger rechenaufwendig:
-    embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2", model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
     #ChromaDb um die embedings zu speichern
     db = Chroma(embedding_function = embeddings, persist_directory = PATH_WORK + CHROMA_DIR)
     return db
@@ -359,15 +365,13 @@ def rag_chain(llm, prompt,  retriever):
     #Langgraph nutzen für ein wenig mehr Intelligenz beim Dokumente suchen
     relevant_docs=[]
     most_relevant_docs=[]
     relevant_docs = retriever.get_relevant_documents(prompt)
     extracted_docs = extract_document_info(relevant_docs)
     if (len(extracted_docs)>0):
-        #llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
-        #result = llm_chain.run({"context": relevant_docs, "question": prompt})
-        # Erstelle ein PromptTemplate mit Platzhaltern für Kontext und Frage
-        #RAG_CHAIN_PROMPT = PromptTemplate(template="Context: {context}\n\nQuestion: {question}\n\nAnswer:")
         # Inahlte Abrufen der relevanten Dokumente
         doc_contents = [doc["content"] for doc in extracted_docs]
@@ -394,11 +398,12 @@ def rag_chain(llm, prompt,  retriever):
         answer = tokenizer_rag.decode(outputs[0], skip_special_tokens=True)
         """
         #############################################
-        #Verschiedene LLMs ausprobieren
         #############################################
         #1. Alternative, wenn llm direkt übergeben....................................
-        #llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
-        #answer = llm_chain.run({"context": combined_content, "question": prompt})
         #2. Alternative, wenn mit API_URL ...........................................
@@ -408,7 +413,7 @@ def rag_chain(llm, prompt,  retriever):
         #für text-generation:
         #messages = [{"role": "user", "content": input_text},]
         #für summarizatiuon
-        answer = llm(input_text,max_length=1024, min_length=150, do_sample=False)
         # Erstelle das Ergebnis-Dictionary
         result = {
@@ -430,8 +435,8 @@ def query(api_llm, payload):
 	return response.json()
 def extract_document_info(documents):
     extracted_info = []
     for doc in documents:

 #Modell und Tokenizer für die Anfrage der RAG Chain
 ##################################################
 # Schritt 1: Initialisiere den Sentence-Transformer und das Generierungsmodell
+embedder_modell = SentenceTransformer("sentence-transformers/all-mpnet-base-v2") #'all-MiniLM-L6-v2')
+EMBEDDING_MODELL = "sentence-transformers/all-mpnet-base-v2"
+#HF_MODELL = "t5-small"
+#modell_rag = AutoModelForSeq2SeqLM.from_pretrained(HF_MODELL)
+#tokenizer_rag = AutoTokenizer.from_pretrained(HF_MODELL)
 #RAG Hilfsfunktionen - Dokumenten bearbeiten für Vektorstore
 ##################################################
 ##################################################
+# Directory Loader Konfigurieren
+##################################################
 # Funktion, um für einen best. File-typ ein directory-loader zu definieren
 def create_directory_loaderBack(file_type, directory_path):
     #verscheidene Dokument loaders:
 ################################################
 # Custom Loader-Funktionen zu dem DirektoryLoader
+# für PDF Dokumente:
 def load_pdf_with_metadata(file_path):
     document = fitz.open(file_path)
     documents = []
         page_number = page_num + 1
         documents.append(Document(content=content, title=title, page=page_number, path=file_path))
     return documents
+#für WOrD Dokumente
 def load_word_with_metadata(file_path):
     document = docx.Document(file_path)
     title = "Dokument"
 ###########################################
 #Chroma DB die splits ablegen - vektorisiert...
 def document_storage_chroma(splits):
     # Embedding-Funktion definieren
+    embedding_fn = HuggingFaceEmbeddings(model_name=EMBEDDING_MODELL, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
     # Vectorstore initialisieren und Dokumente hinzufügen
     vectorstore = Chroma.from_documents(documents=splits, embedding=embedding_fn, persist_directory = PATH_WORK + CHROMA_DIR)
 ############################################
 #dokumente in chroma db vektorisiert ablegen können - die Db vorbereiten daüfur
+"""
 def document_retrieval_chroma(llm, prompt):
     #HF embeddings -----------------------------------
     #Alternative Embedding - für Vektorstore, um Ähnlichkeitsvektoren zu erzeugen - die ...InstructEmbedding ist sehr rechenaufwendig
     #embeddings = HuggingFaceInstructEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2", model_kwargs={"device": "cpu"})
     #etwas weniger rechenaufwendig:
+    embeddings = HuggingFaceEmbeddings(model_name=EMBEDDING_MODELL, model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
     #ChromaDb um die embedings zu speichern
     db = Chroma(embedding_function = embeddings, persist_directory = PATH_WORK + CHROMA_DIR)
     return db
+"""
     #Langgraph nutzen für ein wenig mehr Intelligenz beim Dokumente suchen
     relevant_docs=[]
     most_relevant_docs=[]
+    #passend zum Prompt relevante Dokuemnte raussuchen
     relevant_docs = retriever.get_relevant_documents(prompt)
+    #zu jedem relevanten Dokument die wichtigen Informationen zusammenstellen (im Dict)
     extracted_docs = extract_document_info(relevant_docs)
     if (len(extracted_docs)>0):
         # Inahlte Abrufen der relevanten Dokumente
         doc_contents = [doc["content"] for doc in extracted_docs]
         answer = tokenizer_rag.decode(outputs[0], skip_special_tokens=True)
         """
         #############################################
+        #Verschiedene LLMs ausprobieren als Generierungsmodell
+        #für die Zusammenfassung
         #############################################
         #1. Alternative, wenn llm direkt übergeben....................................
+        llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
+        answer = llm_chain.run({"context": combined_content, "question": prompt})
         #2. Alternative, wenn mit API_URL ...........................................
         #für text-generation:
         #messages = [{"role": "user", "content": input_text},]
         #für summarizatiuon
+        #answer = llm(input_text,max_length=1024, min_length=150, do_sample=False)
         # Erstelle das Ergebnis-Dictionary
         result = {
 	return response.json()
+#############################################################
+#in einem Dictionary die wichtigen Infos zu jedem Dok zusammenstellen
 def extract_document_info(documents):
     extracted_info = []
     for doc in documents: