RAGDEV

Runtime error

App Files Files Community

alexkueck commited on Feb 16, 2024

Commit

0fca2bc

verified ·

1 Parent(s): 18e76ce

Update utils.py

Browse files

Files changed (1) hide show

utils.py +19 -79

utils.py CHANGED Viewed

@@ -283,15 +283,24 @@ def document_storage_chroma(splits):
 #Dokumente, die vom Retriever rausgesucht wurden auf Relevanz untersuchen
 def grade_documents_direct(prompt, documents):
     print("---CHECK RELEVANCE---")
     # Data model
     class grade(BaseModel):
-        """Binary score for relevance check."""
         binary_score: str = Field(description="Relevanz Bewertung 'ja' oder 'nein'")
     # LLM
-    model = ChatOpenAI(temperature=0.3, model="gpt-4-0125-preview", streaming=True)
     # Tool
     grade_tool_oai = convert_to_openai_tool(grade)
@@ -306,17 +315,17 @@ def grade_documents_direct(prompt, documents):
     # Prompt
     prompt = PromptTemplate(
-        template="""Du bist ein Bewerter, der die Relevanz von einem erhaltenen Dokument zu einer Nutzeranfrage bewerten soll. \n
         Hier ist das erhaltene Dokument: \n\n {context} \n\n
         Hier ist die Nutzeranfrage: {question} \n
         Wenn das erhaltene Dokument Keywörter oder semantische Bedeutung in Bezug auf die Nutzeranfrage hat, bewerte es als relevant. \n
-        Gib eine binäre Bewertung von 'ja' oder 'nein' Bewertung, um anzuzeigen ob das Dokuemnt relevant ist zur Nutzeranfrage oder nicht.""",
         input_variables=["context", "question"],
     )
     # Chain
     chain = prompt | llm_with_tool | parser_tool
     # Score
     filtered_docs = []
@@ -379,6 +388,7 @@ def rag_chain(llm, prompt,  retriever):
     #Langgraph nutzen für ein wenig mehr Intelligenz beim Dokumente suchen
     relevant_docs = retriever.get_relevant_documents(prompt)
     filtered_docs = grade_documents_direct(prompt, relevant_docs)
     neu_prompt=prompt
     if (len(filtered_docs)<2): #frage neu formulieren
         neu_prompt = transform_query_direct(prompt)
@@ -386,10 +396,8 @@ def rag_chain(llm, prompt,  retriever):
         filtered_docs = grade_documents_direct(relevant_docs)
     if (len(filtered_docs)>0):
-        # Chain
-        rag_chain = prompt | llm | StrOutputParser()
-        # Run
-        result = rag_chain.invoke({"context": documents, "question": neu_prompt})
     else:
         #Normale Abfrage, da keine relevanten Dokumente gefunden
         llm_chain = LLMChain(llm = llm, prompt = LLM_CHAIN_PROMPT)
@@ -888,74 +896,6 @@ def create_picture(history,  prompt):
 ########################################
 # Ausgabe in PDF des Chathistory
 ########################################
-"""
-#Aufzählungen in der History erkennen und auch als Auflistung darstellen
-def erkennen_und_formatieren_von_aufzaehlungen_backup(text, styles):
-    # Aufzählungszeichen oder Nummerierungen erkennen
-    aufzaehlungszeichen = ['-', '*', '•']
-    nummerierung = [f'{i}.' for i in range(1, 11)]  # Beispiel für einfache Nummerierungserkennung
-    nummerierung2 = [f'{i}. ' for i in range(1, 11)]
-    nummerierung3 = [f' {i}. ' for i in range(1, 11)]
-    zeilen = text.split('\n')
-    list_items = []
-    for zeile in zeilen:
-        # Prüft, ob die Zeile mit einem Aufzählungszeichen oder einer Nummerierung beginnt
-        if any(zeile.lstrip().startswith(zeichen) for zeichen in aufzaehlungszeichen + nummerierung + nummerierung2 + nummerierung3) :
-            # Entfernt das Aufzählungszeichen/Nummerierung für die Darstellung
-            for zeichen in aufzaehlungszeichen + nummerierung + nummerierung2 + nummerierung3:
-                if zeile.lstrip().startswith(zeichen):
-                    zeile = zeile.lstrip()[len(zeichen):].lstrip()
-                    break
-            list_items.append(ListItem(Paragraph(zeile, styles['BodyText'])))
-        else:
-            # Wenn die Zeile nicht als Teil einer Aufzählung erkannt wird, breche die Schleife ab
-            break
-    if list_items:
-        # Eine Aufzählung wurde erkannt
-        return ListFlowable(list_items, bulletType='bullet', start='bulletchar', bulletFontName='Helvetica')
-    else:
-        # Keine Aufzählung erkannt, gebe einen normalen Paragraph zurück
-        return Paragraph(text, styles['BodyText'])
-#Aufzählungen in der History erkennen und auch als Auflistung darstellen
-def erkennen_und_formatieren_von_aufzaehlungen(text, styles):
-    # Aufzählungszeichen oder Nummerierungen erkennen
-    aufzaehlungszeichen = ['-', '*', '•']
-    # Regulärer Ausdruck für Nummerierungen (z.B. "1.", "2.")
-    # Verbesserter regulärer Ausdruck, der optionale Leerzeichen vor der Nummerierung berücksichtigt
-    nummerierung_regex = r"^\s*\d+\.\s*"  # Optional Leerzeichen, gefolgt von Ziffern und einem Punkt, dann Leerzeichen
-    zeilen = text.split('\n')
-    list_items = []
-    for zeile in zeilen:
-        # Prüft, ob die Zeile mit einem Aufzählungszeichen beginnt
-        print("zeile:.............................")
-        print(zeile)
-        if any(zeile.lstrip().startswith(zeichen) for zeichen in aufzaehlungszeichen) or re.match(nummerierung_regex, zeile.lstrip()):
-            # Entfernt das Aufzählungszeichen/Nummerierung für die Darstellung
-            if (re.match(nummerierung_regex, zeile.lstrip())):
-                cleaned_line = re.sub(nummerierung_regex, '', zeile.lstrip(), 1).lstrip()  # Entfernt nummerierte Aufzählungszeichen
-            else:
-                for zeichen in aufzaehlungszeichen:
-                    if zeile.lstrip().startswith(zeichen):
-                        cleaned_line = zeile.lstrip()[len(zeichen):].lstrip()
-                        break
-            print(cleaned_line)
-            list_items.append(ListItem(Paragraph(cleaned_line, styles['BodyText'])))
-        else:
-            # Wenn die Zeile nicht als Teil einer Aufzählung erkannt wird, breche die Schleife ab
-            # und behandle den gesamten Text als normalen Paragraphen, wenn keine Liste erkannt wurde
-            if not list_items:
-                return Paragraph(text, styles['BodyText'])
-            break
-    if list_items:
-        # Eine Aufzählung wurde erkannt
-        return ListFlowable(list_items, bulletType='bullet', start='bulletchar', bulletFontName='Helvetica')
-    else:
-        # Keine Aufzählung erkannt, gebe einen normalen Paragraph zurück
-        return Paragraph(text, styles['BodyText'])
-"""
 ####################################
 #    Erkennt Aufzählungen im Text und gibt eine entsprechend formatierte ListFlowable oder Paragraph zurück.
 ####################################

 #Dokumente, die vom Retriever rausgesucht wurden auf Relevanz untersuchen
 def grade_documents_direct(prompt, documents):
     print("---CHECK RELEVANCE---")
+    """
     # Data model
     class grade(BaseModel):
+        #Binary score for relevance check.
         binary_score: str = Field(description="Relevanz Bewertung 'ja' oder 'nein'")
+    """
     # LLM
+    model = ChatOpenAI(temperature=0.3, model="text-davinci-003", streaming=True)
+    xxx = """Du bist ein Bewerter, der die Relevanz von einem erhaltenen Dokument zu einer Nutzeranfrage bewerten soll. \n
+        Hier ist das erhaltene Dokument: \n\n {context} \n\n
+        Hier ist die Nutzeranfrage: {question} \n
+        Wenn das erhaltene Dokument Keywörter oder semantische Bedeutung in Bezug auf die Nutzeranfrage hat, bewerte es als relevant. \n
+        Gib eine binäre Bewertung von 'ja' oder 'nein' Bewertung, um anzuzeigen ob das Dokuemnt relevant ist zur Nutzeranfrage oder nicht."""
+    grade_prompt = PromptTemplate(input_variables = ["context", "question"],
+                                  template = xxx)
+    """
     # Tool
     grade_tool_oai = convert_to_openai_tool(grade)
     # Prompt
     prompt = PromptTemplate(
+        template="Du bist ein Bewerter, der die Relevanz von einem erhaltenen Dokument zu einer Nutzeranfrage bewerten soll. \n
         Hier ist das erhaltene Dokument: \n\n {context} \n\n
         Hier ist die Nutzeranfrage: {question} \n
         Wenn das erhaltene Dokument Keywörter oder semantische Bedeutung in Bezug auf die Nutzeranfrage hat, bewerte es als relevant. \n
+        Gib eine binäre Bewertung von 'ja' oder 'nein' Bewertung, um anzuzeigen ob das Dokuemnt relevant ist zur Nutzeranfrage oder nicht.",
         input_variables=["context", "question"],
     )
     # Chain
     chain = prompt | llm_with_tool | parser_tool
+    """
     # Score
     filtered_docs = []
     #Langgraph nutzen für ein wenig mehr Intelligenz beim Dokumente suchen
     relevant_docs = retriever.get_relevant_documents(prompt)
     filtered_docs = grade_documents_direct(prompt, relevant_docs)
     neu_prompt=prompt
     if (len(filtered_docs)<2): #frage neu formulieren
         neu_prompt = transform_query_direct(prompt)
         filtered_docs = grade_documents_direct(relevant_docs)
     if (len(filtered_docs)>0):
+        llm_chain = LLMChain(llm = llm, prompt = RAG_CHAIN_PROMPT)
+        result = llm_chain.run({"context": documents, "question": neu_prompt})
     else:
         #Normale Abfrage, da keine relevanten Dokumente gefunden
         llm_chain = LLMChain(llm = llm, prompt = LLM_CHAIN_PROMPT)
 ########################################
 # Ausgabe in PDF des Chathistory
 ########################################
 ####################################
 #    Erkennt Aufzählungen im Text und gibt eine entsprechend formatierte ListFlowable oder Paragraph zurück.
 ####################################