Spaces:

ProjektSeminarLSBIM
/

LLM-Test

Sleeping

App Files Files Community

jonasge97 commited on Dec 1, 2023

Commit

ee5073c

1 Parent(s): 8009f13

Update app.py

Browse files

Files changed (1) hide show

app.py +28 -1

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ from langchain.chains import ConversationalRetrievalChain
 from langchain.llms import HuggingFaceHub
 from dotenv import load_dotenv
 from transformers import pipeline
 ###########
 #pip install faiss-cpu
 #pip install langchain
@@ -25,6 +26,8 @@ def check_question(user_question):
     if len(user_question) < 10:  # Beispielkriterium für minimale Länge
         return False
     return True
 # PDF in String umwandeln
 def get_pdf_text(folder_path):
@@ -78,7 +81,16 @@ def get_vectorstore():
     vectorstoreDB = FAISS.load_local(save_directory, embeddings)
     return vectorstoreDB
 def main():
@@ -106,6 +118,21 @@ def main():
     #print(get_vectorstore().similarity_search_with_score("stelle")) # zeigt an ob Vektordatenbank gefüllt ist
     #print(get_conversation_chain(get_vectorstore()))

 from langchain.llms import HuggingFaceHub
 from dotenv import load_dotenv
 from transformers import pipeline
+from sentence_transformers import SentenceTransformer, util
 ###########
 #pip install faiss-cpu
 #pip install langchain
     if len(user_question) < 10:  # Beispielkriterium für minimale Länge
         return False
     return True
 # PDF in String umwandeln
 def get_pdf_text(folder_path):
     vectorstoreDB = FAISS.load_local(save_directory, embeddings)
     return vectorstoreDB
+def calculate_similarity(user_question, pdf_text):
+    model = SentenceTransformer('paraphrase-distilroberta-base-v1')  # Verwende ein vortrainiertes Modell
+    encoded_pdf = model.encode(pdf_text, convert_to_tensor=True)
+    encoded_question = model.encode(user_question, convert_to_tensor=True)
+    # Berechne die Ähnlichkeit zwischen der Frage und den PDF-Inhalten
+    similarity_scores = util.pytorch_cos_sim(encoded_question, encoded_pdf)
+    max_similarity = max(similarity_scores[0])
+    return max_similarity.item()
 def main():
     #print(get_vectorstore().similarity_search_with_score("stelle")) # zeigt an ob Vektordatenbank gefüllt ist
     #print(get_conversation_chain(get_vectorstore()))
+    similarity_score = calculate_similarity(user_question, pdf_text)
+    # Nutze similarity_score zur Bewertung der Relevanz der Frage für die PDF-Inhalte
+    relevance_threshold = 0.6  # Beispielwert, anpassen nach Bedarf
+    if similarity_score >= relevance_threshold:
+        st.success("Die Frage ist relevant für die PDF-Inhalte.")
+        # Führe die weitere Verarbeitung durch
+        retriever = get_vectorstore().as_retriever()
+        retrieved_docs = retriever.invoke(user_question)
+        if user_question:
+            st.text(retrieved_docs[0].page_content)
+            # bei eingehendem PDF
+    else:
+        st.error("Die Frage ist nicht ausreichend relevant für die PDF-Inhalte. Bitte eine präzisere Frage stellen.")