Spaces:

alexkueck
/

TestInferenceAPI

Sleeping

App Files Files Community

alexkueck commited on Dec 18, 2023

Commit

2cd8a5a

1 Parent(s): 82937de

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -11

app.py CHANGED Viewed

@@ -78,7 +78,7 @@ print ("Inf.Client")
 #client = InferenceClient("https://api-inference.huggingface.co/models/meta-llama/Llama-2-70b-chat-hf")
 #client = InferenceClient("https://ybdhvwle4ksrawzo.eu-west-1.aws.endpoints.huggingface.cloud")
 #Inference mit Authorisation:
-API_URL = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
 HEADERS = {"Authorization": f"Bearer {HUGGINGFACEHUB_API_TOKEN}"}
 ##############################################
@@ -196,14 +196,14 @@ def document_retrieval_chroma():
     #embeddings = HuggingFaceInstructEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2", model_kwargs={"device": "cpu"})
     #etwas weniger rechenaufwendig:
     #embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2", model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
     #ChromaDb um die embedings zu speichern
     db = Chroma(embedding_function = embeddings, persist_directory = PATH_WORK + CHROMA_DIR)
     print ("Chroma DB bereit ...................")
-    #llm =  ChatOpenAI(temperature=0.5)
-    #retriever =  SelfQueryRetriever.from_llm(llm,vectorstore,document_content_description=prompt,enable_limit=True,verbose=True,)
-    return db #, retriever
@@ -218,10 +218,9 @@ def llm_chain(prompt):
 #langchain nutzen, um prompt an llm zu leiten, aber vorher in der VektorDB suchen, um passende splits zum Prompt hinzuzufügen
 #prompt mit RAG!!!
-def rag_chain(prompt, db):
     rag_template = "Nutze die folgenden Kontext Teile am Ende, um die Frage zu beantworten . " + template + "Frage: " + prompt + "Kontext Teile: "
-    retrieved_chunks  = db.similarity_search(prompt)
-    #retrieved_chunks = retriever.get_relevant_documents(prompt)
     neu_prompt = rag_template
     for i, chunk in enumerate(retrieved_chunks):
@@ -269,7 +268,7 @@ def generate_prompt_with_history_openai(prompt, history):
 ##############################################
 # generate function
 ##############################################
-def generate(text, history, rag_option, model_option,  temperature=0.5, max_new_tokens=4048, top_p=0.6, repetition_penalty=1.3):
     #mit RAG
     if (rag_option is None):
         raise gr.Error("Retrieval Augmented Generation ist erforderlich.")
@@ -277,6 +276,14 @@ def generate(text, history, rag_option, model_option,  temperature=0.5, max_new_
         raise gr.Error("Prompt ist erforderlich.")
     try:
         if (rag_option == "An"):
             #muss nur einmal ausgeführt werden...
             if not splittet:
@@ -284,7 +291,7 @@ def generate(text, history, rag_option, model_option,  temperature=0.5, max_new_
                 document_storage_chroma(splits)
             db = document_retrieval_chroma()
             #mit RAG:
-            neu_text_mit_chunks = rag_chain(text, db)
             #für Chat LLM:
             #prompt = generate_prompt_with_history_openai(neu_text_mit_chunks, history)
             #als reiner prompt:
@@ -359,7 +366,8 @@ examples=[['Was ist ChtGPT-4?'],['schreibe ein Python Programm, dass die GPT-4 A
 additional_inputs = [
     gr.Radio(["Aus", "An"], label="RAG - LI Erweiterungen", value = "Aus"),
-    gr.Radio(["OpenAI", "HuggingFace"], label="Modellauswahl", value = "HuggingFace"),
     gr.Slider(label="Temperature", value=0.65, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Höhere Werte erzeugen diversere Antworten", visible=True),
     gr.Slider(label="Max new tokens", value=1024, minimum=0, maximum=4096, step=64, interactive=True, info="Maximale Anzahl neuer Tokens", visible=True),
     gr.Slider(label="Top-p (nucleus sampling)", value=0.6, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Höhere Werte verwenden auch Tokens mit niedrigerer Wahrscheinlichkeit.", visible=True),

 #client = InferenceClient("https://api-inference.huggingface.co/models/meta-llama/Llama-2-70b-chat-hf")
 #client = InferenceClient("https://ybdhvwle4ksrawzo.eu-west-1.aws.endpoints.huggingface.cloud")
 #Inference mit Authorisation:
+#API_URL = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
 HEADERS = {"Authorization": f"Bearer {HUGGINGFACEHUB_API_TOKEN}"}
 ##############################################
     #embeddings = HuggingFaceInstructEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2", model_kwargs={"device": "cpu"})
     #etwas weniger rechenaufwendig:
     #embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-mpnet-base-v2", model_kwargs={"device": "cpu"}, encode_kwargs={'normalize_embeddings': False})
+    #oder einfach ohne Langchain:
+    #embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
     #ChromaDb um die embedings zu speichern
     db = Chroma(embedding_function = embeddings, persist_directory = PATH_WORK + CHROMA_DIR)
     print ("Chroma DB bereit ...................")
+    return db
 #langchain nutzen, um prompt an llm zu leiten, aber vorher in der VektorDB suchen, um passende splits zum Prompt hinzuzufügen
 #prompt mit RAG!!!
+def rag_chain(prompt, db, k=3):
     rag_template = "Nutze die folgenden Kontext Teile am Ende, um die Frage zu beantworten . " + template + "Frage: " + prompt + "Kontext Teile: "
+    retrieved_chunks  = db.similarity_search(prompt, k)
     neu_prompt = rag_template
     for i, chunk in enumerate(retrieved_chunks):
 ##############################################
 # generate function
 ##############################################
+def generate(text, history, rag_option, model_option,  k=3, temperature=0.5, max_new_tokens=4048, top_p=0.6, repetition_penalty=1.3,):
     #mit RAG
     if (rag_option is None):
         raise gr.Error("Retrieval Augmented Generation ist erforderlich.")
         raise gr.Error("Prompt ist erforderlich.")
     try:
+        if (model_option == "Huggingface1"):
+            #Anfrage an InferenceEndpoint1 ----------------------------
+            API_URL = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"
+            print("HF1")
+        else:
+            API_URL = "https://api-inference.huggingface.co/models/OpenAssistant/oasst-sft-4-pythia-12b-epoch-3.5"
+            print("HF2")
         if (rag_option == "An"):
             #muss nur einmal ausgeführt werden...
             if not splittet:
                 document_storage_chroma(splits)
             db = document_retrieval_chroma()
             #mit RAG:
+            neu_text_mit_chunks = rag_chain(text, db, k)
             #für Chat LLM:
             #prompt = generate_prompt_with_history_openai(neu_text_mit_chunks, history)
             #als reiner prompt:
 additional_inputs = [
     gr.Radio(["Aus", "An"], label="RAG - LI Erweiterungen", value = "Aus"),
+    gr.Radio(["HuggingFace1", "HuggingFace2"], label="Modellauswahl", value = "HuggingFace1"),
+    gr.Slider(label="Anzahl Vergleichsdokumente", value=3, minimum=1, maximum=10, step=1, interactive=True, info="wie viele Dokumententeile aus dem Vektorstore an den prompt gehängt werden", visible=True)
     gr.Slider(label="Temperature", value=0.65, minimum=0.0, maximum=1.0, step=0.05, interactive=True, info="Höhere Werte erzeugen diversere Antworten", visible=True),
     gr.Slider(label="Max new tokens", value=1024, minimum=0, maximum=4096, step=64, interactive=True, info="Maximale Anzahl neuer Tokens", visible=True),
     gr.Slider(label="Top-p (nucleus sampling)", value=0.6, minimum=0.0, maximum=1, step=0.05, interactive=True, info="Höhere Werte verwenden auch Tokens mit niedrigerer Wahrscheinlichkeit.", visible=True),