Crustdata_Build_Challenge

Runtime error

App Files Files Community

wifix199 commited on Jan 6, 2025

Commit

036b96f

verified ·

1 Parent(s): e46a600

Update app.py

Browse files

Files changed (1) hide show

app.py +63 -32

app.py CHANGED Viewed

@@ -1,19 +1,14 @@
 import gradio as gr
-from transformers import pipeline, AutoTokenizer, AutoModelForCausalLM
-from langchain.chains import RetrievalQA
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
-from langchain.document_loaders import TextLoader
 from langchain.text_splitter import RecursiveCharacterTextSplitter
-# Load a Hugging Face model for Q&A
-model_name = "HuggingFaceH4/zephyr-7b-beta"  # You can choose a lighter model if needed
-tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForCausalLM.from_pretrained(model_name)
-qa_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer, max_length=512)
-# Knowledge base for Crustdata APIs
-# Knowledge base for Crustdata APIs
 docs = """
 # Crustdata Dataset API
@@ -153,35 +148,71 @@ The Crustdata Discovery and Enrichment API allows users to enrich their datasets
 - Base URL: `https://api.crustdata.com`
 """
-# Split the documentation into chunks for embedding
-text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
 doc_chunks = text_splitter.create_documents([docs])
-# Embed the documents using sentence-transformers
 embedding_model = "sentence-transformers/all-MiniLM-L6-v2"
 embeddings = HuggingFaceEmbeddings(model_name=embedding_model)
 docsearch = FAISS.from_documents(doc_chunks, embeddings)
-# Create a QA chain
-qa_chain = RetrievalQA.from_chain_type(
-    llm=qa_pipeline,
-    retriever=docsearch.as_retriever(),
-    return_source_documents=True
-)
-# Function to handle user queries
-def answer_question(question):
-    result = qa_chain.run(question)
-    return result
-# Create a Gradio interface
-chat_interface = gr.Interface(
-    fn=answer_question,
-    inputs=gr.Textbox(lines=2, placeholder="Ask a question about Crustdata APIs..."),
-    outputs="text",
-    title="Crustdata API Chat",
     description="Ask any technical questions about Crustdata’s Dataset and Discovery APIs.",
 )
-# Launch the Gradio app
-chat_interface.launch(share=True)

 import gradio as gr
+from huggingface_hub import InferenceClient
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.text_splitter import RecursiveCharacterTextSplitter
+from langchain.document_loaders import TextLoader
+# Initialize the Hugging Face Inference client with an open-source LLM
+client = InferenceClient("HuggingFaceH4/zephyr-7b-beta")  # You can use any supported model
+# Sample knowledge base for Crustdata APIs
 docs = """
 # Crustdata Dataset API
 - Base URL: `https://api.crustdata.com`
 """
+# Split the documentation into smaller chunks
+text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
 doc_chunks = text_splitter.create_documents([docs])
+# Create embeddings and initialize FAISS vector store
 embedding_model = "sentence-transformers/all-MiniLM-L6-v2"
 embeddings = HuggingFaceEmbeddings(model_name=embedding_model)
 docsearch = FAISS.from_documents(doc_chunks, embeddings)
+def retrieve_context(query):
+    """Retrieve the most relevant context from the knowledge base."""
+    results = docsearch.similarity_search(query, k=2)  # Retrieve top 2 most similar chunks
+    context = "\n".join([res.page_content for res in results])
+    return context
+def respond(
+    message,
+    history: list[tuple[str, str]],
+    system_message,
+    max_tokens,
+    temperature,
+    top_p,
+):
+    """Generate a response using the Hugging Face Inference API."""
+    # Retrieve relevant context from the knowledge base
+    context = retrieve_context(message)
+    prompt = f"{system_message}\n\nContext:\n{context}\n\nUser: {message}\nAssistant:"
+    messages = [{"role": "system", "content": system_message}]
+    for val in history:
+        if val[0]:
+            messages.append({"role": "user", "content": val[0]})
+        if val[1]:
+            messages.append({"role": "assistant", "content": val[1]})
+    messages.append({"role": "user", "content": prompt})
+    response = ""
+    for message in client.chat_completion(
+        messages,
+        max_tokens=max_tokens,
+        stream=True,
+        temperature=temperature,
+        top_p=top_p,
+    ):
+        token = message.choices[0].delta.content
+        response += token
+        yield response
+# Gradio interface
+demo = gr.ChatInterface(
+    respond,
+    additional_inputs=[
+        gr.Textbox(value="You are a technical assistant for Crustdata APIs.", label="System message"),
+        gr.Slider(minimum=1, maximum=2048, value=512, step=1, label="Max new tokens"),
+        gr.Slider(minimum=0.1, maximum=4.0, value=0.7, step=0.1, label="Temperature"),
+        gr.Slider(minimum=0.1, maximum=1.0, value=0.95, step=0.05, label="Top-p (nucleus sampling)"),
+    ],
+    title="Crustdata API Chatbot",
     description="Ask any technical questions about Crustdata’s Dataset and Discovery APIs.",
 )
+if __name__ == "__main__":
+    demo.launch(share=True)