Spaces:

Huzaifa424
/

DeepseekRAG

Build error

App Files Files Community

Huzaifa424 commited on Feb 1, 2025

Commit

b16ae29

verified ·

1 Parent(s): 96071c0

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -31

app.py CHANGED Viewed

@@ -11,7 +11,11 @@ MODEL_ID = "deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B"
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
-model = AutoModelForCausalLM.from_pretrained(MODEL_ID, torch_dtype=torch.float16, device_map="auto")
 # Load embedding model for RAG
 embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
@@ -20,24 +24,18 @@ vector_store = None
 # Function to process PDF and create vector database
 def process_pdf(pdf_path):
     global vector_store
-    if not pdf_path:
-        return "❌ No PDF uploaded. Please upload a valid file."
     loader = PyPDFLoader(pdf_path)
     documents = loader.load()
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
     texts = text_splitter.split_documents(documents)
-    if not texts:
-        return "❌ No text extracted from the PDF."
     vector_store = FAISS.from_documents(texts, embedding_model)
-    return "✅ PDF successfully processed and indexed."
 # RAG Query Function
-def query_rag(message, system_prompt, temperature, max_new_tokens, top_k, repetition_penalty, top_p, history=[]):
     if vector_store is None:
-        return "⚠️ Please upload and process a PDF first."
     # Retrieve relevant chunks
     docs = vector_store.similarity_search(message, k=3)
@@ -51,17 +49,18 @@ def query_rag(message, system_prompt, temperature, max_new_tokens, top_k, repeti
     # Tokenization
     enc = tokenizer(instruction, return_tensors="pt", padding=True, truncation=True)
     input_ids = enc.input_ids.to(device)
     # Generate response
     output_ids = model.generate(
         input_ids,
         do_sample=True,
-        temperature=temperature,
-        max_new_tokens=max_new_tokens,
-        top_k=top_k,
-        repetition_penalty=repetition_penalty,
-        top_p=top_p,
-        pad_token_id=tokenizer.eos_token_id  # Ensures correct padding
     )
     response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
     return response
@@ -69,29 +68,26 @@ def query_rag(message, system_prompt, temperature, max_new_tokens, top_k, repeti
 # Gradio Interface
 def launch_interface():
     with gr.Blocks() as demo:
-        gr.Markdown("## 🤖 RAG Chatbot with DeepSeek AI")
-        with gr.Row():
-            pdf_uploader = gr.File(label="📂 Upload PDF", type="filepath")
-            process_btn = gr.Button("📌 Process PDF")
         process_output = gr.Textbox(label="Processing Status", interactive=False)
         chatbot = gr.ChatInterface(
-            fn=query_rag,
             additional_inputs=[
-                gr.Textbox("You are a helpful assistant.", label="🔹 System Prompt"),
-                gr.Slider(0.1, 1.0, 0.6, label="🌡️ Temperature"),
-                gr.Slider(100, 32000, 1024, step=100, label="📏 Max new tokens"),
-                gr.Slider(1, 80, 40, step=1, label="🎯 Top K"),
-                gr.Slider(0.1, 2.0, 1.1, step=0.1, label="🔄 Repetition Penalty"),
-                gr.Slider(0.1, 1.0, 0.95, step=0.05, label="🔢 Top P"),
             ]
         )
         process_btn.click(process_pdf, inputs=[pdf_uploader], outputs=[process_output])
-    demo.launch()
 if __name__ == "__main__":
     launch_interface()

 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+model = AutoModelForCausalLM.from_pretrained(MODEL_ID, device_map="auto")
+# Ensure PAD token is set correctly
+if tokenizer.pad_token is None:
+    tokenizer.pad_token = tokenizer.eos_token
 # Load embedding model for RAG
 embedding_model = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
 # Function to process PDF and create vector database
 def process_pdf(pdf_path):
     global vector_store
     loader = PyPDFLoader(pdf_path)
     documents = loader.load()
     text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=100)
     texts = text_splitter.split_documents(documents)
     vector_store = FAISS.from_documents(texts, embedding_model)
+    return "PDF successfully processed and indexed."
 # RAG Query Function
+def query_rag(message, system_prompt, temperature, max_new_tokens, top_k, repetition_penalty, top_p, history=None):
     if vector_store is None:
+        return "Please upload and process a PDF first."
     # Retrieve relevant chunks
     docs = vector_store.similarity_search(message, k=3)
     # Tokenization
     enc = tokenizer(instruction, return_tensors="pt", padding=True, truncation=True)
     input_ids = enc.input_ids.to(device)
+    attention_mask = enc.attention_mask.to(device)
     # Generate response
     output_ids = model.generate(
         input_ids,
+        attention_mask=attention_mask,  # Fix for attention mask issue
         do_sample=True,
+        temperature=float(temperature),
+        max_new_tokens=int(max_new_tokens),
+        top_k=int(top_k),
+        repetition_penalty=float(repetition_penalty),  # Fix: Ensure it's a float
+        top_p=float(top_p)
     )
     response = tokenizer.decode(output_ids[0], skip_special_tokens=True)
     return response
 # Gradio Interface
 def launch_interface():
     with gr.Blocks() as demo:
+        gr.Markdown("## 🤖 RAG Chatbot with DeepSeek")
+        pdf_uploader = gr.File(label="Upload PDF", type="filepath")
+        process_btn = gr.Button("Process PDF")
         process_output = gr.Textbox(label="Processing Status", interactive=False)
         chatbot = gr.ChatInterface(
+            query_rag,
             additional_inputs=[
+                gr.Textbox("You are a helpful assistant.", label="System Prompt"),
+                gr.Slider(0.1, 1, 0.6, label="Temperature"),  # Fix: Start from 0.1
+                gr.Slider(1, 32000, 10000, label="Max new tokens"),
+                gr.Slider(1, 50, 40, label="Top K"),  # Adjusted range
+                gr.Slider(1.0, 2.0, 1.1, label="Repetition Penalty"),  # Fix: Should be 1.0-2.0
+                gr.Slider(0.1, 1, 0.95, label="Top P"),  # Fix: Should be 0.1-1
             ]
         )
         process_btn.click(process_pdf, inputs=[pdf_uploader], outputs=[process_output])
+    demo.launch(share=True)  # Enable public link
 if __name__ == "__main__":
     launch_interface()