Spaces:

IPTS-PRODDEV
/

AskNature_BioChat

Build error

App Files Files Community

Mohamed284 commited on Feb 8, 2025

Commit

389dc82

verified ·

1 Parent(s): 5458e43

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -31

app.py CHANGED Viewed

@@ -7,8 +7,8 @@ import os
 import pickle
 from typing import List, Tuple, Optional
 import gradio as gr
-from openai import OpenAI
-from google import genai
 from functools import lru_cache
 from tenacity import retry, stop_after_attempt, wait_exponential
 from langchain_community.retrievers import BM25Retriever
@@ -17,24 +17,18 @@ from langchain_core.embeddings import Embeddings
 from langchain_core.documents import Document
 from collections import defaultdict
 import hashlib
-from tqdm import tqdm
 from dotenv import load_dotenv
 load_dotenv()
 # --- Configuration ---
 FAISS_INDEX_PATH = "faiss_index"
 BM25_INDEX_PATH = "bm25_index.pkl"
-CACHE_VERSION = "v1"  # Increment when data format changes
-embedding_model = "e5-mistral-7b-instruct"  # OpenAI embedding model
-generation_model = "gemini-2.0-flash"  # Gemini generation model
 data_file_name = "AskNatureNet_data_enhanced.json"
-API_CONFIG = {
-    "gemini_api_key": os.getenv("GEMINI_API_KEY")  # Gemini API key for generation
-}
-CHUNK_SIZE = 800
-OVERLAP = 200
-EMBEDDING_BATCH_SIZE = 32  # Batch size for embedding API calls
 # Initialize clients
 OPENAI_API_CONFIG = {
@@ -42,7 +36,11 @@ OPENAI_API_CONFIG = {
     "base_url": "https://chat-ai.academiccloud.de/v1"
 }
 client = OpenAI(**OPENAI_API_CONFIG)
-gemini_client = genai.Client(api_key=API_CONFIG["gemini_api_key"])  # Gemini client for generation
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
@@ -52,13 +50,12 @@ def get_data_hash(file_path: str) -> str:
     with open(file_path, "rb") as f:
         return hashlib.md5(f.read()).hexdigest()
-# --- Custom Embedding Handler with Progress Tracking ---
 class MistralEmbeddings(Embeddings):
-    """E5-Mistral-7B embedding adapter with error handling and progress tracking"""
     def embed_documents(self, texts: List[str]) -> List[List[float]]:
         embeddings = []
         try:
-            # Process in batches with progress tracking
             for i in tqdm(range(0, len(texts), EMBEDDING_BATCH_SIZE), desc="Embedding Progress"):
                 batch = texts[i:i + EMBEDDING_BATCH_SIZE]
                 response = client.embeddings.create(
@@ -75,7 +72,7 @@ class MistralEmbeddings(Embeddings):
     def embed_query(self, text: str) -> List[float]:
         return self.embed_documents([text])[0]
-# --- Data Processing with Cache Validation ---
 def load_and_chunk_data(file_path: str) -> List[Document]:
     """Enhanced chunking with metadata preservation"""
     current_hash = get_data_hash(file_path)
@@ -176,9 +173,8 @@ class EnhancedRetriever:
     @lru_cache(maxsize=500)
     def _hyde_expansion(self, query: str) -> str:
         try:
-            response = gemini_client.models.generate_content(  # Use Gemini client for HyDE
-                model=generation_model,
-                contents=f"Generate a technical draft about biomimicry for: {query}\nInclude domain-specific terms."
             )
             return response.text
         except Exception as e:
@@ -221,11 +217,10 @@ Context: {context}"""
 @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=20))
 def get_ai_response(query: str, context: str) -> str:
     try:
-        response = gemini_client.models.generate_content(  # Use Gemini client for generation
-            model=generation_model,
-            contents=f"{SYSTEM_PROMPT.format(context=context)}\nQuestion: {query}\nProvide a detailed technical answer:"
         )
-        logger.info(f"Raw Response: {response.text}")  # Log raw response
         return _postprocess_response(response.text)
     except Exception as e:
         logger.error(f"Generation Error: {str(e)}")
@@ -236,7 +231,7 @@ def _postprocess_response(response: str) -> str:
     response = re.sub(r"\*\*([\w-]+)\*\*", r"**\1**", response)
     return response
-# --- Optimized Pipeline ---
 documents = load_and_chunk_data(data_file_name)
 retriever = EnhancedRetriever(documents)
@@ -262,11 +257,9 @@ with gr.Blocks(title="AskNature BioRAG Expert", theme=gr.themes.Soft()) as demo:
                             label="Inquiry", scale=4)
         clear_btn = gr.Button("Clear History", variant="secondary")
-    gr.Markdown("""
-        <div style="text-align: center; color: #4a7c59;">
-            <small>Powered by AskNature's Database |
-            Explore nature's blueprints at <a href="https://asknature.org">asknature.org</a></small>
-        </div>""")
     question.submit(chat_interface, [question, chatbot], [question, chatbot])
     clear_btn.click(lambda: [], None, chatbot)

 import pickle
 from typing import List, Tuple, Optional
 import gradio as gr
+from openai import OpenAI
+import google.generativeai as genai
 from functools import lru_cache
 from tenacity import retry, stop_after_attempt, wait_exponential
 from langchain_community.retrievers import BM25Retriever
 from langchain_core.documents import Document
 from collections import defaultdict
 import hashlib
+from tqdm import tqdm
 from dotenv import load_dotenv
 load_dotenv()
 # --- Configuration ---
 FAISS_INDEX_PATH = "faiss_index"
 BM25_INDEX_PATH = "bm25_index.pkl"
+CACHE_VERSION = "v1"
+embedding_model = "e5-mistral-7b-instruct"
+generation_model = "gemini-1.5-flash"
 data_file_name = "AskNatureNet_data_enhanced.json"
 # Initialize clients
 OPENAI_API_CONFIG = {
     "base_url": "https://chat-ai.academiccloud.de/v1"
 }
 client = OpenAI(**OPENAI_API_CONFIG)
+# Configure Gemini
+genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
+gemini_model = genai.GenerativeModel(generation_model)
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
     with open(file_path, "rb") as f:
         return hashlib.md5(f.read()).hexdigest()
+# --- Custom Embedding Handler ---
 class MistralEmbeddings(Embeddings):
+    """E5-Mistral-7B embedding adapter"""
     def embed_documents(self, texts: List[str]) -> List[List[float]]:
         embeddings = []
         try:
             for i in tqdm(range(0, len(texts), EMBEDDING_BATCH_SIZE), desc="Embedding Progress"):
                 batch = texts[i:i + EMBEDDING_BATCH_SIZE]
                 response = client.embeddings.create(
     def embed_query(self, text: str) -> List[float]:
         return self.embed_documents([text])[0]
+# --- Data Processing ---
 def load_and_chunk_data(file_path: str) -> List[Document]:
     """Enhanced chunking with metadata preservation"""
     current_hash = get_data_hash(file_path)
     @lru_cache(maxsize=500)
     def _hyde_expansion(self, query: str) -> str:
         try:
+            response = gemini_model.generate_content(
+                f"Generate a technical draft about biomimicry for: {query}\nInclude domain-specific terms."
             )
             return response.text
         except Exception as e:
 @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=2, max=20))
 def get_ai_response(query: str, context: str) -> str:
     try:
+        response = gemini_model.generate_content(
+            f"{SYSTEM_PROMPT.format(context=context)}\nQuestion: {query}\nProvide a detailed technical answer:"
         )
+        logger.info(f"Raw Response: {response.text}")
         return _postprocess_response(response.text)
     except Exception as e:
         logger.error(f"Generation Error: {str(e)}")
     response = re.sub(r"\*\*([\w-]+)\*\*", r"**\1**", response)
     return response
+# --- Pipeline ---
 documents = load_and_chunk_data(data_file_name)
 retriever = EnhancedRetriever(documents)
                             label="Inquiry", scale=4)
         clear_btn = gr.Button("Clear History", variant="secondary")
+    gr.Markdown("""<div style="text-align: center; color: #4a7c59;">
+        <small>Powered by AskNature's Database |
+        Explore nature's blueprints at <a href="https://asknature.org">asknature.org</a></small></div>""")
     question.submit(chat_interface, [question, chatbot], [question, chatbot])
     clear_btn.click(lambda: [], None, chatbot)