Spaces:

eeshanyaj
/

questrag-backend

Sleeping

App Files Files Community

eeshanyaj commited on Nov 28, 2025

Commit

e448800

1 Parent(s): d1b6d07

major changes

Browse files

Files changed (10) hide show

app/config.py +67 -515
app/core/llm_manager.py +254 -235
app/main.py +53 -27
app/services/chat_service.py +20 -23
backups/backup_chat_service.py +340 -0
backups/backup_config.py +640 -0
backups/backup_llm_manager.py +430 -0
backups/backup_main.py +275 -0
backups/backup_requirements.txt +182 -0
requirements.txt +20 -121

app/config.py CHANGED Viewed

@@ -1,10 +1,7 @@
-# LINE 80 VERY IMP CHANGE OF LLM MAX TOKENS FROM 512 TO 1024
 """
 Application Configuration
 Settings for Banking RAG Chatbot with JWT Authentication
-Includes all settings needed by existing llm_manager.py
 """
 import os
@@ -13,7 +10,6 @@ from dotenv import load_dotenv
 load_dotenv()
 class Settings:
     """Application settings loaded from environment variables"""
@@ -42,23 +38,32 @@ class Settings:
     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
     # ========================================================================
-    # GOOGLE GEMINI API
     # ========================================================================
-    GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
-    GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
-    GEMINI_REQUESTS_PER_MINUTE: int = int(os.getenv("GEMINI_REQUESTS_PER_MINUTE", "60"))
     # ========================================================================
-    # GROQ API (Optional - for evaluation)
     # ========================================================================
-    GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
-    GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
-    GROQ_REQUESTS_PER_MINUTE: int = int(os.getenv("GROQ_REQUESTS_PER_MINUTE", "30"))
     # ========================================================================
-    # HUGGING FACE (Optional - for model downloads)
     # ========================================================================
-    HF_TOKEN: str = os.getenv("HF_TOKEN", "")
     # ========================================================================
     # MODEL PATHS (for RL Policy Network and RAG models)
@@ -77,8 +82,7 @@ class Settings:
     # LLM PARAMETERS
     # ========================================================================
     LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
-    LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "1024")) # VERY IMPORTANT CHANGE =============================================================================================
-    # ============================================================================
     # ========================================================================
     # RAG PARAMETERS
@@ -94,20 +98,37 @@ class Settings:
     CONFIDENCE_THRESHOLD: float = float(os.getenv("CONFIDENCE_THRESHOLD", "0.7"))
     # ========================================================================
-    # HELPER METHODS (Required by llm_manager.py)
-    # ========================================================================
-    def is_gemini_enabled(self) -> bool:
-        """Check if Google Gemini API is configured"""
-        return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
     def is_groq_enabled(self) -> bool:
-        """Check if Groq API is configured"""
-        return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
     def is_hf_enabled(self) -> bool:
-        """Check if HuggingFace token is configured"""
-        return bool(self.HF_TOKEN and self.HF_TOKEN != "")
     def get_allowed_origins(self) -> List[str]:
         """Parse allowed origins from comma-separated string"""
@@ -115,29 +136,26 @@ class Settings:
             return ["*"]
         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
-    def get_llm_for_task(self, task: str = "qa") -> str:
         """
-        Get LLM name for a specific task.
         Args:
-            task: Task type ('chat', 'evaluation', etc.')
         Returns:
-            str: LLM name ('gemini' or 'groq')
         """
-        # Use Gemini for chat, Groq for evaluation
         if task == "evaluation":
-            return "groq" if self.is_groq_enabled() else "gemini"
         else:
-            return "gemini"  # Default to Gemini for all tasks
 # ============================================================================
 # CREATE GLOBAL SETTINGS INSTANCE
 # ============================================================================
 settings = Settings()
 # ============================================================================
 # PRINT CONFIGURATION ON LOAD
 # ============================================================================
@@ -151,11 +169,20 @@ print(f"Device: {settings.DEVICE}")
 print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
 print()
 print("🔑 API Keys:")
-print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
-print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
-print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
 print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
-print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
 print()
 print("🤖 Model Paths:")
 print(f"   Policy Model: {settings.POLICY_MODEL_PATH}")
@@ -163,478 +190,3 @@ print(f"   Retriever Model: {settings.RETRIEVER_MODEL_PATH}")
 print(f"   FAISS Index: {settings.FAISS_INDEX_PATH}")
 print(f"   Knowledge Base: {settings.KB_PATH}")
 print("=" * 80)
-# ============================================================================
-# """
-# Application Configuration
-# Settings for Banking RAG Chatbot with JWT Authentication
-# Includes all settings needed by existing llm_manager.py
-# """
-# import os
-# from typing import List
-# from dotenv import load_dotenv
-# load_dotenv()
-# class Settings:
-#     """Application settings loaded from environment variables"""
-#     # ========================================================================
-#     # ENVIRONMENT
-#     # ========================================================================
-#     ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
-#     DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
-#     # ========================================================================
-#     # MONGODB
-#     # ========================================================================
-#     MONGODB_URI: str = os.getenv("MONGODB_URI", "")
-#     DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
-#     # ========================================================================
-#     # JWT AUTHENTICATION
-#     # ========================================================================
-#     SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
-#     ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
-#     ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
-#     # ========================================================================
-#     # CORS (for frontend)
-#     # ========================================================================
-#     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
-#     # ========================================================================
-#     # GOOGLE GEMINI API
-#     # ========================================================================
-#     GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
-#     GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
-#     # ========================================================================
-#     # GROQ API (Optional - for your llm_manager)
-#     # ========================================================================
-#     GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
-#     GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
-#     # ========================================================================
-#     # HUGGING FACE (Optional - for model downloads)
-#     # ========================================================================
-#     HF_TOKEN: str = os.getenv("HF_TOKEN", "")
-#     # ========================================================================
-#     # MODEL PATHS (for RL Policy Network and RAG models)
-#     # ========================================================================
-#     POLICY_MODEL_PATH: str = os.getenv("POLICY_MODEL_PATH", "models/best_policy_model.pth")
-#     RETRIEVER_MODEL_PATH: str = os.getenv("RETRIEVER_MODEL_PATH", "models/best_retriever_model.pth")
-#     FAISS_INDEX_PATH: str = os.getenv("FAISS_INDEX_PATH", "models/faiss_index.pkl")
-#     KB_PATH: str = os.getenv("KB_PATH", "data/final_knowledge_base.jsonl")
-#     # ========================================================================
-#     # DEVICE SETTINGS (for PyTorch/TensorFlow models)
-#     # ========================================================================
-#     DEVICE: str = os.getenv("DEVICE", "cpu")
-#     # ========================================================================
-#     # LLM PARAMETERS
-#     # ========================================================================
-#     LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
-#     LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "512"))
-#     # ========================================================================
-#     # RAG PARAMETERS
-#     # ========================================================================
-#     TOP_K: int = int(os.getenv("TOP_K", "5"))
-#     SIMILARITY_THRESHOLD: float = float(os.getenv("SIMILARITY_THRESHOLD", "0.5"))
-#     MAX_CONTEXT_LENGTH: int = int(os.getenv("MAX_CONTEXT_LENGTH", "2000"))
-#     # ========================================================================
-#     # POLICY NETWORK PARAMETERS
-#     # ========================================================================
-#     POLICY_MAX_LEN: int = int(os.getenv("POLICY_MAX_LEN", "256"))
-#     CONFIDENCE_THRESHOLD: float = float(os.getenv("CONFIDENCE_THRESHOLD", "0.7"))
-#     # ========================================================================
-#     # HELPER METHODS (Required by llm_manager.py)
-#     # ========================================================================
-#     def is_gemini_enabled(self) -> bool:
-#         """Check if Google Gemini API is configured"""
-#         return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
-#     def is_groq_enabled(self) -> bool:
-#         """Check if Groq API is configured"""
-#         return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
-#     def is_hf_enabled(self) -> bool:
-#         """Check if HuggingFace token is configured"""
-#         return bool(self.HF_TOKEN and self.HF_TOKEN != "")
-#     def get_allowed_origins(self) -> List[str]:
-#         """Parse allowed origins from comma-separated string"""
-#         if self.ALLOWED_ORIGINS == "*":
-#             return ["*"]
-#         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
-#     # def get_llm_for_task(self, task: str = "qa"):
-#     #     """
-#     #     Get LLM configuration for a specific task.
-#     #     Returns a dict with model settings.
-#     #     Args:
-#     #         task: Task type ('qa', 'retrieval', 'summary', etc.)
-#     #     Returns:
-#     #         dict: LLM configuration
-#     #     """
-#     #     return {
-#     #         'api_key': self.GOOGLE_API_KEY,
-#     #         'model': self.GEMINI_MODEL,
-#     #         'temperature': self.LLM_TEMPERATURE,
-#     #         'max_tokens': self.LLM_MAX_TOKENS,
-#     #         'task': task
-#     #     }
-#     def get_llm_for_task(self, task: str = "qa") -> str:
-#         """
-#         Get LLM name for a specific task.
-#         Args:
-#             task: Task type ('chat', 'evaluation', etc.)
-#         Returns:
-#             str: LLM name ('gemini' or 'groq')
-#         """
-#         # Use Gemini for chat, Groq for evaluation
-#         if task == "evaluation":
-#             return "groq" if self.is_groq_enabled() else "gemini"
-#         else:
-#             return "gemini"  # Default to Gemini for all other tasks
-# # ============================================================================
-# # CREATE GLOBAL SETTINGS INSTANCE
-# # ============================================================================
-# settings = Settings()
-# # ============================================================================
-# # PRINT CONFIGURATION ON LOAD
-# # ============================================================================
-# print("=" * 80)
-# print("✅ Configuration Loaded")
-# print("=" * 80)
-# print(f"Environment: {settings.ENVIRONMENT}")
-# print(f"Debug Mode: {settings.DEBUG}")
-# print(f"Database: {settings.DATABASE_NAME}")
-# print(f"Device: {settings.DEVICE}")
-# print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
-# print()
-# print("🔑 API Keys:")
-# print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
-# print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
-# print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
-# print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
-# print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
-# print()
-# print("🤖 Model Paths:")
-# print(f"   Policy Model: {settings.POLICY_MODEL_PATH}")
-# print(f"   Retriever Model: {settings.RETRIEVER_MODEL_PATH}")
-# print(f"   FAISS Index: {settings.FAISS_INDEX_PATH}")
-# print(f"   Knowledge Base: {settings.KB_PATH}")
-# print("=" * 80)
-# # # ============================================================================
-# # """
-# # Application Configuration
-# # Settings for Banking RAG Chatbot with JWT Authentication
-# # Includes all settings needed by existing llm_manager.py
-# # """
-# # import os
-# # from typing import List
-# # from dotenv import load_dotenv
-# # load_dotenv()
-# # class Settings:
-# #     """Application settings loaded from environment variables"""
-# #     # ========================================================================
-# #     # ENVIRONMENT
-# #     # ========================================================================
-# #     ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
-# #     DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
-# #     # ========================================================================
-# #     # MONGODB
-# #     # ========================================================================
-# #     MONGODB_URI: str = os.getenv("MONGODB_URI", "")
-# #     DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
-# #     # ========================================================================
-# #     # JWT AUTHENTICATION
-# #     # ========================================================================
-# #     SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
-# #     ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
-# #     ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
-# #     # ========================================================================
-# #     # CORS (for frontend)
-# #     # ========================================================================
-# #     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
-# #     # ========================================================================
-# #     # GOOGLE GEMINI API
-# #     # ========================================================================
-# #     GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
-# #     GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
-# #     # ========================================================================
-# #     # GROQ API (Optional - for your llm_manager)
-# #     # ========================================================================
-# #     GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
-# #     GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
-# #     # ========================================================================
-# #     # HUGGING FACE (Optional - for model downloads)
-# #     # ========================================================================
-# #     HF_TOKEN: str = os.getenv("HF_TOKEN", "")
-# #     # ========================================================================
-# #     # HELPER METHODS (Required by llm_manager.py)
-# #     # ========================================================================
-# #     def is_gemini_enabled(self) -> bool:
-# #         """Check if Google Gemini API is configured"""
-# #         return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
-# #     def is_groq_enabled(self) -> bool:
-# #         """Check if Groq API is configured"""
-# #         return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
-# #     def is_hf_enabled(self) -> bool:
-# #         """Check if HuggingFace token is configured"""
-# #         return bool(self.HF_TOKEN and self.HF_TOKEN != "")
-# #     def get_allowed_origins(self) -> List[str]:
-# #         """Parse allowed origins from comma-separated string"""
-# #         if self.ALLOWED_ORIGINS == "*":
-# #             return ["*"]
-# #         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
-# # # ============================================================================
-# # # CREATE GLOBAL SETTINGS INSTANCE
-# # # ============================================================================
-# # settings = Settings()
-# # # ============================================================================
-# # # PRINT CONFIGURATION ON LOAD
-# # # ============================================================================
-# # print("=" * 80)
-# # print("✅ Configuration Loaded")
-# # print("=" * 80)
-# # print(f"Environment: {settings.ENVIRONMENT}")
-# # print(f"Debug Mode: {settings.DEBUG}")
-# # print(f"Database: {settings.DATABASE_NAME}")
-# # # print(f"JWT Algorithm: {settings.ALGORITHM}")
-# # # print(f"Token Expiry: {settings.ACCESS_TOKEN_EXPIRE_MINUTES} minutes")
-# # print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
-# # print()
-# # print("🔑 API Keys:")
-# # print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
-# # print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
-# # print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
-# # print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
-# # print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
-# # print("=" * 80)
-# """
-# Application Configuration
-# Settings for Banking RAG Chatbot with JWT Authentication
-# Includes all settings needed by existing llm_manager.py
-# """
-# import os
-# from typing import List
-# from dotenv import load_dotenv
-# load_dotenv()
-# class Settings:
-#     """Application settings loaded from environment variables"""
-#     # ========================================================================
-#     # ENVIRONMENT
-#     # ========================================================================
-#     ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
-#     DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
-#     # ========================================================================
-#     # MONGODB
-#     # ========================================================================
-#     MONGODB_URI: str = os.getenv("MONGODB_URI", "")
-#     DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
-#     # ========================================================================
-#     # JWT AUTHENTICATION
-#     # ========================================================================
-#     SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
-#     ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
-#     ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
-#     # ========================================================================
-#     # CORS (for frontend)
-#     # ========================================================================
-#     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
-#     # ========================================================================
-#     # GOOGLE GEMINI API
-#     # ========================================================================
-#     GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
-#     GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
-#     # ========================================================================
-#     # GROQ API (Optional - for your llm_manager)
-#     # ========================================================================
-#     GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
-#     GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
-#     # ========================================================================
-#     # HUGGING FACE (Optional - for model downloads)
-#     # ========================================================================
-#     HF_TOKEN: str = os.getenv("HF_TOKEN", "")
-#     # ========================================================================
-#     # MODEL PATHS (for RL Policy Network and RAG models)
-#     # ========================================================================
-#     POLICY_MODEL_PATH: str = os.getenv("POLICY_MODEL_PATH", "models/best_policy_model.pth")
-#     RETRIEVER_MODEL_PATH: str = os.getenv("RETRIEVER_MODEL_PATH", "models/best_retriever_model.pth")
-#     FAISS_INDEX_PATH: str = os.getenv("FAISS_INDEX_PATH", "models/faiss_index.pkl")
-#     KB_PATH: str = os.getenv("KB_PATH", "data/final_knowledge_base.jsonl")
-#     # ========================================================================
-#     # LLM PARAMETERS
-#     # ========================================================================
-#     LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
-#     LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "512"))
-#     # ========================================================================
-#     # RAG PARAMETERS
-#     # ========================================================================
-#     TOP_K: int = int(os.getenv("TOP_K", "5"))
-#     SIMILARITY_THRESHOLD: float = float(os.getenv("SIMILARITY_THRESHOLD", "0.5"))
-#     MAX_CONTEXT_LENGTH: int = int(os.getenv("MAX_CONTEXT_LENGTH", "2000"))
-#     # ========================================================================
-#     # HELPER METHODS (Required by llm_manager.py)
-#     # ========================================================================
-#     def is_gemini_enabled(self) -> bool:
-#         """Check if Google Gemini API is configured"""
-#         return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
-#     def is_groq_enabled(self) -> bool:
-#         """Check if Groq API is configured"""
-#         return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
-#     def is_hf_enabled(self) -> bool:
-#         """Check if HuggingFace token is configured"""
-#         return bool(self.HF_TOKEN and self.HF_TOKEN != "")
-#     def get_allowed_origins(self) -> List[str]:
-#         """Parse allowed origins from comma-separated string"""
-#         if self.ALLOWED_ORIGINS == "*":
-#             return ["*"]
-#         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
-# # ============================================================================
-# # CREATE GLOBAL SETTINGS INSTANCE
-# # ============================================================================
-# settings = Settings()
-# # ============================================================================
-# # PRINT CONFIGURATION ON LOAD
-# # ============================================================================
-# print("=" * 80)
-# print("✅ Configuration Loaded")
-# print("=" * 80)
-# print(f"Environment: {settings.ENVIRONMENT}")
-# print(f"Debug Mode: {settings.DEBUG}")
-# print(f"Database: {settings.DATABASE_NAME}")
-# print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
-# print()
-# print("🔑 API Keys:")
-# print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
-# print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
-# print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
-# print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
-# print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
-# print("=" * 80)

 """
 Application Configuration
 Settings for Banking RAG Chatbot with JWT Authentication
+Updated to support multiple Groq API keys and HuggingFace tokens with fallback logic
 """
 import os
 load_dotenv()
 class Settings:
     """Application settings loaded from environment variables"""
     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
     # ========================================================================
+    # GROQ API KEYS (Multiple for fallback)
     # ========================================================================
+    GROQ_API_KEY_1: str = os.getenv("GROQ_API_KEY_1", "")  # Primary
+    GROQ_API_KEY_2: str = os.getenv("GROQ_API_KEY_2", "")  # Fallback 1
+    GROQ_API_KEY_3: str = os.getenv("GROQ_API_KEY_3", "")  # Fallback 2
+    # Model names for Groq (using correct GroqCloud naming)
+    GROQ_CHAT_MODEL: str = os.getenv("GROQ_CHAT_MODEL", "llama3-8b-8192")  # For chat interface
+    GROQ_EVAL_MODEL: str = os.getenv("GROQ_EVAL_MODEL", "llama3-70b-8192")  # For evaluation
     # ========================================================================
+    # Commented as of now, can be re-enabled if rate limiting is needed
     # ========================================================================
+    # GROQ_REQUESTS_PER_MINUTE: int = int(os.getenv("GROQ_REQUESTS_PER_MINUTE", "30"))
     # ========================================================================
+    # HUGGING FACE TOKENS (Multiple for fallback)
     # ========================================================================
+    HF_TOKEN_1: str = os.getenv("HF_TOKEN_1", "")  # Primary
+    HF_TOKEN_2: str = os.getenv("HF_TOKEN_2", "")  # Fallback 1
+    HF_TOKEN_3: str = os.getenv("HF_TOKEN_3", "")  # Fallback 2
+    # HuggingFace model for inference (fallback from Groq)
+    HF_CHAT_MODEL: str = os.getenv("HF_CHAT_MODEL", "meta-llama/Meta-Llama-3-8B-Instruct")
+    HF_EVAL_MODEL: str = os.getenv("HF_EVAL_MODEL", "meta-llama/Meta-Llama-3-70B-Instruct")
     # ========================================================================
     # MODEL PATHS (for RL Policy Network and RAG models)
     # LLM PARAMETERS
     # ========================================================================
     LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
+    LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "1024"))
     # ========================================================================
     # RAG PARAMETERS
     CONFIDENCE_THRESHOLD: float = float(os.getenv("CONFIDENCE_THRESHOLD", "0.7"))
     # ========================================================================
+    # HELPER METHODS
+    # ========================================================================
+    def get_groq_api_keys(self) -> List[str]:
+        """Get all configured Groq API keys in priority order"""
+        keys = []
+        if self.GROQ_API_KEY_1:
+            keys.append(self.GROQ_API_KEY_1)
+        if self.GROQ_API_KEY_2:
+            keys.append(self.GROQ_API_KEY_2)
+        if self.GROQ_API_KEY_3:
+            keys.append(self.GROQ_API_KEY_3)
+        return keys
+    def get_hf_tokens(self) -> List[str]:
+        """Get all configured HuggingFace tokens in priority order"""
+        tokens = []
+        if self.HF_TOKEN_1:
+            tokens.append(self.HF_TOKEN_1)
+        if self.HF_TOKEN_2:
+            tokens.append(self.HF_TOKEN_2)
+        if self.HF_TOKEN_3:
+            tokens.append(self.HF_TOKEN_3)
+        return tokens
     def is_groq_enabled(self) -> bool:
+        """Check if at least one Groq API key is configured"""
+        return bool(self.get_groq_api_keys())
     def is_hf_enabled(self) -> bool:
+        """Check if at least one HuggingFace token is configured"""
+        return bool(self.get_hf_tokens())
     def get_allowed_origins(self) -> List[str]:
         """Parse allowed origins from comma-separated string"""
             return ["*"]
         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
+    def get_llm_for_task(self, task: str = "chat") -> str:
         """
+        Get LLM model name for a specific task.
         Args:
+            task: Task type ('chat' or 'evaluation')
         Returns:
+            str: Model name for the task
         """
         if task == "evaluation":
+            return self.GROQ_EVAL_MODEL  # llama3-70b-8192
         else:
+            return self.GROQ_CHAT_MODEL  # llama3-8b-8192
 # ============================================================================
 # CREATE GLOBAL SETTINGS INSTANCE
 # ============================================================================
 settings = Settings()
 # ============================================================================
 # PRINT CONFIGURATION ON LOAD
 # ============================================================================
 print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
 print()
 print("🔑 API Keys:")
+groq_keys = settings.get_groq_api_keys()
+print(f"   Groq Keys: {len(groq_keys)} configured")
+for i, key in enumerate(groq_keys, 1):
+    print(f"     - Key {i}: {'✅ Set' if key else '❌ Missing'}")
+hf_tokens = settings.get_hf_tokens()
+print(f"   HuggingFace Tokens: {len(hf_tokens)} configured")
+for i, token in enumerate(hf_tokens, 1):
+    print(f"     - Token {i}: {'✅ Set' if token else '❌ Missing'}")
 print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
+print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️ Using default (CHANGE THIS!)'}")
+print()
+print("🤖 LLM Models:")
+print(f"   Chat Model: {settings.GROQ_CHAT_MODEL} (Llama 3 8B)")
+print(f"   Eval Model: {settings.GROQ_EVAL_MODEL} (Llama 3 70B)")
 print()
 print("🤖 Model Paths:")
 print(f"   Policy Model: {settings.POLICY_MODEL_PATH}")
 print(f"   FAISS Index: {settings.FAISS_INDEX_PATH}")
 print(f"   Knowledge Base: {settings.KB_PATH}")
 print("=" * 80)

app/core/llm_manager.py CHANGED Viewed

@@ -1,258 +1,278 @@
 """
-Multi-LLM Manager for Google Gemini, Groq, and HuggingFace
-All three APIs co-exist for different purposes (no fallback logic)
 Architecture:
-- Google Gemini (Primary): User-facing chat responses (best quality)
-- Groq (Secondary): Fast inference for evaluation and specific tasks
-- HuggingFace: Model downloads and embeddings (always required)
-Each API has its designated purpose based on config settings.
 """
 import time
-import google.generativeai as genai
 from typing import List, Dict, Optional, Literal
 from langchain_groq import ChatGroq
 from langchain_core.messages import HumanMessage, SystemMessage, AIMessage
 from app.config import settings
 # ============================================================================
-# GOOGLE GEMINI MANAGER
 # ============================================================================
-class GeminiManager:
     """
-    Google Gemini API Manager (Primary LLM)
-    Handles Google Pro account with gemini-2.0-flash-lite model
     """
     def __init__(self):
-        """Initialize Gemini API with your Google API key"""
-        self.api_key = settings.GOOGLE_API_KEY
-        self.model_name = settings.GEMINI_MODEL
-        # Configure Gemini
-        genai.configure(api_key=self.api_key)
-        # Create model instance with safety settings
-        self.model = genai.GenerativeModel(
-            model_name=self.model_name,
-            generation_config={
-                "temperature": settings.LLM_TEMPERATURE,
-                "max_output_tokens": settings.LLM_MAX_TOKENS,
-            }
-        )
         # Rate limiting tracking
         self.requests_this_minute = 0
-        self.tokens_this_minute = 0
         self.last_reset = time.time()
-        print(f"✅ Gemini Manager initialized: {self.model_name}")
     def _check_rate_limits(self):
         """
         Check and reset rate limit counters.
-        Gemini Pro: 60 requests/min, 60,000 tokens/min
         """
         current_time = time.time()
         # Reset counters every minute
         if current_time - self.last_reset > 60:
             self.requests_this_minute = 0
-            self.tokens_this_minute = 0
             self.last_reset = current_time
         # Check if limits exceeded
-        if self.requests_this_minute >= settings.GEMINI_REQUESTS_PER_MINUTE:
-            wait_time = 60 - (current_time - self.last_reset)
-            print(f"⚠️ Gemini rate limit hit. Waiting {wait_time:.1f}s...")
-            time.sleep(wait_time)
-            self._check_rate_limits()  # Recursive check after waiting
     async def generate(
         self,
         messages: List[Dict[str, str]],
-        system_prompt: Optional[str] = None
     ) -> str:
         """
-        Generate response using Gemini.
         Args:
             messages: List of conversation messages
-                Format: [{'role': 'user'/'assistant', 'content': '...'}]
-            system_prompt: Optional system prompt (prepended to first message)
         Returns:
             str: Generated response text
         """
         self._check_rate_limits()
-        try:
-            # Format messages for Gemini
-            # Gemini uses 'user' and 'model' roles
-            formatted_messages = []
-            # Add system prompt as first user message if provided
-            if system_prompt:
-                formatted_messages.append({
-                    'role': 'user',
-                    'parts': [system_prompt]
-                })
-            # Convert messages
-            for msg in messages:
-                role = 'model' if msg['role'] == 'assistant' else 'user'
-                formatted_messages.append({
-                    'role': role,
-                    'parts': [msg['content']]
-                })
-            # Generate response
-            chat = self.model.start_chat(history=formatted_messages[:-1])
-            response = chat.send_message(formatted_messages[-1]['parts'][0])
-            # Track rate limits
-            self.requests_this_minute += 1
-            # Note: Token counting would require additional API call
-            # For now, estimate ~4 chars per token
-            estimated_tokens = len(response.text) // 4
-            self.tokens_this_minute += estimated_tokens
-            return response.text
-        except Exception as e:
-            print(f"❌ Gemini API error: {e}")
-            raise
 # ============================================================================
-# GROQ MANAGER
 # ============================================================================
-class GroqManager:
     """
-    Groq API Manager (Secondary LLM)
-    Handles fast inference with Llama-3-70B
     """
     def __init__(self):
-        """Initialize Groq API with single API key"""
-        self.api_key = settings.GROQ_API_KEY
-        self.model_name = settings.GROQ_MODEL
-        # Create ChatGroq instance
-        self.llm = ChatGroq(
-            api_key=self.api_key,
-            model_name=self.model_name,
-            temperature=settings.LLM_TEMPERATURE,
-            max_tokens=settings.LLM_MAX_TOKENS
-        )
-        # Rate limiting tracking
-        self.requests_this_minute = 0
-        self.tokens_this_minute = 0
-        self.last_reset = time.time()
-        print(f"✅ Groq Manager initialized: {self.model_name}")
-    def _check_rate_limits(self):
-        """
-        Check and reset rate limit counters.
-        Groq Free: 30 requests/min, 30,000 tokens/min
-        """
-        current_time = time.time()
-        # Reset counters every minute
-        if current_time - self.last_reset > 60:
-            self.requests_this_minute = 0
-            self.tokens_this_minute = 0
-            self.last_reset = current_time
-        # Check if limits exceeded
-        if self.requests_this_minute >= settings.GROQ_REQUESTS_PER_MINUTE:
-            wait_time = 60 - (current_time - self.last_reset)
-            print(f"⚠️ Groq rate limit hit. Waiting {wait_time:.1f}s...")
-            time.sleep(wait_time)
-            self._check_rate_limits()
     async def generate(
         self,
         messages: List[Dict[str, str]],
-        system_prompt: Optional[str] = None
     ) -> str:
         """
-        Generate response using Groq.
         Args:
             messages: List of conversation messages
-                Format: [{'role': 'user'/'assistant', 'content': '...'}]
             system_prompt: Optional system prompt
         Returns:
             str: Generated response text
-        """
-        self._check_rate_limits()
-        try:
-            # Format messages for LangChain
-            formatted_messages = []
-            # Add system message if provided
-            if system_prompt:
-                formatted_messages.append(SystemMessage(content=system_prompt))
-            # Convert conversation messages
-            for msg in messages:
-                if msg['role'] == 'user':
-                    formatted_messages.append(HumanMessage(content=msg['content']))
-                elif msg['role'] == 'assistant':
-                    formatted_messages.append(AIMessage(content=msg['content']))
-            # Generate response
-            response = await self.llm.ainvoke(formatted_messages)
-            # Track rate limits
-            self.requests_this_minute += 1
-            # Estimate tokens (rough approximation)
-            estimated_tokens = len(response.content) // 4
-            self.tokens_this_minute += estimated_tokens
-            return response.content
-        except Exception as e:
-            print(f"❌ Groq API error: {e}")
-            raise
 # ============================================================================
-# UNIFIED LLM MANAGER (Routes to appropriate LLM)
 # ============================================================================
 class LLMManager:
     """
-    Unified LLM Manager that routes requests to appropriate LLM.
-    Routing strategy (from config):
-    - Chat responses → Gemini (best quality for users)
-    - Evaluation → Groq (fast, good enough for RL)
-    - Policy → Local BERT (no API call)
     """
     def __init__(self):
         """Initialize all LLM managers"""
-        self.gemini = None
         self.groq = None
-        # Initialize Gemini if configured
-        if settings.is_gemini_enabled():
-            try:
-                self.gemini = GeminiManager()
-            except Exception as e:
-                print(f"⚠️ Failed to initialize Gemini: {e}")
         # Initialize Groq if configured
         if settings.is_groq_enabled():
@@ -261,7 +281,18 @@ class LLMManager:
             except Exception as e:
                 print(f"⚠️ Failed to initialize Groq: {e}")
-        print("✅ LLM Manager initialized")
     async def generate(
         self,
@@ -270,62 +301,48 @@ class LLMManager:
         task: Literal["chat", "evaluation"] = "chat"
     ) -> str:
         """
-        Generate response using appropriate LLM based on task.
         Args:
             messages: Conversation messages
             system_prompt: Optional system prompt
-            task: Task type - "chat" (user-facing) or "evaluation" (RL training)
         Returns:
             str: Generated response
         Raises:
-            ValueError: If appropriate LLM is not configured
         """
-        # Determine which LLM to use based on task
-        llm_choice = settings.get_llm_for_task(task)
-        if llm_choice == "gemini":
-            if self.gemini is None:
-                raise ValueError("Gemini API not configured. Set GOOGLE_API_KEY in .env")
-            return await self.gemini.generate(messages, system_prompt)
-        elif llm_choice == "groq":
-            if self.groq is None:
-                raise ValueError("Groq API not configured. Set GROQ_API_KEY in .env")
-            return await self.groq.generate(messages, system_prompt)
-        else:
-            raise ValueError(f"Unknown LLM choice: {llm_choice}")
-    # async def generate_chat_response(
-    #     self,
-    #     query: str,
-    #     context: str,
-    #     history: List[Dict[str, str]]
-    # ) -> str:
-    #     """
-    #     Generate chat response (uses Gemini by default).
-    #     Args:
-    #         query: User query
-    #         context: Retrieved context (from FAISS)
-    #         history: Conversation history
-    #     Returns:
-    #         str: Chat response
-    #     """
-    #     # Build system prompt
-    #     system_prompt = settings.SYSTEM_PROMPT
-    #     if context:
-    #         system_prompt += f"\n\nRelevant Information:\n{context}"
-    #     # Build messages
-    #     messages = history + [{'role': 'user', 'content': query}]
-    #     # Generate using chat LLM (Gemini)
-    #     return await self.generate(messages, system_prompt, task="chat")
     async def generate_chat_response(
         self,
@@ -333,28 +350,32 @@ class LLMManager:
         context: str,
         history: List[Dict[str, str]]
     ) -> str:
-        """Generate chat response (uses Gemini by default)."""
         # Import the detailed prompt
         from app.services.chat_service import BANKING_SYSTEM_PROMPT
         # Build enhanced system prompt with context
         system_prompt = BANKING_SYSTEM_PROMPT
         if context:
             system_prompt += f"\n\nRelevant Knowledge Base Context:\n{context}"
         else:
             system_prompt += "\n\nNo specific banking documents were retrieved for this query. Provide a helpful general response while acknowledging your banking specialization."
         # Build messages
         messages = history + [{'role': 'user', 'content': query}]
-        # Generate using chat LLM (Gemini)
         return await self.generate(messages, system_prompt, task="chat")
     async def evaluate_response(
         self,
@@ -363,7 +384,7 @@ class LLMManager:
         context: str = ""
     ) -> Dict:
         """
-        Evaluate response quality (uses Groq for speed).
         Used during RL training.
         Args:
@@ -373,9 +394,10 @@ class LLMManager:
         Returns:
             dict: Evaluation results
-                {'quality': 'Good'/'Bad', 'explanation': '...'}
         """
         eval_prompt = f"""Evaluate this response:
 Query: {query}
 Response: {response}
 Context used: {context if context else 'None'}
@@ -384,7 +406,7 @@ Is this response Good or Bad? Respond with just "Good" or "Bad" and brief explan
         messages = [{'role': 'user', 'content': eval_prompt}]
-        # Generate using evaluation LLM (Groq)
         result = await self.generate(messages, task="evaluation")
         # Parse result
@@ -395,32 +417,29 @@ Is this response Good or Bad? Respond with just "Good" or "Bad" and brief explan
             'explanation': result
         }
 # ============================================================================
 # GLOBAL LLM MANAGER INSTANCE
 # ============================================================================
 llm_manager = LLMManager()
 # ============================================================================
 # USAGE EXAMPLE (for reference)
 # ============================================================================
 """
 # In your service file:
 from app.core.llm_manager import llm_manager
-# Generate chat response (uses Gemini)
 response = await llm_manager.generate_chat_response(
     query="What is my account balance?",
     context="Your balance is $1000",
     history=[]
 )
-# Evaluate response (uses Groq)
 evaluation = await llm_manager.evaluate_response(
     query="What is my balance?",
     response="Your balance is $1000",
     context="Balance: $1000"
 )
-"""

 """
+Multi-LLM Manager with Groq (ChatGroq) and HuggingFace Fallback Logic
 Architecture:
+- Primary: Groq API with 3 keys (sequential fallback)
+- Fallback: HuggingFace Inference API with 3 tokens (sequential fallback)
+- Llama 3 8B for chat interface
+- Llama 3 70B for evaluation
+Fallback Logic:
+1. Try GROQ_API_KEY_1
+2. If fails, try GROQ_API_KEY_2
+3. If fails, try GROQ_API_KEY_3
+4. If all Groq keys fail, try HF_TOKEN_1
+5. If fails, try HF_TOKEN_2
+6. If fails, try HF_TOKEN_3
 """
 import time
 from typing import List, Dict, Optional, Literal
 from langchain_groq import ChatGroq
 from langchain_core.messages import HumanMessage, SystemMessage, AIMessage
+from huggingface_hub import InferenceClient
 from app.config import settings
 # ============================================================================
+# GROQ MANAGER WITH FALLBACK
 # ============================================================================
+class GroqManager:
     """
+    Groq API Manager with multiple API key fallback support
+    Uses ChatGroq from langchain_groq
     """
     def __init__(self):
+        """Initialize Groq manager with all available API keys"""
+        self.api_keys = settings.get_groq_api_keys()
+        self.chat_model_name = settings.GROQ_CHAT_MODEL  # llama3-8b-8192
+        self.eval_model_name = settings.GROQ_EVAL_MODEL  # llama3-70b-8192
+        # Track current key index
+        self.current_key_index = 0
         # Rate limiting tracking
         self.requests_this_minute = 0
         self.last_reset = time.time()
+        if not self.api_keys:
+            raise ValueError("No Groq API keys configured. Set GROQ_API_KEY_1 in .env")
+        print(f"✅ Groq Manager initialized with {len(self.api_keys)} API key(s)")
+        print(f"   Chat Model: {self.chat_model_name}")
+        print(f"   Eval Model: {self.eval_model_name}")
     def _check_rate_limits(self):
         """
         Check and reset rate limit counters.
+        Groq Free: 30 requests/min
         """
         current_time = time.time()
         # Reset counters every minute
         if current_time - self.last_reset > 60:
             self.requests_this_minute = 0
             self.last_reset = current_time
         # Check if limits exceeded
+        # =================================================================
+        # Uncomment below if rate limiting enforcement is needed
+        # =================================================================
+        # if self.requests_this_minute >= settings.GROQ_REQUESTS_PER_MINUTE:
+        #     wait_time = 60 - (current_time - self.last_reset)
+        #     print(f"⚠️ Groq rate limit hit. Waiting {wait_time:.1f}s...")
+        #     time.sleep(wait_time)
+        #     self._check_rate_limits()
+    def _create_llm(self, api_key: str, model_name: str) -> ChatGroq:
+        """Create ChatGroq instance with given API key and model"""
+        return ChatGroq(
+            api_key=api_key,
+            model_name=model_name,
+            temperature=settings.LLM_TEMPERATURE,
+            max_tokens=settings.LLM_MAX_TOKENS,
+            max_retries=0  # Disable automatic retries, we handle fallback manually
+        )
     async def generate(
         self,
         messages: List[Dict[str, str]],
+        system_prompt: Optional[str] = None,
+        task: Literal["chat", "evaluation"] = "chat"
     ) -> str:
         """
+        Generate response using Groq with fallback logic.
         Args:
             messages: List of conversation messages
+            system_prompt: Optional system prompt
+            task: Task type to determine model (chat uses 8B, evaluation uses 70B)
         Returns:
             str: Generated response text
+        Raises:
+            Exception: If all Groq API keys fail
         """
         self._check_rate_limits()
+        # Select model based on task
+        model_name = self.eval_model_name if task == "evaluation" else self.chat_model_name
+        # Format messages for LangChain
+        formatted_messages = []
+        # Add system message if provided
+        if system_prompt:
+            formatted_messages.append(SystemMessage(content=system_prompt))
+        # Convert conversation messages
+        for msg in messages:
+            if msg['role'] == 'user':
+                formatted_messages.append(HumanMessage(content=msg['content']))
+            elif msg['role'] == 'assistant':
+                formatted_messages.append(AIMessage(content=msg['content']))
+        # Try each Groq API key sequentially
+        for key_index, api_key in enumerate(self.api_keys, 1):
+            try:
+                print(f"🔑 Trying Groq API Key {key_index}/{len(self.api_keys)} with {model_name}...")
+                # Create LLM instance with current key
+                llm = self._create_llm(api_key, model_name)
+                # Generate response
+                response = await llm.ainvoke(formatted_messages)
+                # Track rate limits
+                self.requests_this_minute += 1
+                print(f"✅ Groq API Key {key_index} succeeded")
+                return response.content
+            except Exception as e:
+                print(f"❌ Groq API Key {key_index} failed: {e}")
+                # If this was the last key, raise exception
+                if key_index == len(self.api_keys):
+                    print(f"❌ All {len(self.api_keys)} Groq API keys exhausted")
+                    raise Exception(f"All Groq API keys failed. Last error: {e}")
+                # Otherwise, continue to next key
+                print(f"⏭️ Falling back to next Groq API key...")
+                continue
 # ============================================================================
+# HUGGINGFACE MANAGER WITH FALLBACK
 # ============================================================================
+class HuggingFaceManager:
     """
+    HuggingFace Inference API Manager with multiple token fallback support
+    Uses InferenceClient from huggingface_hub
     """
     def __init__(self):
+        """Initialize HuggingFace manager with all available tokens"""
+        self.tokens = settings.get_hf_tokens()
+        self.chat_model_name = settings.HF_CHAT_MODEL
+        self.eval_model_name = settings.HF_EVAL_MODEL
+        if not self.tokens:
+            raise ValueError("No HuggingFace tokens configured. Set HF_TOKEN_1 in .env")
+        print(f"✅ HuggingFace Manager initialized with {len(self.tokens)} token(s)")
+        print(f"   Chat Model: {self.chat_model_name}")
+        print(f"   Eval Model: {self.eval_model_name}")
+    def _create_client(self, token: str, model_name: str) -> InferenceClient:
+        """Create InferenceClient instance with given token and model"""
+        return InferenceClient(
+            model=model_name,
+            token=token
+        )
     async def generate(
         self,
         messages: List[Dict[str, str]],
+        system_prompt: Optional[str] = None,
+        task: Literal["chat", "evaluation"] = "chat"
     ) -> str:
         """
+        Generate response using HuggingFace Inference API with fallback logic.
         Args:
             messages: List of conversation messages
             system_prompt: Optional system prompt
+            task: Task type to determine model
         Returns:
             str: Generated response text
+        Raises:
+            Exception: If all HuggingFace tokens fail
+        """
+        # Select model based on task
+        model_name = self.eval_model_name if task == "evaluation" else self.chat_model_name
+        # Format messages for HuggingFace chat API
+        formatted_messages = []
+        # Add system message if provided
+        if system_prompt:
+            formatted_messages.append({
+                "role": "system",
+                "content": system_prompt
+            })
+        # Convert conversation messages
+        for msg in messages:
+            formatted_messages.append({
+                "role": msg['role'],
+                "content": msg['content']
+            })
+        # Try each HuggingFace token sequentially
+        for token_index, token in enumerate(self.tokens, 1):
+            try:
+                print(f"🔑 Trying HuggingFace Token {token_index}/{len(self.tokens)} with {model_name}...")
+                # Create client with current token
+                client = self._create_client(token, model_name)
+                # Generate response using chat completion
+                response = client.chat_completion(
+                    messages=formatted_messages,
+                    max_tokens=settings.LLM_MAX_TOKENS,
+                    temperature=settings.LLM_TEMPERATURE
+                )
+                # Extract content from response
+                content = response.choices[0].message.content
+                print(f"✅ HuggingFace Token {token_index} succeeded")
+                return content
+            except Exception as e:
+                print(f"❌ HuggingFace Token {token_index} failed: {e}")
+                # If this was the last token, raise exception
+                if token_index == len(self.tokens):
+                    print(f"❌ All {len(self.tokens)} HuggingFace tokens exhausted")
+                    raise Exception(f"All HuggingFace tokens failed. Last error: {e}")
+                # Otherwise, continue to next token
+                print(f"⏭️ Falling back to next HuggingFace token...")
+                continue
 # ============================================================================
+# UNIFIED LLM MANAGER (Groq Primary, HuggingFace Fallback)
 # ============================================================================
 class LLMManager:
     """
+    Unified LLM Manager with cascading fallback logic:
+    1. Try all Groq API keys (primary)
+    2. If all fail, try all HuggingFace tokens (fallback)
+    Models:
+    - Chat: Llama 3 8B (for user-facing chat responses)
+    - Evaluation: Llama 3 70B (for response evaluation)
     """
     def __init__(self):
         """Initialize all LLM managers"""
         self.groq = None
+        self.huggingface = None
         # Initialize Groq if configured
         if settings.is_groq_enabled():
             except Exception as e:
                 print(f"⚠️ Failed to initialize Groq: {e}")
+        # Initialize HuggingFace if configured
+        if settings.is_hf_enabled():
+            try:
+                self.huggingface = HuggingFaceManager()
+            except Exception as e:
+                print(f"⚠️ Failed to initialize HuggingFace: {e}")
+        # Check if at least one is available
+        if not self.groq and not self.huggingface:
+            raise ValueError("No LLM provider configured. Set either Groq or HuggingFace credentials in .env")
+        print("✅ LLM Manager initialized with fallback logic")
     async def generate(
         self,
         task: Literal["chat", "evaluation"] = "chat"
     ) -> str:
         """
+        Generate response with cascading fallback logic.
+        Fallback order:
+        1. Try all Groq API keys (3 keys)
+        2. If all Groq keys fail, try all HuggingFace tokens (3 tokens)
         Args:
             messages: Conversation messages
             system_prompt: Optional system prompt
+            task: Task type - "chat" (8B) or "evaluation" (70B)
         Returns:
             str: Generated response
         Raises:
+            ValueError: If all providers fail
         """
+        # Try Groq first (if available)
+        if self.groq:
+            try:
+                print("🚀 Attempting Groq API (Primary)...")
+                response = await self.groq.generate(messages, system_prompt, task)
+                return response
+            except Exception as groq_error:
+                print(f"❌ All Groq API keys failed: {groq_error}")
+                # Fall back to HuggingFace if available
+                if self.huggingface:
+                    print("🔄 Falling back to HuggingFace Inference API...")
+                else:
+                    raise ValueError(f"Groq failed and no HuggingFace fallback configured: {groq_error}")
+        # Try HuggingFace (if Groq failed or not available)
+        if self.huggingface:
+            try:
+                print("🚀 Attempting HuggingFace API (Fallback)...")
+                response = await self.huggingface.generate(messages, system_prompt, task)
+                return response
+            except Exception as hf_error:
+                raise ValueError(f"All LLM providers exhausted. HuggingFace error: {hf_error}")
+        raise ValueError("No LLM provider available")
     async def generate_chat_response(
         self,
         context: str,
         history: List[Dict[str, str]]
     ) -> str:
+        """
+        Generate chat response (uses Llama 3 8B).
+        Args:
+            query: User query
+            context: Retrieved context (from FAISS)
+            history: Conversation history
+        Returns:
+            str: Chat response
+        """
         # Import the detailed prompt
         from app.services.chat_service import BANKING_SYSTEM_PROMPT
         # Build enhanced system prompt with context
         system_prompt = BANKING_SYSTEM_PROMPT
         if context:
             system_prompt += f"\n\nRelevant Knowledge Base Context:\n{context}"
         else:
             system_prompt += "\n\nNo specific banking documents were retrieved for this query. Provide a helpful general response while acknowledging your banking specialization."
         # Build messages
         messages = history + [{'role': 'user', 'content': query}]
+        # Generate using chat task (Llama 3 8B)
         return await self.generate(messages, system_prompt, task="chat")
     async def evaluate_response(
         self,
         context: str = ""
     ) -> Dict:
         """
+        Evaluate response quality (uses Llama 3 70B for better evaluation).
         Used during RL training.
         Args:
         Returns:
             dict: Evaluation results
+            {'quality': 'Good'/'Bad', 'explanation': '...'}
         """
         eval_prompt = f"""Evaluate this response:
 Query: {query}
 Response: {response}
 Context used: {context if context else 'None'}
         messages = [{'role': 'user', 'content': eval_prompt}]
+        # Generate using evaluation task (Llama 3 70B)
         result = await self.generate(messages, task="evaluation")
         # Parse result
             'explanation': result
         }
 # ============================================================================
 # GLOBAL LLM MANAGER INSTANCE
 # ============================================================================
 llm_manager = LLMManager()
 # ============================================================================
 # USAGE EXAMPLE (for reference)
 # ============================================================================
 """
 # In your service file:
 from app.core.llm_manager import llm_manager
+# Generate chat response (uses Llama 3 8B with Groq → HF fallback)
 response = await llm_manager.generate_chat_response(
     query="What is my account balance?",
     context="Your balance is $1000",
     history=[]
 )
+# Evaluate response (uses Llama 3 70B with Groq → HF fallback)
 evaluation = await llm_manager.evaluate_response(
     query="What is my balance?",
     response="Your balance is $1000",
     context="Balance: $1000"
 )
+"""

app/main.py CHANGED Viewed

@@ -1,10 +1,11 @@
 """
 FastAPI Main Application Entry Point
 Banking RAG Chatbot API with JWT Authentication
 This file:
 1. Creates the FastAPI app
-2. Configures CORS middleware
 3. Connects to MongoDB on startup/shutdown
 4. Includes API routers (auth + chat)
 5. Provides health check endpoints
@@ -18,7 +19,6 @@ from contextlib import asynccontextmanager
 from app.config import settings
 from app.db.mongodb import connect_to_mongo, close_mongo_connection
 # ============================================================================
 # LIFESPAN MANAGER (Startup & Shutdown)
 # ============================================================================
@@ -52,7 +52,13 @@ async def lifespan(app: FastAPI):
     print("\n💡 ML Models Info:")
     print("   Policy Network: Loads on first chat request (lazy loading)")
     print("   Retriever Model: Loads on first retrieval (lazy loading)")
-    print("   LLM (Gemini): Connects on first generation")
     print("\n✅ Backend startup complete!")
     print("=" * 80)
@@ -77,7 +83,6 @@ async def lifespan(app: FastAPI):
     print("✅ Shutdown complete")
     print("=" * 80 + "\n")
 # ============================================================================
 # CREATE FASTAPI APPLICATION
 # ============================================================================
@@ -85,21 +90,22 @@ async def lifespan(app: FastAPI):
 app = FastAPI(
     title="Banking RAG Chatbot API",
     description="""
-    🤖 AI-powered Banking Assistant with:
-    **Features:**
-    - 🔐 JWT Authentication (Sign up, Login, Protected routes)
-    - 💬 RAG (Retrieval-Augmented Generation)
-    - 🧠 RL-based Policy Network (BERT)
-    - 🔍 Custom E5 Retriever
-    - ✨ Google Gemini LLM
-    **Capabilities:**
-    - Intelligent document retrieval
-    - Context-aware responses
-    - Conversation history
-    - Real-time chat
-    - User authentication & authorization
     """,
     version="1.0.0",
     docs_url="/docs",
@@ -107,13 +113,11 @@ app = FastAPI(
     lifespan=lifespan
 )
 # ============================================================================
 # CORS MIDDLEWARE
 # ============================================================================
 allowed_origins = settings.get_allowed_origins()
 print("\n🌐 CORS Configuration:")
 print(f"   Allowed Origins: {allowed_origins}")
@@ -125,7 +129,6 @@ app.add_middleware(
     allow_headers=["*"],
 )
 # ============================================================================
 # INCLUDE API ROUTERS
 # ============================================================================
@@ -146,7 +149,6 @@ app.include_router(
     tags=["💬 Chat"]
 )
 # ============================================================================
 # ROOT ENDPOINTS
 # ============================================================================
@@ -161,6 +163,11 @@ async def root():
         "version": "1.0.0",
         "status": "online",
         "authentication": "JWT Bearer Token Required for chat endpoints",
         "documentation": {
             "swagger_ui": "/docs",
             "redoc": "/redoc"
@@ -182,7 +189,6 @@ async def root():
         }
     }
 @app.get("/health", tags=["🏥 Health"])
 async def health_check():
     """
@@ -193,6 +199,7 @@ async def health_check():
     - MongoDB connection
     - ML models (lazy loaded)
     - Authentication system
     Returns:
         dict: Health status of all components
@@ -209,6 +216,22 @@ async def health_check():
         "llm": "ready (API-based)"
     }
     # Check authentication
     auth_status = {
         "jwt_enabled": bool(settings.SECRET_KEY and settings.SECRET_KEY != "your-secret-key-change-in-production"),
@@ -217,19 +240,23 @@ async def health_check():
     }
     # Overall health
-    is_healthy = mongodb_status == "connected" and auth_status["jwt_enabled"]
     return {
         "status": "healthy" if is_healthy else "degraded",
         "api": "online",
         "mongodb": mongodb_status,
         "authentication": auth_status,
         "ml_models": ml_models_status,
         "environment": settings.ENVIRONMENT,
         "debug_mode": settings.DEBUG
     }
 # ============================================================================
 # GLOBAL EXCEPTION HANDLER
 # ============================================================================
@@ -256,7 +283,6 @@ async def global_exception_handler(request: Request, exc: Exception):
         }
     )
 # ============================================================================
 # MAIN ENTRY POINT (for direct execution)
 # ============================================================================

 """
 FastAPI Main Application Entry Point
 Banking RAG Chatbot API with JWT Authentication
 This file:
 1. Creates the FastAPI app
+2. Configures CORS middleware
 3. Connects to MongoDB on startup/shutdown
 4. Includes API routers (auth + chat)
 5. Provides health check endpoints
 from app.config import settings
 from app.db.mongodb import connect_to_mongo, close_mongo_connection
 # ============================================================================
 # LIFESPAN MANAGER (Startup & Shutdown)
 # ============================================================================
     print("\n💡 ML Models Info:")
     print("   Policy Network: Loads on first chat request (lazy loading)")
     print("   Retriever Model: Loads on first retrieval (lazy loading)")
+    print("   LLM: Groq (ChatGroq) with HuggingFace fallback")
+    print("\n🤖 LLM Configuration:")
+    print(f"   Chat Model: {settings.GROQ_CHAT_MODEL} (Llama 3 8B)")
+    print(f"   Eval Model: {settings.GROQ_EVAL_MODEL} (Llama 3 70B)")
+    print(f"   Groq API Keys: {len(settings.get_groq_api_keys())} configured")
+    print(f"   HuggingFace Tokens: {len(settings.get_hf_tokens())} configured")
+    print(f"   Fallback: Groq → HuggingFace")
     print("\n✅ Backend startup complete!")
     print("=" * 80)
     print("✅ Shutdown complete")
     print("=" * 80 + "\n")
 # ============================================================================
 # CREATE FASTAPI APPLICATION
 # ============================================================================
 app = FastAPI(
     title="Banking RAG Chatbot API",
     description="""
+🤖 AI-powered Banking Assistant with:
+**Features:**
+- 🔐 JWT Authentication (Sign up, Login, Protected routes)
+- 💬 RAG (Retrieval-Augmented Generation)
+- 🧠 RL-based Policy Network (BERT)
+- 🔍 Custom E5 Retriever
+- ⚡ Groq LLM with HuggingFace Fallback (Llama 3 models)
+**Capabilities:**
+- Intelligent document retrieval
+- Context-aware responses
+- Conversation history
+- Real-time chat
+- User authentication & authorization
+- Multi-provider LLM with automatic fallback
     """,
     version="1.0.0",
     docs_url="/docs",
     lifespan=lifespan
 )
 # ============================================================================
 # CORS MIDDLEWARE
 # ============================================================================
 allowed_origins = settings.get_allowed_origins()
 print("\n🌐 CORS Configuration:")
 print(f"   Allowed Origins: {allowed_origins}")
     allow_headers=["*"],
 )
 # ============================================================================
 # INCLUDE API ROUTERS
 # ============================================================================
     tags=["💬 Chat"]
 )
 # ============================================================================
 # ROOT ENDPOINTS
 # ============================================================================
         "version": "1.0.0",
         "status": "online",
         "authentication": "JWT Bearer Token Required for chat endpoints",
+        "llm_provider": "Groq (ChatGroq) with HuggingFace fallback",
+        "models": {
+            "chat": settings.GROQ_CHAT_MODEL,
+            "evaluation": settings.GROQ_EVAL_MODEL
+        },
         "documentation": {
             "swagger_ui": "/docs",
             "redoc": "/redoc"
         }
     }
 @app.get("/health", tags=["🏥 Health"])
 async def health_check():
     """
     - MongoDB connection
     - ML models (lazy loaded)
     - Authentication system
+    - LLM providers (Groq & HuggingFace)
     Returns:
         dict: Health status of all components
         "llm": "ready (API-based)"
     }
+    # Check LLM providers
+    llm_providers = {
+        "groq": {
+            "enabled": settings.is_groq_enabled(),
+            "api_keys_configured": len(settings.get_groq_api_keys()),
+            "chat_model": settings.GROQ_CHAT_MODEL,
+            "eval_model": settings.GROQ_EVAL_MODEL
+        },
+        "huggingface": {
+            "enabled": settings.is_hf_enabled(),
+            "tokens_configured": len(settings.get_hf_tokens()),
+            "chat_model": settings.HF_CHAT_MODEL,
+            "eval_model": settings.HF_EVAL_MODEL
+        }
+    }
     # Check authentication
     auth_status = {
         "jwt_enabled": bool(settings.SECRET_KEY and settings.SECRET_KEY != "your-secret-key-change-in-production"),
     }
     # Overall health
+    is_healthy = (
+        mongodb_status == "connected" and
+        auth_status["jwt_enabled"] and
+        (llm_providers["groq"]["enabled"] or llm_providers["huggingface"]["enabled"])
+    )
     return {
         "status": "healthy" if is_healthy else "degraded",
         "api": "online",
         "mongodb": mongodb_status,
         "authentication": auth_status,
+        "llm_providers": llm_providers,
         "ml_models": ml_models_status,
         "environment": settings.ENVIRONMENT,
         "debug_mode": settings.DEBUG
     }
 # ============================================================================
 # GLOBAL EXCEPTION HANDLER
 # ============================================================================
         }
     )
 # ============================================================================
 # MAIN ENTRY POINT (for direct execution)
 # ============================================================================

app/services/chat_service.py CHANGED Viewed

@@ -1,11 +1,12 @@
 """
 Chat Service - Main RAG Pipeline
 Combines: Policy Network → Retriever → LLM Generator
 This is the core service that orchestrates:
 1. Policy decision (FETCH vs NO_FETCH)
 2. Document retrieval (if FETCH)
-3. Response generation (Gemini)
 4. Logging to MongoDB
 Adapted from your RAG.py workflow
@@ -53,8 +54,6 @@ Rate the response as:
 Provide your rating and brief explanation."""
 # ============================================================================
 # CHAT SERVICE
 # ============================================================================
@@ -67,7 +66,7 @@ class ChatService:
     1. User query comes in
     2. Policy network decides: FETCH or NO_FETCH
     3. If FETCH: Retrieve documents from FAISS
-    4. Generate response using Gemini (with or without context)
     5. Return response + metadata
     """
@@ -97,18 +96,18 @@ class ChatService:
         Returns:
             dict: Complete response with metadata
-                {
-                    'response': str,                  # Generated response
-                    'policy_action': str,             # FETCH or NO_FETCH
-                    'policy_confidence': float,       # Confidence score
-                    'should_retrieve': bool,          # Whether retrieval was done
-                    'documents_retrieved': int,       # Number of docs retrieved
-                    'top_doc_score': float or None,   # Best similarity score
-                    'retrieval_time_ms': float,       # Time spent on retrieval
-                    'generation_time_ms': float,      # Time spent on generation
-                    'total_time_ms': float,           # Total processing time
-                    'timestamp': str                  # ISO timestamp
-                }
         """
         start_time = time.time()
@@ -196,13 +195,13 @@ class ChatService:
             print(f"\n🚫 Skipping retrieval (Policy: {policy_result['action']})")
         # ====================================================================
-        # STEP 3: GENERATE RESPONSE (Gemini)
         # ====================================================================
         print(f"\n💬 Generating response...")
         generation_start = time.time()
         try:
-            # Generate response using LLM manager (Gemini)
             response = await llm_manager.generate_chat_response(
                 query=query,
                 context=context,
@@ -288,8 +287,8 @@ class ChatService:
         # Check LLM manager
         try:
             from app.core.llm_manager import llm_manager as llm
-            health['components']['gemini'] = 'enabled' if llm.gemini else 'disabled'
             health['components']['groq'] = 'enabled' if llm.groq else 'disabled'
         except Exception as e:
             health['components']['llm_manager'] = f'error: {str(e)}'
@@ -301,19 +300,17 @@ class ChatService:
         return health
 # ============================================================================
 # GLOBAL CHAT SERVICE INSTANCE
 # ============================================================================
-chat_service = ChatService()
 # ============================================================================
 # USAGE EXAMPLE (for reference)
 # ============================================================================
 """
 # In your API endpoint (chat.py):
 from app.services.chat_service import chat_service
 # Process user query
@@ -335,4 +332,4 @@ result = await chat_service.process_query(
 # Get service health
 health = await chat_service.health_check()
-"""

 """
 Chat Service - Main RAG Pipeline
 Combines: Policy Network → Retriever → LLM Generator
 This is the core service that orchestrates:
 1. Policy decision (FETCH vs NO_FETCH)
 2. Document retrieval (if FETCH)
+3. Response generation (Groq/HuggingFace with Llama 3)
 4. Logging to MongoDB
 Adapted from your RAG.py workflow
 Provide your rating and brief explanation."""
 # ============================================================================
 # CHAT SERVICE
 # ============================================================================
     1. User query comes in
     2. Policy network decides: FETCH or NO_FETCH
     3. If FETCH: Retrieve documents from FAISS
+    4. Generate response using Groq/HuggingFace (with or without context)
     5. Return response + metadata
     """
         Returns:
             dict: Complete response with metadata
+            {
+                'response': str,  # Generated response
+                'policy_action': str,  # FETCH or NO_FETCH
+                'policy_confidence': float,  # Confidence score
+                'should_retrieve': bool,  # Whether retrieval was done
+                'documents_retrieved': int,  # Number of docs retrieved
+                'top_doc_score': float or None,  # Best similarity score
+                'retrieval_time_ms': float,  # Time spent on retrieval
+                'generation_time_ms': float,  # Time spent on generation
+                'total_time_ms': float,  # Total processing time
+                'timestamp': str  # ISO timestamp
+            }
         """
         start_time = time.time()
             print(f"\n🚫 Skipping retrieval (Policy: {policy_result['action']})")
         # ====================================================================
+        # STEP 3: GENERATE RESPONSE (Groq/HuggingFace with fallback)
         # ====================================================================
         print(f"\n💬 Generating response...")
         generation_start = time.time()
         try:
+            # Generate response using LLM manager (Groq → HuggingFace fallback)
             response = await llm_manager.generate_chat_response(
                 query=query,
                 context=context,
         # Check LLM manager
         try:
             from app.core.llm_manager import llm_manager as llm
             health['components']['groq'] = 'enabled' if llm.groq else 'disabled'
+            health['components']['huggingface'] = 'enabled' if llm.huggingface else 'disabled'
         except Exception as e:
             health['components']['llm_manager'] = f'error: {str(e)}'
         return health
 # ============================================================================
 # GLOBAL CHAT SERVICE INSTANCE
 # ============================================================================
+chat_service = ChatService()
 # ============================================================================
 # USAGE EXAMPLE (for reference)
 # ============================================================================
 """
 # In your API endpoint (chat.py):
 from app.services.chat_service import chat_service
 # Process user query
 # Get service health
 health = await chat_service.health_check()
+"""

backups/backup_chat_service.py ADDED Viewed

	@@ -0,0 +1,340 @@

+# """
+# Chat Service - Main RAG Pipeline
+# Combines: Policy Network → Retriever → LLM Generator
+# This is the core service that orchestrates:
+# 1. Policy decision (FETCH vs NO_FETCH)
+# 2. Document retrieval (if FETCH)
+# 3. Response generation (Gemini)
+# 4. Logging to MongoDB
+# Adapted from your RAG.py workflow
+# """
+# import time
+# from datetime import datetime
+# from typing import List, Dict, Any, Optional
+# from app.config import settings
+# from app.ml.policy_network import predict_policy_action
+# from app.ml.retriever import retrieve_documents, format_context
+# from app.core.llm_manager import llm_manager
+# # ============================================================================
+# # SYSTEM PROMPTS
+# # ============================================================================
+# BANKING_SYSTEM_PROMPT = """You are an expert banking assistant specialized in Indian financial regulations and banking practices. You have access to a comprehensive knowledge base of banking policies, procedures, and RBI regulations.
+# Instructions:
+# - Answer the user query accurately using the provided context when available
+# - If context is insufficient or query is outside banking domain, still respond helpfully but mention your banking specialization
+# - If no banking context is available, provide a general helpful response but acknowledge your expertise is in banking
+# - Never refuse to answer - always be helpful while being transparent about your specialization
+# - Cite relevant policy numbers or document references when available in context
+# - Never fabricate specific policies, rates, or eligibility criteria
+# - If uncertain about current rates or policies, acknowledge the limitation
+# - Maintain a helpful and professional tone
+# - Keep responses concise, clear, and actionable
+# """
+# EVALUATION_PROMPT = """You are evaluating a banking assistant's response for quality and accuracy.
+# Criteria:
+# 1. Accuracy: Is the response factually correct?
+# 2. Relevance: Does it address the user's question?
+# 3. Completeness: Are all aspects of the question covered?
+# 4. Clarity: Is the response easy to understand?
+# 5. Context Usage: Does it properly use the retrieved context?
+# Rate the response as:
+# - "Good": Accurate, relevant, complete, and clear
+# - "Bad": Inaccurate, irrelevant, incomplete, or unclear
+# Provide your rating and brief explanation."""
+# # ============================================================================
+# # CHAT SERVICE
+# # ============================================================================
+# class ChatService:
+#     """
+#     Main chat service that handles the complete RAG pipeline.
+#     Pipeline:
+#     1. User query comes in
+#     2. Policy network decides: FETCH or NO_FETCH
+#     3. If FETCH: Retrieve documents from FAISS
+#     4. Generate response using Gemini (with or without context)
+#     5. Return response + metadata
+#     """
+#     def __init__(self):
+#         """Initialize chat service"""
+#         print("🤖 ChatService initialized")
+#     async def process_query(
+#         self,
+#         query: str,
+#         conversation_history: List[Dict[str, str]] = None,
+#         user_id: Optional[str] = None
+#     ) -> Dict[str, Any]:
+#         """
+#         Process a user query through the complete RAG pipeline.
+#         This is the MAIN function that combines everything:
+#         - Policy decision
+#         - Retrieval
+#         - Generation
+#         Args:
+#             query: User query text
+#             conversation_history: Previous conversation turns
+#                 Format: [{'role': 'user'/'assistant', 'content': '...', 'metadata': {...}}]
+#             user_id: Optional user ID for logging
+#         Returns:
+#             dict: Complete response with metadata
+#                 {
+#                     'response': str,                  # Generated response
+#                     'policy_action': str,             # FETCH or NO_FETCH
+#                     'policy_confidence': float,       # Confidence score
+#                     'should_retrieve': bool,          # Whether retrieval was done
+#                     'documents_retrieved': int,       # Number of docs retrieved
+#                     'top_doc_score': float or None,   # Best similarity score
+#                     'retrieval_time_ms': float,       # Time spent on retrieval
+#                     'generation_time_ms': float,      # Time spent on generation
+#                     'total_time_ms': float,           # Total processing time
+#                     'timestamp': str                  # ISO timestamp
+#                 }
+#         """
+#         start_time = time.time()
+#         # Initialize history if None
+#         if conversation_history is None:
+#             conversation_history = []
+#         # Validate query
+#         if not query or query.strip() == "":
+#             return {
+#                 'response': "I didn't receive a valid question. Could you please try again?",
+#                 'policy_action': 'NO_FETCH',
+#                 'policy_confidence': 1.0,
+#                 'should_retrieve': False,
+#                 'documents_retrieved': 0,
+#                 'top_doc_score': None,
+#                 'retrieval_time_ms': 0,
+#                 'generation_time_ms': 0,
+#                 'total_time_ms': 0,
+#                 'timestamp': datetime.now().isoformat()
+#             }
+#         # ====================================================================
+#         # STEP 1: POLICY DECISION (Local BERT model)
+#         # ====================================================================
+#         print(f"\n{'='*80}")
+#         print(f"🔍 Processing Query: {query[:50]}...")
+#         print(f"{'='*80}")
+#         policy_start = time.time()
+#         # Predict action using policy network
+#         policy_result = predict_policy_action(
+#             query=query,
+#             history=conversation_history,
+#             return_probs=True
+#         )
+#         policy_time = (time.time() - policy_start) * 1000
+#         print(f"\n📊 Policy Decision:")
+#         print(f"   Action: {policy_result['action']}")
+#         print(f"   Confidence: {policy_result['confidence']:.3f}")
+#         print(f"   Should Retrieve: {policy_result['should_retrieve']}")
+#         print(f"   Time: {policy_time:.2f}ms")
+#         # ====================================================================
+#         # STEP 2: RETRIEVAL (if FETCH or low confidence NO_FETCH)
+#         # ====================================================================
+#         retrieved_docs = []
+#         context = ""
+#         retrieval_time = 0
+#         if policy_result['should_retrieve']:
+#             print(f"\n🔎 Retrieving documents...")
+#             retrieval_start = time.time()
+#             try:
+#                 # Retrieve documents using custom retriever + FAISS
+#                 retrieved_docs = retrieve_documents(
+#                     query=query,
+#                     top_k=settings.TOP_K,
+#                     min_similarity=settings.SIMILARITY_THRESHOLD
+#                 )
+#                 retrieval_time = (time.time() - retrieval_start) * 1000
+#                 if retrieved_docs:
+#                     print(f"   ✅ Retrieved {len(retrieved_docs)} documents")
+#                     print(f"   Top score: {retrieved_docs[0]['score']:.3f}")
+#                     # Format context for LLM
+#                     context = format_context(
+#                         retrieved_docs,
+#                         max_context_length=settings.MAX_CONTEXT_LENGTH
+#                     )
+#                 else:
+#                     print(f"   ⚠️ No documents above threshold")
+#             except Exception as e:
+#                 print(f"   ❌ Retrieval error: {e}")
+#                 # Continue without retrieval
+#         else:
+#             print(f"\n🚫 Skipping retrieval (Policy: {policy_result['action']})")
+#         # ====================================================================
+#         # STEP 3: GENERATE RESPONSE (Gemini)
+#         # ====================================================================
+#         print(f"\n💬 Generating response...")
+#         generation_start = time.time()
+#         try:
+#             # Generate response using LLM manager (Gemini)
+#             response = await llm_manager.generate_chat_response(
+#                 query=query,
+#                 context=context,
+#                 history=conversation_history
+#             )
+#             generation_time = (time.time() - generation_start) * 1000
+#             print(f"   ✅ Response generated")
+#             print(f"   Length: {len(response)} chars")
+#             print(f"   Time: {generation_time:.2f}ms")
+#         except Exception as e:
+#             print(f"   ❌ Generation error: {e}")
+#             response = "I apologize, but I encountered an error generating a response. Please try again."
+#             generation_time = (time.time() - generation_start) * 1000
+#         # ====================================================================
+#         # STEP 4: COMPILE RESULTS
+#         # ====================================================================
+#         total_time = (time.time() - start_time) * 1000
+#         result = {
+#             'response': response,
+#             'policy_action': policy_result['action'],
+#             'policy_confidence': policy_result['confidence'],
+#             'should_retrieve': policy_result['should_retrieve'],
+#             'documents_retrieved': len(retrieved_docs),
+#             'top_doc_score': retrieved_docs[0]['score'] if retrieved_docs else None,
+#             'retrieval_time_ms': round(retrieval_time, 2),
+#             'generation_time_ms': round(generation_time, 2),
+#             'total_time_ms': round(total_time, 2),
+#             'timestamp': datetime.now().isoformat()
+#         }
+#         # Add retrieved docs metadata (for logging, not sent to user)
+#         if retrieved_docs:
+#             result['retrieved_docs_metadata'] = [
+#                 {
+#                     'faq_id': doc['faq_id'],
+#                     'score': doc['score'],
+#                     'category': doc['category'],
+#                     'rank': doc['rank']
+#                 }
+#                 for doc in retrieved_docs
+#             ]
+#         print(f"\n{'='*80}")
+#         print(f"✅ Query processed successfully")
+#         print(f"   Total time: {total_time:.2f}ms")
+#         print(f"{'='*80}\n")
+#         return result
+#     async def health_check(self) -> Dict[str, Any]:
+#         """
+#         Check health of all service components.
+#         Returns:
+#             dict: Health status
+#         """
+#         health = {
+#             'service': 'chat_service',
+#             'status': 'healthy',
+#             'components': {}
+#         }
+#         # Check policy network
+#         try:
+#             from app.ml.policy_network import POLICY_MODEL
+#             health['components']['policy_network'] = 'loaded' if POLICY_MODEL else 'not_loaded'
+#         except Exception as e:
+#             health['components']['policy_network'] = f'error: {str(e)}'
+#         # Check retriever
+#         try:
+#             from app.ml.retriever import RETRIEVER_MODEL, FAISS_INDEX
+#             health['components']['retriever'] = 'loaded' if RETRIEVER_MODEL else 'not_loaded'
+#             health['components']['faiss_index'] = 'loaded' if FAISS_INDEX else 'not_loaded'
+#         except Exception as e:
+#             health['components']['retriever'] = f'error: {str(e)}'
+#         # Check LLM manager
+#         try:
+#             from app.core.llm_manager import llm_manager as llm
+#             health['components']['gemini'] = 'enabled' if llm.gemini else 'disabled'
+#             health['components']['groq'] = 'enabled' if llm.groq else 'disabled'
+#         except Exception as e:
+#             health['components']['llm_manager'] = f'error: {str(e)}'
+#         # Overall status
+#         failed_components = [k for k, v in health['components'].items() if 'error' in str(v)]
+#         if failed_components:
+#             health['status'] = 'degraded'
+#             health['failed_components'] = failed_components
+#         return health
+# # ============================================================================
+# # GLOBAL CHAT SERVICE INSTANCE
+# # ============================================================================
+# chat_service = ChatService()
+# # ============================================================================
+# # USAGE EXAMPLE (for reference)
+# # ============================================================================
+# """
+# # In your API endpoint (chat.py):
+# from app.services.chat_service import chat_service
+# # Process user query
+# result = await chat_service.process_query(
+#     query="What is my account balance?",
+#     conversation_history=[
+#         {'role': 'user', 'content': 'Hello'},
+#         {'role': 'assistant', 'content': 'Hi! How can I help?', 'metadata': {'policy_action': 'NO_FETCH'}}
+#     ],
+#     user_id="user_123"
+# )
+# # Result contains:
+# # - response: "Your account balance is $1,234.56"
+# # - policy_action: "FETCH"
+# # - documents_retrieved: 3
+# # - total_time_ms: 450.23
+# # etc.
+# # Get service health
+# health = await chat_service.health_check()
+# """

backups/backup_config.py ADDED Viewed

	@@ -0,0 +1,640 @@

+# LINE 80 VERY IMP CHANGE OF LLM MAX TOKENS FROM 512 TO 1024
+"""
+Application Configuration
+Settings for Banking RAG Chatbot with JWT Authentication
+Includes all settings needed by existing llm_manager.py
+"""
+import os
+from typing import List
+from dotenv import load_dotenv
+load_dotenv()
+class Settings:
+    """Application settings loaded from environment variables"""
+    # ========================================================================
+    # ENVIRONMENT
+    # ========================================================================
+    ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
+    DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
+    # ========================================================================
+    # MONGODB
+    # ========================================================================
+    MONGODB_URI: str = os.getenv("MONGODB_URI", "")
+    DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
+    # ========================================================================
+    # JWT AUTHENTICATION
+    # ========================================================================
+    SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
+    ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
+    ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
+    # ========================================================================
+    # CORS (for frontend)
+    # ========================================================================
+    ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
+    # ========================================================================
+    # GOOGLE GEMINI API
+    # ========================================================================
+    GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
+    GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
+    GEMINI_REQUESTS_PER_MINUTE: int = int(os.getenv("GEMINI_REQUESTS_PER_MINUTE", "60"))
+    # ========================================================================
+    # GROQ API (Optional - for evaluation)
+    # ========================================================================
+    GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
+    GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
+    GROQ_REQUESTS_PER_MINUTE: int = int(os.getenv("GROQ_REQUESTS_PER_MINUTE", "30"))
+    # ========================================================================
+    # HUGGING FACE (Optional - for model downloads)
+    # ========================================================================
+    HF_TOKEN: str = os.getenv("HF_TOKEN", "")
+    # ========================================================================
+    # MODEL PATHS (for RL Policy Network and RAG models)
+    # ========================================================================
+    POLICY_MODEL_PATH: str = os.getenv("POLICY_MODEL_PATH", "app/models/best_policy_model.pth")
+    RETRIEVER_MODEL_PATH: str = os.getenv("RETRIEVER_MODEL_PATH", "app/models/best_retriever_model.pth")
+    FAISS_INDEX_PATH: str = os.getenv("FAISS_INDEX_PATH", "app/models/faiss_index.pkl")
+    KB_PATH: str = os.getenv("KB_PATH", "app/data/final_knowledge_base.jsonl")
+    # ========================================================================
+    # DEVICE SETTINGS (for PyTorch/TensorFlow models)
+    # ========================================================================
+    DEVICE: str = os.getenv("DEVICE", "cpu")
+    # ========================================================================
+    # LLM PARAMETERS
+    # ========================================================================
+    LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
+    LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "1024")) # VERY IMPORTANT CHANGE =============================================================================================
+    # ============================================================================
+    # ========================================================================
+    # RAG PARAMETERS
+    # ========================================================================
+    TOP_K: int = int(os.getenv("TOP_K", "5"))
+    SIMILARITY_THRESHOLD: float = float(os.getenv("SIMILARITY_THRESHOLD", "0.5"))
+    MAX_CONTEXT_LENGTH: int = int(os.getenv("MAX_CONTEXT_LENGTH", "2000"))
+    # ========================================================================
+    # POLICY NETWORK PARAMETERS
+    # ========================================================================
+    POLICY_MAX_LEN: int = int(os.getenv("POLICY_MAX_LEN", "256"))
+    CONFIDENCE_THRESHOLD: float = float(os.getenv("CONFIDENCE_THRESHOLD", "0.7"))
+    # ========================================================================
+    # HELPER METHODS (Required by llm_manager.py)
+    # ========================================================================
+    def is_gemini_enabled(self) -> bool:
+        """Check if Google Gemini API is configured"""
+        return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
+    def is_groq_enabled(self) -> bool:
+        """Check if Groq API is configured"""
+        return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
+    def is_hf_enabled(self) -> bool:
+        """Check if HuggingFace token is configured"""
+        return bool(self.HF_TOKEN and self.HF_TOKEN != "")
+    def get_allowed_origins(self) -> List[str]:
+        """Parse allowed origins from comma-separated string"""
+        if self.ALLOWED_ORIGINS == "*":
+            return ["*"]
+        return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
+    def get_llm_for_task(self, task: str = "qa") -> str:
+        """
+        Get LLM name for a specific task.
+        Args:
+            task: Task type ('chat', 'evaluation', etc.')
+        Returns:
+            str: LLM name ('gemini' or 'groq')
+        """
+        # Use Gemini for chat, Groq for evaluation
+        if task == "evaluation":
+            return "groq" if self.is_groq_enabled() else "gemini"
+        else:
+            return "gemini"  # Default to Gemini for all tasks
+# ============================================================================
+# CREATE GLOBAL SETTINGS INSTANCE
+# ============================================================================
+settings = Settings()
+# ============================================================================
+# PRINT CONFIGURATION ON LOAD
+# ============================================================================
+print("=" * 80)
+print("✅ Configuration Loaded")
+print("=" * 80)
+print(f"Environment: {settings.ENVIRONMENT}")
+print(f"Debug Mode: {settings.DEBUG}")
+print(f"Database: {settings.DATABASE_NAME}")
+print(f"Device: {settings.DEVICE}")
+print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
+print()
+print("🔑 API Keys:")
+print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
+print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
+print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
+print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
+print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
+print()
+print("🤖 Model Paths:")
+print(f"   Policy Model: {settings.POLICY_MODEL_PATH}")
+print(f"   Retriever Model: {settings.RETRIEVER_MODEL_PATH}")
+print(f"   FAISS Index: {settings.FAISS_INDEX_PATH}")
+print(f"   Knowledge Base: {settings.KB_PATH}")
+print("=" * 80)
+# ============================================================================
+# """
+# Application Configuration
+# Settings for Banking RAG Chatbot with JWT Authentication
+# Includes all settings needed by existing llm_manager.py
+# """
+# import os
+# from typing import List
+# from dotenv import load_dotenv
+# load_dotenv()
+# class Settings:
+#     """Application settings loaded from environment variables"""
+#     # ========================================================================
+#     # ENVIRONMENT
+#     # ========================================================================
+#     ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
+#     DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
+#     # ========================================================================
+#     # MONGODB
+#     # ========================================================================
+#     MONGODB_URI: str = os.getenv("MONGODB_URI", "")
+#     DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
+#     # ========================================================================
+#     # JWT AUTHENTICATION
+#     # ========================================================================
+#     SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
+#     ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
+#     ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
+#     # ========================================================================
+#     # CORS (for frontend)
+#     # ========================================================================
+#     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
+#     # ========================================================================
+#     # GOOGLE GEMINI API
+#     # ========================================================================
+#     GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
+#     GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
+#     # ========================================================================
+#     # GROQ API (Optional - for your llm_manager)
+#     # ========================================================================
+#     GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
+#     GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
+#     # ========================================================================
+#     # HUGGING FACE (Optional - for model downloads)
+#     # ========================================================================
+#     HF_TOKEN: str = os.getenv("HF_TOKEN", "")
+#     # ========================================================================
+#     # MODEL PATHS (for RL Policy Network and RAG models)
+#     # ========================================================================
+#     POLICY_MODEL_PATH: str = os.getenv("POLICY_MODEL_PATH", "models/best_policy_model.pth")
+#     RETRIEVER_MODEL_PATH: str = os.getenv("RETRIEVER_MODEL_PATH", "models/best_retriever_model.pth")
+#     FAISS_INDEX_PATH: str = os.getenv("FAISS_INDEX_PATH", "models/faiss_index.pkl")
+#     KB_PATH: str = os.getenv("KB_PATH", "data/final_knowledge_base.jsonl")
+#     # ========================================================================
+#     # DEVICE SETTINGS (for PyTorch/TensorFlow models)
+#     # ========================================================================
+#     DEVICE: str = os.getenv("DEVICE", "cpu")
+#     # ========================================================================
+#     # LLM PARAMETERS
+#     # ========================================================================
+#     LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
+#     LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "512"))
+#     # ========================================================================
+#     # RAG PARAMETERS
+#     # ========================================================================
+#     TOP_K: int = int(os.getenv("TOP_K", "5"))
+#     SIMILARITY_THRESHOLD: float = float(os.getenv("SIMILARITY_THRESHOLD", "0.5"))
+#     MAX_CONTEXT_LENGTH: int = int(os.getenv("MAX_CONTEXT_LENGTH", "2000"))
+#     # ========================================================================
+#     # POLICY NETWORK PARAMETERS
+#     # ========================================================================
+#     POLICY_MAX_LEN: int = int(os.getenv("POLICY_MAX_LEN", "256"))
+#     CONFIDENCE_THRESHOLD: float = float(os.getenv("CONFIDENCE_THRESHOLD", "0.7"))
+#     # ========================================================================
+#     # HELPER METHODS (Required by llm_manager.py)
+#     # ========================================================================
+#     def is_gemini_enabled(self) -> bool:
+#         """Check if Google Gemini API is configured"""
+#         return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
+#     def is_groq_enabled(self) -> bool:
+#         """Check if Groq API is configured"""
+#         return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
+#     def is_hf_enabled(self) -> bool:
+#         """Check if HuggingFace token is configured"""
+#         return bool(self.HF_TOKEN and self.HF_TOKEN != "")
+#     def get_allowed_origins(self) -> List[str]:
+#         """Parse allowed origins from comma-separated string"""
+#         if self.ALLOWED_ORIGINS == "*":
+#             return ["*"]
+#         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
+#     # def get_llm_for_task(self, task: str = "qa"):
+#     #     """
+#     #     Get LLM configuration for a specific task.
+#     #     Returns a dict with model settings.
+#     #     Args:
+#     #         task: Task type ('qa', 'retrieval', 'summary', etc.)
+#     #     Returns:
+#     #         dict: LLM configuration
+#     #     """
+#     #     return {
+#     #         'api_key': self.GOOGLE_API_KEY,
+#     #         'model': self.GEMINI_MODEL,
+#     #         'temperature': self.LLM_TEMPERATURE,
+#     #         'max_tokens': self.LLM_MAX_TOKENS,
+#     #         'task': task
+#     #     }
+#     def get_llm_for_task(self, task: str = "qa") -> str:
+#         """
+#         Get LLM name for a specific task.
+#         Args:
+#             task: Task type ('chat', 'evaluation', etc.)
+#         Returns:
+#             str: LLM name ('gemini' or 'groq')
+#         """
+#         # Use Gemini for chat, Groq for evaluation
+#         if task == "evaluation":
+#             return "groq" if self.is_groq_enabled() else "gemini"
+#         else:
+#             return "gemini"  # Default to Gemini for all other tasks
+# # ============================================================================
+# # CREATE GLOBAL SETTINGS INSTANCE
+# # ============================================================================
+# settings = Settings()
+# # ============================================================================
+# # PRINT CONFIGURATION ON LOAD
+# # ============================================================================
+# print("=" * 80)
+# print("✅ Configuration Loaded")
+# print("=" * 80)
+# print(f"Environment: {settings.ENVIRONMENT}")
+# print(f"Debug Mode: {settings.DEBUG}")
+# print(f"Database: {settings.DATABASE_NAME}")
+# print(f"Device: {settings.DEVICE}")
+# print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
+# print()
+# print("🔑 API Keys:")
+# print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
+# print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
+# print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
+# print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
+# print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
+# print()
+# print("🤖 Model Paths:")
+# print(f"   Policy Model: {settings.POLICY_MODEL_PATH}")
+# print(f"   Retriever Model: {settings.RETRIEVER_MODEL_PATH}")
+# print(f"   FAISS Index: {settings.FAISS_INDEX_PATH}")
+# print(f"   Knowledge Base: {settings.KB_PATH}")
+# print("=" * 80)
+# # # ============================================================================
+# # """
+# # Application Configuration
+# # Settings for Banking RAG Chatbot with JWT Authentication
+# # Includes all settings needed by existing llm_manager.py
+# # """
+# # import os
+# # from typing import List
+# # from dotenv import load_dotenv
+# # load_dotenv()
+# # class Settings:
+# #     """Application settings loaded from environment variables"""
+# #     # ========================================================================
+# #     # ENVIRONMENT
+# #     # ========================================================================
+# #     ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
+# #     DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
+# #     # ========================================================================
+# #     # MONGODB
+# #     # ========================================================================
+# #     MONGODB_URI: str = os.getenv("MONGODB_URI", "")
+# #     DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
+# #     # ========================================================================
+# #     # JWT AUTHENTICATION
+# #     # ========================================================================
+# #     SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
+# #     ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
+# #     ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
+# #     # ========================================================================
+# #     # CORS (for frontend)
+# #     # ========================================================================
+# #     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
+# #     # ========================================================================
+# #     # GOOGLE GEMINI API
+# #     # ========================================================================
+# #     GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
+# #     GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
+# #     # ========================================================================
+# #     # GROQ API (Optional - for your llm_manager)
+# #     # ========================================================================
+# #     GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
+# #     GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
+# #     # ========================================================================
+# #     # HUGGING FACE (Optional - for model downloads)
+# #     # ========================================================================
+# #     HF_TOKEN: str = os.getenv("HF_TOKEN", "")
+# #     # ========================================================================
+# #     # HELPER METHODS (Required by llm_manager.py)
+# #     # ========================================================================
+# #     def is_gemini_enabled(self) -> bool:
+# #         """Check if Google Gemini API is configured"""
+# #         return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
+# #     def is_groq_enabled(self) -> bool:
+# #         """Check if Groq API is configured"""
+# #         return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
+# #     def is_hf_enabled(self) -> bool:
+# #         """Check if HuggingFace token is configured"""
+# #         return bool(self.HF_TOKEN and self.HF_TOKEN != "")
+# #     def get_allowed_origins(self) -> List[str]:
+# #         """Parse allowed origins from comma-separated string"""
+# #         if self.ALLOWED_ORIGINS == "*":
+# #             return ["*"]
+# #         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
+# # # ============================================================================
+# # # CREATE GLOBAL SETTINGS INSTANCE
+# # # ============================================================================
+# # settings = Settings()
+# # # ============================================================================
+# # # PRINT CONFIGURATION ON LOAD
+# # # ============================================================================
+# # print("=" * 80)
+# # print("✅ Configuration Loaded")
+# # print("=" * 80)
+# # print(f"Environment: {settings.ENVIRONMENT}")
+# # print(f"Debug Mode: {settings.DEBUG}")
+# # print(f"Database: {settings.DATABASE_NAME}")
+# # # print(f"JWT Algorithm: {settings.ALGORITHM}")
+# # # print(f"Token Expiry: {settings.ACCESS_TOKEN_EXPIRE_MINUTES} minutes")
+# # print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
+# # print()
+# # print("🔑 API Keys:")
+# # print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
+# # print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
+# # print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
+# # print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
+# # print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
+# # print("=" * 80)
+# """
+# Application Configuration
+# Settings for Banking RAG Chatbot with JWT Authentication
+# Includes all settings needed by existing llm_manager.py
+# """
+# import os
+# from typing import List
+# from dotenv import load_dotenv
+# load_dotenv()
+# class Settings:
+#     """Application settings loaded from environment variables"""
+#     # ========================================================================
+#     # ENVIRONMENT
+#     # ========================================================================
+#     ENVIRONMENT: str = os.getenv("ENVIRONMENT", "development")
+#     DEBUG: bool = os.getenv("DEBUG", "True").lower() == "true"
+#     # ========================================================================
+#     # MONGODB
+#     # ========================================================================
+#     MONGODB_URI: str = os.getenv("MONGODB_URI", "")
+#     DATABASE_NAME: str = os.getenv("DATABASE_NAME", "aml_ia_db")
+#     # ========================================================================
+#     # JWT AUTHENTICATION
+#     # ========================================================================
+#     SECRET_KEY: str = os.getenv("SECRET_KEY", "your-secret-key-change-in-production")
+#     ALGORITHM: str = os.getenv("ALGORITHM", "HS256")
+#     ACCESS_TOKEN_EXPIRE_MINUTES: int = int(os.getenv("ACCESS_TOKEN_EXPIRE_MINUTES", "1440"))
+#     # ========================================================================
+#     # CORS (for frontend)
+#     # ========================================================================
+#     ALLOWED_ORIGINS: str = os.getenv("ALLOWED_ORIGINS", "*")
+#     # ========================================================================
+#     # GOOGLE GEMINI API
+#     # ========================================================================
+#     GOOGLE_API_KEY: str = os.getenv("GOOGLE_API_KEY", "")
+#     GEMINI_MODEL: str = os.getenv("GEMINI_MODEL", "gemini-2.0-flash-lite")
+#     # ========================================================================
+#     # GROQ API (Optional - for your llm_manager)
+#     # ========================================================================
+#     GROQ_API_KEY: str = os.getenv("GROQ_API_KEY", "")
+#     GROQ_MODEL: str = os.getenv("GROQ_MODEL", "llama3-70b-8192")
+#     # ========================================================================
+#     # HUGGING FACE (Optional - for model downloads)
+#     # ========================================================================
+#     HF_TOKEN: str = os.getenv("HF_TOKEN", "")
+#     # ========================================================================
+#     # MODEL PATHS (for RL Policy Network and RAG models)
+#     # ========================================================================
+#     POLICY_MODEL_PATH: str = os.getenv("POLICY_MODEL_PATH", "models/best_policy_model.pth")
+#     RETRIEVER_MODEL_PATH: str = os.getenv("RETRIEVER_MODEL_PATH", "models/best_retriever_model.pth")
+#     FAISS_INDEX_PATH: str = os.getenv("FAISS_INDEX_PATH", "models/faiss_index.pkl")
+#     KB_PATH: str = os.getenv("KB_PATH", "data/final_knowledge_base.jsonl")
+#     # ========================================================================
+#     # LLM PARAMETERS
+#     # ========================================================================
+#     LLM_TEMPERATURE: float = float(os.getenv("LLM_TEMPERATURE", "0.7"))
+#     LLM_MAX_TOKENS: int = int(os.getenv("LLM_MAX_TOKENS", "512"))
+#     # ========================================================================
+#     # RAG PARAMETERS
+#     # ========================================================================
+#     TOP_K: int = int(os.getenv("TOP_K", "5"))
+#     SIMILARITY_THRESHOLD: float = float(os.getenv("SIMILARITY_THRESHOLD", "0.5"))
+#     MAX_CONTEXT_LENGTH: int = int(os.getenv("MAX_CONTEXT_LENGTH", "2000"))
+#     # ========================================================================
+#     # HELPER METHODS (Required by llm_manager.py)
+#     # ========================================================================
+#     def is_gemini_enabled(self) -> bool:
+#         """Check if Google Gemini API is configured"""
+#         return bool(self.GOOGLE_API_KEY and self.GOOGLE_API_KEY != "")
+#     def is_groq_enabled(self) -> bool:
+#         """Check if Groq API is configured"""
+#         return bool(self.GROQ_API_KEY and self.GROQ_API_KEY != "")
+#     def is_hf_enabled(self) -> bool:
+#         """Check if HuggingFace token is configured"""
+#         return bool(self.HF_TOKEN and self.HF_TOKEN != "")
+#     def get_allowed_origins(self) -> List[str]:
+#         """Parse allowed origins from comma-separated string"""
+#         if self.ALLOWED_ORIGINS == "*":
+#             return ["*"]
+#         return [origin.strip() for origin in self.ALLOWED_ORIGINS.split(",")]
+# # ============================================================================
+# # CREATE GLOBAL SETTINGS INSTANCE
+# # ============================================================================
+# settings = Settings()
+# # ============================================================================
+# # PRINT CONFIGURATION ON LOAD
+# # ============================================================================
+# print("=" * 80)
+# print("✅ Configuration Loaded")
+# print("=" * 80)
+# print(f"Environment: {settings.ENVIRONMENT}")
+# print(f"Debug Mode: {settings.DEBUG}")
+# print(f"Database: {settings.DATABASE_NAME}")
+# print(f"CORS Origins: {settings.ALLOWED_ORIGINS}")
+# print()
+# print("🔑 API Keys:")
+# print(f"   Google Gemini: {'✅ Configured' if settings.is_gemini_enabled() else '❌ Missing'}")
+# print(f"   Groq API: {'✅ Configured' if settings.is_groq_enabled() else '⚠️  Optional (not set)'}")
+# print(f"   HuggingFace: {'✅ Configured' if settings.is_hf_enabled() else '⚠️  Optional (not set)'}")
+# print(f"   MongoDB: {'✅ Configured' if settings.MONGODB_URI else '❌ Missing'}")
+# print(f"   JWT Secret: {'✅ Configured' if settings.SECRET_KEY != 'your-secret-key-change-in-production' else '⚠️  Using default (CHANGE THIS!)'}")
+# print("=" * 80)

backups/backup_llm_manager.py ADDED Viewed

	@@ -0,0 +1,430 @@

+# """
+# Multi-LLM Manager for Google Gemini, Groq, and HuggingFace
+# All three APIs co-exist for different purposes (no fallback logic)
+# Architecture:
+# - Google Gemini (Primary): User-facing chat responses (best quality)
+# - Groq (Secondary): Fast inference for evaluation and specific tasks
+# - HuggingFace: Model downloads and embeddings (always required)
+# Each API has its designated purpose based on config settings.
+# """
+# import time
+# import google.generativeai as genai
+# from typing import List, Dict, Optional, Literal
+# from langchain_groq import ChatGroq
+# from langchain_core.messages import HumanMessage, SystemMessage, AIMessage
+# from app.config import settings
+# # ============================================================================
+# # GOOGLE GEMINI MANAGER
+# # ============================================================================
+# class GeminiManager:
+#     """
+#     Google Gemini API Manager (Primary LLM)
+#     Handles Google Pro account with gemini-2.0-flash-lite model
+#     """
+#     def __init__(self):
+#         """Initialize Gemini API with your Google API key"""
+#         self.api_key = settings.GOOGLE_API_KEY
+#         self.model_name = settings.GEMINI_MODEL
+#         # Configure Gemini
+#         genai.configure(api_key=self.api_key)
+#         # Create model instance with safety settings
+#         self.model = genai.GenerativeModel(
+#             model_name=self.model_name,
+#             generation_config={
+#                 "temperature": settings.LLM_TEMPERATURE,
+#                 "max_output_tokens": settings.LLM_MAX_TOKENS,
+#             }
+#         )
+#         # Rate limiting tracking
+#         self.requests_this_minute = 0
+#         self.tokens_this_minute = 0
+#         self.last_reset = time.time()
+#         print(f"✅ Gemini Manager initialized: {self.model_name}")
+#     def _check_rate_limits(self):
+#         """
+#         Check and reset rate limit counters.
+#         Gemini Pro: 60 requests/min, 60,000 tokens/min
+#         """
+#         current_time = time.time()
+#         # Reset counters every minute
+#         if current_time - self.last_reset > 60:
+#             self.requests_this_minute = 0
+#             self.tokens_this_minute = 0
+#             self.last_reset = current_time
+#         # Check if limits exceeded
+#         if self.requests_this_minute >= settings.GEMINI_REQUESTS_PER_MINUTE:
+#             wait_time = 60 - (current_time - self.last_reset)
+#             print(f"⚠️ Gemini rate limit hit. Waiting {wait_time:.1f}s...")
+#             time.sleep(wait_time)
+#             self._check_rate_limits()  # Recursive check after waiting
+#     async def generate(
+#         self,
+#         messages: List[Dict[str, str]],
+#         system_prompt: Optional[str] = None
+#     ) -> str:
+#         """
+#         Generate response using Gemini.
+#         Args:
+#             messages: List of conversation messages
+#                 Format: [{'role': 'user'/'assistant', 'content': '...'}]
+#             system_prompt: Optional system prompt (prepended to first message)
+#         Returns:
+#             str: Generated response text
+#         """
+#         self._check_rate_limits()
+#         try:
+#             # Format messages for Gemini
+#             # Gemini uses 'user' and 'model' roles
+#             formatted_messages = []
+#             # Add system prompt as first user message if provided
+#             if system_prompt:
+#                 formatted_messages.append({
+#                     'role': 'user',
+#                     'parts': [system_prompt]
+#                 })
+#             # Convert messages
+#             for msg in messages:
+#                 role = 'model' if msg['role'] == 'assistant' else 'user'
+#                 formatted_messages.append({
+#                     'role': role,
+#                     'parts': [msg['content']]
+#                 })
+#             # Generate response
+#             chat = self.model.start_chat(history=formatted_messages[:-1])
+#             response = chat.send_message(formatted_messages[-1]['parts'][0])
+#             # Track rate limits
+#             self.requests_this_minute += 1
+#             # Note: Token counting would require additional API call
+#             # For now, estimate ~4 chars per token
+#             estimated_tokens = len(response.text) // 4
+#             self.tokens_this_minute += estimated_tokens
+#             return response.text
+#         except Exception as e:
+#             print(f"❌ Gemini API error: {e}")
+#             raise
+# # ============================================================================
+# # GROQ MANAGER
+# # ============================================================================
+# class GroqManager:
+#     """
+#     Groq API Manager (Secondary LLM)
+#     Handles fast inference with Llama-3-70B
+#     """
+#     def __init__(self):
+#         """Initialize Groq API with single API key"""
+#         self.api_key = settings.GROQ_API_KEY
+#         self.model_name = settings.GROQ_MODEL
+#         # Create ChatGroq instance
+#         self.llm = ChatGroq(
+#             api_key=self.api_key,
+#             model_name=self.model_name,
+#             temperature=settings.LLM_TEMPERATURE,
+#             max_tokens=settings.LLM_MAX_TOKENS
+#         )
+#         # Rate limiting tracking
+#         self.requests_this_minute = 0
+#         self.tokens_this_minute = 0
+#         self.last_reset = time.time()
+#         print(f"✅ Groq Manager initialized: {self.model_name}")
+#     def _check_rate_limits(self):
+#         """
+#         Check and reset rate limit counters.
+#         Groq Free: 30 requests/min, 30,000 tokens/min
+#         """
+#         current_time = time.time()
+#         # Reset counters every minute
+#         if current_time - self.last_reset > 60:
+#             self.requests_this_minute = 0
+#             self.tokens_this_minute = 0
+#             self.last_reset = current_time
+#         # Check if limits exceeded
+#         if self.requests_this_minute >= settings.GROQ_REQUESTS_PER_MINUTE:
+#             wait_time = 60 - (current_time - self.last_reset)
+#             print(f"⚠️ Groq rate limit hit. Waiting {wait_time:.1f}s...")
+#             time.sleep(wait_time)
+#             self._check_rate_limits()
+#     async def generate(
+#         self,
+#         messages: List[Dict[str, str]],
+#         system_prompt: Optional[str] = None
+#     ) -> str:
+#         """
+#         Generate response using Groq.
+#         Args:
+#             messages: List of conversation messages
+#                 Format: [{'role': 'user'/'assistant', 'content': '...'}]
+#             system_prompt: Optional system prompt
+#         Returns:
+#             str: Generated response text
+#         """
+#         self._check_rate_limits()
+#         try:
+#             # Format messages for LangChain
+#             formatted_messages = []
+#             # Add system message if provided
+#             if system_prompt:
+#                 formatted_messages.append(SystemMessage(content=system_prompt))
+#             # Convert conversation messages
+#             for msg in messages:
+#                 if msg['role'] == 'user':
+#                     formatted_messages.append(HumanMessage(content=msg['content']))
+#                 elif msg['role'] == 'assistant':
+#                     formatted_messages.append(AIMessage(content=msg['content']))
+#             # Generate response
+#             response = await self.llm.ainvoke(formatted_messages)
+#             # Track rate limits
+#             self.requests_this_minute += 1
+#             # Estimate tokens (rough approximation)
+#             estimated_tokens = len(response.content) // 4
+#             self.tokens_this_minute += estimated_tokens
+#             return response.content
+#         except Exception as e:
+#             print(f"❌ Groq API error: {e}")
+#             raise
+# # ============================================================================
+# # UNIFIED LLM MANAGER (Routes to appropriate LLM)
+# # ============================================================================
+# class LLMManager:
+#     """
+#     Unified LLM Manager that routes requests to appropriate LLM.
+#     Routing strategy (from config):
+#     - Chat responses → Gemini (best quality for users)
+#     - Evaluation → Groq (fast, good enough for RL)
+#     - Policy → Local BERT (no API call)
+#     """
+#     def __init__(self):
+#         """Initialize all LLM managers"""
+#         self.gemini = None
+#         self.groq = None
+#         # Initialize Gemini if configured
+#         if settings.is_gemini_enabled():
+#             try:
+#                 self.gemini = GeminiManager()
+#             except Exception as e:
+#                 print(f"⚠️ Failed to initialize Gemini: {e}")
+#         # Initialize Groq if configured
+#         if settings.is_groq_enabled():
+#             try:
+#                 self.groq = GroqManager()
+#             except Exception as e:
+#                 print(f"⚠️ Failed to initialize Groq: {e}")
+#         print("✅ LLM Manager initialized")
+#     async def generate(
+#         self,
+#         messages: List[Dict[str, str]],
+#         system_prompt: Optional[str] = None,
+#         task: Literal["chat", "evaluation"] = "chat"
+#     ) -> str:
+#         """
+#         Generate response using appropriate LLM based on task.
+#         Args:
+#             messages: Conversation messages
+#             system_prompt: Optional system prompt
+#             task: Task type - "chat" (user-facing) or "evaluation" (RL training)
+#         Returns:
+#             str: Generated response
+#         Raises:
+#             ValueError: If appropriate LLM is not configured
+#         """
+#         # Determine which LLM to use based on task
+#         llm_choice = settings.get_llm_for_task(task)
+#         if llm_choice == "gemini":
+#             if self.gemini is None:
+#                 raise ValueError("Gemini API not configured. Set GOOGLE_API_KEY in .env")
+#             return await self.gemini.generate(messages, system_prompt)
+#         elif llm_choice == "groq":
+#             if self.groq is None:
+#                 raise ValueError("Groq API not configured. Set GROQ_API_KEY in .env")
+#             return await self.groq.generate(messages, system_prompt)
+#         else:
+#             raise ValueError(f"Unknown LLM choice: {llm_choice}")
+#     # async def generate_chat_response(
+#     #     self,
+#     #     query: str,
+#     #     context: str,
+#     #     history: List[Dict[str, str]]
+#     # ) -> str:
+#     #     """
+#     #     Generate chat response (uses Gemini by default).
+#     #     Args:
+#     #         query: User query
+#     #         context: Retrieved context (from FAISS)
+#     #         history: Conversation history
+#     #     Returns:
+#     #         str: Chat response
+#     #     """
+#     #     # Build system prompt
+#     #     system_prompt = settings.SYSTEM_PROMPT
+#     #     if context:
+#     #         system_prompt += f"\n\nRelevant Information:\n{context}"
+#     #     # Build messages
+#     #     messages = history + [{'role': 'user', 'content': query}]
+#     #     # Generate using chat LLM (Gemini)
+#     #     return await self.generate(messages, system_prompt, task="chat")
+#     async def generate_chat_response(
+#         self,
+#         query: str,
+#         context: str,
+#         history: List[Dict[str, str]]
+#     ) -> str:
+#         """Generate chat response (uses Gemini by default)."""
+#         # Import the detailed prompt
+#         from app.services.chat_service import BANKING_SYSTEM_PROMPT
+#         # Build enhanced system prompt with context
+#         system_prompt = BANKING_SYSTEM_PROMPT
+#         if context:
+#             system_prompt += f"\n\nRelevant Knowledge Base Context:\n{context}"
+#         else:
+#             system_prompt += "\n\nNo specific banking documents were retrieved for this query. Provide a helpful general response while acknowledging your banking specialization."
+#         # Build messages
+#         messages = history + [{'role': 'user', 'content': query}]
+#         # Generate using chat LLM (Gemini)
+#         return await self.generate(messages, system_prompt, task="chat")
+#     async def evaluate_response(
+#         self,
+#         query: str,
+#         response: str,
+#         context: str = ""
+#     ) -> Dict:
+#         """
+#         Evaluate response quality (uses Groq for speed).
+#         Used during RL training.
+#         Args:
+#             query: User query
+#             response: Generated response
+#             context: Retrieved context (if any)
+#         Returns:
+#             dict: Evaluation results
+#                 {'quality': 'Good'/'Bad', 'explanation': '...'}
+#         """
+#         eval_prompt = f"""Evaluate this response:
+# Query: {query}
+# Response: {response}
+# Context used: {context if context else 'None'}
+# Is this response Good or Bad? Respond with just "Good" or "Bad" and brief explanation."""
+#         messages = [{'role': 'user', 'content': eval_prompt}]
+#         # Generate using evaluation LLM (Groq)
+#         result = await self.generate(messages, task="evaluation")
+#         # Parse result
+#         quality = "Good" if "Good" in result else "Bad"
+#         return {
+#             'quality': quality,
+#             'explanation': result
+#         }
+# # ============================================================================
+# # GLOBAL LLM MANAGER INSTANCE
+# # ============================================================================
+# llm_manager = LLMManager()
+# # ============================================================================
+# # USAGE EXAMPLE (for reference)
+# # ============================================================================
+# """
+# # In your service file:
+# from app.core.llm_manager import llm_manager
+# # Generate chat response (uses Gemini)
+# response = await llm_manager.generate_chat_response(
+#     query="What is my account balance?",
+#     context="Your balance is $1000",
+#     history=[]
+# )
+# # Evaluate response (uses Groq)
+# evaluation = await llm_manager.evaluate_response(
+#     query="What is my balance?",
+#     response="Your balance is $1000",
+#     context="Balance: $1000"
+# )
+# """

backups/backup_main.py ADDED Viewed

	@@ -0,0 +1,275 @@

+"""
+FastAPI Main Application Entry Point
+Banking RAG Chatbot API with JWT Authentication
+This file:
+1. Creates the FastAPI app
+2. Configures CORS middleware
+3. Connects to MongoDB on startup/shutdown
+4. Includes API routers (auth + chat)
+5. Provides health check endpoints
+"""
+from fastapi import FastAPI, Request
+from fastapi.middleware.cors import CORSMiddleware
+from fastapi.responses import JSONResponse
+from contextlib import asynccontextmanager
+from app.config import settings
+from app.db.mongodb import connect_to_mongo, close_mongo_connection
+# ============================================================================
+# LIFESPAN MANAGER (Startup & Shutdown)
+# ============================================================================
+@asynccontextmanager
+async def lifespan(app: FastAPI):
+    """
+    Manage application lifespan events.
+    Startup:
+    - Connect to MongoDB Atlas
+    - ML models load lazily on first use
+    Shutdown:
+    - Close MongoDB connection
+    - Cleanup resources
+    """
+    # ========================================================================
+    # STARTUP
+    # ========================================================================
+    print("\n" + "=" * 80)
+    print("🚀 STARTING BANKING RAG CHATBOT API")
+    print("=" * 80)
+    print(f"Environment: {settings.ENVIRONMENT}")
+    print(f"Debug Mode: {settings.DEBUG}")
+    print("=" * 80)
+    # Connect to MongoDB
+    await connect_to_mongo()
+    print("\n💡 ML Models Info:")
+    print("   Policy Network: Loads on first chat request (lazy loading)")
+    print("   Retriever Model: Loads on first retrieval (lazy loading)")
+    print("   LLM (Gemini): Connects on first generation")
+    print("\n✅ Backend startup complete!")
+    print("=" * 80)
+    print(f"📖 API Docs: http://localhost:8000/docs")
+    print(f"🏥 Health Check: http://localhost:8000/health")
+    print(f"🔐 Register: POST http://localhost:8000/api/v1/auth/register")
+    print(f"🔑 Login: POST http://localhost:8000/api/v1/auth/login")
+    print("=" * 80 + "\n")
+    yield  # Application runs here
+    # ========================================================================
+    # SHUTDOWN
+    # ========================================================================
+    print("\n" + "=" * 80)
+    print("🛑 SHUTTING DOWN API")
+    print("=" * 80)
+    # Close MongoDB connection
+    await close_mongo_connection()
+    print("✅ Shutdown complete")
+    print("=" * 80 + "\n")
+# ============================================================================
+# CREATE FASTAPI APPLICATION
+# ============================================================================
+app = FastAPI(
+    title="Banking RAG Chatbot API",
+    description="""
+    🤖 AI-powered Banking Assistant with:
+    **Features:**
+    - 🔐 JWT Authentication (Sign up, Login, Protected routes)
+    - 💬 RAG (Retrieval-Augmented Generation)
+    - 🧠 RL-based Policy Network (BERT)
+    - 🔍 Custom E5 Retriever
+    - ✨ Google Gemini LLM
+    **Capabilities:**
+    - Intelligent document retrieval
+    - Context-aware responses
+    - Conversation history
+    - Real-time chat
+    - User authentication & authorization
+    """,
+    version="1.0.0",
+    docs_url="/docs",
+    redoc_url="/redoc",
+    lifespan=lifespan
+)
+# ============================================================================
+# CORS MIDDLEWARE
+# ============================================================================
+allowed_origins = settings.get_allowed_origins()
+print("\n🌐 CORS Configuration:")
+print(f"   Allowed Origins: {allowed_origins}")
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=allowed_origins,
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# ============================================================================
+# INCLUDE API ROUTERS
+# ============================================================================
+from app.api.v1 import chat, auth
+# Auth router (public endpoints - register, login)
+app.include_router(
+    auth.router,
+    prefix="/api/v1/auth",
+    tags=["🔐 Authentication"]
+)
+# Chat router (protected endpoints - requires JWT token)
+app.include_router(
+    chat.router,
+    prefix="/api/v1/chat",
+    tags=["💬 Chat"]
+)
+# ============================================================================
+# ROOT ENDPOINTS
+# ============================================================================
+@app.get("/", tags=["📍 Root"])
+async def root():
+    """
+    Root endpoint - API information and available endpoints
+    """
+    return {
+        "message": "Banking RAG Chatbot API with Authentication",
+        "version": "1.0.0",
+        "status": "online",
+        "authentication": "JWT Bearer Token Required for chat endpoints",
+        "documentation": {
+            "swagger_ui": "/docs",
+            "redoc": "/redoc"
+        },
+        "endpoints": {
+            "auth": {
+                "register": "POST /api/v1/auth/register",
+                "login": "POST /api/v1/auth/login",
+                "me": "GET /api/v1/auth/me (requires token)",
+                "logout": "POST /api/v1/auth/logout (requires token)"
+            },
+            "chat": {
+                "send_message": "POST /api/v1/chat/ (requires token)",
+                "get_history": "GET /api/v1/chat/history/{conversation_id} (requires token)",
+                "list_conversations": "GET /api/v1/chat/conversations (requires token)",
+                "delete_conversation": "DELETE /api/v1/chat/conversation/{conversation_id} (requires token)"
+            },
+            "health": "GET /health"
+        }
+    }
+@app.get("/health", tags=["🏥 Health"])
+async def health_check():
+    """
+    Comprehensive health check endpoint
+    Checks status of:
+    - API service
+    - MongoDB connection
+    - ML models (lazy loaded)
+    - Authentication system
+    Returns:
+        dict: Health status of all components
+    """
+    from app.db.mongodb import get_database
+    # Check MongoDB
+    mongodb_status = "connected" if get_database() is not None else "disconnected"
+    # Check ML models (don't load them, just check readiness)
+    ml_models_status = {
+        "policy_network": "ready (lazy load)",
+        "retriever": "ready (lazy load)",
+        "llm": "ready (API-based)"
+    }
+    # Check authentication
+    auth_status = {
+        "jwt_enabled": bool(settings.SECRET_KEY and settings.SECRET_KEY != "your-secret-key-change-in-production"),
+        "algorithm": settings.ALGORITHM,
+        "token_expiry_minutes": settings.ACCESS_TOKEN_EXPIRE_MINUTES
+    }
+    # Overall health
+    is_healthy = mongodb_status == "connected" and auth_status["jwt_enabled"]
+    return {
+        "status": "healthy" if is_healthy else "degraded",
+        "api": "online",
+        "mongodb": mongodb_status,
+        "authentication": auth_status,
+        "ml_models": ml_models_status,
+        "environment": settings.ENVIRONMENT,
+        "debug_mode": settings.DEBUG
+    }
+# ============================================================================
+# GLOBAL EXCEPTION HANDLER
+# ============================================================================
+@app.exception_handler(Exception)
+async def global_exception_handler(request: Request, exc: Exception):
+    """
+    Global exception handler for unhandled errors
+    """
+    print(f"\n❌ Unhandled Exception:")
+    print(f"   Path: {request.url.path}")
+    print(f"   Error: {str(exc)}")
+    if settings.DEBUG:
+        import traceback
+        traceback.print_exc()
+    return JSONResponse(
+        status_code=500,
+        content={
+            "error": "Internal Server Error",
+            "detail": str(exc) if settings.DEBUG else "An unexpected error occurred",
+            "path": str(request.url.path)
+        }
+    )
+# ============================================================================
+# MAIN ENTRY POINT (for direct execution)
+# ============================================================================
+if __name__ == "__main__":
+    import uvicorn
+    print("\n🚀 Starting server directly...")
+    print("   Note: For production, use: uvicorn app.main:app --host 0.0.0.0 --port 8000")
+    uvicorn.run(
+        "app.main:app",
+        host="0.0.0.0",
+        port=8000,
+        reload=settings.DEBUG  # Auto-reload only in debug mode
+    )

backups/backup_requirements.txt ADDED Viewed

	@@ -0,0 +1,182 @@

+# # ================================================================================
+# # BANKING RAG CHATBOT API - DEPENDENCIES
+# # Python 3.10+ required
+# # ================================================================================
+# # ============================================================================
+# # CORE WEB FRAMEWORK
+# # ============================================================================
+# # FastAPI - Modern async web framework
+# fastapi==0.104.1
+# # Uvicorn - ASGI server for FastAPI
+# uvicorn[standard]==0.24.0
+# # Python multipart for file uploads (if needed later)
+# python-multipart==0.0.6
+# # ============================================================================
+# # CONFIGURATION & ENVIRONMENT
+# # ============================================================================
+# # Pydantic - Data validation and settings management
+# pydantic==2.5.0
+# pydantic-settings==2.1.0
+# # Python-dotenv - Load environment variables from .env file
+# python-dotenv==1.0.0
+# # ============================================================================
+# # DATABASE - MongoDB
+# # ============================================================================
+# # Motor - Async MongoDB driver for FastAPI
+# motor==3.3.2
+# # PyMongo - MongoDB Python driver (used by Motor)
+# pymongo==4.6.0
+# # ============================================================================
+# # AUTHENTICATION & SECURITY
+# # ============================================================================
+# # Python-jose - JWT token handling
+# python-jose[cryptography]==3.3.0
+# # Passlib - Password hashing
+# passlib[bcrypt]==1.7.4
+# # ============================================================================
+# # MACHINE LEARNING - PYTORCH & TRANSFORMERS
+# # ============================================================================
+# # PyTorch - Deep learning framework
+# torch==2.1.0
+# # Transformers - HuggingFace transformers library (BERT, e5-base-v2)
+# transformers==4.35.0
+# # Sentence-Transformers - Sentence embeddings
+# sentence-transformers==2.2.2
+# # ============================================================================
+# # VECTOR SEARCH
+# # ============================================================================
+# # FAISS - Facebook AI Similarity Search (CPU version)
+# faiss-cpu==1.7.4
+# # ============================================================================
+# # LLM INTEGRATIONS
+# # ============================================================================
+# # LangChain - LLM orchestration framework
+# langchain==0.1.0
+# # LangChain Groq integration
+# langchain-groq==0.0.1
+# # LangChain Google GenAI (for Gemini)
+# langchain-google-genai==1.0.0
+# # Google Generative AI - Direct Gemini API
+# google-generativeai==0.3.2
+# # ============================================================================
+# # UTILITIES
+# # ============================================================================
+# # NumPy - Numerical computing
+# numpy==1.24.3
+# # Tiktoken - OpenAI tokenizer (for token counting)
+# tiktoken==0.5.1
+# # Rich - Beautiful terminal output (for logging)
+# rich==13.7.0
+# # Requests - HTTP library
+# requests==2.31.0
+# # ============================================================================
+# # OPTIONAL: DEVELOPMENT TOOLS (comment out for production)
+# # ============================================================================
+# # Pytest - Testing framework
+# # pytest==7.4.3
+# # Black - Code formatter
+# # black==23.12.0
+# # Flake8 - Linter
+# # flake8==6.1.0
+# fastapi==0.104.1
+# uvicorn[standard]==0.24.0
+# pydantic==2.5.0
+# pydantic-settings==2.1.0
+# python-dotenv==1.0.0
+# motor==3.3.2
+# pymongo==4.6.0
+# google-generativeai==0.3.1
+# sentence-transformers==2.2.2
+# faiss-cpu==1.7.4
+# numpy==1.24.3
+# torch==2.1.0
+# transformers==4.35.2
+# # AUTH DEPENDENCIES (NEW!)
+# python-jose[cryptography]==3.3.0
+# passlib[bcrypt]==1.7.4
+# python-multipart==0.0.6
+# bcrypt==4.1.1
+# FastAPI & Server
+fastapi==0.104.1
+uvicorn[standard]==0.24.0
+# Data Validation
+pydantic==2.5.0
+pydantic-settings==2.1.0
+python-dotenv==1.0.0
+# Database
+motor==3.3.2
+pymongo==4.6.0
+# LLM & AI Libraries
+langchain-groq==0.1.0
+langchain-core==0.1.0
+huggingface-hub==0.20.0
+# Embeddings & Vector Search
+sentence-transformers==2.2.2
+faiss-cpu==1.7.4
+numpy==1.24.3
+# ML/Deep Learning
+torch==2.1.0
+transformers==4.35.2
+# Authentication
+python-jose[cryptography]==3.3.0
+passlib[bcrypt]==1.7.4
+python-multipart==0.0.6
+bcrypt==4.1.1

requirements.txt CHANGED Viewed

@@ -1,138 +1,37 @@
-# # ================================================================================
-# # BANKING RAG CHATBOT API - DEPENDENCIES
-# # Python 3.10+ required
-# # ================================================================================
-# # ============================================================================
-# # CORE WEB FRAMEWORK
-# # ============================================================================
-# # FastAPI - Modern async web framework
-# fastapi==0.104.1
-# # Uvicorn - ASGI server for FastAPI
-# uvicorn[standard]==0.24.0
-# # Python multipart for file uploads (if needed later)
-# python-multipart==0.0.6
-# # ============================================================================
-# # CONFIGURATION & ENVIRONMENT
-# # ============================================================================
-# # Pydantic - Data validation and settings management
-# pydantic==2.5.0
-# pydantic-settings==2.1.0
-# # Python-dotenv - Load environment variables from .env file
-# python-dotenv==1.0.0
-# # ============================================================================
-# # DATABASE - MongoDB
-# # ============================================================================
-# # Motor - Async MongoDB driver for FastAPI
-# motor==3.3.2
-# # PyMongo - MongoDB Python driver (used by Motor)
-# pymongo==4.6.0
-# # ============================================================================
-# # AUTHENTICATION & SECURITY
-# # ============================================================================
-# # Python-jose - JWT token handling
-# python-jose[cryptography]==3.3.0
-# # Passlib - Password hashing
-# passlib[bcrypt]==1.7.4
-# # ============================================================================
-# # MACHINE LEARNING - PYTORCH & TRANSFORMERS
-# # ============================================================================
-# # PyTorch - Deep learning framework
-# torch==2.1.0
-# # Transformers - HuggingFace transformers library (BERT, e5-base-v2)
-# transformers==4.35.0
-# # Sentence-Transformers - Sentence embeddings
-# sentence-transformers==2.2.2
-# # ============================================================================
-# # VECTOR SEARCH
-# # ============================================================================
-# # FAISS - Facebook AI Similarity Search (CPU version)
-# faiss-cpu==1.7.4
-# # ============================================================================
-# # LLM INTEGRATIONS
-# # ============================================================================
-# # LangChain - LLM orchestration framework
-# langchain==0.1.0
-# # LangChain Groq integration
-# langchain-groq==0.0.1
-# # LangChain Google GenAI (for Gemini)
-# langchain-google-genai==1.0.0
-# # Google Generative AI - Direct Gemini API
-# google-generativeai==0.3.2
-# # ============================================================================
-# # UTILITIES
-# # ============================================================================
-# # NumPy - Numerical computing
-# numpy==1.24.3
-# # Tiktoken - OpenAI tokenizer (for token counting)
-# tiktoken==0.5.1
-# # Rich - Beautiful terminal output (for logging)
-# rich==13.7.0
-# # Requests - HTTP library
-# requests==2.31.0
-# # ============================================================================
-# # OPTIONAL: DEVELOPMENT TOOLS (comment out for production)
-# # ============================================================================
-# # Pytest - Testing framework
-# # pytest==7.4.3
-# # Black - Code formatter
-# # black==23.12.0
-# # Flake8 - Linter
-# # flake8==6.1.0
-fastapi==0.104.1
-uvicorn[standard]==0.24.0
-pydantic==2.5.0
-pydantic-settings==2.1.0
-python-dotenv==1.0.0
-motor==3.3.2
-pymongo==4.6.0
-google-generativeai==0.3.1
 sentence-transformers==2.2.2
 faiss-cpu==1.7.4
 numpy==1.24.3
 torch==2.1.0
 transformers==4.35.2
-# AUTH DEPENDENCIES (NEW!)
 python-jose[cryptography]==3.3.0
 passlib[bcrypt]==1.7.4
 python-multipart==0.0.6

+# FastAPI & Server
+fastapi==0.104.1
+uvicorn[standard]==0.24.0
+# Data Validation
+pydantic==2.5.0
+pydantic-settings==2.1.0
+python-dotenv==1.0.0
+# Database
+motor==3.3.2
+pymongo==4.6.0
+# LLM & AI Libraries
+langchain-groq==0.1.9
+langchain-core==0.2.38
+huggingface-hub==0.24.6
+# Embeddings & Vector Search
 sentence-transformers==2.2.2
 faiss-cpu==1.7.4
 numpy==1.24.3
+# ML/Deep Learning
 torch==2.1.0
 transformers==4.35.2
+# Authentication
 python-jose[cryptography]==3.3.0
 passlib[bcrypt]==1.7.4
 python-multipart==0.0.6