Spaces:

CaffeinatedCoding
/

nyayasetu

Running

App Files Files Community

CaffeinatedCoding commited on 29 days ago

Commit

f756c47

verified ·

1 Parent(s): 4ad765a

Upload folder using huggingface_hub

Browse files

Files changed (3) hide show

requirements.txt +1 -1
src/agent_v2.py +4 -7
src/llm.py +14 -15

requirements.txt CHANGED Viewed

@@ -5,7 +5,7 @@ faiss-cpu
 fastapi
 uvicorn
 python-dotenv
-openai
 dvc
 mlflow
 optuna

 fastapi
 uvicorn
 python-dotenv
+groq
 dvc
 mlflow
 optuna

src/agent_v2.py CHANGED Viewed

@@ -28,15 +28,12 @@ from src.ner import extract_entities, augment_query
 logger = logging.getLogger(__name__)
-from openai import OpenAI
 from tenacity import retry, stop_after_attempt, wait_exponential
 from dotenv import load_dotenv
 load_dotenv()
-_client = OpenAI(
-    api_key=os.getenv("DEEPSEEK_API_KEY"),
-    base_url="https://api.deepseek.com/v1"
-)
 # ── Session store ─────────────────────────────────────────
 sessions: Dict[str, Dict] = {}
@@ -169,7 +166,7 @@ Rules:
 - search_queries must be specific legal questions for vector search"""
     response = _client.chat.completions.create(
-        model="deepseek-chat",
         messages=[
             {"role": "system", "content": ANALYSIS_PROMPT},
             {"role": "user", "content": user_content}
@@ -329,7 +326,7 @@ Instructions:
 {radar_instruction}"""
     response = _client.chat.completions.create(
-        model="deepseek-chat",
         messages=[
             {"role": "system", "content": system_prompt},
             {"role": "user", "content": user_content}

 logger = logging.getLogger(__name__)
+from groq import Groq
 from tenacity import retry, stop_after_attempt, wait_exponential
 from dotenv import load_dotenv
 load_dotenv()
+_client = Groq(api_key=os.getenv("GROQ_API_KEY"))
 # ── Session store ─────────────────────────────────────────
 sessions: Dict[str, Dict] = {}
 - search_queries must be specific legal questions for vector search"""
     response = _client.chat.completions.create(
+        model="llama-3.3-70b-versatile",
         messages=[
             {"role": "system", "content": ANALYSIS_PROMPT},
             {"role": "user", "content": user_content}
 {radar_instruction}"""
     response = _client.chat.completions.create(
+        model="llama-3.3-70b-versatile",
         messages=[
             {"role": "system", "content": system_prompt},
             {"role": "user", "content": user_content}

src/llm.py CHANGED Viewed

@@ -1,14 +1,14 @@
 """
-LLM module. Single DeepSeek API call with tenacity retry.
-WHY DeepSeek? Free tier, cost-effective inference.
 WHY temperature=0.1? Lower = more deterministic, less hallucination.
 WHY one call per query? Multi-step chains add latency and failure points.
 """
 import os
 import logging
-from openai import OpenAI
 from tenacity import retry, stop_after_attempt, wait_exponential
 from dotenv import load_dotenv
@@ -16,31 +16,30 @@ load_dotenv()
 logger = logging.getLogger(__name__)
-api_key = os.getenv("DEEPSEEK_API_KEY")
-logger.info(f"DEEPSEEK_API_KEY loaded: {bool(api_key)} (length: {len(api_key) if api_key else 0})")
-_client = OpenAI(
-    api_key=api_key,
-    base_url="https://api.deepseek.com/v1"
 )
-logger.info("DeepSeek client initialized successfully")
 def call_llm_raw(messages: list) -> str:
     """
-    Call DeepSeek with pre-built messages list.
     Used by V2 agent for Pass 1 and Pass 3.
     """
     try:
         response = _client.chat.completions.create(
-            model="deepseek-chat",
             messages=messages,
             temperature=0.3,
             max_tokens=1500
         )
         return response.choices[0].message.content
     except Exception as e:
-        logger.error(f"DeepSeek API error in call_llm_raw: {type(e).__name__}: {str(e)}", exc_info=True)
         raise
@@ -50,7 +49,7 @@ def call_llm_raw(messages: list) -> str:
 )
 def call_llm(query: str, context: str) -> str:
     """
-    Call DeepSeek. Used by V1 agent.
     Retries 3 times with exponential backoff.
     """
     try:
@@ -63,7 +62,7 @@ Answer based only on the excerpts above. Cite judgment IDs.
 Use proper markdown formatting."""
         response = _client.chat.completions.create(
-            model="deepseek-chat",
             messages=[
                 {"role": "system", "content": "You are NyayaSetu, an Indian legal research assistant. Answer only from provided excerpts. Cite judgment IDs. End with: NOTE: This is not legal advice."},
                 {"role": "user", "content": user_message}
@@ -74,5 +73,5 @@ Use proper markdown formatting."""
         return response.choices[0].message.content
     except Exception as e:
-        logger.error(f"DeepSeek API error in call_llm: {type(e).__name__}: {str(e)}", exc_info=True)
         raise

 """
+LLM module. Single Groq API call with tenacity retry.
+WHY Groq? Free tier, fastest inference (~500 tokens/sec).
 WHY temperature=0.1? Lower = more deterministic, less hallucination.
 WHY one call per query? Multi-step chains add latency and failure points.
 """
 import os
 import logging
+from groq import Groq
 from tenacity import retry, stop_after_attempt, wait_exponential
 from dotenv import load_dotenv
 logger = logging.getLogger(__name__)
+api_key = os.getenv("GROQ_API_KEY")
+logger.info(f"GROQ_API_KEY loaded: {bool(api_key)} (length: {len(api_key) if api_key else 0})")
+_client = Groq(
+    api_key=api_key
 )
+logger.info("Groq client initialized successfully")
 def call_llm_raw(messages: list) -> str:
     """
+    Call Groq with pre-built messages list.
     Used by V2 agent for Pass 1 and Pass 3.
     """
     try:
         response = _client.chat.completions.create(
+            model="llama-3.3-70b-versatile",
             messages=messages,
             temperature=0.3,
             max_tokens=1500
         )
         return response.choices[0].message.content
     except Exception as e:
+        logger.error(f"Groq API error in call_llm_raw: {type(e).__name__}: {str(e)}", exc_info=True)
         raise
 )
 def call_llm(query: str, context: str) -> str:
     """
+    Call Groq Llama-3. Used by V1 agent.
     Retries 3 times with exponential backoff.
     """
     try:
 Use proper markdown formatting."""
         response = _client.chat.completions.create(
+            model="llama-3.3-70b-versatile",
             messages=[
                 {"role": "system", "content": "You are NyayaSetu, an Indian legal research assistant. Answer only from provided excerpts. Cite judgment IDs. End with: NOTE: This is not legal advice."},
                 {"role": "user", "content": user_message}
         return response.choices[0].message.content
     except Exception as e:
+        logger.error(f"Groq API error in call_llm: {type(e).__name__}: {str(e)}", exc_info=True)
         raise