Spaces:

Peterase
/

rag-api-node-1

Running

Peterase commited on 24 days ago

Commit

453c47d

1 Parent(s): e47c7f4

fix(rag-api): session ID merging + FOLLOW_UP streaming leak

fix: session_id 'default_session' merging all chats into one
- rag_chat_use_case: generate UUID when session_id is None
- agent_router_use_case: generate UUID when session_id is None
- Eliminates shared 'default_session' / 'anonymous' fallback
- Each new chat now gets a unique UUID session

fix: FOLLOW_UP: tokens leaking into streamed response
- Buffer streaming tokens and stop yielding once FOLLOW_UP: detected
- Users no longer see raw FOLLOW_UP: text in the chat bubble
- Follow-up questions still parsed correctly from full_answer

Files changed (2) hide show

src/core/use_cases/agent_router_use_case.py +10 -2
src/core/use_cases/rag_chat_use_case.py +40 -8

src/core/use_cases/agent_router_use_case.py CHANGED Viewed

@@ -25,7 +25,11 @@ class AgentRouterUseCase:
     async def execute_chat(self, request: ChatRequest) -> Dict[str, Any]:
         intent = self._classify_intent(request.query)
-        session_id = request.session_id or "anonymous"
         if intent == "OTHER":
             print(f"DEBUG: Routing to OTHER (Direct LLM Response)")
@@ -42,7 +46,11 @@ class AgentRouterUseCase:
     async def execute_stream(self, request: ChatRequest, is_guest: bool = False, user_id: int = None) -> AsyncGenerator[str, None]:
         intent = self._classify_intent(request.query)
-        session_id = request.session_id or "anonymous"
         if intent == "OTHER":
             full_answer = ""

     async def execute_chat(self, request: ChatRequest) -> Dict[str, Any]:
         intent = self._classify_intent(request.query)
+        # Generate a unique session ID if none provided — never use a shared fallback
+        if not request.session_id:
+            import uuid
+            request.session_id = str(uuid.uuid4())
+        session_id = request.session_id
         if intent == "OTHER":
             print(f"DEBUG: Routing to OTHER (Direct LLM Response)")
     async def execute_stream(self, request: ChatRequest, is_guest: bool = False, user_id: int = None) -> AsyncGenerator[str, None]:
         intent = self._classify_intent(request.query)
+        # Generate a unique session ID if none provided — never use a shared fallback
+        if not request.session_id:
+            import uuid
+            request.session_id = str(uuid.uuid4())
+        session_id = request.session_id
         if intent == "OTHER":
             full_answer = ""

src/core/use_cases/rag_chat_use_case.py CHANGED Viewed

@@ -704,7 +704,12 @@ JSON:"""
     async def execute_chat(self, request: ChatRequest) -> Dict[str, Any]:
         print(f"DEBUG: execute_chat called with query: {request.query}")
-        session_id = request.session_id or "default_session"
         # ── Layer 1: Full Response Cache (5 min TTL) ──────────────────────────
         cache_keys = self._get_cache_keys(request.query)
@@ -869,7 +874,12 @@ Answer:"""
         return result
     async def execute_stream(self, request: ChatRequest, is_guest: bool = False, user_id: int = None) -> AsyncGenerator[str, None]:
-        session_id = request.session_id or "default_session"
         history_text = "" if is_guest else self._get_history_text(session_id)
         context_text, final_sources = await self._build_context(
             request.query, request.top_k, request.source_filter, request.language_filter, getattr(request, 'days_back', None)
@@ -940,16 +950,38 @@ User Question: {request.query}
 Answer:"""
         full_answer = ""
         async for chunk in self.llm.generate_stream(prompt_stream):
-            yield chunk
             if chunk.startswith("data: "):
                 try:
-                    import json
-                    data = json.loads(chunk[6:])
                     if "token" in data:
-                        full_answer += data["token"]
-                except:
-                    pass
         # ── Parse follow-up questions out of the streamed answer ──────────────
         follow_up_questions: List[str] = []

     async def execute_chat(self, request: ChatRequest) -> Dict[str, Any]:
         print(f"DEBUG: execute_chat called with query: {request.query}")
+        # Generate a unique session ID if none provided — never use a shared fallback
+        if not request.session_id:
+            import uuid
+            request.session_id = str(uuid.uuid4())
+            print(f"DEBUG: Generated new session_id: {request.session_id}")
+        session_id = request.session_id
         # ── Layer 1: Full Response Cache (5 min TTL) ──────────────────────────
         cache_keys = self._get_cache_keys(request.query)
         return result
     async def execute_stream(self, request: ChatRequest, is_guest: bool = False, user_id: int = None) -> AsyncGenerator[str, None]:
+        # Generate a unique session ID if none provided — never use a shared fallback
+        if not request.session_id:
+            import uuid
+            request.session_id = str(uuid.uuid4())
+            print(f"DEBUG: Generated new session_id: {request.session_id}")
+        session_id = request.session_id
         history_text = "" if is_guest else self._get_history_text(session_id)
         context_text, final_sources = await self._build_context(
             request.query, request.top_k, request.source_filter, request.language_filter, getattr(request, 'days_back', None)
 Answer:"""
         full_answer = ""
+        # Buffer to detect and suppress FOLLOW_UP: block during streaming
+        _follow_up_buffer = ""
+        _follow_up_started = False
         async for chunk in self.llm.generate_stream(prompt_stream):
             if chunk.startswith("data: "):
                 try:
+                    import json as _json
+                    data = _json.loads(chunk[6:])
                     if "token" in data:
+                        token = data["token"]
+                        full_answer += token
+                        # Once FOLLOW_UP: appears, stop yielding tokens to frontend
+                        if "FOLLOW_UP:" in full_answer and not _follow_up_started:
+                            _follow_up_started = True
+                            # Yield everything before FOLLOW_UP: as a corrected chunk
+                            clean_so_far = full_answer.split("FOLLOW_UP:")[0].strip()
+                            # Don't yield individual tokens after this point
+                            continue
+                        if not _follow_up_started:
+                            yield chunk
+                    else:
+                        if not _follow_up_started:
+                            yield chunk
+                except Exception:
+                    if not _follow_up_started:
+                        yield chunk
+            else:
+                if not _follow_up_started:
+                    yield chunk
         # ── Parse follow-up questions out of the streamed answer ──────────────
         follow_up_questions: List[str] = []