Spaces:

gbrabbit
/

lily_fast_api

Sleeping

App Files Files Community

gbrabbit commited on Aug 25, 2025

Commit

eab049e

1 Parent(s): 987b330

Auto commit at 25-2025-08 14:37:20

Browse files

Files changed (1) hide show

lily_llm_api/services/generation_service.py +15 -10

lily_llm_api/services/generation_service.py CHANGED Viewed

@@ -283,8 +283,8 @@ def generate_sync(prompt: str, image_data_list: Optional[List[bytes]], max_lengt
                     per_image_tokens = [3000] * len(all_pixel_values)
                 # 2) 텍스트 길이 측정 (이미지 토큰 제외한 프롬프트)
-                #    멀티모달에서도 RAG 스니펫(축약)을 포함하여 텍스트 길이를 산정
-                base_text_prompt = f"Human: {rag_snippet_short}{prompt}\nAssistant:"
                 text_inputs = tokenizer(
                     base_text_prompt,
                     return_tensors="pt",
@@ -411,10 +411,11 @@ def generate_sync(prompt: str, image_data_list: Optional[List[bytes]], max_lengt
             # 🔄 공식 Kanana 형식: 이미지 개수에 맞게 <image> 토큰 생성
             num_images = len(all_pixel_values)
             image_tokens = "<image>" * num_images  # 이미지 개수만큼 <image> 토큰 생성
-            # 답변 유도를 위해 Assistant 프리픽스 추가
-            # 멀티모달에서도 RAG 텍스트 스니펫(축약)을 앞에 포함하여 텍스트 근거를 반영
-            mm_text = f"{rag_snippet_short}{prompt}" if rag_snippet_short else prompt
-            formatted_prompt = f"Human: {image_tokens}{mm_text}\nAssistant:"
             print(f"🔍 [DEBUG] 멀티모달 프롬프트 구성 (공식 형식): {formatted_prompt}")
             print(f"🔍 [DEBUG] 이미지 토큰 생성: {num_images}개 이미지 -> {image_tokens}")
             image_processed = True
@@ -603,13 +604,17 @@ def generate_sync(prompt: str, image_data_list: Optional[List[bytes]], max_lengt
                     except Exception:
                         neg_exists = False
                     if not neg_exists and len(all_pixel_values) > 0:
-                        print("⚠️ [DEBUG] -1 토큰 없음 → RAG 스니펫 길이 줄여 재시도")
                         for limit in [128, 64, 0]:
                             try:
                                 base_snippet = (context_prompt or "")[:limit]
-                                if base_snippet and not base_snippet.endswith("\n"):
-                                    base_snippet += "\n"
-                                base_prompt_retry = f"Human: {'<image>' * len(all_pixel_values)}{base_snippet}{prompt}\nAssistant:"
                                 print(f"🔁 [DEBUG] 재시도 limit={limit}: {base_prompt_retry}")
                                 inputs_retry = tokenizer.encode_prompt(
                                     prompt=base_prompt_retry,

                     per_image_tokens = [3000] * len(all_pixel_values)
                 # 2) 텍스트 길이 측정 (이미지 토큰 제외한 프롬프트)
+                #    멀티모달에서도 RAG 스니펫은 컨텍스트 블록으로 분리하여 텍스트 길이를 산정
+                base_text_prompt = f"{('[CONTEXT]\n'+rag_snippet_short+'[/CONTEXT]\n') if rag_snippet_short else ''}Human: {prompt}\nAssistant:"
                 text_inputs = tokenizer(
                     base_text_prompt,
                     return_tensors="pt",
             # 🔄 공식 Kanana 형식: 이미지 개수에 맞게 <image> 토큰 생성
             num_images = len(all_pixel_values)
             image_tokens = "<image>" * num_images  # 이미지 개수만큼 <image> 토큰 생성
+            # RAG 스니펫은 별도 컨텍스트 블록으로 분리하여 에코 방지
+            context_block = f"[CONTEXT]\n{rag_snippet_short}[/CONTEXT]\n" if rag_snippet_short else ""
+            # 사용자 발화는 순수 질문만 유지
+            mm_text = prompt
+            formatted_prompt = f"{context_block}Human: {image_tokens}{mm_text}\nAssistant:"
             print(f"🔍 [DEBUG] 멀티모달 프롬프트 구성 (공식 형식): {formatted_prompt}")
             print(f"🔍 [DEBUG] 이미지 토큰 생성: {num_images}개 이미지 -> {image_tokens}")
             image_processed = True
                     except Exception:
                         neg_exists = False
                     if not neg_exists and len(all_pixel_values) > 0:
+                        print("⚠️ [DEBUG] -1 토큰 없음 → 컨텍스트 블록 길이 줄여 재시도")
                         for limit in [128, 64, 0]:
                             try:
                                 base_snippet = (context_prompt or "")[:limit]
+                                if base_snippet:
+                                    if not base_snippet.endswith("\n"):
+                                        base_snippet += "\n"
+                                    context_block = f"[CONTEXT]\n{base_snippet}[/CONTEXT]\n"
+                                else:
+                                    context_block = ""
+                                base_prompt_retry = f"{context_block}Human: {'<image>' * len(all_pixel_values)}{prompt}\nAssistant:"
                                 print(f"🔁 [DEBUG] 재시도 limit={limit}: {base_prompt_retry}")
                                 inputs_retry = tokenizer.encode_prompt(
                                     prompt=base_prompt_retry,