Spaces:

gbrabbit
/

lily_fast_api

Sleeping

App Files Files Community

gbrabbit commited on Aug 8, 2025

Commit

eddb502

1 Parent(s): 159a5fc

Auto commit at 09-2025-08 7:58:00

Browse files

Files changed (2) hide show

lily_llm_api/app_v2.py +11 -12
lily_llm_api/models/kanana_1_5_v_3b_instruct.py +4 -6

lily_llm_api/app_v2.py CHANGED Viewed

@@ -65,7 +65,6 @@ app.add_middleware(
         "http://127.0.0.1:8001",
         "http://localhost:3000",
         "http://127.0.0.1:3000",
-        "https://hearthchat-production.up.railway.app",
         "*"  # 개발 중에는 모든 origin 허용
     ],
     allow_credentials=True,
@@ -486,7 +485,7 @@ async def generate_multimodal(
             return_tensors="pt",
             padding=True,
             truncation=True,
-            max_length=max_length,
         )
         if 'token_type_ids' in inputs:
@@ -558,10 +557,10 @@ async def generate_multimodal(
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
-                        # no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
-                        # use_cache=True
                     )
                     logger.info("✅ 실제 멀티모달 생성 성공!")
@@ -579,9 +578,9 @@ async def generate_multimodal(
                     enhanced_inputs = tokenizer(
                         enhanced_formatted_prompt,
                         return_tensors="pt",
-                        # padding=True,
-                        # truncation=True,
-                        max_length=max_length
                     )
                     if 'token_type_ids' in enhanced_inputs:
@@ -598,10 +597,10 @@ async def generate_multimodal(
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
-                        # no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
-                        # use_cache=True
                     )
             else:
                 # 텍스트 전용 생성
@@ -614,11 +613,11 @@ async def generate_multimodal(
                     temperature=temperature,
                     top_k=40,
                     top_p=top_p,
-                    # repetition_penalty=1.1,
-                    # no_repeat_ngram_size=2,
                     pad_token_id=tokenizer.eos_token_id,
                     eos_token_id=tokenizer.eos_token_id,
-                    # use_cache=True
                 )
         # 응답 추출

         "http://127.0.0.1:8001",
         "http://localhost:3000",
         "http://127.0.0.1:3000",
         "*"  # 개발 중에는 모든 origin 허용
     ],
     allow_credentials=True,
             return_tensors="pt",
             padding=True,
             truncation=True,
+            max_length=100,
         )
         if 'token_type_ids' in inputs:
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
+                        no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
+                        use_cache=True
                     )
                     logger.info("✅ 실제 멀티모달 생성 성공!")
                     enhanced_inputs = tokenizer(
                         enhanced_formatted_prompt,
                         return_tensors="pt",
+                        padding=True,
+                        truncation=True,
+                        max_length=256
                     )
                     if 'token_type_ids' in enhanced_inputs:
                         top_k=40,
                         top_p=top_p,
                         repetition_penalty=1.1,
+                        no_repeat_ngram_size=2,
                         pad_token_id=tokenizer.eos_token_id,
                         eos_token_id=tokenizer.eos_token_id,
+                        use_cache=True
                     )
             else:
                 # 텍스트 전용 생성
                     temperature=temperature,
                     top_k=40,
                     top_p=top_p,
+                    repetition_penalty=1.1,
+                    no_repeat_ngram_size=2,
                     pad_token_id=tokenizer.eos_token_id,
                     eos_token_id=tokenizer.eos_token_id,
+                    use_cache=True
                 )
         # 응답 추출

lily_llm_api/models/kanana_1_5_v_3b_instruct.py CHANGED Viewed

@@ -16,8 +16,6 @@ HF_TOKEN = os.getenv("HF_TOKEN")
 logger = logging.getLogger(__name__)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
-max_new_tokens = 64
 class Kanana15V3bInstructProfile:
     """Kanana-1.5-v-3b-instruct 모델 프로필"""
@@ -29,11 +27,11 @@ class Kanana15V3bInstructProfile:
         if self.is_local:
             self.model_name = "gbrabbit/lily-math-model"  # 로컬에서도 HF 모델명 사용
             self.local_path = "./lily_llm_core/models/kanana_1_5_v_3b_instruct"
-            self.display_name = "Kanana-1.5-v-3b-instruct (로컬)"
         else:
             self.model_name = "gbrabbit/lily-math-model"  # Hugging Face Hub 모델 경로
             self.local_path = None  # 서버에서는 로컬 경로 사용 안함
-            self.display_name = "Kanana-1.5-v-3b-instruct (서버)"
         self.description = "카카오 멀티모달 모델 (3.6B) - Math RAG 특화"
         self.language = "ko"
@@ -183,7 +181,7 @@ class Kanana15V3bInstructProfile:
                     token=HF_TOKEN,
                     torch_dtype=torch.float16,
                     trust_remote_code=True,
-                    # cache_dir="/app/cache/transformers",
                     # device_map="auto",
                     # low_cpu_mem_usage=True,
                 ).to(DEVICE)
@@ -199,7 +197,7 @@ class Kanana15V3bInstructProfile:
     def get_generation_config(self) -> Dict[str, Any]:
         # 모델 파라미터 최적화 설정, max_new_tokens : 생성되는 텍스트 길이 최대값 (이미지 설명을 위해 증가)
-        return {"max_new_tokens": max_new_tokens, "temperature": 0.7, "do_sample": True, "top_k": 40, "top_p": 0.9, "repetition_penalty": 1.1}
     def extract_response(self, full_text: str, formatted_prompt: str = None, **kwargs) -> str:
         """

 logger = logging.getLogger(__name__)
 DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 class Kanana15V3bInstructProfile:
     """Kanana-1.5-v-3b-instruct 모델 프로필"""
         if self.is_local:
             self.model_name = "gbrabbit/lily-math-model"  # 로컬에서도 HF 모델명 사용
             self.local_path = "./lily_llm_core/models/kanana_1_5_v_3b_instruct"
+            self.display_name = "kanana-1.5-v-3b-instruct"
         else:
             self.model_name = "gbrabbit/lily-math-model"  # Hugging Face Hub 모델 경로
             self.local_path = None  # 서버에서는 로컬 경로 사용 안함
+            self.display_name = "kanana-1.5-v-3b-instruct"
         self.description = "카카오 멀티모달 모델 (3.6B) - Math RAG 특화"
         self.language = "ko"
                     token=HF_TOKEN,
                     torch_dtype=torch.float16,
                     trust_remote_code=True,
+                    cache_dir="/app/cache/transformers",
                     # device_map="auto",
                     # low_cpu_mem_usage=True,
                 ).to(DEVICE)
     def get_generation_config(self) -> Dict[str, Any]:
         # 모델 파라미터 최적화 설정, max_new_tokens : 생성되는 텍스트 길이 최대값 (이미지 설명을 위해 증가)
+        return {"max_new_tokens": 256, "temperature": 0.7, "do_sample": True, "top_k": 40, "top_p": 0.9, "repetition_penalty": 1.1}
     def extract_response(self, full_text: str, formatted_prompt: str = None, **kwargs) -> str:
         """