Spaces:

nomid2
/

Replicate

Sleeping

App Files Files Community

nomid2 commited on Jun 8

Commit

62be311

verified ·

1 Parent(s): 93eb401

Update app.py

Browse files

Files changed (1) hide show

app.py +107 -44

app.py CHANGED Viewed

@@ -41,6 +41,40 @@ if not REPLICATE_API_TOKEN:
 REPLICATE_BASE_URL = "https://api.replicate.com/v1"
 DEFAULT_MODEL = "anthropic/claude-3.5-sonnet"
 # 全局异常处理器
 @app.exception_handler(Exception)
 async def global_exception_handler(request: Request, exc: Exception):
@@ -61,17 +95,17 @@ def transform_openai_to_replicate(openai_request: Dict[str, Any], model_override
     try:
         messages = openai_request.get("messages", [])
-        # 提取system prompt
-        system_prompt = "You are a helpful assistant"
         user_messages = []
         for message in messages:
             if message.get("role") == "system":
-                system_prompt = message.get("content", "You are a helpful assistant")
             elif message.get("role") in ["user", "assistant"]:
                 user_messages.append(message)
-        # 构建prompt
         prompt_parts = []
         for msg in user_messages:
             role = msg.get("role", "")
@@ -95,24 +129,73 @@ def transform_openai_to_replicate(openai_request: Dict[str, Any], model_override
             "claude-3-sonnet": "anthropic/claude-3-sonnet",
             "claude-3.5-haiku": "anthropic/claude-3.5-haiku",
             "claude-3-haiku": "anthropic/claude-3-haiku",
         }
         if model in model_mapping:
             model = model_mapping[model]
-        elif not model.startswith("anthropic/"):
             model = "anthropic/claude-3.5-sonnet"
         replicate_request = {
             "stream": openai_request.get("stream", False),
-            "input": {
-                "prompt": prompt,
-                "system_prompt": system_prompt,
-                "max_tokens": openai_request.get("max_tokens", 4000),
-                "temperature": openai_request.get("temperature", 0.7)
-            }
         }
         logger.info(f"Transformed request for model: {model}")
         return replicate_request, model
     except Exception as e:
@@ -129,6 +212,7 @@ async def create_replicate_prediction(session: aiohttp.ClientSession, model: str
         }
         logger.info(f"Creating prediction for model: {model}")
         async with session.post(url, headers=headers, json=data, timeout=30) as response:
             response_text = await response.text()
@@ -210,7 +294,8 @@ async def root():
         "message": "Replicate API Proxy for LobeChat",
         "status": "running",
         "replicate_token_configured": bool(REPLICATE_API_TOKEN),
-        "version": "1.0.0"
     }
 @app.get("/health")
@@ -219,44 +304,22 @@ async def health():
     return {
         "status": "healthy",
         "replicate_token": "configured" if REPLICATE_API_TOKEN else "missing",
-        "timestamp": asyncio.get_event_loop().time()
     }
 @app.get("/v1/models")
 async def list_models():
     """列出可用模型（兼容OpenAI API）"""
-    models = [
-        {
-            "id": "claude-4-sonnet",
             "object": "model",
             "created": 1677610602,
             "owned_by": "anthropic"
-        },
-        {
-            "id": "claude-3.5-sonnet",
-            "object": "model",
-            "created": 1677610602,
-            "owned_by": "anthropic"
-        },
-        {
-            "id": "claude-3.5-haiku",
-            "object": "model",
-            "created": 1677610602,
-            "owned_by": "anthropic"
-        },
-        {
-            "id": "claude-3-sonnet",
-            "object": "model",
-            "created": 1677610602,
-            "owned_by": "anthropic"
-        },
-        {
-            "id": "claude-3-haiku",
-            "object": "model",
-            "created": 1677610602,
-            "owned_by": "anthropic"
-        }
-    ]
     return {"object": "list", "data": models}
 @app.post("/v1/chat/completions")
@@ -269,6 +332,8 @@ async def chat_completions(request: Request):
     try:
         body = await request.json()
         logger.info(f"Received chat completion request")
         # 转换请求格式
         replicate_data, model = transform_openai_to_replicate(body)
@@ -332,8 +397,6 @@ async def chat_completions(request: Request):
                                     event_type = event.get('event')
                                     data = event.get('data', '')
-                                    logger.info(f"Parsed SSE event: {event_type}, data: {data[:50]}...")
                                     if event_type == 'output' and data.strip():
                                         # 输出事件，包含实际内容
                                         yield create_openai_chunk(data, model, prediction_id)

 REPLICATE_BASE_URL = "https://api.replicate.com/v1"
 DEFAULT_MODEL = "anthropic/claude-3.5-sonnet"
+# 模型配置信息
+MODEL_CONFIGS = {
+    "anthropic/claude-4-sonnet": {
+        "min_max_tokens": 1024,  # Replicate 要求的最小值
+        "default_max_tokens": 8192,  # 如果客户端未指定时的默认值
+        "has_max_tokens_limit": True
+    },
+    "anthropic/claude-3.5-sonnet": {
+        "min_max_tokens": 1,
+        "default_max_tokens": 8192,
+        "has_max_tokens_limit": False
+    },
+    "anthropic/claude-3-sonnet": {
+        "min_max_tokens": 1,
+        "default_max_tokens": 4096,
+        "has_max_tokens_limit": False
+    },
+    "anthropic/claude-3.5-haiku": {
+        "min_max_tokens": 1,
+        "default_max_tokens": 4096,
+        "has_max_tokens_limit": False
+    },
+    "anthropic/claude-3-haiku": {
+        "min_max_tokens": 1,
+        "default_max_tokens": 4096,
+        "has_max_tokens_limit": False
+    },
+    "google/gemini-2.5-pro": {  # 如果将来支持 Gemini
+        "min_max_tokens": 1,
+        "default_max_tokens": 8192,
+        "has_max_tokens_limit": False
+    }
+}
 # 全局异常处理器
 @app.exception_handler(Exception)
 async def global_exception_handler(request: Request, exc: Exception):
     try:
         messages = openai_request.get("messages", [])
+        # 完全使用客户端提供的 system prompt，不设置默认值
+        system_prompt = None
         user_messages = []
         for message in messages:
             if message.get("role") == "system":
+                system_prompt = message.get("content", "")
             elif message.get("role") in ["user", "assistant"]:
                 user_messages.append(message)
+        # 构建prompt - 包含完整的对话历史，不限制数量
         prompt_parts = []
         for msg in user_messages:
             role = msg.get("role", "")
             "claude-3-sonnet": "anthropic/claude-3-sonnet",
             "claude-3.5-haiku": "anthropic/claude-3.5-haiku",
             "claude-3-haiku": "anthropic/claude-3-haiku",
+            "gemini-2.5-pro": "google/gemini-2.5-pro",  # 预留
         }
         if model in model_mapping:
             model = model_mapping[model]
+        elif not model.startswith(("anthropic/", "google/")):
             model = "anthropic/claude-3.5-sonnet"
+        # 获取模型配置
+        model_config = MODEL_CONFIGS.get(model, MODEL_CONFIGS["anthropic/claude-3.5-sonnet"])
+        # 处理 max_tokens - 完全根据客户端和模型配置
+        client_max_tokens = openai_request.get("max_tokens")
+        if client_max_tokens is not None:
+            # 客户端指定了 max_tokens，尊重客户端设置
+            max_tokens = client_max_tokens
+            # 只在低于模型最小要求时调整
+            if max_tokens < model_config["min_max_tokens"]:
+                logger.info(f"Adjusting max_tokens from {max_tokens} to {model_config['min_max_tokens']} (model minimum)")
+                max_tokens = model_config["min_max_tokens"]
+        else:
+            # 客户端未指定 max_tokens
+            if model_config["has_max_tokens_limit"]:
+                # 模型有强制要求，使用默认值
+                max_tokens = model_config["default_max_tokens"]
+                logger.info(f"Using default max_tokens {max_tokens} for model {model}")
+            else:
+                # 模型没有限制，不设置 max_tokens
+                max_tokens = None
+                logger.info(f"No max_tokens limit for model {model}, allowing unlimited")
+        # 构建 Replicate 请求的 input 参数
+        replicate_input = {
+            "prompt": prompt,
+        }
+        # 只在有 system_prompt 时才添加
+        if system_prompt:
+            replicate_input["system_prompt"] = system_prompt
+        # 只在有 max_tokens 时才添加
+        if max_tokens is not None:
+            replicate_input["max_tokens"] = max_tokens
+        # 处理其他参数 - 完全使用客户端设置
+        if "temperature" in openai_request:
+            replicate_input["temperature"] = openai_request["temperature"]
+        if "top_p" in openai_request:
+            replicate_input["top_p"] = openai_request["top_p"]
+        if "frequency_penalty" in openai_request:
+            replicate_input["frequency_penalty"] = openai_request["frequency_penalty"]
+        if "presence_penalty" in openai_request:
+            replicate_input["presence_penalty"] = openai_request["presence_penalty"]
         replicate_request = {
             "stream": openai_request.get("stream", False),
+            "input": replicate_input
         }
         logger.info(f"Transformed request for model: {model}")
+        logger.info(f"Message count: {len(messages)} (system: {1 if system_prompt else 0}, user/assistant: {len(user_messages)})")
+        logger.info(f"Parameters: max_tokens={max_tokens}, temperature={replicate_input.get('temperature', 'not set')}, top_p={replicate_input.get('top_p', 'not set')}")
         return replicate_request, model
     except Exception as e:
         }
         logger.info(f"Creating prediction for model: {model}")
+        logger.info(f"Request data: {json.dumps(data, indent=2)}")
         async with session.post(url, headers=headers, json=data, timeout=30) as response:
             response_text = await response.text()
         "message": "Replicate API Proxy for LobeChat",
         "status": "running",
         "replicate_token_configured": bool(REPLICATE_API_TOKEN),
+        "version": "1.0.0",
+        "supported_models": list(MODEL_CONFIGS.keys())
     }
 @app.get("/health")
     return {
         "status": "healthy",
         "replicate_token": "configured" if REPLICATE_API_TOKEN else "missing",
+        "timestamp": asyncio.get_event_loop().time(),
+        "model_configs": MODEL_CONFIGS
     }
 @app.get("/v1/models")
 async def list_models():
     """列出可用模型（兼容OpenAI API）"""
+    models = []
+    for model_id in ["claude-4-sonnet", "claude-3.5-sonnet", "claude-3.5-haiku", "claude-3-sonnet", "claude-3-haiku"]:
+        models.append({
+            "id": model_id,
             "object": "model",
             "created": 1677610602,
             "owned_by": "anthropic"
+        })
     return {"object": "list", "data": models}
 @app.post("/v1/chat/completions")
     try:
         body = await request.json()
         logger.info(f"Received chat completion request")
+        logger.info(f"Client parameters: max_tokens={body.get('max_tokens', 'not set')}, temperature={body.get('temperature', 'not set')}, top_p={body.get('top_p', 'not set')}")
+        logger.info(f"Message count: {len(body.get('messages', []))}")
         # 转换请求格式
         replicate_data, model = transform_openai_to_replicate(body)
                                     event_type = event.get('event')
                                     data = event.get('data', '')
                                     if event_type == 'output' and data.strip():
                                         # 输出事件，包含实际内容
                                         yield create_openai_chunk(data, model, prediction_id)