Spaces:

rkihacker
/

R2OAI

Paused

App Files Files Community

rkihacker commited on Oct 21

Commit

b236837

verified ·

1 Parent(s): 9f14d65

Update main.py

Browse files

Files changed (1) hide show

main.py +21 -6

main.py CHANGED Viewed

@@ -3,6 +3,7 @@ import httpx
 import json
 import time
 import asyncio
 from fastapi import FastAPI, HTTPException, Security, Depends, status
 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
 from fastapi.responses import StreamingResponse
@@ -13,7 +14,7 @@ from dotenv import load_dotenv
 # Load environment variables
 load_dotenv()
 REPLICATE_API_TOKEN = os.getenv("REPLICATE_API_TOKEN")
-SERVER_API_KEY = os.getenv("SERVER_API_KEY") # <-- New key for server auth
 if not REPLICATE_API_TOKEN:
     raise ValueError("REPLICATE_API_TOKEN environment variable not set.")
@@ -21,7 +22,7 @@ if not SERVER_API_KEY:
     raise ValueError("SERVER_API_KEY environment variable not set. This is required to protect your server.")
 # FastAPI Init
-app = FastAPI(title="Replicate to OpenAI Compatibility Layer", version="9.2.4 (Server Auth Added)")
 # --- Authentication ---
 security = HTTPBearer()
@@ -132,6 +133,11 @@ SUPPORTED_MODELS = {
 }
 # --- Core Logic ---
 def format_messages_for_replicate(messages: List[ChatMessage], functions: Optional[List[FunctionDefinition]] = None) -> Dict[str, Any]:
     prompt_parts = []
     system_prompt = None
@@ -281,16 +287,25 @@ async def create_chat_completion(request: ChatCompletionRequest):
     replicate_model_id = SUPPORTED_MODELS[request.model]
     formatted = format_messages_for_replicate(request.messages, request.functions)
     replicate_input = {
         "prompt": formatted["prompt"],
-        "max_new_tokens": request.max_tokens or 512,
         "temperature": request.temperature or 0.7,
         "top_p": request.top_p or 1.0
     }
     if formatted["system_prompt"]: replicate_input["system_prompt"] = formatted["system_prompt"]
     if formatted["image"]: replicate_input["image"] = formatted["image"]
-    request_id = f"chatcmpl-{int(time.time())}"
     if request.stream:
         return StreamingResponse(
@@ -352,7 +367,7 @@ async def root():
     """
     Root endpoint for health checks. Does not require authentication.
     """
-    return {"message": "Replicate to OpenAI Compatibility Layer API", "version": "9.2.4"}
 @app.middleware("http")
 async def add_performance_headers(request, call_next):
@@ -360,5 +375,5 @@ async def add_performance_headers(request, call_next):
     response = await call_next(request)
     process_time = time.time() - start_time
     response.headers["X-Process-Time"] = str(round(process_time, 3))
-    response.headers["X-API-Version"] = "9.2.4"
     return response

 import json
 import time
 import asyncio
+import secrets  # <-- Added for new ID generation
 from fastapi import FastAPI, HTTPException, Security, Depends, status
 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
 from fastapi.responses import StreamingResponse
 # Load environment variables
 load_dotenv()
 REPLICATE_API_TOKEN = os.getenv("REPLICATE_API_TOKEN")
+SERVER_API_KEY = os.getenv("SERVER_API_KEY") # <-- Key for server auth
 if not REPLICATE_API_TOKEN:
     raise ValueError("REPLICATE_API_TOKEN environment variable not set.")
     raise ValueError("SERVER_API_KEY environment variable not set. This is required to protect your server.")
 # FastAPI Init
+app = FastAPI(title="Replicate to OpenAI Compatibility Layer", version="9.2.6 (Dynamic Tokens & ID)")
 # --- Authentication ---
 security = HTTPBearer()
 }
 # --- Core Logic ---
+def generate_request_id() -> str:
+    """Generates a unique request ID in the user-specified format."""
+    return f"gen-{int(time.time())}-{secrets.token_hex(8)}"
 def format_messages_for_replicate(messages: List[ChatMessage], functions: Optional[List[FunctionDefinition]] = None) -> Dict[str, Any]:
     prompt_parts = []
     system_prompt = None
     replicate_model_id = SUPPORTED_MODELS[request.model]
     formatted = format_messages_for_replicate(request.messages, request.functions)
+    # ### MAJOR FIX HERE (Max Tokens) ###
+    # Build the payload dynamically.
     replicate_input = {
         "prompt": formatted["prompt"],
         "temperature": request.temperature or 0.7,
         "top_p": request.top_p or 1.0
     }
+    # Only add max_new_tokens if the user *actually* provided it.
+    # If not provided, Replicate will use the model's own default.
+    if request.max_tokens is not None:
+        replicate_input["max_new_tokens"] = request.max_tokens
     if formatted["system_prompt"]: replicate_input["system_prompt"] = formatted["system_prompt"]
     if formatted["image"]: replicate_input["image"] = formatted["image"]
+    # ### MAJOR FIX HERE (Request ID) ###
+    request_id = generate_request_id()
     if request.stream:
         return StreamingResponse(
     """
     Root endpoint for health checks. Does not require authentication.
     """
+    return {"message": "Replicate to OpenAI Compatibility Layer API", "version": "9.2.6"}
 @app.middleware("http")
 async def add_performance_headers(request, call_next):
     response = await call_next(request)
     process_time = time.time() - start_time
     response.headers["X-Process-Time"] = str(round(process_time, 3))
+    response.headers["X-API-Version"] = "9.2.6"
     return response