File size: 12,546 Bytes

dccc9c1

#!/usr/bin/env python3
"""
Helion-2.5-Rnd Inference Server
High-performance inference server with vLLM backend
"""

import argparse
import asyncio
import json
import logging
import os
import time
from typing import AsyncGenerator, Dict, List, Optional, Union

import torch
import uvicorn
from fastapi import FastAPI, HTTPException, Request
from fastapi.middleware.cors import CORSMiddleware
from fastapi.responses import JSONResponse, StreamingResponse
from pydantic import BaseModel, Field
from vllm import AsyncEngineArgs, AsyncLLMEngine, SamplingParams
from vllm.utils import random_uuid

# Configure logging
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - %(name)s - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)


class ChatMessage(BaseModel):
    """Chat message format"""
    role: str = Field(..., description="Role: system, user, or assistant")
    content: str = Field(..., description="Message content")


class ChatCompletionRequest(BaseModel):
    """Chat completion request format"""
    model: str = Field(default="DeepXR/Helion-2.5-Rnd")
    messages: List[ChatMessage]
    temperature: float = Field(default=0.7, ge=0.0, le=2.0)
    top_p: float = Field(default=0.9, ge=0.0, le=1.0)
    top_k: int = Field(default=50, ge=0)
    max_tokens: int = Field(default=4096, ge=1)
    stream: bool = Field(default=False)
    stop: Optional[List[str]] = None
    presence_penalty: float = Field(default=0.0, ge=-2.0, le=2.0)
    frequency_penalty: float = Field(default=0.0, ge=-2.0, le=2.0)
    repetition_penalty: float = Field(default=1.1, ge=1.0, le=2.0)
    n: int = Field(default=1, ge=1, le=10)
    logprobs: Optional[int] = None
    echo: bool = Field(default=False)


class CompletionRequest(BaseModel):
    """Text completion request format"""
    model: str = Field(default="DeepXR/Helion-2.5-Rnd")
    prompt: Union[str, List[str]]
    temperature: float = Field(default=0.7, ge=0.0, le=2.0)
    top_p: float = Field(default=0.9, ge=0.0, le=1.0)
    max_tokens: int = Field(default=4096, ge=1)
    stream: bool = Field(default=False)
    stop: Optional[List[str]] = None
    n: int = Field(default=1, ge=1, le=10)


class HelionInferenceServer:
    """Main inference server class"""
    
    def __init__(
        self,
        model_path: str,
        tensor_parallel_size: int = 2,
        max_model_len: int = 131072,
        gpu_memory_utilization: float = 0.95,
        dtype: str = "bfloat16"
    ):
        self.model_path = model_path
        self.model_name = "DeepXR/Helion-2.5-Rnd"
        
        # Initialize vLLM engine
        engine_args = AsyncEngineArgs(
            model=model_path,
            tensor_parallel_size=tensor_parallel_size,
            max_model_len=max_model_len,
            gpu_memory_utilization=gpu_memory_utilization,
            dtype=dtype,
            trust_remote_code=True,
            enforce_eager=False,
            disable_log_stats=False,
        )
        
        logger.info(f"Initializing Helion-2.5-Rnd from {model_path}")
        self.engine = AsyncLLMEngine.from_engine_args(engine_args)
        logger.info("Engine initialized successfully")
        
        # Statistics
        self.request_count = 0
        self.start_time = time.time()
    
    def format_chat_prompt(self, messages: List[ChatMessage]) -> str:
        """Format chat messages into prompt"""
        formatted = ""
        for msg in messages:
            formatted += f"<|im_start|>{msg.role}\n{msg.content}<|im_end|>\n"
        formatted += "<|im_start|>assistant\n"
        return formatted
    
    async def generate(
        self,
        prompt: str,
        sampling_params: SamplingParams,
        request_id: str
    ) -> AsyncGenerator[str, None]:
        """Generate text streaming"""
        results_generator = self.engine.generate(
            prompt,
            sampling_params,
            request_id
        )
        
        async for request_output in results_generator:
            text = request_output.outputs[0].text
            yield text
    
    async def chat_completion(
        self,
        request: ChatCompletionRequest
    ) -> Union[Dict, AsyncGenerator]:
        """Handle chat completion request"""
        request_id = f"helion-{random_uuid()}"
        self.request_count += 1
        
        # Format prompt
        prompt = self.format_chat_prompt(request.messages)
        
        # Create sampling parameters
        sampling_params = SamplingParams(
            temperature=request.temperature,
            top_p=request.top_p,
            top_k=request.top_k,
            max_tokens=request.max_tokens,
            stop=request.stop or ["<|im_end|>", "<|endoftext|>"],
            presence_penalty=request.presence_penalty,
            frequency_penalty=request.frequency_penalty,
            repetition_penalty=request.repetition_penalty,
            n=request.n,
            logprobs=request.logprobs,
        )
        
        if request.stream:
            return self._stream_chat_completion(
                prompt,
                sampling_params,
                request_id,
                request.model
            )
        else:
            return await self._complete_chat_completion(
                prompt,
                sampling_params,
                request_id,
                request.model
            )
    
    async def _complete_chat_completion(
        self,
        prompt: str,
        sampling_params: SamplingParams,
        request_id: str,
        model: str
    ) -> Dict:
        """Non-streaming chat completion"""
        final_output = None
        async for request_output in self.engine.generate(
            prompt, sampling_params, request_id
        ):
            final_output = request_output
        
        if final_output is None:
            raise HTTPException(status_code=500, detail="Generation failed")
        
        choice = {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": final_output.outputs[0].text
            },
            "finish_reason": final_output.outputs[0].finish_reason
        }
        
        return {
            "id": request_id,
            "object": "chat.completion",
            "created": int(time.time()),
            "model": model,
            "choices": [choice],
            "usage": {
                "prompt_tokens": len(final_output.prompt_token_ids),
                "completion_tokens": len(final_output.outputs[0].token_ids),
                "total_tokens": len(final_output.prompt_token_ids) + len(final_output.outputs[0].token_ids)
            }
        }
    
    async def _stream_chat_completion(
        self,
        prompt: str,
        sampling_params: SamplingParams,
        request_id: str,
        model: str
    ) -> AsyncGenerator:
        """Streaming chat completion"""
        async def generate():
            previous_text = ""
            async for request_output in self.engine.generate(
                prompt, sampling_params, request_id
            ):
                text = request_output.outputs[0].text
                delta = text[len(previous_text):]
                previous_text = text
                
                chunk = {
                    "id": request_id,
                    "object": "chat.completion.chunk",
                    "created": int(time.time()),
                    "model": model,
                    "choices": [{
                        "index": 0,
                        "delta": {"content": delta},
                        "finish_reason": None
                    }]
                }
                yield f"data: {json.dumps(chunk)}\n\n"
            
            # Final chunk
            final_chunk = {
                "id": request_id,
                "object": "chat.completion.chunk",
                "created": int(time.time()),
                "model": model,
                "choices": [{
                    "index": 0,
                    "delta": {},
                    "finish_reason": "stop"
                }]
            }
            yield f"data: {json.dumps(final_chunk)}\n\n"
            yield "data: [DONE]\n\n"
        
        return generate()


# Initialize FastAPI app
app = FastAPI(
    title="Helion-2.5-Rnd Inference API",
    description="Advanced language model inference server",
    version="2.5.0-rnd"
)

# Add CORS middleware
app.add_middleware(
    CORSMiddleware,
    allow_origins=["*"],
    allow_credentials=True,
    allow_methods=["*"],
    allow_headers=["*"],
)

# Global server instance
server: Optional[HelionInferenceServer] = None


@app.on_event("startup")
async def startup_event():
    """Initialize the model on startup"""
    global server
    
    model_path = os.getenv("MODEL_PATH", "/models/helion")
    tensor_parallel = int(os.getenv("TENSOR_PARALLEL_SIZE", "2"))
    max_len = int(os.getenv("MAX_MODEL_LEN", "131072"))
    gpu_util = float(os.getenv("GPU_MEMORY_UTILIZATION", "0.95"))
    
    server = HelionInferenceServer(
        model_path=model_path,
        tensor_parallel_size=tensor_parallel,
        max_model_len=max_len,
        gpu_memory_utilization=gpu_util
    )
    logger.info("Helion-2.5-Rnd server started successfully")


@app.get("/")
async def root():
    """Root endpoint"""
    return {
        "model": "DeepXR/Helion-2.5-Rnd",
        "version": "2.5.0-rnd",
        "status": "ready",
        "type": "research"
    }


@app.get("/health")
async def health():
    """Health check endpoint"""
    if server is None:
        raise HTTPException(status_code=503, detail="Server not initialized")
    
    return {
        "status": "healthy",
        "model": server.model_name,
        "requests_served": server.request_count,
        "uptime_seconds": int(time.time() - server.start_time)
    }


@app.get("/v1/models")
async def list_models():
    """List available models"""
    return {
        "object": "list",
        "data": [{
            "id": "DeepXR/Helion-2.5-Rnd",
            "object": "model",
            "created": int(time.time()),
            "owned_by": "DeepXR"
        }]
    }


@app.post("/v1/chat/completions")
async def chat_completions(request: ChatCompletionRequest):
    """Chat completion endpoint"""
    if server is None:
        raise HTTPException(status_code=503, detail="Server not initialized")
    
    try:
        result = await server.chat_completion(request)
        
        if request.stream:
            return StreamingResponse(
                result,
                media_type="text/event-stream"
            )
        else:
            return JSONResponse(content=result)
    
    except Exception as e:
        logger.error(f"Error in chat completion: {str(e)}")
        raise HTTPException(status_code=500, detail=str(e))


@app.post("/v1/completions")
async def completions(request: CompletionRequest):
    """Text completion endpoint"""
    if server is None:
        raise HTTPException(status_code=503, detail="Server not initialized")
    
    # Convert to chat format
    messages = [ChatMessage(role="user", content=request.prompt)]
    chat_request = ChatCompletionRequest(
        model=request.model,
        messages=messages,
        temperature=request.temperature,
        top_p=request.top_p,
        max_tokens=request.max_tokens,
        stream=request.stream,
        stop=request.stop,
        n=request.n
    )
    
    return await chat_completions(chat_request)


def main():
    """Main entry point"""
    parser = argparse.ArgumentParser(description="Helion-2.5-Rnd Inference Server")
    parser.add_argument("--model", type=str, default="/models/helion")
    parser.add_argument("--host", type=str, default="0.0.0.0")
    parser.add_argument("--port", type=int, default=8000)
    parser.add_argument("--tensor-parallel-size", type=int, default=2)
    parser.add_argument("--max-model-len", type=int, default=131072)
    parser.add_argument("--gpu-memory-utilization", type=float, default=0.95)
    
    args = parser.parse_args()
    
    # Set environment variables
    os.environ["MODEL_PATH"] = args.model
    os.environ["TENSOR_PARALLEL_SIZE"] = str(args.tensor_parallel_size)
    os.environ["MAX_MODEL_LEN"] = str(args.max_model_len)
    os.environ["GPU_MEMORY_UTILIZATION"] = str(args.gpu_memory_utilization)
    
    # Run server
    uvicorn.run(
        app,
        host=args.host,
        port=args.port,
        log_level="info",
        access_log=True
    )


if __name__ == "__main__":
    main()