Spaces:

Arafath-ng
/

research_v1

Running

File size: 1,814 Bytes

5fa76ab
dad25ac
5fa76ab
 
 
dad25ac
5fa76ab
 
 
68b47d7
5fa76ab
 
 
 
 
e6fa3d8
 
473963a
5fa76ab
 
 
 
 
 
 
 
 
 
dad25ac
 
5fa76ab
 
 
 
 
 
 
 
 
 
 
 
dad25ac
 
 
 
 
 
 
 
 
 
 
 
5fa76ab
 
 
dad25ac

from fastapi import FastAPI
from fastapi.responses import StreamingResponse
from pydantic import BaseModel
from huggingface_hub import InferenceClient
import uvicorn
import asyncio

app = FastAPI()

client = InferenceClient("mistralai/Mistral-7B-Instruct-v0.2")

class Item(BaseModel):
    prompt: str
    history: list
    system_prompt: str
    temperature: float = 0.0
    max_new_tokens: int = 1048
    top_p: float = 0.15
    repetition_penalty: float = 1.0

def format_prompt(message, history):
    prompt = "<s>"
    for user_prompt, bot_response in history:
        prompt += f"[INST] {user_prompt} [/INST]"
        prompt += f" {bot_response}</s> "
    prompt += f"[INST] {message} [/INST]"
    return prompt

async def generate(item: Item):
    temperature = max(float(item.temperature), 1e-2)  # Ensure temperature is not too low
    top_p = float(item.top_p)

    generate_kwargs = dict(
        temperature=temperature,
        max_new_tokens=item.max_new_tokens,
        top_p=top_p,
        repetition_penalty=item.repetition_penalty,
        do_sample=True,
        seed=42,
    )

    formatted_prompt = format_prompt(f"{item.system_prompt}, {item.prompt}", item.history)
    
    # Stream the response from the model
    async def event_stream():
        stream = client.text_generation(formatted_prompt, **generate_kwargs, stream=True, details=True, return_full_text=False)
        
        async for response in stream:
            yield response.token.text  # Yield each token as it is received
            
            # Optional: Add a small delay to simulate streaming effect (if needed)
            await asyncio.sleep(0.1)

    return event_stream()

@app.post("/generate/")
async def generate_text(item: Item):
    return StreamingResponse(generate(item), media_type="text/event-stream")