Spaces:

yym68686
/

uni-api

Sleeping

App Files Files Community

Benedict King commited on Oct 5, 2024

Commit

2ec384d

1 Parent(s): d4d650a

feat: add TextToSpeechRequest model and implement audio speech endpoint with processing logic

Browse files

Files changed (5) hide show

main.py +17 -3
models.py +9 -1
request.py +28 -1
response.py +4 -1
utils.py +1 -0

main.py CHANGED Viewed

@@ -15,7 +15,7 @@ from starlette.responses import StreamingResponse as StarletteStreamingResponse
 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
 from fastapi.exceptions import RequestValidationError
-from models import RequestModel, ImageGenerationRequest, AudioTranscriptionRequest, ModerationRequest, UnifiedRequest
 from request import get_payload
 from response import fetch_response, fetch_response_stream
 from utils import error_handling_wrapper, post_all_models, load_config, safe_get, circular_list_encoder
@@ -360,6 +360,9 @@ class StatsMiddleware(BaseHTTPMiddleware):
                     moderated_content = request_model.get_last_text_message()
                 elif request_model.request_type == "image":
                     moderated_content = request_model.prompt
                 if moderated_content:
                     current_info["text"] = moderated_content
@@ -521,6 +524,10 @@ async def process_request(request: Union[RequestModel, ImageGenerationRequest, A
         engine = "moderation"
         request.stream = False
     if provider.get("engine"):
         engine = provider["engine"]
@@ -662,7 +669,7 @@ class ModelRequestHandler:
                 logger.info("available provider: %s", json.dumps(provider, indent=4, ensure_ascii=False, default=circular_list_encoder))
         return provider_list
-    async def request_model(self, request: Union[RequestModel, ImageGenerationRequest, AudioTranscriptionRequest, ModerationRequest], token: str, endpoint=None):
         config = app.state.config
         # api_keys_db = app.state.api_keys_db
         api_list = app.state.api_list
@@ -705,7 +712,7 @@ class ModelRequestHandler:
         return await self.try_all_providers(request, matching_providers, use_round_robin, auto_retry, endpoint, token)
     # 在 try_all_providers 函数中处理失败的情况
-    async def try_all_providers(self, request: Union[RequestModel, ImageGenerationRequest, AudioTranscriptionRequest, ModerationRequest], providers: List[Dict], use_round_robin: bool, auto_retry: bool, endpoint: str = None, token: str = None):
         status_code = 500
         error_message = None
         num_providers = len(providers)
@@ -866,6 +873,13 @@ async def images_generations(
 ):
     return await model_handler.request_model(request, token, endpoint="/v1/images/generations")
 @app.post("/v1/moderations", dependencies=[Depends(rate_limit_dependency)])
 async def moderations(
     request: ModerationRequest,

 from fastapi.security import HTTPBearer, HTTPAuthorizationCredentials
 from fastapi.exceptions import RequestValidationError
+from models import RequestModel, ImageGenerationRequest, AudioTranscriptionRequest, ModerationRequest, TextToSpeechRequest, UnifiedRequest
 from request import get_payload
 from response import fetch_response, fetch_response_stream
 from utils import error_handling_wrapper, post_all_models, load_config, safe_get, circular_list_encoder
                     moderated_content = request_model.get_last_text_message()
                 elif request_model.request_type == "image":
                     moderated_content = request_model.prompt
+                elif model.startswith("tts"):
+                    moderated_content = request_model.input
                 if moderated_content:
                     current_info["text"] = moderated_content
         engine = "moderation"
         request.stream = False
+    if endpoint == "/v1/audio/speech":
+        engine = "tts"
+        request.stream = False
     if provider.get("engine"):
         engine = provider["engine"]
                 logger.info("available provider: %s", json.dumps(provider, indent=4, ensure_ascii=False, default=circular_list_encoder))
         return provider_list
+    async def request_model(self, request: Union[RequestModel, ImageGenerationRequest, AudioTranscriptionRequest, ModerationRequest, TextToSpeechRequest], token: str, endpoint=None):
         config = app.state.config
         # api_keys_db = app.state.api_keys_db
         api_list = app.state.api_list
         return await self.try_all_providers(request, matching_providers, use_round_robin, auto_retry, endpoint, token)
     # 在 try_all_providers 函数中处理失败的情况
+    async def try_all_providers(self, request: Union[RequestModel, ImageGenerationRequest, AudioTranscriptionRequest, ModerationRequest, TextToSpeechRequest], providers: List[Dict], use_round_robin: bool, auto_retry: bool, endpoint: str = None, token: str = None):
         status_code = 500
         error_message = None
         num_providers = len(providers)
 ):
     return await model_handler.request_model(request, token, endpoint="/v1/images/generations")
+@app.post("/v1/audio/speech", dependencies=[Depends(rate_limit_dependency)])
+async def audio_speech(
+    request: TextToSpeechRequest,
+    token: str = Depends(verify_api_key)
+):
+    return await model_handler.request_model(request, token, endpoint="/v1/audio/speech")
 @app.post("/v1/moderations", dependencies=[Depends(rate_limit_dependency)])
 async def moderations(
     request: ModerationRequest,

models.py CHANGED Viewed

@@ -134,4 +134,12 @@ class UnifiedRequest(BaseModel):
                 values["data"].request_type = "moderation"
             else:
                 raise ValueError("无法确定请求类型")
-        return values

                 values["data"].request_type = "moderation"
             else:
                 raise ValueError("无法确定请求类型")
+        return values
+class TextToSpeechRequest(BaseRequest):
+    model: str
+    input: str
+    voice: str
+    response_format: Optional[str] = "mp3"
+    speed: Optional[float] = 1.0
+    stream: Optional[bool] = False  # Add this line

request.py CHANGED Viewed

@@ -1,6 +1,7 @@
 import os
 import re
 import json
 import httpx
 import base64
 import urllib.parse
@@ -1134,7 +1135,33 @@ async def get_payload(request: RequestModel, engine, provider):
         return await get_dalle_payload(request, engine, provider)
     elif engine == "whisper":
         return await get_whisper_payload(request, engine, provider)
     elif engine == "moderation":
         return await get_moderation_payload(request, engine, provider)
     else:
-        raise ValueError("Unknown payload")

 import os
 import re
 import json
+from venv import logger
 import httpx
 import base64
 import urllib.parse
         return await get_dalle_payload(request, engine, provider)
     elif engine == "whisper":
         return await get_whisper_payload(request, engine, provider)
+    elif engine == "tts":
+        return await get_tts_payload(request, engine, provider)
     elif engine == "moderation":
         return await get_moderation_payload(request, engine, provider)
     else:
+        raise ValueError("Unknown payload")
+async def get_tts_payload(request, engine, provider):
+    headers = {
+        "Content-Type": "application/json",
+    }
+    if provider.get("api"):
+        headers['Authorization'] = f"Bearer {provider['api'].next()}"
+    url = provider['base_url']
+    url = BaseAPI(url).audio_speech
+    payload = {
+        "model": provider['model'][request.model],
+        "input": request.input,
+        "voice": request.voice,
+    }
+    if request.response_format:
+        payload["response_format"] = request.response_format
+    if request.speed:
+        payload["speed"] = request.speed
+    if request.stream is not None:
+        payload["stream"] = request.stream
+    return url, headers, payload

response.py CHANGED Viewed

@@ -285,7 +285,10 @@ async def fetch_response(client, url, headers, payload):
     if error_message:
         yield error_message
         return
-    yield response.json()
 async def fetch_response_stream(client, url, headers, payload, engine, model):
     try:

     if error_message:
         yield error_message
         return
+    if url.endswith("/v1/audio/speech"):
+        yield response.read()
+    else:
+        yield response.json()
 async def fetch_response_stream(client, url, headers, payload, engine, model):
     try:

utils.py CHANGED Viewed

@@ -313,6 +313,7 @@ class BaseAPI:
         self.image_url: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/images/generations",) + ("",) * 3)
         self.audio_transcriptions: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/audio/transcriptions",) + ("",) * 3)
         self.moderations: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/moderations",) + ("",) * 3)
 def safe_get(data, *keys, default=None):
     for key in keys:

         self.image_url: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/images/generations",) + ("",) * 3)
         self.audio_transcriptions: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/audio/transcriptions",) + ("",) * 3)
         self.moderations: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/moderations",) + ("",) * 3)
+        self.audio_speech: str = urlunparse(parsed_url[:2] + (before_v1 + "/v1/audio/speech",) + ("",) * 3)
 def safe_get(data, *keys, default=None):
     for key in keys: