sts

Sleeping

App Files Files Community

Edmond7 commited on Oct 1, 2024

Commit

4b305c9

verified ·

1 Parent(s): 9104ce6

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -38

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ from fastapi import FastAPI, HTTPException, File, UploadFile, Depends, Security
 from fastapi.security.api_key import APIKeyHeader, APIKey
 from fastapi.responses import JSONResponse
 from pydantic import BaseModel
 import numpy as np
 import io
 import soundfile as sf
@@ -21,10 +22,9 @@ import time
 import tempfile
 # Import functions from other modules
-from asr import transcribe, ASR_LANGUAGES
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
-from asr import ASR_SAMPLING_RATE
 # Configure logging
 logging.basicConfig(level=logging.INFO)
@@ -60,15 +60,18 @@ s3_client = boto3.client(
 # Define request models
 class AudioRequest(BaseModel):
     audio: str  # Base64 encoded audio or video data
-    language: str
 class TTSRequest(BaseModel):
     text: str
-    language: str
-    speed: float
 class LanguageRequest(BaseModel):
-    language: str
 async def get_api_key(api_key_header: str = Security(api_key_header)):
     if api_key_header == API_KEY:
@@ -140,7 +143,13 @@ async def transcribe_audio(request: AudioRequest, api_key: APIKey = Depends(get_
         if sample_rate != ASR_SAMPLING_RATE:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=ASR_SAMPLING_RATE)
-        result = transcribe(audio_array, request.language)
         processing_time = time.time() - start_time
         return JSONResponse(content={"transcription": result, "processing_time_seconds": processing_time})
     except Exception as e:
@@ -156,7 +165,7 @@ async def transcribe_audio(request: AudioRequest, api_key: APIKey = Depends(get_
         )
 @app.post("/transcribe_file")
-async def transcribe_audio_file(file: UploadFile = File(...), language: str = "", api_key: APIKey = Depends(get_api_key)):
     start_time = time.time()
     try:
         contents = await file.read()
@@ -169,7 +178,13 @@ async def transcribe_audio_file(file: UploadFile = File(...), language: str = ""
         if sample_rate != ASR_SAMPLING_RATE:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=ASR_SAMPLING_RATE)
-        result = transcribe(audio_array, language)
         processing_time = time.time() - start_time
         return JSONResponse(content={"transcription": result, "processing_time_seconds": processing_time})
     except Exception as e:
@@ -189,19 +204,23 @@ async def synthesize_speech(request: TTSRequest, api_key: APIKey = Depends(get_a
     start_time = time.time()
     logger.info(f"Synthesize request received: text='{request.text}', language='{request.language}', speed={request.speed}")
     try:
-        # Extract the ISO code from the full language name
-        lang_code = request.language.split()[0].strip()
         # Input validation
         if not request.text:
             raise ValueError("Text cannot be empty")
         if lang_code not in TTS_LANGUAGES:
-            raise ValueError(f"Unsupported language: {request.language}")
         if not 0.5 <= request.speed <= 2.0:
             raise ValueError(f"Speed must be between 0.5 and 2.0, got {request.speed}")
         logger.info(f"Calling synthesize function with lang_code: {lang_code}")
-        result, filtered_text = synthesize(request.text, request.language, request.speed)
         logger.info(f"Synthesize function completed. Filtered text: '{filtered_text}'")
         if result is None:
@@ -279,8 +298,6 @@ async def synthesize_speech(request: TTSRequest, api_key: APIKey = Depends(get_a
             status_code=500,
             content={"message": "An unexpected error occurred during speech synthesis", "details": error_details, "processing_time_seconds": processing_time}
         )
-    finally:
-        logger.info("Synthesize request completed")
 @app.post("/identify")
 async def identify_language(request: AudioRequest, api_key: APIKey = Depends(get_api_key)):
@@ -328,22 +345,14 @@ async def identify_language_file(file: UploadFile = File(...), api_key: APIKey =
 async def get_asr_languages(request: LanguageRequest, api_key: APIKey = Depends(get_api_key)):
     start_time = time.time()
     try:
-        if request.language.lower() not in [lang.lower() for lang in ASR_LANGUAGES]:
-            raise ValueError(f"Unsupported language: {request.language}")
-        matching_languages = [lang for lang in ASR_LANGUAGES if lang.lower().startswith(request.language.lower())]
-        processing_time = time.time() - start_time
-        return JSONResponse
-        matching_languages = [lang for lang in ASR_LANGUAGES if lang.lower().startswith(request.language.lower())]
         processing_time = time.time() - start_time
         return JSONResponse(content={"languages": matching_languages, "processing_time_seconds": processing_time})
-    except ValueError as ve:
-        logger.error(f"ValueError in get_asr_languages: {str(ve)}", exc_info=True)
-        processing_time = time.time() - start_time
-        return JSONResponse(
-            status_code=400,
-            content={"message": "Invalid input", "details": str(ve), "processing_time_seconds": processing_time}
-        )
     except Exception as e:
         logger.error(f"Error in get_asr_languages: {str(e)}", exc_info=True)
         error_details = {
@@ -360,19 +369,14 @@ async def get_asr_languages(request: LanguageRequest, api_key: APIKey = Depends(
 async def get_tts_languages(request: LanguageRequest, api_key: APIKey = Depends(get_api_key)):
     start_time = time.time()
     try:
-        if request.language.lower() not in [lang.lower() for lang in TTS_LANGUAGES]:
-            raise ValueError(f"Unsupported language: {request.language}")
-        matching_languages = [lang for lang in TTS_LANGUAGES if lang.lower().startswith(request.language.lower())]
         processing_time = time.time() - start_time
         return JSONResponse(content={"languages": matching_languages, "processing_time_seconds": processing_time})
-    except ValueError as ve:
-        logger.error(f"ValueError in get_tts_languages: {str(ve)}", exc_info=True)
-        processing_time = time.time() - start_time
-        return JSONResponse(
-            status_code=400,
-            content={"message": "Invalid input", "details": str(ve), "processing_time_seconds": processing_time}
-        )
     except Exception as e:
         logger.error(f"Error in get_tts_languages: {str(e)}", exc_info=True)
         error_details = {

 from fastapi.security.api_key import APIKeyHeader, APIKey
 from fastapi.responses import JSONResponse
 from pydantic import BaseModel
+from typing import Optional
 import numpy as np
 import io
 import soundfile as sf
 import tempfile
 # Import functions from other modules
+from asr import transcribe, ASR_LANGUAGES, ASR_SAMPLING_RATE
 from tts import synthesize, TTS_LANGUAGES
 from lid import identify
 # Configure logging
 logging.basicConfig(level=logging.INFO)
 # Define request models
 class AudioRequest(BaseModel):
     audio: str  # Base64 encoded audio or video data
+    language: Optional[str] = None
 class TTSRequest(BaseModel):
     text: str
+    language: Optional[str] = None
+    speed: float = 1.0
 class LanguageRequest(BaseModel):
+    language: Optional[str] = None
+class TranscribeFileRequest(BaseModel):
+    language: Optional[str] = None
 async def get_api_key(api_key_header: str = Security(api_key_header)):
     if api_key_header == API_KEY:
         if sample_rate != ASR_SAMPLING_RATE:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=ASR_SAMPLING_RATE)
+        if request.language is None:
+            # If no language is provided, use language identification
+            identified_language = identify(audio_array)
+            result = transcribe(audio_array, identified_language)
+        else:
+            result = transcribe(audio_array, request.language)
         processing_time = time.time() - start_time
         return JSONResponse(content={"transcription": result, "processing_time_seconds": processing_time})
     except Exception as e:
         )
 @app.post("/transcribe_file")
+async def transcribe_audio_file(file: UploadFile = File(...), request: TranscribeFileRequest = Depends(), api_key: APIKey = Depends(get_api_key)):
     start_time = time.time()
     try:
         contents = await file.read()
         if sample_rate != ASR_SAMPLING_RATE:
             audio_array = librosa.resample(audio_array, orig_sr=sample_rate, target_sr=ASR_SAMPLING_RATE)
+        if request.language is None:
+            # If no language is provided, use language identification
+            identified_language = identify(audio_array)
+            result = transcribe(audio_array, identified_language)
+        else:
+            result = transcribe(audio_array, request.language)
         processing_time = time.time() - start_time
         return JSONResponse(content={"transcription": result, "processing_time_seconds": processing_time})
     except Exception as e:
     start_time = time.time()
     logger.info(f"Synthesize request received: text='{request.text}', language='{request.language}', speed={request.speed}")
     try:
+        if request.language is None:
+            # If no language is provided, default to English
+            lang_code = "eng"
+        else:
+            # Extract the ISO code from the full language name
+            lang_code = request.language.split()[0].strip()
         # Input validation
         if not request.text:
             raise ValueError("Text cannot be empty")
         if lang_code not in TTS_LANGUAGES:
+            raise ValueError(f"Unsupported language: {lang_code}")
         if not 0.5 <= request.speed <= 2.0:
             raise ValueError(f"Speed must be between 0.5 and 2.0, got {request.speed}")
         logger.info(f"Calling synthesize function with lang_code: {lang_code}")
+        result, filtered_text = synthesize(request.text, lang_code, request.speed)
         logger.info(f"Synthesize function completed. Filtered text: '{filtered_text}'")
         if result is None:
             status_code=500,
             content={"message": "An unexpected error occurred during speech synthesis", "details": error_details, "processing_time_seconds": processing_time}
         )
 @app.post("/identify")
 async def identify_language(request: AudioRequest, api_key: APIKey = Depends(get_api_key)):
 async def get_asr_languages(request: LanguageRequest, api_key: APIKey = Depends(get_api_key)):
     start_time = time.time()
     try:
+        if request.language is None or request.language == "":
+            # If no language is provided, return all languages
+            matching_languages = ASR_LANGUAGES
+        else:
+            matching_languages = [lang for lang in ASR_LANGUAGES if lang.lower().startswith(request.language.lower())]
         processing_time = time.time() - start_time
         return JSONResponse(content={"languages": matching_languages, "processing_time_seconds": processing_time})
     except Exception as e:
         logger.error(f"Error in get_asr_languages: {str(e)}", exc_info=True)
         error_details = {
 async def get_tts_languages(request: LanguageRequest, api_key: APIKey = Depends(get_api_key)):
     start_time = time.time()
     try:
+        if request.language is None or request.language == "":
+            # If no language is provided, return all languages
+            matching_languages = TTS_LANGUAGES
+        else:
+            matching_languages = [lang for lang in TTS_LANGUAGES if lang.lower().startswith(request.language.lower())]
         processing_time = time.time() - start_time
         return JSONResponse(content={"languages": matching_languages, "processing_time_seconds": processing_time})
     except Exception as e:
         logger.error(f"Error in get_tts_languages: {str(e)}", exc_info=True)
         error_details = {