Spaces:

tudeplom
/

api-stt

Sleeping

File size: 1,469 Bytes

23590ba
 
17fd256
 
7bcff4e
17fd256
7bcff4e
17fd256
23590ba
17fd256
981b713
 
62ca4e5
 
981b713
 
17fd256
 
 
7bcff4e
 
 
 
17fd256
6432060
17fd256
 
fe652f1
17fd256
 
 
 
 
7bcff4e
 
3b9f7f2
 
ceda7cb
9225a67
7bcff4e

import os
import json
import numpy as np
from vosk import Model, KaldiRecognizer
from flask import Flask, request, jsonify

# Cấu hình Flask
app = Flask(__name__)

# Kiểm tra và load model Vosk
MODEL_PATH = "model/vosk-model"
if not os.path.exists(MODEL_PATH):
    raise Exception("❌ Model Vosk không tìm thấy!")
print("✅ Đang tải model Vosk...")
model = Model(MODEL_PATH)

# Tạo bộ nhận diện giọng nói
rec = KaldiRecognizer(model, 16000)

# API nhận dữ liệu âm thanh và trả kết quả nhận diện giọng nói
@app.route('/stt', methods=['POST'])
def handle_audio():
    audio_data = request.data  # Nhận dữ liệu âm thanh từ client
    print(f"📩 Nhận dữ liệu âm thanh: {len(audio_data)} bytes")

    # Chuyển đổi dữ liệu âm thanh thành numpy array
    audio_np = np.frombuffer(audio_data, dtype=np.int16)

    # Nhận diện giọng nói
    if rec.AcceptWaveform(audio_np.tobytes()):
        result = json.loads(rec.Result())
        text = result.get("text", "")
        print(f"📤 Kết quả nhận diện: {text}")
        return jsonify({"text": text})  # Gửi kết quả nhận diện về client
    else:
        # Nếu không có kết quả nhận diện hoặc dữ liệu chưa đủ để nhận diện
        return jsonify({"text": ""})  # Trả về chuỗi rỗng nếu không có kết quả

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=5000, debug=True)