Spaces:

tudeplom
/

api-stt

Sleeping

File size: 1,801 Bytes

23590ba
 
17fd256
 
7bcff4e
17fd256
7bcff4e
17fd256
23590ba
17fd256
2aa1fa1
981b713
62ca4e5
 
981b713
 
17fd256
 
 
7bcff4e
 
 
2aa1fa1
 
 
 
 
 
 
 
17fd256
2aa1fa1
 
17fd256
fe652f1
17fd256
 
 
 
 
7bcff4e
 
3b9f7f2
 
ceda7cb
8154745
9225a67
8154745

import os
import json
import numpy as np
from vosk import Model, KaldiRecognizer
from flask import Flask, request, jsonify

# Cấu hình Flask
app = Flask(__name__)

# Kiểm tra và load model Vosk
MODEL_PATH = "model/vosk-model"  # Thay thế với đường dẫn đến mô hình của bạn
if not os.path.exists(MODEL_PATH):
    raise Exception("❌ Model Vosk không tìm thấy!")
print("✅ Đang tải model Vosk...")
model = Model(MODEL_PATH)

# Tạo bộ nhận diện giọng nói
rec = KaldiRecognizer(model, 16000)

# API nhận dữ liệu âm thanh và trả kết quả nhận diện giọng nói
@app.route('/stt', methods=['POST'])
def handle_audio():
    # Kiểm tra xem có tệp âm thanh không
    if 'file' not in request.files:
        return jsonify({"error": "Không có tệp âm thanh trong yêu cầu."}), 400
    
    audio_file = request.files['file']
    
    # Đọc dữ liệu âm thanh từ tệp
    audio_data = audio_file.read()
    print(f"📩 Nhận dữ liệu âm thanh: {len(audio_data)} bytes")
    
    # Chuyển đổi dữ liệu âm thanh thành numpy array (16-bit mono)
    audio_np = np.frombuffer(audio_data, dtype=np.int16)

    # Nhận diện giọng nói
    if rec.AcceptWaveform(audio_np.tobytes()):
        result = json.loads(rec.Result())
        text = result.get("text", "")
        print(f"📤 Kết quả nhận diện: {text}")
        return jsonify({"text": text})  # Gửi kết quả nhận diện về client
    else:
        # Nếu không có kết quả nhận diện hoặc dữ liệu chưa đủ để nhận diện
        return jsonify({"text": ""})  # Trả về chuỗi rỗng nếu không có kết quả

# Chạy Flask server
if __name__ == "__main__":
    app.run(host="0.0.0.0", port=5000, debug=True)