Spaces:

tudeplom
/

api-stt

Sleeping

App Files Files Community

tudeplom commited on Mar 29

Commit

4164780

verified ·

1 Parent(s): 65edca3

Update app.py

Browse files

Files changed (1) hide show

app.py +97 -47

app.py CHANGED Viewed

@@ -1,57 +1,107 @@
 import os
 import json
 import numpy as np
-from vosk import Model, KaldiRecognizer
 from flask import Flask, request, jsonify
-from flask_restx import Api, Resource
-# Cấu hình Flask
 app = Flask(__name__)
-# Tạo đối tượng API với Swagger documentation
-api = Api(app, version='1.0', title='Vosk STT API', description='API cho nhận diện giọng nói sử dụng Vosk')
-# Kiểm tra và load model Vosk
-MODEL_PATH = "model/vosk-model"  # Thay thế bằng đường dẫn đến mô hình Vosk của bạn
-if not os.path.exists(MODEL_PATH):
-    raise Exception("❌ Model Vosk không tìm thấy!")
-print("✅ Đang tải model Vosk...")
-model = Model(MODEL_PATH)
-# Tạo bộ nhận diện giọng nói
-rec = KaldiRecognizer(model, 16000)
-# API nhận dữ liệu âm thanh và trả kết quả nhận diện giọng nói
-@api.route('/stt')
-class SpeechToText(Resource):
-    def post(self):
-        """
-        Nhận dữ liệu âm thanh và trả về kết quả nhận diện giọng nói.
-        """
-        # Kiểm tra xem có tệp âm thanh không
-        if 'file' not in request.files:
-            return jsonify({"error": "Không có tệp âm thanh trong yêu cầu."}), 400
-        audio_file = request.files['file']
-        # Đọc dữ liệu âm thanh từ tệp
-        audio_data = audio_file.read()
-        print(f"📩 Nhận dữ liệu âm thanh: {len(audio_data)} bytes")
-        # Chuyển đổi dữ liệu âm thanh thành numpy array (16-bit mono)
-        audio_np = np.frombuffer(audio_data, dtype=np.int16)
-        # Nhận diện giọng nói
-        if rec.AcceptWaveform(audio_np.tobytes()):
-            result = json.loads(rec.Result())
-            text = result.get("text", "")
-            print(f"📤 Kết quả nhận diện: {text}")
-            return jsonify({"text": text})  # Gửi kết quả nhận diện về client
-        else:
-            # Nếu không có kết quả nhận diện hoặc dữ liệu chưa đủ để nhận diện
-            return jsonify({"text": ""})  # Trả về chuỗi rỗng nếu không có kết quả
-# Chạy Flask server
 if __name__ == "__main__":
-    print("🚀 API Flask đang chạy tại http://localhost:5000")
-    app.run(host="0.0.0.0", port=5000, debug=True)

 import os
+import wave
 import json
+import uuid
 import numpy as np
 from flask import Flask, request, jsonify
+from flask_cors import CORS
+from vosk import Model, KaldiRecognizer
+from flasgger import Swagger
+# Thư mục chứa model
+MODEL_PATH = "model/vosk-model"
+print("\u2705 Đang tải model Vosk...")
+model = Model(MODEL_PATH)
+# Khởi tạo Flask app
 app = Flask(__name__)
+CORS(app)
+Swagger(app)
+@app.route("/")
+def home():
+    """API Home
+    ---
+    responses:
+      200:
+        description: API đang chạy
+    """
+    return "\u2705 Vosk STT API đang chạy!"
+@app.route("/stt", methods=["POST"])
+def stt():
+    """Chuyển đổi giọng nói thành văn bản (Speech-to-Text)
+    ---
+    consumes:
+      - multipart/form-data
+    parameters:
+      - in: formData
+        name: audio
+        type: file
+        required: true
+        description: File âm thanh WAV mono PCM
+    responses:
+      200:
+        description: Kết quả chuyển đổi văn bản
+        schema:
+          type: object
+          properties:
+            text:
+              type: string
+              example: "Xin chào thế giới"
+      400:
+        description: Lỗi nếu file âm thanh không hợp lệ hoặc không tìm thấy
+    """
+    if "audio" not in request.files:
+        return jsonify({"error": "Không tìm thấy file audio!"}), 400
+    audio_file = request.files["audio"]
+    file_path = f"/tmp/{uuid.uuid4()}.wav"  # Lưu vào thư mục tạm để tránh lỗi quyền hạn
+    audio_file.save(file_path)
+    try:
+        # Mở file âm thanh
+        wf = wave.open(file_path, "rb")
+        # Kiểm tra file có đúng định dạng WAV mono không
+        if wf.getnchannels() != 1 or wf.getsampwidth() != 2 or wf.getcomptype() != "NONE":
+            return jsonify({"error": "File audio phải là WAV mono PCM!"}), 400
+        rec = KaldiRecognizer(model, wf.getframerate())
+        result_text = ""
+        while True:
+            data = wf.readframes(4000)
+            if len(data) == 0:
+                break
+            if rec.AcceptWaveform(data):
+                result_text += json.loads(rec.Result())["text"] + " "
+        return jsonify({"text": result_text.strip()})
+    except Exception as e:
+        return jsonify({"error": str(e)}), 500
+    finally:
+        wf.close()
+        os.remove(file_path)  # Xóa file tạm
 if __name__ == "__main__":
+    app.run(host="0.0.0.0", port=7860, debug=True)