Spaces:

Nguyen5
/

chatbot1

Sleeping

App Files Files Community

Nguyen5 commited on Dec 8, 2025

Commit

921fc8a

1 Parent(s): 9958eb5

commit

Browse files

Files changed (2) hide show

.trae/documents/Khắc phục độ chính xác transcript âm thanh (Audio Fidelity Fix).md +148 -0
app.py +14 -0

.trae/documents/Khắc phục độ chính xác transcript âm thanh (Audio Fidelity Fix).md ADDED Viewed

	@@ -0,0 +1,148 @@

+## Danh sách file cần chỉnh sửa
+* /Users/tramynguyen/Documents/GitHub/huggingface/chatbot1/app.py
+  * Phạm vi: khối UI Gradio (Blocks), các callback submit/change/stream; cấu trúc responsive; thêm State.
+  * Hàm/method: `chat_fn`, thêm `transcribe_to_textbox` (stream), bổ sung `AppState` và `gr.State`, cập nhật layout bottom bar, toggle Audio/Text, status hiển thị.
+* /Users/tramynguyen/Documents/GitHub/huggingface/chatbot1/speech\_io.py
+  * Phạm vi: pipeline ASR/TTS, tiền xử lý audio, hậu xử lý từ vựng, tham số mô hình, thời lượng và VAD đơn giản.
+  * Hàm/method: `get_asr_pipeline`, `transcribe_audio`, helper `_fix_domain_terms`, thêm backend chọn theo ENV, hook để dùng Groq khi bật.
+* (Tuỳ chọn) /Users/tramynguyen/Documents/GitHub/huggingface/chatbot1/requirements.txt
+  * Phạm vi: thêm phụ thuộc Groq/VAD khi `ASR_BACKEND=groq`.
+  * Mục: `groq`, `@ricky0123/vad-web` (gợi ý phía client), không cài bắt buộc; ghi chú sử dụng ENV.
+## Thay đổi chi tiết theo tiêu chí
+### app.py
+1. State Management
+* Thêm `from dataclasses import dataclass` và `gr.State(AppState)`.
+* `@dataclass AppState`: `conversation: list`, `recording_state: str`, `mode: str`, `last_record_path: str|None`, `status_text: str`.
+* Truyền `state` vào các callback (submit/stream/change) để cập nhật trạng thái.
+1. UI giống ChatGPT, responsive
+* Bottom bar pill: đặt nằm trong khung chat (dịch vị trí), icon `＋`, mic `🎤`, nút gửi `➤` nhỏ gọn 32×32.
+* Loại bỏ viền `chat_text`/`chat_audio`; nền trong suốt cho audio.
+* Media queries cho mobile (ẩn sidebar, xếp dọc, tăng min‑height textarea).
+* Đức hoá toàn bộ text/label/placeholder.
+1. Toggle Audio/Text
+* Thêm `Radio("Eingabemodus", ["Audio","Text"])`; handler `toggle_mode` bật/tắt `chat_text`/`chat_audio`; cập nhật `status_text`.
+1. Streaming theo hướng dẫn Gradio Automatic Voice Detection
+* `gr.Audio(..., format="wav", streaming=True)`.
+* `chat_audio.stream(transcribe_to_textbox, ...)` để điền transcript liên tục.
+* `chat_audio.change(...)` điền transcript khi kết thúc ghi; cập nhật player “Letzte Aufnahme” và status.
+1. Callback
+* `chat_fn(text_input, audio_path, history, state, lang_sel, auto_tts)`:
+  * Nếu chế độ Audio và ô nhập trống: dùng transcript từ state.
+  * Gọi RAG `answer` và cập nhật `conversation` trong state.
+  * Phát TTS nếu người dùng bật.
+### speech\_io.py
+1. Pipeline ASR
+* Cho phép chọn backend qua ENV: `ASR_BACKEND=local|groq`.
+* Local (Transformers): tiny/base/small; tham số `chunk_length_s`, `stride_length_s` cân bằng tốc độ/độ chính xác.
+* Groq: stub hàm `transcribe_with_groq(file_path)` để gửi WAV tới `whisper-large-v3-turbo` và đọc `verbose_json` (dùng `no_speech_prob` lọc im lặng).
+1. Tiền xử lý
+* High‑pass 60 Hz, mono‑mix bằng trung bình kênh, chuẩn hoá biên độ, VAD đơn giản (cắt đầu/cuối theo ngưỡng), resample 16 kHz.
+* Tăng thời lượng tối đa ghi thành 30s (cấu hình bằng ENV).
+1. Hậu xử lý từ vựng
+* Mapping các lỗi nghe nhầm phổ biến sang thuật ngữ “Prüfung/Prüfungsordnung/…”.
+* Sửa mờ bằng `difflib.get_close_matches` trên từ vựng miền với ngưỡng 0.82.
+1. Auto ngôn ngữ
+* Nếu `ASR_LANGUAGE=auto`, không ép ngôn ngữ cho pipeline để Whisper auto‑detect.
+## Benchmark Whisper (không phá tương thích)
+* Viết module benchmark (script riêng, không bắt buộc chạy runtime): cùng tập WAV, chạy local (tiny/base/small) vs Groq (large‑v3‑turbo), đo:
+  * WER/char‑acc,
+  * Latency end‑to‑end,
+  * CPU/RAM usage,
+  * Tỷ lệ `no_speech_prob` và bỏ lỡ phát ngôn.
+* Xuất bảng kết quả và khuyến nghị default theo môi trường (local → tiny/base; Groq → large‑v3‑turbo).
+## Kiểm thử
+* Unit:
+  * `transcribe_audio` với WAV tổng hợp (sin tone + giọng giả), kiểm `rms/peak`, VAD cắt lặng, sửa từ vựng.
+  * `toggle_mode` và `transcribe_to_textbox` đảm bảo đúng cập nhật UI.
+* Integration:
+  * Luồng Audio→Text→RAG→TTS, kiểm tra state cập nhật, không crash.
+  * Responsive render (snapshot CSS) trên kích thước phổ biến.
+* Regression:
+  * Đảm bảo `answer()` và hiển thị nguồn không đổi.
+## Định dạng & Convention
+* Tuân thủ style Python (PEP8), sắp xếp import, giữ tên hàm/biến theo chuẩn hiện có.
+* Format đồng nhất, indent 4 spaces, bỏ khoảng trắng thừa.
+* Comment ngắn gọn ngay trên thay đổi quan trọng (theo yêu cầu người dùng).
+## Bản diff dự kiến
+* app.py: thêm State, chỉnh cấu trúc Blocks, thêm streaming/handlers, CSS responsive; thay đổi nhỏ ở callback và labels.
+* speech\_io.py: thêm backend Groq (tuỳ chọn), tinh chỉnh tiền/hậu xử lý, ENV cho tham số, tăng thời lượng tối đa.
+* requirements.txt: thêm `groq` có điều kiện (ghi chú, không bắt buộc).
+## Ghi chú an toàn
+* Không hardcode API key; dùng ENV.
+* Không log dữ liệu âm thanh người dùng; cung cấp nút xoá bản ghi.
+## Tiếp theo
+* Nếu đồng ý, tôi sẽ cập nhật mã nguồn theo bản kế hoạch này, thêm test tối thiểu và cung cấp diff chi tiết cho từng file.

app.py CHANGED Viewed

@@ -699,6 +699,13 @@ with gr.Blocks(title="Prüfungsrechts-Chatbot (RAG + Sprache) - Enhanced") as de
         on_audio_change,
         inputs=[chat_audio, vad_toggle],
         outputs=[chat_text, vad_indicator, status_display]
     )
     # Audio Streaming
@@ -706,6 +713,13 @@ with gr.Blocks(title="Prüfungsrechts-Chatbot (RAG + Sprache) - Enhanced") as de
         on_audio_change,
         inputs=[chat_audio, vad_toggle],
         outputs=[chat_text, vad_indicator, status_display]
     )
     # TTS Button

         on_audio_change,
         inputs=[chat_audio, vad_toggle],
         outputs=[chat_text, vad_indicator, status_display]
+    ).then(
+        process_chat,
+        inputs=[chat_text, chat_audio, chatbot, lang_selector, vad_toggle],
+        outputs=[chatbot, chat_text, chat_audio, status_display]
+    ).then(
+        lambda: update_vad_indicator(),
+        outputs=[vad_indicator]
     )
     # Audio Streaming
         on_audio_change,
         inputs=[chat_audio, vad_toggle],
         outputs=[chat_text, vad_indicator, status_display]
+    ).then(
+        process_chat,
+        inputs=[chat_text, chat_audio, chatbot, lang_selector, vad_toggle],
+        outputs=[chatbot, chat_text, chat_audio, status_display]
+    ).then(
+        lambda: update_vad_indicator(),
+        outputs=[vad_indicator]
     )
     # TTS Button