Spaces:

OpenMOSS-Team
/

MOSS-TTS-Realtime

Running on Zero

App Files Files Community

Zhyw commited on 4 days ago

Commit

bf1b099

verified ·

1 Parent(s): fe61555

Update app.py

Browse files

Files changed (1) hide show

app.py +25 -21

app.py CHANGED Viewed

@@ -1379,8 +1379,7 @@ def _build_demo(
                 first_audio_time: float | None = None
                 sample_rate = SAMPLE_RATE
                 rtf_logger: StreamRTFLogger | None = None
-                yield json.dumps({"reset": True}), gr.update(value=None), "Started"
                 request = _build_request(
                     args,
                     user_text=user_text_value,
@@ -1404,22 +1403,24 @@ def _build_demo(
                     chunk_duration=float(chunk_duration_value),
                     prebuffer_seconds=float(stream_prebuffer_seconds_value),
                 )
                 rtf_logger = StreamRTFLogger.create(request, started_at)
                 for event in tts_demo.run_stream(request):
                     if event.audio is None:
-                        yield gr.update(), gr.update(), event.message
                         continue
                     sr, chunk = event.audio
                     chunk = np.asarray(chunk).reshape(-1)
                     if chunk.size == 0:
                         continue
                     full_chunks.append(chunk)
                     sample_rate = sr
-                    idx = len(full_chunks)
                     if first_audio_time is None:
                         first_audio_time = time.monotonic()
                     if rtf_logger is not None:
                         rtf_logger.log_chunk(
                             event_message=event.message,
@@ -1427,15 +1428,13 @@ def _build_demo(
                             chunk=chunk,
                             first_audio_time=first_audio_time,
                         )
-                    payload = _encode_chunk(sr, chunk, idx)
-                    ttfa_ms = (first_audio_time - started_at) * 1000.0 if first_audio_time is not None else float("nan")
-                    status_msg = f"{event.message} | chunks={idx} | ttfa={ttfa_ms:.0f}ms"
-                    yield payload, gr.update(), status_msg
                 if full_chunks:
                     full_audio = np.concatenate(full_chunks)
                     if rtf_logger is not None:
                         rtf_logger.log_completion(first_audio_time=first_audio_time)
                     done_msg = _format_completion_status(
                         len(full_chunks),
                         sample_rate,
@@ -1443,17 +1442,22 @@ def _build_demo(
                         started_at,
                         first_audio_time,
                     )
-                    yield gr.update(), (sample_rate, full_audio), done_msg
-                else:
-                    if rtf_logger is not None:
-                        rtf_logger.log_no_audio()
-                    yield gr.update(), gr.update(), "Done | no audio chunks emitted"
-            except Exception as exc:
-                import traceback
-                traceback.print_exc()
                 if rtf_logger is not None:
-                    rtf_logger.log_error(exc, first_audio_time=first_audio_time)
-                yield gr.update(), gr.update(), f"Error: {exc}"
         run_btn.click(
             _on_generate,

                 first_audio_time: float | None = None
                 sample_rate = SAMPLE_RATE
                 rtf_logger: StreamRTFLogger | None = None
                 request = _build_request(
                     args,
                     user_text=user_text_value,
                     chunk_duration=float(chunk_duration_value),
                     prebuffer_seconds=float(stream_prebuffer_seconds_value),
                 )
                 rtf_logger = StreamRTFLogger.create(request, started_at)
                 for event in tts_demo.run_stream(request):
                     if event.audio is None:
                         continue
                     sr, chunk = event.audio
                     chunk = np.asarray(chunk).reshape(-1)
                     if chunk.size == 0:
                         continue
                     full_chunks.append(chunk)
                     sample_rate = sr
                     if first_audio_time is None:
                         first_audio_time = time.monotonic()
                     if rtf_logger is not None:
                         rtf_logger.log_chunk(
                             event_message=event.message,
                             chunk=chunk,
                             first_audio_time=first_audio_time,
                         )
                 if full_chunks:
                     full_audio = np.concatenate(full_chunks)
                     if rtf_logger is not None:
                         rtf_logger.log_completion(first_audio_time=first_audio_time)
                     done_msg = _format_completion_status(
                         len(full_chunks),
                         sample_rate,
                         started_at,
                         first_audio_time,
                     )
+                    return "", (sample_rate, full_audio), done_msg
                 if rtf_logger is not None:
+                    rtf_logger.log_no_audio()
+                return "", None, "Done | no audio chunks emitted"
+    except Exception as exc:
+        import traceback
+        traceback.print_exc()
+        if rtf_logger is not None:
+            rtf_logger.log_error(exc, first_audio_time=first_audio_time)
+        return "", None, f"Error: {exc}"
         run_btn.click(
             _on_generate,