Spaces:

stepfun-ai
/

Step-Audio-R1

Running

App Files Files Community

moevis commited on Nov 26, 2025

Commit

9b74786

verified ·

1 Parent(s): e04e1a0

Update app.py

Browse files

Files changed (1) hide show

app.py +66 -40

app.py CHANGED Viewed

@@ -6,6 +6,8 @@ Step Audio R1 vLLM Gradio Interface
 import base64
 import json
 import os
 import gradio as gr
 import httpx
@@ -13,18 +15,44 @@ import httpx
 API_BASE_URL = os.getenv("API_BASE_URL", "http://localhost:9999/v1")
 MODEL_NAME = os.getenv("MODEL_NAME", "Step-Audio-R1")
-def encode_audio(audio_path):
-    """编码音频为base64"""
     if not audio_path or not os.path.exists(audio_path):
-        return None
     try:
-        with open(audio_path, "rb") as f:
-            return base64.b64encode(f.read()).decode()
     except Exception as e:
-        print(f"[DEBUG] Audio error: {e}")
-        return None
-def format_messages(system, history, user_text, audio_data=None, audio_format="wav"):
     """Format message list"""
     messages = []
     if system:
@@ -43,37 +71,40 @@ def format_messages(system, history, user_text, audio_data=None, audio_format="w
             messages.append({"role": item.role, "content": item.content})
     # 添加当前用户消息
-    if user_text and audio_data:
         messages.append({
             "role": "user",
-            "content": [
-                {
-                    "type": "input_audio",
-                    "input_audio": {
-                        "data": audio_data,
-                        "format": audio_format
-                    }
-                },
-                {
-                    "type": "text",
-                    "text": user_text
-                }
-            ]
         })
     elif user_text:
         messages.append({"role": "user", "content": user_text})
-    elif audio_data:
         messages.append({
             "role": "user",
-            "content": [
-                {
-                    "type": "input_audio",
-                    "input_audio": {
-                        "data": audio_data,
-                        "format": audio_format
-                    }
-                }
-            ]
         })
     return messages
@@ -99,14 +130,11 @@ def chat(system_prompt, user_text, audio_file, history, max_tokens, temperature,
     history = clean_history
     # Process audio
-    audio_data = None
-    audio_format = "wav"
     if audio_file:
-        audio_data = encode_audio(audio_file)
-        if audio_file.lower().endswith(".mp3"):
-            audio_format = "mp3"
-    messages = format_messages(system_prompt, history, user_text, audio_data, audio_format)
     if not messages:
         return history or [], "Invalid input"
@@ -249,8 +277,6 @@ with gr.Blocks(title="Step Audio R1") as demo:
                 submit_btn = gr.Button("Send", variant="primary", scale=2)
                 clear_btn = gr.Button("Clear", scale=1)
-    # 事件绑定 - 函数将在启动时定义
-    # 直接绑定 chat 函数；不要传递外部的 `model_to_use`，chat 使用默认的 `MODEL_NAME` 或内部参数
     submit_btn.click(
         fn=chat,
         inputs=[system_prompt, user_text, audio_file, chatbot, max_tokens, temperature, top_p],

 import base64
 import json
 import os
+import io
+from pydub import AudioSegment
 import gradio as gr
 import httpx
 API_BASE_URL = os.getenv("API_BASE_URL", "http://localhost:9999/v1")
 MODEL_NAME = os.getenv("MODEL_NAME", "Step-Audio-R1")
+def process_audio(audio_path):
+    """
+    Process audio: convert to wav, split if > 25s.
+    Returns a list of base64 encoded wav strings.
+    """
     if not audio_path or not os.path.exists(audio_path):
+        return []
     try:
+        # Load audio (pydub handles mp3, wav, etc. automatically if ffmpeg is installed)
+        audio = AudioSegment.from_file(audio_path)
+        # Split into chunks of 25 seconds (25000 ms)
+        chunk_length_ms = 25000
+        chunks = []
+        if len(audio) > chunk_length_ms:
+            for i in range(0, len(audio), chunk_length_ms):
+                chunk = audio[i:i + chunk_length_ms]
+                chunks.append(chunk)
+        else:
+            chunks.append(audio)
+        # Convert chunks to base64 wav
+        audio_data_list = []
+        for chunk in chunks:
+            buffer = io.BytesIO()
+            chunk.export(buffer, format="wav")
+            encoded = base64.b64encode(buffer.getvalue()).decode()
+            audio_data_list.append(encoded)
+        return audio_data_list
     except Exception as e:
+        print(f"[DEBUG] Audio processing error: {e}")
+        return []
+def format_messages(system, history, user_text, audio_data_list=None):
     """Format message list"""
     messages = []
     if system:
             messages.append({"role": item.role, "content": item.content})
     # 添加当前用户消息
+    if user_text and audio_data_list:
+        content = []
+        for audio_data in audio_data_list:
+            content.append({
+                "type": "input_audio",
+                "input_audio": {
+                    "data": audio_data,
+                    "format": "wav"
+                }
+            })
+        content.append({
+            "type": "text",
+            "text": user_text
+        })
         messages.append({
             "role": "user",
+            "content": content
         })
     elif user_text:
         messages.append({"role": "user", "content": user_text})
+    elif audio_data_list:
+        content = []
+        for audio_data in audio_data_list:
+            content.append({
+                "type": "input_audio",
+                "input_audio": {
+                    "data": audio_data,
+                    "format": "wav"
+                }
+            })
         messages.append({
             "role": "user",
+            "content": content
         })
     return messages
     history = clean_history
     # Process audio
+    audio_data_list = []
     if audio_file:
+        audio_data_list = process_audio(audio_file)
+    messages = format_messages(system_prompt, history, user_text, audio_data_list)
     if not messages:
         return history or [], "Invalid input"
                 submit_btn = gr.Button("Send", variant="primary", scale=2)
                 clear_btn = gr.Button("Clear", scale=1)
     submit_btn.click(
         fn=chat,
         inputs=[system_prompt, user_text, audio_file, chatbot, max_tokens, temperature, top_p],