Spaces:

Ander1
/

audio2text

Runtime error

App Files Files Community

Ander1 commited on Mar 19, 2025

Commit

4903e5a

verified ·

1 Parent(s): 62b60c0

Upload 11 files

Browse files

Files changed (12) hide show

.gitattributes +1 -0
DOCS.md +47 -0
README.md +35 -7
app.py +172 -0
elevenlabs_stt.py +119 -0
main_app.py +384 -0
packages.txt +2 -0
requirements.txt +17 -0
temp_podcast_testo_TRAVERSE.mp3 +3 -0
transcript_refiner.py +144 -0
utils.py +94 -0
whisper_stt.py +84 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+temp_podcast_testo_TRAVERSE.mp3 filter=lfs diff=lfs merge=lfs -text

DOCS.md ADDED Viewed

	@@ -0,0 +1,47 @@

+# 音訊轉文字與優化系統使用說明
+## 功能介紹
+這個應用程式提供以下功能：
+1. 音訊轉文字（支援 Whisper 和 ElevenLabs）
+2. 文字優化和摘要生成
+3. 多語言支援
+4. Token 使用量和費用計算
+## 使用步驟
+1. **上傳音訊檔案**
+   - 支援格式：MP3、WAV、OGG、M4A
+   - 檔案大小限制：25MB
+2. **輸入 API 金鑰**
+   - OpenAI API 金鑰（必須）
+   - ElevenLabs API 金鑰（使用 ElevenLabs 服務時必須）
+3. **選擇服務和設定**
+   - 轉錄服務：Whisper 或 ElevenLabs
+   - OpenAI 模型：選擇用於文字優化的模型
+   - 語言：指定音訊的語言（可選）
+   - 說話者辨識：僅適用於 ElevenLabs
+   - 創意程度：調整文字優化的創意程度
+4. **處理和結果**
+   - 點擊「處理音訊」按鈕
+   - 查看原始轉錄文字
+   - 查看優化後文字
+   - 檢視 Token 使用量
+   - 檢視費用資訊
+## 安全性說明
+- API 金鑰僅在當前處理中使用
+- 不會儲存任何敏感資訊
+- 每次使用需重新輸入 API 金鑰
+## 注意事項
+1. 確保網路連線穩定
+2. 使用高品質音訊以獲得更好的轉錄效果
+3. 注意 API 使用額度
+4. 建議使用支援的音訊格式

README.md CHANGED Viewed

@@ -1,13 +1,41 @@
 ---
-title: Audio2text
-emoji: 📚
-colorFrom: red
-colorTo: blue
 sdk: gradio
-sdk_version: 5.22.0
 app_file: app.py
 pinned: false
-short_description: audio transcribe to text and summary
 ---
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

 ---
+title: 音訊轉文字與優化系統
+emoji: 🎙️
+colorFrom: blue
+colorTo: purple
 sdk: gradio
+sdk_version: 4.19.2
 app_file: app.py
 pinned: false
 ---
+# 音訊轉文字與優化系統
+這是一個使用 Gradio 建立的音訊轉文字應用程式，支援多種功能：
+## 主要功能
+- 音訊轉文字（支援 Whisper 和 ElevenLabs）
+- 文字優化和摘要生成
+- 多語言支援
+- Token 使用量和費用計算
+## 使用方法
+1. 上傳音訊檔案
+2. 輸入必要的 API 金鑰
+3. 選擇轉錄服務和模型
+4. 設定語言選項
+5. 點擊處理按鈕
+## 安全性說明
+- API 金鑰僅在當前處理中使用
+- 不會儲存任何敏感資訊
+- 每次使用需重新輸入 API 金鑰
+## 作者
+**Tseng Yao Hsien**
+Endocrinologist
+Tungs' Taichung MetroHarbor Hospital

app.py ADDED Viewed

	@@ -0,0 +1,172 @@

+import gradio as gr
+import os
+from elevenlabs_stt import transcribe_audio_elevenlabs
+from whisper_stt import transcribe_audio_whisper
+from transcript_refiner import refine_transcript
+from utils import calculate_tokens_and_cost, OPENAI_MODELS, MODEL_PRICES
+def process_audio(
+    audio_file,
+    openai_api_key,
+    elevenlabs_api_key,
+    service_choice,
+    openai_model,
+    language,
+    speaker_detection=False,
+    creativity=0.5
+):
+    try:
+        if not openai_api_key or len(openai_api_key) < 20:
+            return "請輸入有效的 OpenAI API 金鑰", "", "", ""
+        if service_choice == "ElevenLabs" and (not elevenlabs_api_key or len(elevenlabs_api_key) < 20):
+            return "請輸入有效的 ElevenLabs API 金鑰", "", "", ""
+        # 音訊轉文字
+        if service_choice == "ElevenLabs":
+            transcript = transcribe_audio_elevenlabs(
+                audio_file,
+                elevenlabs_api_key,
+                language=language,
+                speaker_detection=speaker_detection
+            )
+        else:  # Whisper
+            transcript = transcribe_audio_whisper(
+                audio_file,
+                language=language
+            )
+        # 優化文字
+        refined_text = refine_transcript(
+            transcript,
+            openai_api_key,
+            openai_model,
+            creativity
+        )
+        # 計算 token 和費用
+        tokens_info, cost_info = calculate_tokens_and_cost(
+            transcript,
+            refined_text,
+            openai_model
+        )
+        return transcript, refined_text, tokens_info, cost_info
+    except Exception as e:
+        return f"錯誤：{str(e)}", "", "", ""
+    finally:
+        # 清除敏感資訊
+        if 'openai_api_key' in locals():
+            del openai_api_key
+        if 'elevenlabs_api_key' in locals():
+            del elevenlabs_api_key
+# 創建 Gradio 介面
+with gr.Blocks() as demo:
+    gr.Markdown("# 音訊轉文字與優化系統")
+    with gr.Row():
+        with gr.Column():
+            audio_input = gr.Audio(
+                label="上傳音訊檔案",
+                type="filepath"
+            )
+            with gr.Row():
+                openai_key = gr.Textbox(
+                    label="OpenAI API 金鑰",
+                    placeholder="輸入您的 OpenAI API 金鑰",
+                    type="password",
+                    value="",
+                    every=None
+                )
+                elevenlabs_key = gr.Textbox(
+                    label="ElevenLabs API 金鑰",
+                    placeholder="輸入您的 ElevenLabs API 金鑰（如果使用 ElevenLabs）",
+                    type="password",
+                    value="",
+                    every=None
+                )
+            service = gr.Radio(
+                choices=["Whisper", "ElevenLabs"],
+                label="選擇轉錄服務",
+                value="Whisper"
+            )
+            model = gr.Dropdown(
+                choices=list(OPENAI_MODELS.keys()),
+                label="選擇 OpenAI 模型",
+                value="gpt-3.5-turbo"
+            )
+            language = gr.Textbox(
+                label="語言（可選）",
+                placeholder="輸入語言代碼，例如：zh-TW、en、ja",
+                value=""
+            )
+            speaker = gr.Checkbox(
+                label="啟用說話者辨識（僅限 ElevenLabs）",
+                value=False
+            )
+            creativity = gr.Slider(
+                minimum=0,
+                maximum=1,
+                value=0.5,
+                label="創意程度"
+            )
+            process_btn = gr.Button("處理音訊")
+        with gr.Column():
+            original_output = gr.Textbox(
+                label="原始轉錄文字",
+                lines=10
+            )
+            refined_output = gr.Textbox(
+                label="優化後文字",
+                lines=10
+            )
+            token_info = gr.Textbox(
+                label="Token 使用資訊",
+                lines=3
+            )
+            cost_info = gr.Textbox(
+                label="費用資訊",
+                lines=3
+            )
+    gr.Markdown("""
+    ### 安全性說明
+    - API 金鑰僅在當前處理中使用
+    - 不會儲存任何敏感資訊
+    - 每次使用需重新輸入 API 金鑰
+    """)
+    # 設定處理函數
+    process_btn.click(
+        fn=process_audio,
+        inputs=[
+            audio_input,
+            openai_key,
+            elevenlabs_key,
+            service,
+            model,
+            language,
+            speaker,
+            creativity
+        ],
+        outputs=[
+            original_output,
+            refined_output,
+            token_info,
+            cost_info
+        ]
+    )
+# 啟動應用程式
+demo.launch()

elevenlabs_stt.py ADDED Viewed

	@@ -0,0 +1,119 @@

+# 核心依賴
+import requests
+from requests.adapters import HTTPAdapter
+from urllib3.util.retry import Retry
+from typing import Optional, Dict, Any
+import ssl
+import logging
+from elevenlabs.client import ElevenLabs
+from io import BytesIO
+import time
+# 設定日誌記錄
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+class TLSAdapter(HTTPAdapter):
+    """自定義 TLS 適配器解決 SSL 協議問題"""
+    def init_poolmanager(self, *args, **kwargs):
+        ctx = ssl.create_default_context()
+        ctx.set_ciphers('DEFAULT@SECLEVEL=1')  # 降低安全等級以兼容舊協議
+        ctx.options |= ssl.OP_NO_SSLv2 | ssl.OP_NO_SSLv3  # 禁用不安全的 SSL 版本
+        kwargs['ssl_context'] = ctx
+        return super().init_poolmanager(*args, **kwargs)
+def create_retry_session():
+    """建立具有重試機制的 Session"""
+    session = requests.Session()
+    retry = Retry(
+        total=5,  # 總重試次數
+        backoff_factor=1,  # 重試間隔
+        status_forcelist=[500, 502, 503, 504],  # 需要重試的狀態碼
+        allowed_methods=["POST"]  # 只重試 POST 請求
+    )
+    adapter = HTTPAdapter(max_retries=retry)
+    session.mount("https://", adapter)
+    return session
+def transcribe_audio(
+    api_key: str,
+    file_path: str,
+    language_code: Optional[str] = None,
+    diarize: bool = False,
+    max_retries: int = 5,
+    timeout: int = 600  # 10 分鐘超時
+) -> Optional[Dict[str, Any]]:
+    """
+    使用 ElevenLabs API 將音訊轉換為文字，包含重試機制
+    Args:
+        api_key: ElevenLabs API 金鑰
+        file_path: 音訊檔案路徑
+        language_code: 語言代碼（可選，使用 ISO-639-1 或 ISO-639-3 格式）
+        diarize: 是否啟用說話者辨識（限制音訊長度最長 8 分鐘）
+        max_retries: 最大重試次數
+        timeout: 請求超時時間（秒）
+    """
+    # 初始化 ElevenLabs 客戶端
+    client = ElevenLabs(
+        api_key=api_key,
+    )
+    for attempt in range(max_retries):
+        try:
+            # 讀取音訊檔案
+            with open(file_path, 'rb') as audio_file:
+                audio_data = BytesIO(audio_file.read())
+                # 準備 API 參數
+                params = {
+                    "file": audio_data,
+                    "model_id": "scribe_v1",
+                    "diarize": diarize,
+                    "tag_audio_events": True,
+                    "timestamps_granularity": "word"
+                }
+                # 只有當語言代碼不是 None 且不是空字串時才加入
+                if language_code and language_code.strip():
+                    params["language_code"] = language_code.strip()
+                # 呼叫語音轉文字 API
+                response = client.speech_to_text.convert(**params)
+                # 檢查回應格式
+                if hasattr(response, 'text'):
+                    language_code = getattr(
+                        response, 'language_code', None
+                    )
+                    language_prob = getattr(
+                        response, 'language_probability', None
+                    )
+                    return {
+                        'text': response.text,
+                        'language_code': language_code,
+                        'language_probability': language_prob
+                    }
+                return response
+        except Exception as e:
+            logger.error(f"第 {attempt + 1} 次嘗試失敗：{str(e)}")
+            if attempt < max_retries - 1:
+                wait_time = min((attempt + 1) * 5, 30)  # 最長等待 30 秒
+                logger.info(f"{wait_time} 秒後重試...")
+                time.sleep(wait_time)
+            else:
+                logger.error("已達最大重試次數，轉換失敗")
+                return None
+# Example usage:
+# transcription = transcribe_audio(
+#     api_key="YOUR_API_KEY",
+#     file_path="audio.mp3",
+#     language_code="en",
+#     diarize=True
+# )

main_app.py ADDED Viewed

	@@ -0,0 +1,384 @@

+import streamlit as st
+from dotenv import load_dotenv
+import os
+from elevenlabs_stt import transcribe_audio as transcribe_audio_elevenlabs
+from whisper_stt import transcribe_audio_whisper, get_available_models, get_model_description
+from transcript_refiner import refine_transcript, OPENAI_MODELS
+from utils import check_file_size, split_large_audio
+import logging
+# 載入環境變數
+load_dotenv()
+# 設定日誌
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# 定義可用的 OpenAI 模型
+OPENAI_MODELS = {
+    "gpt-4o": "gpt-4o",
+    "gpt-4o-mini": "gpt-4o-mini",
+    "o3-mini": "o3-mini",
+    "o1-mini": "o1-mini"
+}
+# 模型設定和價格（USD per 1M tokens）
+MODEL_CONFIG = {
+    "gpt-4o": {
+        "display_name": "gpt-4o",
+        "input": 2.50,        # $2.50 per 1M tokens
+        "cached_input": 1.25, # $1.25 per 1M tokens
+        "output": 10.00       # $10.00 per 1M tokens
+    },
+    "gpt-4o-mini": {
+        "display_name": "gpt-4o-mini",
+        "input": 0.15,        # $0.15 per 1M tokens
+        "cached_input": 0.075,# $0.075 per 1M tokens
+        "output": 0.60        # $0.60 per 1M tokens
+    },
+    "o1-mini": {
+        "display_name": "o1-mini",
+        "input": 1.10,        # $1.10 per 1M tokens
+        "cached_input": 0.55, # $0.55 per 1M tokens
+        "output": 4.40        # $4.40 per 1M tokens
+    },
+    "o3-mini": {
+        "display_name": "o3-mini",
+        "input": 1.10,        # $1.10 per 1M tokens
+        "cached_input": 0.55, # $0.55 per 1M tokens
+        "output": 4.40        # $4.40 per 1M tokens
+    }
+}
+# 匯率設定
+USD_TO_NTD = 31.5
+def calculate_cost(input_tokens, output_tokens, model_name, is_cached=False):
+    """計算 API 使用成本
+    Args:
+        input_tokens (int): 輸入 tokens 數量
+        output_tokens (int): 輸出 tokens 數量
+        model_name (str): 模型名稱 (gpt-4o, gpt-4o-mini, o1-mini, o3-mini)
+        is_cached (bool, optional): 是否使用快取輸入價格. 預設為 False
+    Returns:
+        tuple: (USD 成本, NTD 成本, 詳細計算資訊)
+    """
+    if model_name not in MODEL_CONFIG:
+        return 0, 0, "未支援的模型"
+    # 取得價格設定
+    model = MODEL_CONFIG[model_name]
+    input_price = model["cached_input"] if is_cached else model["input"]
+    output_price = model["output"]
+    # 計算 USD 成本 (以每 1M tokens 為單位)
+    input_cost = (input_tokens / 1_000_000) * input_price
+    output_cost = (output_tokens / 1_000_000) * output_price
+    total_cost_usd = input_cost + output_cost
+    total_cost_ntd = total_cost_usd * USD_TO_NTD
+    # 準備詳細計算資訊
+    details = f"""
+    計算明細 (USD):
+    - 輸入: {input_tokens:,} tokens × ${input_price}/1M = ${input_cost:.4f}
+    - 輸出: {output_tokens:,} tokens × ${output_price}/1M = ${output_cost:.4f}
+    - 總計 (USD): ${total_cost_usd:.4f}
+    - 總計 (NTD): NT${total_cost_ntd:.2f}
+    """
+    return total_cost_usd, total_cost_ntd, details
+# 在 Streamlit 介面中顯示成本
+def display_cost_info(input_tokens, output_tokens, model_name, is_cached=False):
+    """在 Streamlit 介面中顯示成本資訊"""
+    cost_usd, cost_ntd, details = calculate_cost(
+        input_tokens,
+        output_tokens,
+        model_name,
+        is_cached
+    )
+    with st.sidebar.expander("💰 成本計算", expanded=True):
+        st.write("### Token 使用量")
+        st.write(f"- 輸入: {input_tokens:,} tokens")
+        st.write(f"- 輸出: {output_tokens:,} tokens")
+        st.write(f"- 總計: {input_tokens + output_tokens:,} tokens")
+        if (input_tokens + output_tokens) == 0:
+            st.warning("目前 token 使用量為 0，請確認是否已正確計算 token 數量！")
+        st.write("### 費用明細")
+        st.text(details)
+        if is_cached:
+            st.info("✨ 使用快取價格計算")
+def main():
+    st.title("音訊轉文字與優化系統")
+    # 初始化 token 計數
+    if "input_tokens" not in st.session_state:
+        st.session_state.input_tokens = 0
+    if "output_tokens" not in st.session_state:
+        st.session_state.output_tokens = 0
+    if "total_tokens" not in st.session_state:
+        st.session_state.total_tokens = 0
+    # 檢查 session_state 中的 openai_model 是否有效，不是則重設為預設值 o3-mini
+    valid_openai_models = ["o3-mini", "o1-mini"]
+    if "openai_model" not in st.session_state or st.session_state["openai_model"] not in valid_openai_models:
+        st.session_state["openai_model"] = "o3-mini"
+    if "whisper_model" not in st.session_state:
+        st.session_state["whisper_model"] = "small"
+    with st.sidebar:
+        st.header("設定")
+        # 選擇轉錄服務
+        transcription_service = st.selectbox(
+            "選擇轉錄服務",
+            ["Whisper", "ElevenLabs"],
+            index=0,
+            help="選���要使用的語音轉文字服務"
+        )
+        # Whisper 相關設定
+        if transcription_service == "Whisper":
+            whisper_model = st.selectbox(
+                "選擇 Whisper 模型",
+                options=["tiny", "base", "small", "medium", "large"],
+                index=2  # 預設是 small (第三個選項)
+            )
+            st.session_state["whisper_model"] = whisper_model
+            st.caption(get_model_description(whisper_model))
+            # 語言設定
+            language_mode = st.radio(
+                "語言設定",
+                options=["自動偵測", "指定語言", "混合語言"],
+                help="選擇音訊的語言處理模式"
+            )
+            if language_mode == "指定語言":
+                languages = {
+                    "中文 (繁體/簡體)": "zh",
+                    "英文": "en",
+                    "日文": "ja",
+                    "韓文": "ko",
+                    "其他": "custom"
+                }
+                selected_lang = st.selectbox(
+                    "選擇語言",
+                    options=list(languages.keys())
+                )
+                if selected_lang == "其他":
+                    custom_lang = st.text_input(
+                        "輸入語言代碼",
+                        placeholder="例如：fr 代表法文",
+                        help="請輸入 ISO 639-1 語言代碼"
+                    )
+                    language_code = custom_lang if custom_lang else None
+                else:
+                    language_code = languages[selected_lang]
+            else:
+                language_code = None
+        # ElevenLabs 相關設定
+        elevenlabs_api_key = None
+        if transcription_service == "ElevenLabs":
+            elevenlabs_api_key = st.text_input(
+                "ElevenLabs API 金鑰",
+                type="password"
+            )
+        # OpenAI API 金鑰和模型選擇
+        openai_api_key = st.text_input(
+            "OpenAI API 金鑰",
+            type="password"
+        )
+        model_choice = st.selectbox(
+            "選擇 OpenAI 模型",
+            options=["gpt-4o", "gpt-4o-mini", "o1-mini", "o3-mini"],
+            index=3,  # 預設選擇 o3-mini
+            help="選擇要使用的 OpenAI 模型"
+        )
+        st.session_state["openai_model"] = model_choice
+        # 其他設定
+        enable_diarization = st.checkbox("啟用說話者辨識", value=False)
+        temperature = st.slider("創意程度", 0.0, 1.0, 0.5)
+        # 作者資訊
+        st.markdown("---")
+        st.markdown("""
+        ### Created by
+        **Tseng Yao Hsien**
+        Endocrinologist
+        Tungs' Taichung MetroHarbor Hospital
+        """)
+        # 顯示價格說明
+        with st.sidebar.expander("💡 模型價格說明（USD per 1M tokens）"):
+            st.write("""
+            ### gpt-4o
+            - 輸入：$2.50 / 1M tokens
+            - 快取輸入：$1.25 / 1M tokens
+            - 輸出：$10.00 / 1M tokens
+            ### gpt-4o-mini
+            - 輸入：$0.15 / 1M tokens
+            - 快取輸入：$0.075 / 1M tokens
+            - 輸出：$0.60 / 1M tokens
+            ### o1-mini & o3-mini
+            - 輸入：$1.10 / 1M tokens
+            - 快取輸入：$0.55 / 1M tokens
+            - 輸出：$4.40 / 1M tokens
+            ### 匯率
+            - 1 USD = 31.5 NTD
+            """)
+    # 提示詞設定
+    with st.expander("提示詞設定（選填）", expanded=False):
+        context_prompt = st.text_area(
+            "請輸入相關提示詞",
+            placeholder="例如：\n- 這是一段醫學演講\n- 包含專有名詞：糖尿病、胰島素\n- 主要討論糖尿病的治療方法",
+            help="提供音訊內容的相關資訊，可以幫助 AI 更準確地理解和轉錄內容"
+        )
+    # 上傳檔案
+    uploaded_file = st.file_uploader("上傳音訊檔案", type=["mp3", "wav", "ogg", "m4a"])
+    if uploaded_file and st.button("處理音訊"):
+        if not openai_api_key:
+            st.error("請提供 OpenAI API 金鑰")
+            return
+        if transcription_service == "ElevenLabs" and not elevenlabs_api_key:
+            st.error("請提供 ElevenLabs API 金鑰")
+            return
+        try:
+            with st.spinner("處理中..."):
+                # 初始化變數
+                full_transcript = ""
+                # 檢查檔案大小
+                temp_path = f"temp_{uploaded_file.name}"
+                with open(temp_path, "wb") as f:
+                    f.write(uploaded_file.getbuffer())
+                if check_file_size(temp_path):
+                    # 檔案需要分割
+                    audio_segments = split_large_audio(temp_path)
+                    if not audio_segments:
+                        st.error("檔案分割失敗")
+                        return
+                    progress_bar = st.progress(0)
+                    for i, segment_path in enumerate(audio_segments):
+                        if transcription_service == "Whisper":
+                            result = transcribe_audio_whisper(
+                                segment_path,
+                                model_name=whisper_model,
+                                language=language_code,
+                                initial_prompt=context_prompt
+                            )
+                        else:
+                            result = transcribe_audio_elevenlabs(
+                                api_key=elevenlabs_api_key,
+                                file_path=segment_path,
+                                diarize=enable_diarization
+                            )
+                        if result:
+                            full_transcript += result["text"] + "\n"
+                        progress_bar.progress((i + 1) / len(audio_segments))
+                        os.remove(segment_path)
+                else:
+                    # 直接轉錄
+                    if transcription_service == "Whisper":
+                        result = transcribe_audio_whisper(
+                            temp_path,
+                            model_name=whisper_model,
+                            language=language_code,
+                            initial_prompt=context_prompt
+                        )
+                    else:
+                        result = transcribe_audio_elevenlabs(
+                            api_key=elevenlabs_api_key,
+                            file_path=temp_path,
+                            diarize=enable_diarization
+                        )
+                    if result:
+                        full_transcript = result["text"]
+                # 清理原始暫存檔
+                os.remove(temp_path)
+                # 處理轉錄結果
+                if full_transcript:
+                    st.subheader("原始轉錄文字")
+                    st.text_area("原始文字", full_transcript, height=200)
+                    # 優化文字
+                    refined = refine_transcript(
+                        raw_text=full_transcript,
+                        api_key=openai_api_key,
+                        model=model_choice,
+                        temperature=temperature,
+                        context=context_prompt
+                    )
+                    if refined:
+                        st.subheader("優化後的文字")
+                        st.text_area("修正後的文字", refined["corrected"], height=200)
+                        st.subheader("文字摘要")
+                        st.text_area("摘要", refined["summary"], height=200)
+                        # 更新 token 使用統計（包含兩次 API 呼叫的總和）
+                        current_usage = refined.get("usage", {})
+                        st.session_state.input_tokens = current_usage.get("total_input_tokens", 0)
+                        st.session_state.output_tokens = current_usage.get("total_output_tokens", 0)
+                        st.session_state.total_tokens = st.session_state.input_tokens + st.session_state.output_tokens
+                        # 顯示費用統計
+                        st.markdown("---")
+                        st.markdown("### 💰 費用統計")
+                        st.markdown("#### 總計")
+                        st.markdown(f"總 Tokens: **{st.session_state.total_tokens:,}**")
+                        # 計算費用
+                        total_cost_usd, total_cost_ntd, details = calculate_cost(
+                            st.session_state.input_tokens,
+                            st.session_state.output_tokens,
+                            model_choice,
+                            is_cached=False
+                        )
+                        st.markdown(f"總費用: **NT$ {total_cost_ntd:.2f}**")
+                        # 顯示詳細成本資訊
+                        display_cost_info(
+                            st.session_state.input_tokens,
+                            st.session_state.output_tokens,
+                            model_choice,
+                            is_cached=False
+                        )
+                    else:
+                        st.error("文字優化失敗")
+                else:
+                    st.error("轉錄失敗")
+        except Exception as e:
+            st.error(f"處理失敗：{str(e)}")
+            logger.error(f"處理失敗：{str(e)}")
+if __name__ == "__main__":
+    main()

packages.txt ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ ffmpeg
2	+ python3-pip

requirements.txt ADDED Viewed

	@@ -0,0 +1,17 @@

+# Core dependencies
+elevenlabs>=1.0.0
+openai>=1.0.0
+gradio>=4.19.2
+python-dotenv>=1.0.0
+requests>=2.31.0
+# Audio processing
+pydub>=0.25.1
+ffmpeg-python>=0.2.0
+openai-whisper>=20231117
+numpy>=1.24.0
+torch>=2.0.0
+# Networking and utilities
+urllib3>=2.0.0
+typing-extensions>=4.7.0

temp_podcast_testo_TRAVERSE.mp3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:22c280d919c168d9efe0fd7ece7a46b9b464f4e34926b938e2e044aef15cabda
+size 5816876

transcript_refiner.py ADDED Viewed

	@@ -0,0 +1,144 @@

+from openai import OpenAI
+from typing import Optional, Dict, Any
+import streamlit as st
+# 定義可用的 OpenAI 模型
+OPENAI_MODELS = {
+    "gpt-4o": "GPT-4o",
+    "gpt-4o-mini": "GPT-4o-mini",
+    "o1-mini": "o1-mini",
+    "o3-mini": "o3-mini"
+}
+def refine_transcript(
+    raw_text: str,
+    api_key: str,
+    model: str = "o3-mini",
+    temperature: float = 0.5,
+    context: Optional[str] = None
+) -> Optional[Dict[str, Any]]:
+    """
+    使用 OpenAI 優化轉錄文字
+    Args:
+        raw_text: 原始文字
+        api_key: OpenAI API 金鑰
+        model: 使用的模型名稱
+        temperature: 創意程度 (0.0-1.0)
+        context: 背景資訊
+    """
+    client = OpenAI(api_key=api_key)
+    try:
+        # 準備 API 參數
+        system_prompt = (
+            "你是一個專業的文字編輯，負責將文字轉換成正確的繁體中文並修正語法錯誤。"
+            "請保持原意，但確保輸出是優美的繁體中文。"
+        )
+        if context:
+            system_prompt += f"\n\n背景資訊：{context}"
+        params = {
+            "model": model,
+            "messages": [
+                {
+                    "role": "system",
+                    "content": system_prompt
+                },
+                {
+                    "role": "user",
+                    "content": f"請將以下文字轉換成繁體中文，並修正語法和標點符號：\n\n{raw_text}"
+                }
+            ]
+        }
+        # 只有 gpt-4o 和 gpt-4o-mini 支援 temperature
+        if model.startswith("gpt-4"):
+            params["temperature"] = temperature
+        # 第一步：修正並轉換為繁體中文
+        correction_response = client.chat.completions.create(**params)
+        corrected_text = correction_response.choices[0].message.content
+        # 第二步：結構化整理（使用相同的參數設定）
+        params["messages"] = [
+            {
+                "role": "system",
+                "content": (
+                    "你是一個專業的文字編輯，負責整理和結構化文字內容。"
+                    "請以繁體中文輸出，並確保格式清晰易讀。"
+                )
+            },
+            {
+                "role": "user",
+                "content": (
+                    "請幫我整理以下文字，並提供：\n"
+                    "1. 重點摘要\n"
+                    "2. 關鍵字列表\n"
+                    "3. 主要論點或重要資訊\n\n"
+                    f"{corrected_text}"
+                )
+            }
+        ]
+        summary_response = client.chat.completions.create(**params)
+        summary_text = summary_response.choices[0].message.content
+        # 計算總 token 使用量
+        total_input_tokens = (
+            correction_response.usage.prompt_tokens +
+            summary_response.usage.prompt_tokens
+        )
+        total_output_tokens = (
+            correction_response.usage.completion_tokens +
+            summary_response.usage.completion_tokens
+        )
+        return {
+            "corrected": corrected_text,
+            "summary": summary_text,
+            "usage": {
+                "total_input_tokens": total_input_tokens,
+                "total_output_tokens": total_output_tokens,
+                "model": model
+            }
+        }
+    except Exception as e:
+        print(f"文字優化失敗：{str(e)}")
+        return None
+def convert_to_traditional_chinese(
+    text: str,
+    api_key: str,
+    model: str = "o3-mini"
+) -> str:
+    """將文字轉換為繁體中文"""
+    client = OpenAI(api_key=api_key)
+    response = client.chat.completions.create(
+        model=model,
+        temperature=0.1,  # 使用較低的溫度以確保準確轉換
+        messages=[
+            {
+                "role": "system",
+                "content": "你是一個專業的繁簡轉換工具，請將輸入文字轉換成繁體中文，保持原意不變。"
+            },
+            {
+                "role": "user",
+                "content": text
+            }
+        ]
+    )
+    return response.choices[0].message.content
+# Example usage with elevenlabs_stt:
+# raw_transcript = transcribe_audio(...)['text']
+# refined = refine_transcript(
+#     raw_text=raw_transcript,
+#     api_key="OPENAI_API_KEY",
+#     temperature=0.5
+# )

utils.py ADDED Viewed

	@@ -0,0 +1,94 @@

+import os
+from typing import Tuple, List, Optional
+from pydub import AudioSegment
+import math
+import logging
+# 設定日誌
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+# 常數定義
+MAX_FILE_SIZE_MB = 25  # ElevenLabs 的檔案大小限制
+SEGMENT_LENGTH_MS = 300000  # 5 分鐘，單位為毫秒
+def check_file_constraints(file_path: str, diarize: bool = False) -> Tuple[bool, str]:
+    """檢查檔案限制條件"""
+    # 檔案大小限制 (25MB)
+    MAX_FILE_SIZE = 25 * 1024 * 1024
+    # 音訊長度限制（使用 diarize 時為 8 分鐘）
+    MAX_DURATION_DIARIZE = 8 * 60
+    try:
+        file_size = os.path.getsize(file_path)
+        if file_size > MAX_FILE_SIZE:
+            return False, f"檔案大小超過限制（最大 25MB）：目前 {file_size/1024/1024:.1f}MB"
+        # 如果需要的話，這裡可以加入音訊長度檢查
+        # 需要安裝 pydub: pip install pydub
+        if diarize:
+            try:
+                audio = AudioSegment.from_file(file_path)
+                duration_seconds = len(audio) / 1000
+                if duration_seconds > MAX_DURATION_DIARIZE:
+                    return False, (
+                        f"使用說話者辨識時，音訊長度不能超過 8 分鐘："
+                        f"目前 {duration_seconds/60:.1f} 分鐘"
+                    )
+            except ImportError:
+                pass  # 如果沒有安裝 pydub，就跳過長度檢查
+        return True, "檔案檢查通過"
+    except Exception as e:
+        return False, f"檔案檢查失敗：{str(e)}"
+def check_file_size(file_path: str, max_size_mb: int = MAX_FILE_SIZE_MB) -> bool:
+    """
+    檢查檔案大小是否超過限制
+    Args:
+        file_path: 檔案路徑
+        max_size_mb: 最大檔案大小（MB）
+    Returns:
+        如果檔案大小超過限制則返回 True
+    """
+    file_size_mb = os.path.getsize(file_path) / (1024 * 1024)
+    return file_size_mb > max_size_mb
+def split_large_audio(file_path: str) -> Optional[List[str]]:
+    """
+    將大型音訊檔案分割成較小的片段
+    Args:
+        file_path: 音訊檔案路徑
+    Returns:
+        分割後的檔案路徑列表，如果失敗則返回 None
+    """
+    try:
+        # 載入音訊檔案
+        audio = AudioSegment.from_file(file_path)
+        # 如果檔案小於限制，直接返回原始檔案路徑
+        if not check_file_size(file_path):
+            return [file_path]
+        # 分割音訊
+        segments = []
+        for i, start in enumerate(range(0, len(audio), SEGMENT_LENGTH_MS)):
+            end = start + SEGMENT_LENGTH_MS
+            segment = audio[start:end]
+            # 儲存分割片段
+            segment_path = f"temp_segment_{i}.mp3"
+            segment.export(segment_path, format="mp3")
+            segments.append(segment_path)
+            logger.info(f"已建立分割片段：{segment_path}")
+        return segments
+    except Exception as e:
+        logger.error(f"分割音訊失敗：{str(e)}")
+        return None

whisper_stt.py ADDED Viewed

	@@ -0,0 +1,84 @@

+import whisper
+import logging
+from typing import Optional, Dict, Any
+import torch
+# 設定日誌
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+def transcribe_audio_whisper(
+    file_path: str,
+    model_name: str = "base",
+    language: Optional[str] = None,
+    initial_prompt: Optional[str] = None,
+    task: str = "transcribe"
+) -> Optional[Dict[str, Any]]:
+    """
+    使用 Whisper 模型進行音訊轉文字
+    Args:
+        file_path: 音訊檔案路徑
+        model_name: Whisper 模型名稱 ("tiny", "base", "small", "medium", "large")
+        language: 音訊語言（ISO 639-1 代碼，如 "zh" 表示中文）
+        initial_prompt: 初始提示詞
+        task: 任務類型 ("transcribe" 或 "translate")
+    Returns:
+        包含轉錄結果的字典，如果失敗則返回 None
+    """
+    try:
+        # 檢查 CUDA 是否可用
+        device = "cuda" if torch.cuda.is_available() else "cpu"
+        logger.info(f"使用設備: {device}")
+        # 載入模型
+        logger.info(f"載入 Whisper {model_name} 模型...")
+        model = whisper.load_model(model_name, device=device)
+        # 轉錄選項
+        options = {
+            "task": task,
+            "verbose": True
+        }
+        if language:
+            options["language"] = language
+        if initial_prompt:
+            options["initial_prompt"] = initial_prompt
+        # 執行轉錄
+        logger.info("開始轉錄...")
+        result = model.transcribe(file_path, **options)
+        # 整理結果
+        response = {
+            "text": result["text"],
+            "language": result.get("language", "unknown"),
+            "segments": result.get("segments", [])
+        }
+        logger.info("轉錄完成")
+        return response
+    except Exception as e:
+        logger.error(f"轉錄失敗：{str(e)}")
+        return None
+def get_available_models() -> list:
+    """
+    取得可用的 Whisper 模型列表
+    """
+    return ["tiny", "base", "small", "medium", "large"]
+def get_model_description(model_name: str) -> str:
+    """
+    取得模型描述
+    """
+    descriptions = {
+        "tiny": "最小的模型，速度最快但準確度較低",
+        "base": "基礎模型，平衡速度和準確度",
+        "small": "小型模型，準確度較好",
+        "medium": "中型模型，準確度高",
+        "large": "最大的模型，準確度最高但需要較多資源"
+    }
+    return descriptions.get(model_name, "未知模型")