Spaces:

tomo2chin2
/

PDF_SlideShow

Paused

App Files Files Community

tomo2chin2 commited on Oct 16, 2025

Commit

b4bfd35

verified ·

1 Parent(s): 4224207

Upload app.py

Browse files

Files changed (1) hide show

app.py +5 -406

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import gradio as gr
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, HttpUrl
-from typing import Optional, Union, List, Dict
 import requests
 import tempfile
 import os
@@ -16,7 +16,6 @@ import numpy as np
 from datetime import datetime
 import uuid
 from pathlib import Path
-from concurrent.futures import ThreadPoolExecutor, as_completed
 # 画像・動画処理ライブラリ
 from pdf2image import convert_from_path
@@ -31,11 +30,6 @@ from huggingface_hub import HfApi, login
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-MAX_EDUCATION_TTS_WORKERS = max(
-    1,
-    int(os.getenv("EDUCATION_TTS_MAX_WORKERS", "3")),
-)
 # ==============================
 # リクエスト/レスポンスモデル
 # ==============================
@@ -80,29 +74,6 @@ class AudioVideoResponse(BaseModel):
     total_slides: Optional[int] = None
     video_duration: Optional[float] = None
-# ==============================
-# 賢杉賢太郎連携バージョン - 追加モデル
-# ==============================
-class EducationNotesItem(BaseModel):
-    """賢杉賢太郎: notes配列要素"""
-    slide_index: Optional[int] = None
-    text: str
-    speaking_rate: Optional[float] = 1.25
-    padding_seconds: Optional[float] = None
-class EducationPlaybackPolicy(BaseModel):
-    """賢杉賢太郎: 再生ポリシー"""
-    match_audio_length: bool = True
-    fallback_seconds_per_slide: float = 6.0
-    padding_seconds: float = 0.6
-class EducationVideoRequest(BaseModel):
-    """賢杉賢太郎連携バージョン - notesをそのまま動画化"""
-    pdf_url: str
-    notes: Union[str, List[Union[str, Dict]]]
-    playback_policy: Optional[EducationPlaybackPolicy] = None
 # ==============================
 # URL前処理ユーティリティ
 # ==============================
@@ -286,68 +257,6 @@ def extract_audio_text_v2(slide: dict, slide_index: int, history: list) -> str:
         return ""
-def normalize_notes_payload(notes_payload: Union[str, List[Union[str, Dict]]]) -> List[dict]:
-    """
-    賢杉賢太郎用notesペイロードを正規化
-    Args:
-        notes_payload: list もしくは JSON文字列
-    Returns:
-        list[dict]: slide_index / text / speaking_rate / padding_seconds を含む辞書配列
-    """
-    import json
-    if isinstance(notes_payload, str):
-        try:
-            raw_notes = json.loads(notes_payload)
-        except json.JSONDecodeError as exc:
-            raise ValueError(f"notesのJSON解析に失敗しました: {exc}")
-    else:
-        raw_notes = notes_payload or []
-    normalized: List[dict] = []
-    for idx, item in enumerate(raw_notes):
-        if isinstance(item, dict):
-            slide_index = item.get("slide_index", idx)
-            text = str(item.get("text", "")).strip()
-            speaking_rate = item.get("speaking_rate", 1.25)
-            padding = item.get("padding_seconds")
-        else:
-            slide_index = idx
-            text = str(item).strip()
-            speaking_rate = 1.25
-            padding = None
-        try:
-            slide_index = int(slide_index)
-        except (TypeError, ValueError):
-            slide_index = idx
-        try:
-            speaking_rate = float(speaking_rate) if speaking_rate is not None else 1.0
-        except (TypeError, ValueError):
-            speaking_rate = 1.0
-        if speaking_rate <= 0:
-            speaking_rate = 1.0
-        if padding is not None:
-            try:
-                padding = float(padding)
-            except (TypeError, ValueError):
-                padding = None
-        normalized.append({
-            "slide_index": slide_index,
-            "text": text,
-            "speaking_rate": speaking_rate,
-            "padding_seconds": padding
-        })
-    return normalized
 def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarray:
     """
     PIL ImageをNumPy配列に変換し、指定サイズにリサイズ
@@ -375,28 +284,20 @@ def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarr
 # V2.0: Gemini TTS音声生成
 # ==============================
-def generate_audio_with_gemini(
-    audio_text: str,
-    gemini_token: str,
-    model: str = "gemini-2.5-pro-preview-tts",
-) -> bytes:
     """
     Gemini REST APIでテキストから音声を生成
     Args:
         audio_text: 読み上げるテキスト
         gemini_token: GEMINI_TOKEN環境変数
-        model: 利用するGemini TTSモデルID
     Returns:
         WAVバイナリデータ（24kHz PCM16）
     """
     import base64
-    url = (
-        "https://generativelanguage.googleapis.com/v1beta/models/"
-        f"{model}:generateContent?key={gemini_token}"
-    )
     headers = {
         "Content-Type": "application/json"
@@ -428,10 +329,10 @@ def generate_audio_with_gemini(
         }
     }
-    logger.info(f"Gemini TTS API呼び出し: {len(audio_text)}文字, model={model}")
     logger.info(f"Payload: {payload}")
-    response = requests.post(url, json=payload, headers=headers, timeout=120)
     # エラーレスポンスの詳細をログ出力
     if response.status_code != 200:
@@ -946,254 +847,6 @@ def create_video_with_audio_from_slides_v2(
             except Exception as e:
                 logger.warning(f"動画ファイル削除エラー: {e}")
-def create_video_with_notes(
-    pdf_url: str,
-    notes_payload: Union[str, List[Union[str, Dict]]],
-    gemini_token: str,
-    playback_policy: Optional[dict] = None,
-    progress_callback=None
-) -> tuple:
-    """
-    賢杉賢太郎連携バージョン:
-    notesフィールド（スピーカーノート）から音声付き動画を生成する。
-    Args:
-        pdf_url: GASが生成したPDFのURL
-        notes_payload: notes配列（list or JSON string）
-        gemini_token: Gemini TTS用トークン
-        playback_policy: 再生ポリシー辞書
-        progress_callback: Gradio用進捗更新
-    Returns:
-        tuple: (video_url, page2_image_url, audio_info_list, total_slides, total_duration)
-    """
-    pdf_path = None
-    audio_files: List[str] = []
-    video_path = None
-    page2_image_path = None
-    clips = []
-    audio_info_list = []
-    total_duration = 0.0
-    policy = playback_policy or {}
-    match_audio = bool(policy.get("match_audio_length", True))
-    fallback_seconds = policy.get("fallback_seconds_per_slide", 6.0)
-    if fallback_seconds is None or fallback_seconds <= 0:
-        fallback_seconds = 6.0
-    padding_default = policy.get("padding_seconds", 0.6)
-    if padding_default is None or padding_default < 0:
-        padding_default = 0.6
-    try:
-        normalized_notes = normalize_notes_payload(notes_payload)
-        notes_map = {entry["slide_index"]: entry for entry in normalized_notes}
-        if progress_callback:
-            progress_callback(0.05, desc="PDFダウンロード中...")
-        pdf_path = download_pdf_from_url(sanitize_url(pdf_url))
-        if progress_callback:
-            progress_callback(0.1, desc="PDF→画像変換中...")
-        images = convert_pdf_to_images(pdf_path, dpi=150)
-        total_slides = len(images)
-        if total_slides == 0:
-            raise Exception("PDFにページが含まれていません")
-        note_entries: List[Dict] = []
-        text_map: Dict[int, str] = {}
-        tts_results: Dict[int, Optional[bytes]] = {}
-        for idx in range(total_slides):
-            note_entry = notes_map.get(idx, {
-                "slide_index": idx,
-                "text": "",
-                "speaking_rate": 1.0,
-                "padding_seconds": None
-            })
-            note_entries.append(note_entry)
-            text = str(note_entry.get("text", "")).strip()
-            text_map[idx] = text
-        total_audio_jobs = sum(1 for text in text_map.values() if text)
-        if progress_callback:
-            progress_callback(0.1, desc="音声生成ジョブ準備中...")
-        if total_audio_jobs > 0:
-            max_workers = min(MAX_EDUCATION_TTS_WORKERS, total_audio_jobs)
-            futures = {}
-            completed_jobs = 0
-            with ThreadPoolExecutor(max_workers=max_workers) as executor:
-                for idx, text in text_map.items():
-                    if not text:
-                        tts_results[idx] = None
-                        continue
-                    futures[executor.submit(
-                        generate_audio_with_gemini,
-                        text,
-                        gemini_token,
-                        model="gemini-2.5-flash-preview-tts",
-                    )] = idx
-                for future in as_completed(futures):
-                    idx = futures[future]
-                    try:
-                        wav_bytes = future.result()
-                    except Exception as exc:
-                        logger.error(f"Gemini TTS生成失敗 (slide={idx}): {exc}")
-                        raise
-                    tts_results[idx] = wav_bytes
-                    completed_jobs += 1
-                    if progress_callback:
-                        progress = 0.1 + (completed_jobs / total_audio_jobs) * 0.4
-                        progress_callback(
-                            min(progress, 0.5),
-                            desc=f"音声生成中 ({completed_jobs}/{total_audio_jobs})"
-                        )
-        else:
-            if progress_callback:
-                progress_callback(0.5, desc="音声生成スキップ（テキストなし）")
-        for idx, pil_image in enumerate(images):
-            note_entry = note_entries[idx]
-            text = text_map[idx]
-            speaking_rate = note_entry.get("speaking_rate", 1.25) or 1.0
-            if speaking_rate <= 0:
-                speaking_rate = 1.0
-            padding_seconds = note_entry.get("padding_seconds")
-            if padding_seconds is None or padding_seconds < 0:
-                padding_seconds = padding_default
-            audio_duration = 0.0
-            slide_duration = fallback_seconds
-            audio_url = None
-            audio_path = None
-            if text:
-                wav_bytes = tts_results.get(idx)
-                if wav_bytes is None:
-                    raise RuntimeError(f"TTS音声が取得できませんでした (slide_index={idx})")
-                if speaking_rate and abs(speaking_rate - 1.0) > 0.01:
-                    wav_bytes = speed_up_audio(wav_bytes, speed_factor=speaking_rate)
-                audio_duration = get_audio_duration(wav_bytes)
-                if match_audio:
-                    slide_duration = max(audio_duration + padding_seconds, fallback_seconds)
-                else:
-                    slide_duration = fallback_seconds
-                with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_audio:
-                    tmp_audio.write(wav_bytes)
-                    audio_path = tmp_audio.name
-                    audio_files.append(audio_path)
-                audio_url = save_audio_to_hf(wav_bytes, prefix=f"education_slide_{idx:02d}")
-            else:
-                slide_duration = fallback_seconds
-            if progress_callback and total_slides:
-                progress = 0.5 + ((idx + 1) / total_slides) * 0.2
-                progress_callback(
-                    min(progress, 0.7),
-                    desc=f"動画クリップ生成中 ({idx + 1}/{total_slides})"
-                )
-            img_array = convert_pil_to_array(pil_image, target_size=(1280, 720))
-            img_clip = ImageClip(img_array, duration=slide_duration)
-            if audio_path:
-                audio_clip = AudioFileClip(audio_path)
-                img_clip = img_clip.set_audio(audio_clip)
-            clips.append(img_clip)
-            audio_info_list.append({
-                "slide_index": idx,
-                "slide_type": "notes",
-                "audio_url": audio_url,
-                "duration": audio_duration,
-                "text": text,
-                "speaking_rate": speaking_rate,
-                "playback_duration": slide_duration
-            })
-            total_duration += slide_duration
-        if not clips:
-            raise Exception("動画クリップが生成されませんでした（notesに有効なテキストがありません）")
-        if progress_callback:
-            progress_callback(0.7, desc="動画をレンダリング中...")
-        final_video = concatenate_videoclips(clips, method="compose")
-        tmp_video = tempfile.NamedTemporaryFile(suffix=".mp4", delete=False)
-        video_path = tmp_video.name
-        tmp_video.close()
-        final_video.write_videofile(
-            video_path,
-            fps=24,
-            codec="libx264",
-            audio_codec="aac",
-            temp_audiofile=os.path.join(tempfile.gettempdir(), f"temp_audio_{uuid.uuid4().hex}.m4a"),
-            remove_temp=True,
-            verbose=False,
-            logger=None
-        )
-        final_video.close()
-        for clip in clips:
-            clip.close()
-        if progress_callback:
-            progress_callback(0.85, desc="動画をアップロード中...")
-        video_url = video_uploader.upload_video(video_path, prefix="education_video")
-        page2_image_url = None
-        if total_slides >= 2:
-            with tempfile.NamedTemporaryFile(suffix=".jpg", delete=False) as tmp_img:
-                page2_image_path = tmp_img.name
-                images[1].save(page2_image_path, format="JPEG", quality=90)
-            page2_image_url = video_uploader.upload_image(page2_image_path, prefix="education_page2")
-        if progress_callback:
-            progress_callback(1.0, desc="完了！")
-        return (video_url, page2_image_url, audio_info_list, total_slides, total_duration)
-    finally:
-        for audio_file in audio_files:
-            if os.path.exists(audio_file):
-                try:
-                    os.remove(audio_file)
-                except Exception as e:
-                    logger.warning(f"音声ファイル削除エラー: {e}")
-        if video_path and os.path.exists(video_path):
-            try:
-                os.remove(video_path)
-            except Exception as e:
-                logger.warning(f"動画ファイル削除エラー: {e}")
-        if page2_image_path and os.path.exists(page2_image_path):
-            try:
-                os.remove(page2_image_path)
-            except Exception as e:
-                logger.warning(f"画像ファイル削除エラー: {e}")
-        if pdf_path and os.path.exists(pdf_path):
-            try:
-                os.remove(pdf_path)
-            except Exception as e:
-                logger.warning(f"PDFファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
@@ -1616,60 +1269,6 @@ async def slidedata_to_video(request: SlideDataToVideoRequest):
             detail=f"動画生成に失敗しました: {str(e)}"
         )
-@app.post(
-    "/api/education/notes-to-video",
-    response_model=AudioVideoResponse,
-    tags=["Video Generation", "Education"],
-    summary="賢杉賢太郎: notes配列から音声付き動画を生成",
-    description="賢杉賢太郎連携バージョン。GASが返すPDF URLとnotes配列を渡すと、音声付き動画を生成してアップロードします。"
-)
-async def education_notes_to_video(request: EducationVideoRequest):
-    """賢杉賢太郎連携バージョン: notesフィールドを活用した動画生成エンドポイント"""
-    gemini_token = os.environ.get("GEMINI_TOKEN")
-    if not gemini_token:
-        raise HTTPException(
-            status_code=500,
-            detail="GEMINI_TOKEN環境変数が設定されていません"
-        )
-    try:
-        logger.info("賢杉賢太郎向けAPIリクエスト受信")
-        playback_policy = request.playback_policy.dict() if request.playback_policy else {}
-        (
-            video_url,
-            page2_image_url,
-            audio_info_list,
-            total_slides,
-            total_duration
-        ) = create_video_with_notes(
-            pdf_url=request.pdf_url,
-            notes_payload=request.notes,
-            gemini_token=gemini_token,
-            playback_policy=playback_policy
-        )
-        logger.info(f"賢杉賢太郎向け動画生成完了: {video_url}")
-        return AudioVideoResponse(
-            status="success",
-            video_url=video_url,
-            page2_image_url=page2_image_url,
-            audio_urls=audio_info_list,
-            message="賢杉賢太郎用の音声付き動画の生成とアップロードに成功しました",
-            total_slides=total_slides,
-            video_duration=total_duration
-        )
-    except HTTPException:
-        raise
-    except Exception as e:
-        logger.error(f"賢杉賢太郎向け動画生成エラー: {e}", exc_info=True)
-        raise HTTPException(
-            status_code=500,
-            detail=f"賢杉賢太郎向け動画生成に失敗しました: {str(e)}"
-        )
 @app.get("/health")
 async def health_check():
     """ヘルスチェックエンドポイント"""

 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, HttpUrl
+from typing import Optional, Union
 import requests
 import tempfile
 import os
 from datetime import datetime
 import uuid
 from pathlib import Path
 # 画像・動画処理ライブラリ
 from pdf2image import convert_from_path
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 # ==============================
 # リクエスト/レスポンスモデル
 # ==============================
     total_slides: Optional[int] = None
     video_duration: Optional[float] = None
 # ==============================
 # URL前処理ユーティリティ
 # ==============================
         return ""
 def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarray:
     """
     PIL ImageをNumPy配列に変換し、指定サイズにリサイズ
 # V2.0: Gemini TTS音声生成
 # ==============================
+def generate_audio_with_gemini(audio_text: str, gemini_token: str) -> bytes:
     """
     Gemini REST APIでテキストから音声を生成
     Args:
         audio_text: 読み上げるテキスト
         gemini_token: GEMINI_TOKEN環境変数
     Returns:
         WAVバイナリデータ（24kHz PCM16）
     """
     import base64
+    url = f"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-pro-preview-tts:generateContent?key={gemini_token}"
     headers = {
         "Content-Type": "application/json"
         }
     }
+    logger.info(f"Gemini TTS API呼び出し: {len(audio_text)}文字")
     logger.info(f"Payload: {payload}")
+    response = requests.post(url, json=payload, headers=headers, timeout=60)
     # エラーレスポンスの詳細をログ出力
     if response.status_code != 200:
             except Exception as e:
                 logger.warning(f"動画ファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
             detail=f"動画生成に失敗しました: {str(e)}"
         )
 @app.get("/health")
 async def health_check():
     """ヘルスチェックエンドポイント"""