Spaces:

tomo2chin2
/

PDF_SlideShow

Paused

App Files Files Community

tomo2chin2 commited on Oct 8, 2025

Commit

565c2ee

verified ·

1 Parent(s): f42c406

Upload app.py

Browse files

Files changed (1) hide show

app.py +486 -0

app.py CHANGED Viewed

@@ -48,6 +48,29 @@ class VideoResponse(BaseModel):
     total_pages: Optional[int] = None
     video_duration: Optional[float] = None  # 秒
 # ==============================
 # URL前処理ユーティリティ
 # ==============================
@@ -79,6 +102,420 @@ def sanitize_url(url: str) -> str:
     logger.info(f"URL sanitized: {url} → {cleaned_url}")
     return cleaned_url
 # ==============================
 # コア機能実装
 # ==============================
@@ -447,6 +884,55 @@ async def pdf_to_video(request: PdfToVideoRequest):
             except Exception as e:
                 logger.warning(f"画像ファイル削除エラー: {e}")
 @app.get("/health")
 async def health_check():
     """ヘルスチェックエンドポイント"""

     total_pages: Optional[int] = None
     video_duration: Optional[float] = None  # 秒
+# V2.0: スライドデータ→音声付き動画変換モデル
+class SlideDataToVideoRequest(BaseModel):
+    """スライドデータ→音声付き動画変換リクエスト"""
+    slide_data: list  # スライドデータJSON配列
+class AudioInfo(BaseModel):
+    """音声情報"""
+    slide_index: int
+    slide_type: str
+    audio_url: str
+    duration: float
+    text: str
+class AudioVideoResponse(BaseModel):
+    """音声付き動画生成レスポンス"""
+    status: str
+    video_url: Optional[str] = None
+    page2_image_url: Optional[str] = None
+    audio_urls: list = []  # list[AudioInfo]として使用
+    message: str
+    total_slides: Optional[int] = None
+    video_duration: Optional[float] = None
 # ==============================
 # URL前処理ユーティリティ
 # ==============================
     logger.info(f"URL sanitized: {url} → {cleaned_url}")
     return cleaned_url
+# ==============================
+# V2.0: スライドデータ処理関数
+# ==============================
+def clean_mnemonic(text: str) -> str:
+    """
+    語呂合わせから（数字）パターンを除去
+    Args:
+        text: 語呂合わせテキスト（例: "いい国つくろう鎌倉幕府（1192）"）
+    Returns:
+        str: 数字を除去したテキスト（例: "いい国つくろう鎌倉幕府"）
+    """
+    import re
+    cleaned = re.sub(r'（\d+）', '', text)
+    return cleaned
+def determine_slide_type(slide: dict) -> str:
+    """
+    スライド種別を判定
+    Args:
+        slide: スライドデータ辞書
+    Returns:
+        str: "title" | "imageText_image_only" | "imageText_with_text" | "closing"
+    """
+    slide_type = slide.get("type", "")
+    if slide_type == "title":
+        return "title"
+    elif slide_type == "closing":
+        return "closing"
+    elif slide_type == "imageText":
+        points = slide.get("points", [])
+        if not points or len(points) == 0:
+            return "imageText_image_only"
+        else:
+            return "imageText_with_text"
+    else:
+        return "unknown"
+def extract_audio_text(slide: dict) -> str:
+    """
+    スライドから音声テキストを抽出
+    Args:
+        slide: スライドデータ辞書
+    Returns:
+        str: 読み上げるテキスト
+    """
+    slide_type = determine_slide_type(slide)
+    if slide_type == "title":
+        # タイトルスライド: titleフィールドをそのまま
+        return slide.get("title", "")
+    elif slide_type == "imageText_image_only":
+        # 画像のみスライド: 年号 + 語呂合わせ（数字除去）× 2回
+        subhead = slide.get("subhead", "")
+        if "：" in subhead:
+            year = subhead.split("：")[0]
+            mnemonic = subhead.split("：")[1]
+        else:
+            year = ""
+            mnemonic = subhead
+        # （数字）パターンを除去
+        mnemonic_clean = clean_mnemonic(mnemonic)
+        # 2回繰り返し
+        audio_text = f"{year}年、{mnemonic_clean}。{year}年、{mnemonic_clean}。"
+        return audio_text
+    elif slide_type == "imageText_with_text":
+        # 画像+テキストスライド: pointsを結合（1回のみ）
+        points = slide.get("points", [])
+        # 各pointの末尾の句点を除去してから結合
+        cleaned_points = [p.rstrip("。") for p in points]
+        summary = "。".join(cleaned_points)
+        # 最後に句点を追加
+        if summary and not summary.endswith("。"):
+            summary += "。"
+        return summary
+    elif slide_type == "closing":
+        # クロージングスライド: notesフィールドまたはデフォルトメッセージ
+        return slide.get("notes", "本日の学習は以上です。復習を忘れずに。")
+    else:
+        return ""
+# ==============================
+# V2.0: Gemini TTS音声生成
+# ==============================
+def generate_audio_with_gemini(audio_text: str, gemini_token: str) -> bytes:
+    """
+    Gemini REST APIでテキストから音声を生成
+    Args:
+        audio_text: 読み上げるテキスト
+        gemini_token: GEMINI_TOKEN環境変数
+    Returns:
+        WAVバイナリデータ（24kHz PCM16）
+    """
+    import base64
+    # システムインストラクション
+    SYSTEM_INSTRUCTION = """あなたは歴史学習用の音声ナレーターです。
+以下のルールに従って読み上げてください：
+1. 正しい日本語の読みを意識する
+2. できるだけ早く、短時間で読み上げる
+3. 明瞭でハキハキとした発音
+4. 数字は「年号」として自然に読む
+5. 語呂合わせは楽しく、リズミカルに読む
+6. 歴史用語は正確な読み方で発音する
+"""
+    url = f"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.0-flash-exp:generateContent?key={gemini_token}"
+    headers = {
+        "Content-Type": "application/json"
+    }
+    payload = {
+        "contents": [
+            {
+                "parts": [
+                    {
+                        "text": f"{SYSTEM_INSTRUCTION}\n\n{audio_text}"
+                    }
+                ]
+            }
+        ],
+        "generationConfig": {
+            "response_modalities": ["AUDIO"],
+            "speech_config": {
+                "voice_config": {
+                    "prebuilt_voice_config": {
+                        "voice_name": "Sharon"
+                    }
+                }
+            }
+        }
+    }
+    logger.info(f"Gemini TTS API呼び出し: {len(audio_text)}文字")
+    response = requests.post(url, json=payload, headers=headers, timeout=60)
+    response.raise_for_status()
+    # レスポンスからaudioデータを取得（base64デコード）
+    response_data = response.json()
+    audio_data_b64 = response_data["candidates"][0]["content"]["parts"][0]["inlineData"]["data"]
+    pcm_bytes = base64.b64decode(audio_data_b64)
+    logger.info(f"音声データ取得完了: {len(pcm_bytes)} bytes (PCM)")
+    # PCM16をWAVファイルに変換
+    wav_bytes = convert_pcm_to_wav(pcm_bytes, sample_rate=24000, channels=1, sample_width=2)
+    logger.info(f"WAV変換完了: {len(wav_bytes)} bytes")
+    return wav_bytes
+def convert_pcm_to_wav(pcm_bytes: bytes, sample_rate: int, channels: int, sample_width: int) -> bytes:
+    """
+    PCMバイナリをWAV形式に変換
+    Args:
+        pcm_bytes: PCMバイナリデータ
+        sample_rate: サンプルレート（Hz）
+        channels: チャンネル数（1=モノラル、2=ステレオ）
+        sample_width: サンプル幅（バイト、2=16bit）
+    Returns:
+        WAVバイナリデータ
+    """
+    import wave
+    import io
+    wav_buffer = io.BytesIO()
+    with wave.open(wav_buffer, 'wb') as wav_file:
+        wav_file.setnchannels(channels)
+        wav_file.setsampwidth(sample_width)
+        wav_file.setframerate(sample_rate)
+        wav_file.writeframes(pcm_bytes)
+    wav_buffer.seek(0)
+    return wav_buffer.read()
+def get_audio_duration(wav_bytes: bytes) -> float:
+    """
+    WAVバイナリから音声の長さ（秒）を取得
+    Args:
+        wav_bytes: WAVバイナリデータ
+    Returns:
+        float: 音声の長さ（秒）
+    """
+    import wave
+    import io
+    wav_buffer = io.BytesIO(wav_bytes)
+    with wave.open(wav_buffer, 'rb') as wav_file:
+        frames = wav_file.getnframes()
+        rate = wav_file.getframerate()
+        duration = frames / float(rate)
+    return duration
+def save_audio_to_hf(wav_bytes: bytes, prefix: str = "slide_audio") -> str:
+    """
+    音声WAVファイルをHugging Faceデータセットにアップロード
+    Args:
+        wav_bytes: WAVバイナリデータ
+        prefix: ファイル名のプレフィックス
+    Returns:
+        str: アップロードされた音声ファイルのURL
+    """
+    # 一時ファイルに保存
+    with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_file:
+        tmp_file.write(wav_bytes)
+        tmp_path = tmp_file.name
+    try:
+        # HFアップロード
+        timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+        unique_id = str(uuid.uuid4())[:8]
+        filename = f"{prefix}_{timestamp}_{unique_id}.wav"
+        path_in_repo = f"audios/{filename}"
+        logger.info(f"音声アップロード開始: {path_in_repo}")
+        video_uploader.api.upload_file(
+            path_or_fileobj=tmp_path,
+            path_in_repo=path_in_repo,
+            repo_id=video_uploader.repo_id,
+            repo_type="dataset"
+        )
+        audio_url = f"https://huggingface.co/datasets/{video_uploader.repo_id}/resolve/main/{path_in_repo}"
+        logger.info(f"音声アップロード完了: {audio_url}")
+        return audio_url
+    finally:
+        # 一時ファイル削除
+        if os.path.exists(tmp_path):
+            os.remove(tmp_path)
+# ==============================
+# V2.0: 音声付き動画生成
+# ==============================
+def create_video_with_audio_from_slides(
+    slide_data: list,
+    gemini_token: str,
+    progress_callback=None
+) -> tuple:
+    """
+    スライドデータから音声付き動画を生成
+    Args:
+        slide_data: スライドデータJSON配列
+        gemini_token: GEMINI_TOKEN環境変数
+        progress_callback: 進捗コールバック関数（Gradio用）
+    Returns:
+        tuple: (video_url, page2_image_url, audio_info_list)
+    """
+    from moviepy.editor import ImageClip, AudioFileClip, concatenate_videoclips
+    audio_files = []  # 一時ファイル管理
+    clips = []
+    audio_info_list = []
+    video_path = None
+    try:
+        total_slides = len(slide_data)
+        # 各スライドの音声生成と動画クリップ作成
+        for idx, slide in enumerate(slide_data):
+            if progress_callback:
+                progress_callback((idx / total_slides) * 0.6, desc=f"音声生成中 ({idx+1}/{total_slides})")
+            logger.info(f"スライド {idx+1}/{total_slides} 処理中...")
+            # 音声テキスト抽出
+            audio_text = extract_audio_text(slide)
+            if not audio_text:
+                logger.warning(f"スライド {idx+1}: 音声テキストが空です")
+                continue
+            # 音声生成
+            wav_bytes = generate_audio_with_gemini(audio_text, gemini_token)
+            # 音声長さ測定
+            audio_duration = get_audio_duration(wav_bytes)
+            # スライド再生時間計算（音声 + 2秒余白）
+            slide_duration = audio_duration + 2.0
+            # 音声を一時ファイルに保存
+            with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_audio:
+                tmp_audio.write(wav_bytes)
+                audio_path = tmp_audio.name
+                audio_files.append(audio_path)
+            # HFアップロード
+            slide_type = determine_slide_type(slide)
+            audio_url = save_audio_to_hf(wav_bytes, prefix=f"slide_{idx:02d}_{slide_type}")
+            # 音声情報記録
+            audio_info_list.append({
+                "slide_index": idx,
+                "slide_type": slide_type,
+                "audio_url": audio_url,
+                "duration": audio_duration,
+                "text": audio_text
+            })
+            # 画像クリップ作成（仮の黒画像、実際はスライド画像を使用）
+            # TODO: スライド画像生成または取得
+            img_array = np.zeros((720, 1280, 3), dtype=np.uint8)  # 仮の黒画像（720p）
+            # moviepyクリップ作成
+            img_clip = ImageClip(img_array, duration=slide_duration)
+            audio_clip = AudioFileClip(audio_path)
+            # 音声を動画に設定
+            video_clip = img_clip.set_audio(audio_clip)
+            clips.append(video_clip)
+            logger.info(f"スライド {idx+1}: 音声{audio_duration:.2f}秒, 再生時間{slide_duration:.2f}秒")
+        if not clips:
+            raise Exception("動画クリップが生成されませんでした")
+        if progress_callback:
+            progress_callback(0.7, desc="動画を結合中...")
+        # 全クリップを連結
+        final_video = concatenate_videoclips(clips, method="compose")
+        # 一時動画ファイルに出力
+        with tempfile.NamedTemporaryFile(suffix=".mp4", delete=False) as tmp_video:
+            video_path = tmp_video.name
+        if progress_callback:
+            progress_callback(0.8, desc="動画をエンコード中...")
+        # 動画エンコード
+        final_video.write_videofile(
+            video_path,
+            fps=30,
+            codec='libx264',
+            audio_codec='aac',
+            logger=None  # moviepyのログを抑制
+        )
+        # クリップをクローズ
+        final_video.close()
+        for clip in clips:
+            clip.close()
+        if progress_callback:
+            progress_callback(0.9, desc="動画をアップロード中...")
+        # HFアップロード
+        video_url = video_uploader.upload_video(video_path, prefix="slidedata_video")
+        # 2ページ目画像抽出・アップロード（TODO: 実装）
+        page2_image_url = None
+        if progress_callback:
+            progress_callback(1.0, desc="完了！")
+        logger.info(f"動画生成完了: {video_url}")
+        return (video_url, page2_image_url, audio_info_list)
+    finally:
+        # 一時ファイルクリーンアップ
+        for audio_file in audio_files:
+            if os.path.exists(audio_file):
+                try:
+                    os.remove(audio_file)
+                except Exception as e:
+                    logger.warning(f"音声ファイル削除エラー: {e}")
+        if video_path and os.path.exists(video_path):
+            try:
+                os.remove(video_path)
+            except Exception as e:
+                logger.warning(f"動画ファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
             except Exception as e:
                 logger.warning(f"画像ファイル削除エラー: {e}")
+@app.post(
+    "/api/slidedata-to-video",
+    response_model=AudioVideoResponse,
+    tags=["Video Generation"],
+    summary="スライドデータから音声付き動画を生成",
+    description="スライドデータJSONから音声を生成し、音声付き動画を作成します。"
+)
+async def slidedata_to_video(request: SlideDataToVideoRequest):
+    """スライドデータ→音声付き動画変換API��ンドポイント"""
+    # GEMINI_TOKEN取得
+    gemini_token = os.environ.get("GEMINI_TOKEN")
+    if not gemini_token:
+        raise HTTPException(
+            status_code=500,
+            detail="GEMINI_TOKEN環境変数が設定されていません"
+        )
+    try:
+        logger.info(f"API リクエスト受信: {len(request.slide_data)}スライド")
+        # 動画生成
+        video_url, page2_image_url, audio_info_list = create_video_with_audio_from_slides(
+            slide_data=request.slide_data,
+            gemini_token=gemini_token
+        )
+        # 総再生時間計算
+        total_duration = sum([info["duration"] + 2.0 for info in audio_info_list])
+        logger.info(f"処理完了: 動画={video_url}")
+        return AudioVideoResponse(
+            status="success",
+            video_url=video_url,
+            page2_image_url=page2_image_url,
+            audio_urls=audio_info_list,
+            message="音声付き動画の生成とアップロードに成功しました",
+            total_slides=len(request.slide_data),
+            video_duration=total_duration
+        )
+    except Exception as e:
+        logger.error(f"エラー発生: {e}", exc_info=True)
+        raise HTTPException(
+            status_code=500,
+            detail=f"動画生成に失敗しました: {str(e)}"
+        )
 @app.get("/health")
 async def health_check():
     """ヘルスチェックエンドポイント"""