Spaces:

tomo2chin2
/

PDF_SlideShow

Paused

App Files Files Community

tomo2chin2 commited on Oct 10, 2025

Commit

a1563da

verified ·

1 Parent(s): f54af3d

Upload app.py

Browse files

Files changed (1) hide show

app.py +258 -7

app.py CHANGED Viewed

@@ -52,7 +52,9 @@ class VideoResponse(BaseModel):
 # V2.0: スライドデータ→音声付き動画変換モデル
 class SlideDataToVideoRequest(BaseModel):
     """スライドデータ→音声付き動画変換リクエスト"""
-    slide_data: list  # スライドデータJSON配列
 class AudioInfo(BaseModel):
     """音声情報"""
@@ -109,16 +111,17 @@ def sanitize_url(url: str) -> str:
 def clean_mnemonic(text: str) -> str:
     """
-    語呂合わせから（数字）パターンを除去
     Args:
-        text: 語呂合わせテキスト（例: "いい国つくろう鎌倉幕府（1192）"）
     Returns:
-        str: 数字を除去したテキスト（例: "いい国つくろう鎌倉幕府"）
     """
     import re
-    cleaned = re.sub(r'（\d+）', '', text)
     return cleaned
@@ -200,6 +203,69 @@ def extract_audio_text(slide: dict) -> str:
     else:
         return ""
 # ==============================
 # V2.0: Gemini TTS音声生成
 # ==============================
@@ -557,6 +623,189 @@ def create_video_with_audio_from_slides(
             except Exception as e:
                 logger.warning(f"動画ファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
@@ -946,9 +1195,11 @@ async def slidedata_to_video(request: SlideDataToVideoRequest):
     try:
         logger.info(f"API リクエスト受信: {len(request.slide_data)}スライド")
-        # 動画生成
-        video_url, page2_image_url, audio_info_list = create_video_with_audio_from_slides(
             slide_data=request.slide_data,
             gemini_token=gemini_token
         )

 # V2.0: スライドデータ→音声付き動画変換モデル
 class SlideDataToVideoRequest(BaseModel):
     """スライドデータ→音声付き動画変換リクエスト"""
+    slide_data: list   # 14枚のスライド構造
+    pdf_url: str       # GASが生成したPDF URL
+    history: list      # 6件の元イベント（年号・語呂合わせ・サマリー）
 class AudioInfo(BaseModel):
     """音声情報"""
 def clean_mnemonic(text: str) -> str:
     """
+    語呂合わせから（数字）または(数字)パターンを除去
     Args:
+        text: 語呂合わせテキスト（例: "いい国つくろう鎌倉幕府（1192）" または "兄(2)さん(3)ク(9)イーン"）
     Returns:
+        str: 数字を除去したテキスト（例: "いい国つくろう鎌倉幕府" または "兄さんクイーン"）
     """
     import re
+    # 全角・半角両対応
+    cleaned = re.sub(r'[（(]\d+[）)]', '', text)
     return cleaned
     else:
         return ""
+def extract_audio_text_v2(slide: dict, slide_index: int, history: list) -> str:
+    """
+    スライドインデックスとhistoryから音声テキストを抽出
+    Args:
+        slide: スライドデータ辞書
+        slide_index: 0-13のスライドインデックス
+        history: 6件の元イベントデータ（year/mnemonic/summary）
+    Returns:
+        str: 読み上げるテキスト
+    """
+    slide_type = determine_slide_type(slide)
+    if slide_type == "title":
+        return slide.get("title", "")
+    elif slide_type == "closing":
+        return slide.get("notes", "本日の学習は以上です。復習を忘れずに。")
+    elif slide_type == "imageText_image_only":
+        # slide_index 1, 3, 5, 7, 9, 11 → history[0, 1, 2, 3, 4, 5]
+        history_index = (slide_index - 1) // 2
+        event = history[history_index]
+        year = str(event.get("year", ""))
+        mnemonic = clean_mnemonic(str(event.get("mnemonic", "")))
+        return f"{year}年、{mnemonic}。{year}年、{mnemonic}。"
+    elif slide_type == "imageText_with_text":
+        # slide_index 2, 4, 6, 8, 10, 12 → history[0, 1, 2, 3, 4, 5]
+        history_index = (slide_index - 2) // 2
+        event = history[history_index]
+        summary = str(event.get("summary", ""))
+        return summary
+    else:
+        return ""
+def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarray:
+    """
+    PIL ImageをNumPy配列に変換し、指定サイズにリサイズ
+    Args:
+        pil_image: PIL Image
+        target_size: (width, height) - 例: (1280, 720)
+    Returns:
+        numpy array (RGB)
+    """
+    # アスペクト比を保ってリサイズ
+    pil_image = pil_image.resize(target_size, Image.Resampling.LANCZOS)
+    # RGB変換
+    if pil_image.mode != 'RGB':
+        pil_image = pil_image.convert('RGB')
+    # numpy array変換
+    img_array = np.array(pil_image)
+    return img_array
 # ==============================
 # V2.0: Gemini TTS音声生成
 # ==============================
             except Exception as e:
                 logger.warning(f"動画ファイル削除エラー: {e}")
+def create_video_with_audio_from_slides_v2(
+    slide_data: list,
+    pdf_url: str,
+    history: list,
+    gemini_token: str,
+    progress_callback=None
+) -> tuple:
+    """
+    PDF画像とslideData/historyから音声付き動画を生成（V2.0完全版）
+    Args:
+        slide_data: 14枚のスライドデータJSON配列
+        pdf_url: GASが生成したPDF URL
+        history: 6件の元イベントデータ（year/mnemonic/summary）
+        gemini_token: GEMINI_TOKEN環境変数
+        progress_callback: 進捗コールバック関数（Gradio用）
+    Returns:
+        tuple: (video_url, page2_image_url, audio_info_list)
+    """
+    pdf_path = None
+    audio_files = []
+    clips = []
+    audio_info_list = []
+    video_path = None
+    try:
+        # 1. PDFダウンロード
+        if progress_callback:
+            progress_callback(0.05, desc="PDFダウンロード中...")
+        pdf_path = download_pdf_from_url(sanitize_url(pdf_url))
+        # 2. PDF → 画像変換（14ページ → 14枚）
+        if progress_callback:
+            progress_callback(0.1, desc="PDF→画像変換中...")
+        images = convert_pdf_to_images(pdf_path, dpi=150)
+        # 画像枚数とスライドデータの整合性チェック
+        if len(images) != len(slide_data):
+            raise Exception(f"画像枚数とスライドデータが不一致: {len(images)}枚 vs {len(slide_data)}枚")
+        total_slides = len(slide_data)
+        logger.info(f"PDF変換完了: {total_slides}枚の画像を取得")
+        # 3. 各スライドの音声生成と動画クリップ作成
+        for idx, (slide, pil_image) in enumerate(zip(slide_data, images)):
+            if progress_callback:
+                progress_callback(0.1 + (idx / total_slides) * 0.5, desc=f"音声生成中 ({idx+1}/{total_slides})")
+            logger.info(f"スライド {idx+1}/{total_slides} 処理中...")
+            # 音声テキスト抽出（historyを使用）
+            audio_text = extract_audio_text_v2(slide, idx, history)
+            if not audio_text:
+                logger.warning(f"スライド {idx+1}: 音声テキストが空です")
+                continue
+            # 音声生成
+            wav_bytes = generate_audio_with_gemini(audio_text, gemini_token)
+            # 1.25倍速処理
+            wav_bytes = speed_up_audio(wav_bytes, speed_factor=1.25)
+            # 音声長さ測定（倍速処理後）
+            audio_duration = get_audio_duration(wav_bytes)
+            # スライド再生時間計算（音声 + 0.6秒余白）
+            slide_duration = audio_duration + 0.6
+            # 音声を一時ファイルに保存
+            with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_audio:
+                tmp_audio.write(wav_bytes)
+                audio_path = tmp_audio.name
+                audio_files.append(audio_path)
+            # HFアップロード
+            slide_type = determine_slide_type(slide)
+            audio_url = save_audio_to_hf(wav_bytes, prefix=f"slide_{idx:02d}_{slide_type}")
+            # 音声情報記録
+            audio_info_list.append({
+                "slide_index": idx,
+                "slide_type": slide_type,
+                "audio_url": audio_url,
+                "duration": audio_duration,
+                "text": audio_text
+            })
+            # PIL Image → NumPy配列（720p）
+            img_array = convert_pil_to_array(pil_image, target_size=(1280, 720))
+            # moviepyクリップ作成
+            img_clip = ImageClip(img_array, duration=slide_duration)
+            audio_clip = AudioFileClip(audio_path)
+            # 音声を動画に設定
+            video_clip = img_clip.set_audio(audio_clip)
+            clips.append(video_clip)
+            logger.info(f"スライド {idx+1}: 音声{audio_duration:.2f}秒, 再生時間{slide_duration:.2f}秒")
+        if not clips:
+            raise Exception("動画クリップが生成されませんでした")
+        if progress_callback:
+            progress_callback(0.7, desc="動画を結合中...")
+        # 4. 全クリップを連結
+        final_video = concatenate_videoclips(clips, method="compose")
+        # 一時動画ファイルに出力
+        with tempfile.NamedTemporaryFile(suffix=".mp4", delete=False) as tmp_video:
+            video_path = tmp_video.name
+        if progress_callback:
+            progress_callback(0.8, desc="動画をエンコード中...")
+        # 5. 動画エンコード
+        final_video.write_videofile(
+            video_path,
+            fps=30,
+            codec='libx264',
+            audio_codec='aac',
+            logger=None  # moviepyのログを抑制
+        )
+        # クリップをクローズ
+        final_video.close()
+        for clip in clips:
+            clip.close()
+        if progress_callback:
+            progress_callback(0.9, desc="動画をアップロード中...")
+        # 6. HFアップロード
+        video_url = video_uploader.upload_video(video_path, prefix="slidedata_video_v2")
+        # 7. 2ページ目画像アップロード
+        page2_image_url = None
+        if len(images) >= 2:
+            page2_image = images[1]
+            with tempfile.NamedTemporaryFile(suffix=".jpg", delete=False) as tmp_img:
+                page2_image_path = tmp_img.name
+                page2_image.save(page2_image_path, format='JPEG', quality=90)
+            page2_image_url = video_uploader.upload_image(page2_image_path, prefix="slidedata_page2")
+            # 一時ファイル削除
+            if os.path.exists(page2_image_path):
+                os.remove(page2_image_path)
+        if progress_callback:
+            progress_callback(1.0, desc="完了！")
+        logger.info(f"動画生成完了: {video_url}")
+        return (video_url, page2_image_url, audio_info_list)
+    finally:
+        # 一時ファイルクリーンアップ
+        if pdf_path and os.path.exists(pdf_path):
+            try:
+                os.remove(pdf_path)
+            except Exception as e:
+                logger.warning(f"PDFファイル削除エラー: {e}")
+        for audio_file in audio_files:
+            if os.path.exists(audio_file):
+                try:
+                    os.remove(audio_file)
+                except Exception as e:
+                    logger.warning(f"音声ファイル削除エラー: {e}")
+        if video_path and os.path.exists(video_path):
+            try:
+                os.remove(video_path)
+            except Exception as e:
+                logger.warning(f"動画ファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
     try:
         logger.info(f"API リクエスト受信: {len(request.slide_data)}スライド")
+        # 動画生成（V2.0完全版）
+        video_url, page2_image_url, audio_info_list = create_video_with_audio_from_slides_v2(
             slide_data=request.slide_data,
+            pdf_url=request.pdf_url,
+            history=request.history,
             gemini_token=gemini_token
         )