Spaces:

leave-everything
/

GOROMARU

Sleeping

App Files Files Community

leave-everything commited on Nov 18, 2025

Commit

acaad56

verified ·

1 Parent(s): fe45bce

Upload 6 files

Browse files

Files changed (3) hide show

README.md +141 -160
app.py +5 -406
実装ステップ.md +709 -0

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-title: 語呂羽丸五郎 - スライド音声動画生成
 emoji: 🎬
 colorFrom: blue
 colorTo: purple
@@ -9,109 +9,28 @@ app_file: app.py
 pinned: true
 ---
-# 🎬 語呂羽丸五郎 - スライド音声動画生成API
-歴史学習用スライドから音声付き動画を生成するAPIです。
 ## 🌟 機能
-### V2.0: スライドデータ → 音声付き動画（✅ 完成・2025-10-10）
-- **スライドデータJSON入力**: Difyワークフローから送信されるスライドデータを受信
-- **Gemini TTS音声生成**: Gemini 2.5 Flash TTS（Charon音声、1.25倍速）
-- **音声付き動画生成**: moviepyで音声と画像を同期した動画を生成
-- **HFアップロード**: 動画（videos/）と音声（audios/）を自動保存
-- **URL返却**: アクセス可能なURLを返却
-### V1.0: PDF → スライドショー動画（✅ 完成）
-- **PDF URL入力**: 指定URLからPDFをダウンロード
-- **PDF→画像変換**: pdf2imageで各ページを画像化
-- **スライドショー動画生成**: 各ページを指定秒数表示
-- **2ページ目画像保存**: Difyワークフロー用
-- **HFアップロード**: 動画と画像を自動保存
----
 ## 🔌 API仕様
-### V2.0: `POST /api/slidedata-to-video`
-#### リクエスト
-```json
-{
-  "slide_data": [
-    {
-      "type": "title",
-      "title": "語呂羽丸五郎の歴史学習",
-      "date": "2025.10.10"
-    },
-    {
-      "type": "imageText",
-      "title": "239年の出来事",
-      "subhead": "239年：ふみくれ卑弥呼に金印",
-      "image": "https://...",
-      "points": [],
-      "notes": "239年、ふみくれ卑弥呼に金印。239年、ふみくれ卑弥呼に金印。"
-    },
-    {
-      "type": "imageText",
-      "title": "239年の出来事",
-      "subhead": "239年：ふみくれ卑弥呼に金印",
-      "image": "https://...",
-      "points": ["邪馬台国の女王卑弥呼が魏に使いを送った。", "魏の皇帝から金印と銅鏡を授けられた。"],
-      "notes": "..."
-    },
-    {
-      "type": "closing",
-      "notes": "今日もよく頑張りました。復習を忘れずに！"
-    }
-  ]
-}
-```
-**パラメータ:**
-- `slide_data` (array, 必須): スライドデータ配列
-  - `type`: "title" | "imageText" | "closing"
-  - `title`, `subhead`, `image`, `points`, `notes`, `date`: スライド種別により異なる
-#### レスポンス
-```json
-{
-  "status": "success",
-  "video_url": "https://huggingface.co/datasets/.../videos/slidedata_video_20251010_085827_e3c2bf55.mp4",
-  "page2_image_url": null,
-  "audio_urls": [
-    {
-      "slide_index": 0,
-      "slide_type": "title",
-      "audio_url": "https://huggingface.co/datasets/.../audios/slide_00_title_20251010_085823_0ad632bf.wav",
-      "duration": 3.17675,
-      "text": "語呂羽丸五郎の歴史学習"
-    }
-  ],
-  "message": "音声付き動画の生成とアップロードに成功しました",
-  "total_slides": 1,
-  "video_duration": 3.77675
-}
-```
-**フィールド:**
-- `status`: "success" | "error"
-- `video_url`: 生成された動画のURL
-- `page2_image_url`: null（V2.0では未使用）
-- `audio_urls`: 各スライドの音声情報配列
-  - `slide_index`: スライド番号
-  - `slide_type`: スライド種別
-  - `audio_url`: 音声ファイルURL（WAV、24kHz、モノラル、1.25倍速）
-  - `duration`: 音声長さ（秒）
-  - `text`: 音声テキスト
-- `total_slides`: 総スライド数
-- `video_duration`: 動画総再生時間（秒）
----
-### V1.0: `POST /api/pdf-to-video`
 #### リクエスト
 ```json
@@ -131,18 +50,25 @@ pinned: true
 ```json
 {
   "status": "success",
-  "video_url": "https://huggingface.co/datasets/.../videos/video_20250107_123456_abc123.mp4",
-  "page2_image_url": "https://huggingface.co/datasets/.../images/image_20250107_123456_def456.jpg",
   "message": "動画の生成とアップロードに成功しました",
   "total_pages": 10,
   "video_duration": 50.0
 }
 ```
----
-### ヘルスチェック: `GET /health`
 ```json
 {
   "status": "healthy",
@@ -151,56 +77,50 @@ pinned: true
 }
 ```
----
 ## 🛠️ 技術スタック
-### V2.0
-- **FastAPI + Gradio 4.19.2**: WebUI/API
-- **Gemini 2.5 Flash TTS**: 音声生成（Charon音声）
-- **moviepy 1.0.3**: 音声付き動画生成
-- **numpy**: 音声1.25倍速処理
-- **huggingface_hub**: ストレージ
-### V1.0
 - **pdf2image**: PDF→画像変換
 - **OpenCV (cv2)**: 動画生成エンジン
 - **Pillow**: 画像処理
----
 ## ⚙️ 環境変数
 | 変数名 | 必須 | デフォルト値 | 説明 |
 |--------|------|--------------|------|
-| `GEMINI_TOKEN` | ✅ | - | Gemini API認証トークン（V2.0） |
 | `HF_TOKEN` | ✅ | - | Hugging Face認証トークン |
-| `HF_REPO_ID` | ❌ | `tomo2chin2/SUPER_TENSAI_JIN` | データセットリポジトリID |
----
 ## 🚀 使用方法
-### V2.0: curlの例
-```bash
-curl -X POST "https://tomo2chin2-pdf-slideshow.hf.space/api/slidedata-to-video" \
-  -H "Content-Type: application/json" \
-  -d '{
-    "slide_data": [
-      {
-        "type": "title",
-        "title": "語呂羽丸五郎の歴史学習",
-        "date": "2025.10.10"
-      }
-    ]
-  }'
-```
-### V1.0: curlの例
 ```bash
-curl -X POST "https://tomo2chin2-pdf-slideshow.hf.space/api/pdf-to-video" \
   -H "Content-Type: application/json" \
   -d '{
     "pdf_url": "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf",
@@ -209,50 +129,111 @@ curl -X POST "https://tomo2chin2-pdf-slideshow.hf.space/api/pdf-to-video" \
   }'
 ```
----
-## 📊 V2.0処理フロー
 ```
-1. スライドデータJSON受信
-   ↓
-2. 各スライドから音声テキスト抽出
-   - タイトル: titleフィールド
-   - 画像のみ: "年号年、語呂合わせ。" × 2回
-   - 画像+テキスト: pointsを結合
-   - クロージング: notesフィールド
-   ↓
-3. Gemini TTS音声生成（Charon音声）
    ↓
-4. 音声1.25倍速処理（numpy）
    ↓
-5. 音声長さ測定
    ↓
-6. moviepy動画生成
-   - 音声 + 0.6秒余白（前後0.3秒ずつ）
-   - 720p、30fps、H.264 + AAC
    ↓
-7. HFアップロード（videos/, audios/）
    ↓
-8. URL返却
 ```
----
-## 📚 ドキュメント
-- [V2.0開発ログ](docs/V2.0_DEVELOPMENT_LOG.md) - 開発履歴
-- [V2.0開発計画](docs/V2.0_DEVELOPMENT_PLAN.md) - 計画書
-- [V3.0構想](docs/V3.0構想.txt) - 次期バージョン計画
----
 ## ⚠️ 制限事項
-- **V2.0**: Gemini API タイムアウト（60秒）に注意
-- **V1.0**: PDFサイズ（20ページ以上）は処理に時間がかかる
-- **共通**: 同時リクエストには対応していない
 ---
-**最終更新**: 2025-10-10

 ---
+title: PDF to Video Converter
 emoji: 🎬
 colorFrom: blue
 colorTo: purple
 pinned: true
 ---
+# 📄 PDF to Video Converter 🎬
+PDFファイルをスライドショー動画に変換するAPIです。指定されたURLからPDFをダウンロードし、各ページを画像化して、1ページあたり指定秒数のスライドショー動画を生成します。
 ## 🌟 機能
+### ✅ 主要機能
+- **PDF URLからのダウンロード**: HTTPリクエストで指定されたURLからPDFを取得
+- **PDF→画像変換**: pdf2imageを使用して各ページを高品質な画像に変換
+- **スライドショー動画生成**: 各画像を指定秒数（デフォルト5秒）表示する動画を作成
+- **Hugging Faceアップロード**: 生成した動画をデータセットリポジトリに自動保存
+- **URL返却**: アップロードされた動画のアクセス可能なURLを返却
+### 🎨 ユーザーインターフェース
+- **Gradio UI**: 直感的なWebインターフェース
+- **FastAPI**: RESTful APIエンドポイント
+- **リアルタイム進捗表示**: 処理状況を確認可能
+- **動画プレビュー**: 生成された動画をその場で確認
 ## 🔌 API仕様
+### エンドポイント: `POST /api/pdf-to-video`
 #### リクエスト
 ```json
 ```json
 {
   "status": "success",
+  "video_url": "https://huggingface.co/datasets/username/repo/resolve/main/videos/video_20250107_123456_abc123.mp4",
   "message": "動画の生成とアップロードに成功しました",
   "total_pages": 10,
   "video_duration": 50.0
 }
 ```
+**フィールド:**
+- `status` (string): 処理結果（"success" または "error"）
+- `video_url` (string): 生成された動画のURL
+- `message` (string): 処理結果メッセージ
+- `total_pages` (integer): PDFの総ページ数
+- `video_duration` (float): 動画の総再生時間（秒）
+### エンドポイント: `GET /health`
+ヘルスチェック用エンドポイント
+#### レスポンス
 ```json
 {
   "status": "healthy",
 }
 ```
 ## 🛠️ 技術スタック
+- **Gradio 4.19.2**: WebUI/SDK
+- **FastAPI**: REST APIフレームワーク
 - **pdf2image**: PDF→画像変換
 - **OpenCV (cv2)**: 動画生成エンジン
+- **huggingface_hub**: データセットアップロード
 - **Pillow**: 画像処理
+- **requests**: HTTP通信
 ## ⚙️ 環境変数
+以下の環境変数を設定する必要があります：
 | 変数名 | 必須 | デフォルト値 | 説明 |
 |--------|------|--------------|------|
 | `HF_TOKEN` | ✅ | - | Hugging Face認証トークン |
+| `HF_REPO_ID` | ❌ | `tomo2chin2/video-storage` | データセットリポジトリID |
+### HF_TOKENの取得方法
+1. [Hugging Face](https://huggingface.co/)にログイン
+2. Settings → Access Tokens に移動
+3. "New token" をクリック
+4. Write権限を付与してトークンを生成
+5. 生成されたトークンをコピー
+6. Space設定の "Repository secrets" に追加
 ## 🚀 使用方法
+### Web UIから使用
+1. Space URLにアクセス
+2. PDF URLを入力欄に貼り付け
+3. 表示秒数とDPIを調整（任意）
+4. 「🎬 動画生成」ボタンをクリック
+5. 生成された動画URLをコピー
+### APIから使用
+#### curlの例
 ```bash
+curl -X POST "https://your-space.hf.space/api/pdf-to-video" \
   -H "Content-Type: application/json" \
   -d '{
     "pdf_url": "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf",
   }'
 ```
+#### Pythonの例
+```python
+import requests
+response = requests.post(
+    "https://your-space.hf.space/api/pdf-to-video",
+    json={
+        "pdf_url": "https://example.com/sample.pdf",
+        "duration_per_page": 5,
+        "dpi": 150
+    }
+)
+result = response.json()
+print(f"動画URL: {result['video_url']}")
 ```
+#### JavaScriptの例
+```javascript
+fetch('https://your-space.hf.space/api/pdf-to-video', {
+  method: 'POST',
+  headers: {
+    'Content-Type': 'application/json',
+  },
+  body: JSON.stringify({
+    pdf_url: 'https://example.com/sample.pdf',
+    duration_per_page: 5,
+    dpi: 150
+  })
+})
+.then(response => response.json())
+.then(data => console.log('動画URL:', data.video_url));
+```
+## 📊 処理フロー
+```
+1. PDF URLダウンロード
    ↓
+2. PDF→画像変換（pdf2image）
    ↓
+3. 画像サイズ統一（Pillow）
    ↓
+4. 動画生成（OpenCV）
+   - 各ページを指定秒数表示
+   - 30fps
    ↓
+5. Hugging Faceアップロード
    ↓
+6. URL返却
 ```
+## 🧪 テスト用サンプルPDF
+以下のURLでテスト可能です：
+- **W3C ダミーPDF**: `https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf`
+- **小サイズPDF**: 処理時間が短く、動作確認に最適
 ## ⚠️ 制限事項
+1. **PDFサイズ**: 大きなPDF（20ページ以上）は処理に時間がかかります
+2. **タイムアウト**: Hugging Face Spacesのタイムアウト制限（〜60秒）に注意
+3. **同時リクエスト**: 大量の同時リクエストには対応していません
+4. **ファイル形式**: PDFのみ対応（画像ファイルは非対応）
+## 🔧 トラブルシューティング
+### エラー: "HuggingFace API が初期化されていません"
+→ `HF_TOKEN` 環境変数が設定されているか確認してください
+### エラー: "PDFのダウンロードに失敗しました"
+→ PDF URLが正しいか、アクセス可能か確認してください
+### エラー: "PDFの画像変換に失敗しました"
+→ PDFが破損していないか確認してください
+### 動画が生成されない
+→ ログを確認し、どの段階でエラーが発生しているか特定してください
+## 📁 ファイル構成
+```
+majin/v4_spinoff/HUG/
+├── app.py                  # メインアプリケーション
+├── requirements.txt        # Python依存パッケージ
+├── packages.txt            # システムパッケージ
+├── README.md               # このファイル
+└── 実装ステップ.md         # 詳細な実装手順
+```
+## 🤝 貢献
+プルリクエストやイシューの報告を歓迎します。
+## 📜 ライセンス
+MIT License
+## 📞 連絡先
+問題や質問がある場合は、Issueを作成してください。
 ---
+**最終更新**: 2025-10-07

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ import gradio as gr
 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, HttpUrl
-from typing import Optional, Union, List, Dict
 import requests
 import tempfile
 import os
@@ -16,7 +16,6 @@ import numpy as np
 from datetime import datetime
 import uuid
 from pathlib import Path
-from concurrent.futures import ThreadPoolExecutor, as_completed
 # 画像・動画処理ライブラリ
 from pdf2image import convert_from_path
@@ -31,11 +30,6 @@ from huggingface_hub import HfApi, login
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
-MAX_EDUCATION_TTS_WORKERS = max(
-    1,
-    int(os.getenv("EDUCATION_TTS_MAX_WORKERS", "3")),
-)
 # ==============================
 # リクエスト/レスポンスモデル
 # ==============================
@@ -80,29 +74,6 @@ class AudioVideoResponse(BaseModel):
     total_slides: Optional[int] = None
     video_duration: Optional[float] = None
-# ==============================
-# 賢杉賢太郎連携バージョン - 追加モデル
-# ==============================
-class EducationNotesItem(BaseModel):
-    """賢杉賢太郎: notes配列要素"""
-    slide_index: Optional[int] = None
-    text: str
-    speaking_rate: Optional[float] = 1.25
-    padding_seconds: Optional[float] = None
-class EducationPlaybackPolicy(BaseModel):
-    """賢杉賢太郎: 再生ポリシー"""
-    match_audio_length: bool = True
-    fallback_seconds_per_slide: float = 6.0
-    padding_seconds: float = 0.6
-class EducationVideoRequest(BaseModel):
-    """賢杉賢太郎連携バージョン - notesをそのまま動画化"""
-    pdf_url: str
-    notes: Union[str, List[Union[str, Dict]]]
-    playback_policy: Optional[EducationPlaybackPolicy] = None
 # ==============================
 # URL前処理ユーティリティ
 # ==============================
@@ -286,68 +257,6 @@ def extract_audio_text_v2(slide: dict, slide_index: int, history: list) -> str:
         return ""
-def normalize_notes_payload(notes_payload: Union[str, List[Union[str, Dict]]]) -> List[dict]:
-    """
-    賢杉賢太郎用notesペイロードを正規化
-    Args:
-        notes_payload: list もしくは JSON文字列
-    Returns:
-        list[dict]: slide_index / text / speaking_rate / padding_seconds を含む辞書配列
-    """
-    import json
-    if isinstance(notes_payload, str):
-        try:
-            raw_notes = json.loads(notes_payload)
-        except json.JSONDecodeError as exc:
-            raise ValueError(f"notesのJSON解析に失敗しました: {exc}")
-    else:
-        raw_notes = notes_payload or []
-    normalized: List[dict] = []
-    for idx, item in enumerate(raw_notes):
-        if isinstance(item, dict):
-            slide_index = item.get("slide_index", idx)
-            text = str(item.get("text", "")).strip()
-            speaking_rate = item.get("speaking_rate", 1.25)
-            padding = item.get("padding_seconds")
-        else:
-            slide_index = idx
-            text = str(item).strip()
-            speaking_rate = 1.25
-            padding = None
-        try:
-            slide_index = int(slide_index)
-        except (TypeError, ValueError):
-            slide_index = idx
-        try:
-            speaking_rate = float(speaking_rate) if speaking_rate is not None else 1.0
-        except (TypeError, ValueError):
-            speaking_rate = 1.0
-        if speaking_rate <= 0:
-            speaking_rate = 1.0
-        if padding is not None:
-            try:
-                padding = float(padding)
-            except (TypeError, ValueError):
-                padding = None
-        normalized.append({
-            "slide_index": slide_index,
-            "text": text,
-            "speaking_rate": speaking_rate,
-            "padding_seconds": padding
-        })
-    return normalized
 def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarray:
     """
     PIL ImageをNumPy配列に変換し、指定サイズにリサイズ
@@ -375,28 +284,20 @@ def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarr
 # V2.0: Gemini TTS音声生成
 # ==============================
-def generate_audio_with_gemini(
-    audio_text: str,
-    gemini_token: str,
-    model: str = "gemini-2.5-pro-preview-tts",
-) -> bytes:
     """
     Gemini REST APIでテキストから音声を生成
     Args:
         audio_text: 読み上げるテキスト
         gemini_token: GEMINI_TOKEN環境変数
-        model: 利用するGemini TTSモデルID
     Returns:
         WAVバイナリデータ（24kHz PCM16）
     """
     import base64
-    url = (
-        "https://generativelanguage.googleapis.com/v1beta/models/"
-        f"{model}:generateContent?key={gemini_token}"
-    )
     headers = {
         "Content-Type": "application/json"
@@ -428,10 +329,10 @@ def generate_audio_with_gemini(
         }
     }
-    logger.info(f"Gemini TTS API呼び出し: {len(audio_text)}文字, model={model}")
     logger.info(f"Payload: {payload}")
-    response = requests.post(url, json=payload, headers=headers, timeout=120)
     # エラーレスポンスの詳細をログ出力
     if response.status_code != 200:
@@ -946,254 +847,6 @@ def create_video_with_audio_from_slides_v2(
             except Exception as e:
                 logger.warning(f"動画ファイル削除エラー: {e}")
-def create_video_with_notes(
-    pdf_url: str,
-    notes_payload: Union[str, List[Union[str, Dict]]],
-    gemini_token: str,
-    playback_policy: Optional[dict] = None,
-    progress_callback=None
-) -> tuple:
-    """
-    賢杉賢太郎連携バージョン:
-    notesフィールド（スピーカーノート）から音声付き動画を生成する。
-    Args:
-        pdf_url: GASが生成したPDFのURL
-        notes_payload: notes配列（list or JSON string）
-        gemini_token: Gemini TTS用トークン
-        playback_policy: 再生ポリシー辞書
-        progress_callback: Gradio用進捗更新
-    Returns:
-        tuple: (video_url, page2_image_url, audio_info_list, total_slides, total_duration)
-    """
-    pdf_path = None
-    audio_files: List[str] = []
-    video_path = None
-    page2_image_path = None
-    clips = []
-    audio_info_list = []
-    total_duration = 0.0
-    policy = playback_policy or {}
-    match_audio = bool(policy.get("match_audio_length", True))
-    fallback_seconds = policy.get("fallback_seconds_per_slide", 6.0)
-    if fallback_seconds is None or fallback_seconds <= 0:
-        fallback_seconds = 6.0
-    padding_default = policy.get("padding_seconds", 0.6)
-    if padding_default is None or padding_default < 0:
-        padding_default = 0.6
-    try:
-        normalized_notes = normalize_notes_payload(notes_payload)
-        notes_map = {entry["slide_index"]: entry for entry in normalized_notes}
-        if progress_callback:
-            progress_callback(0.05, desc="PDFダウンロード中...")
-        pdf_path = download_pdf_from_url(sanitize_url(pdf_url))
-        if progress_callback:
-            progress_callback(0.1, desc="PDF→画像変換中...")
-        images = convert_pdf_to_images(pdf_path, dpi=150)
-        total_slides = len(images)
-        if total_slides == 0:
-            raise Exception("PDFにページが含まれていません")
-        note_entries: List[Dict] = []
-        text_map: Dict[int, str] = {}
-        tts_results: Dict[int, Optional[bytes]] = {}
-        for idx in range(total_slides):
-            note_entry = notes_map.get(idx, {
-                "slide_index": idx,
-                "text": "",
-                "speaking_rate": 1.0,
-                "padding_seconds": None
-            })
-            note_entries.append(note_entry)
-            text = str(note_entry.get("text", "")).strip()
-            text_map[idx] = text
-        total_audio_jobs = sum(1 for text in text_map.values() if text)
-        if progress_callback:
-            progress_callback(0.1, desc="音声生成ジョブ準備中...")
-        if total_audio_jobs > 0:
-            max_workers = min(MAX_EDUCATION_TTS_WORKERS, total_audio_jobs)
-            futures = {}
-            completed_jobs = 0
-            with ThreadPoolExecutor(max_workers=max_workers) as executor:
-                for idx, text in text_map.items():
-                    if not text:
-                        tts_results[idx] = None
-                        continue
-                    futures[executor.submit(
-                        generate_audio_with_gemini,
-                        text,
-                        gemini_token,
-                        model="gemini-2.5-flash-preview-tts",
-                    )] = idx
-                for future in as_completed(futures):
-                    idx = futures[future]
-                    try:
-                        wav_bytes = future.result()
-                    except Exception as exc:
-                        logger.error(f"Gemini TTS生成失敗 (slide={idx}): {exc}")
-                        raise
-                    tts_results[idx] = wav_bytes
-                    completed_jobs += 1
-                    if progress_callback:
-                        progress = 0.1 + (completed_jobs / total_audio_jobs) * 0.4
-                        progress_callback(
-                            min(progress, 0.5),
-                            desc=f"音声生成中 ({completed_jobs}/{total_audio_jobs})"
-                        )
-        else:
-            if progress_callback:
-                progress_callback(0.5, desc="音声生成スキップ（テキストなし）")
-        for idx, pil_image in enumerate(images):
-            note_entry = note_entries[idx]
-            text = text_map[idx]
-            speaking_rate = note_entry.get("speaking_rate", 1.25) or 1.0
-            if speaking_rate <= 0:
-                speaking_rate = 1.0
-            padding_seconds = note_entry.get("padding_seconds")
-            if padding_seconds is None or padding_seconds < 0:
-                padding_seconds = padding_default
-            audio_duration = 0.0
-            slide_duration = fallback_seconds
-            audio_url = None
-            audio_path = None
-            if text:
-                wav_bytes = tts_results.get(idx)
-                if wav_bytes is None:
-                    raise RuntimeError(f"TTS音声が取得できませんでした (slide_index={idx})")
-                if speaking_rate and abs(speaking_rate - 1.0) > 0.01:
-                    wav_bytes = speed_up_audio(wav_bytes, speed_factor=speaking_rate)
-                audio_duration = get_audio_duration(wav_bytes)
-                if match_audio:
-                    slide_duration = max(audio_duration + padding_seconds, fallback_seconds)
-                else:
-                    slide_duration = fallback_seconds
-                with tempfile.NamedTemporaryFile(suffix=".wav", delete=False) as tmp_audio:
-                    tmp_audio.write(wav_bytes)
-                    audio_path = tmp_audio.name
-                    audio_files.append(audio_path)
-                audio_url = save_audio_to_hf(wav_bytes, prefix=f"education_slide_{idx:02d}")
-            else:
-                slide_duration = fallback_seconds
-            if progress_callback and total_slides:
-                progress = 0.5 + ((idx + 1) / total_slides) * 0.2
-                progress_callback(
-                    min(progress, 0.7),
-                    desc=f"動画クリップ生成中 ({idx + 1}/{total_slides})"
-                )
-            img_array = convert_pil_to_array(pil_image, target_size=(1280, 720))
-            img_clip = ImageClip(img_array, duration=slide_duration)
-            if audio_path:
-                audio_clip = AudioFileClip(audio_path)
-                img_clip = img_clip.set_audio(audio_clip)
-            clips.append(img_clip)
-            audio_info_list.append({
-                "slide_index": idx,
-                "slide_type": "notes",
-                "audio_url": audio_url,
-                "duration": audio_duration,
-                "text": text,
-                "speaking_rate": speaking_rate,
-                "playback_duration": slide_duration
-            })
-            total_duration += slide_duration
-        if not clips:
-            raise Exception("動画クリップが生成されませんでした（notesに有効なテキストがありません）")
-        if progress_callback:
-            progress_callback(0.7, desc="動画をレンダリング中...")
-        final_video = concatenate_videoclips(clips, method="compose")
-        tmp_video = tempfile.NamedTemporaryFile(suffix=".mp4", delete=False)
-        video_path = tmp_video.name
-        tmp_video.close()
-        final_video.write_videofile(
-            video_path,
-            fps=24,
-            codec="libx264",
-            audio_codec="aac",
-            temp_audiofile=os.path.join(tempfile.gettempdir(), f"temp_audio_{uuid.uuid4().hex}.m4a"),
-            remove_temp=True,
-            verbose=False,
-            logger=None
-        )
-        final_video.close()
-        for clip in clips:
-            clip.close()
-        if progress_callback:
-            progress_callback(0.85, desc="動画をアップロード中...")
-        video_url = video_uploader.upload_video(video_path, prefix="education_video")
-        page2_image_url = None
-        if total_slides >= 2:
-            with tempfile.NamedTemporaryFile(suffix=".jpg", delete=False) as tmp_img:
-                page2_image_path = tmp_img.name
-                images[1].save(page2_image_path, format="JPEG", quality=90)
-            page2_image_url = video_uploader.upload_image(page2_image_path, prefix="education_page2")
-        if progress_callback:
-            progress_callback(1.0, desc="完了！")
-        return (video_url, page2_image_url, audio_info_list, total_slides, total_duration)
-    finally:
-        for audio_file in audio_files:
-            if os.path.exists(audio_file):
-                try:
-                    os.remove(audio_file)
-                except Exception as e:
-                    logger.warning(f"音声ファイル削除エラー: {e}")
-        if video_path and os.path.exists(video_path):
-            try:
-                os.remove(video_path)
-            except Exception as e:
-                logger.warning(f"動画ファイル削除エラー: {e}")
-        if page2_image_path and os.path.exists(page2_image_path):
-            try:
-                os.remove(page2_image_path)
-            except Exception as e:
-                logger.warning(f"画像ファイル削除エラー: {e}")
-        if pdf_path and os.path.exists(pdf_path):
-            try:
-                os.remove(pdf_path)
-            except Exception as e:
-                logger.warning(f"PDFファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
@@ -1616,60 +1269,6 @@ async def slidedata_to_video(request: SlideDataToVideoRequest):
             detail=f"動画生成に失敗しました: {str(e)}"
         )
-@app.post(
-    "/api/education/notes-to-video",
-    response_model=AudioVideoResponse,
-    tags=["Video Generation", "Education"],
-    summary="賢杉賢太郎: notes配列から音声付き動画を生成",
-    description="賢杉賢太郎連携バージョン。GASが返すPDF URLとnotes配列を渡すと、音声付き動画を生成してアップロードします。"
-)
-async def education_notes_to_video(request: EducationVideoRequest):
-    """賢杉賢太郎連携バージョン: notesフィールドを活用した動画生成エンドポイント"""
-    gemini_token = os.environ.get("GEMINI_TOKEN")
-    if not gemini_token:
-        raise HTTPException(
-            status_code=500,
-            detail="GEMINI_TOKEN環境変数が設定されていません"
-        )
-    try:
-        logger.info("賢杉賢太郎向けAPIリクエスト受信")
-        playback_policy = request.playback_policy.dict() if request.playback_policy else {}
-        (
-            video_url,
-            page2_image_url,
-            audio_info_list,
-            total_slides,
-            total_duration
-        ) = create_video_with_notes(
-            pdf_url=request.pdf_url,
-            notes_payload=request.notes,
-            gemini_token=gemini_token,
-            playback_policy=playback_policy
-        )
-        logger.info(f"賢杉賢太郎向け動画生成完了: {video_url}")
-        return AudioVideoResponse(
-            status="success",
-            video_url=video_url,
-            page2_image_url=page2_image_url,
-            audio_urls=audio_info_list,
-            message="賢杉賢太郎用の音声付き動画の生成とアップロードに成功しました",
-            total_slides=total_slides,
-            video_duration=total_duration
-        )
-    except HTTPException:
-        raise
-    except Exception as e:
-        logger.error(f"賢杉賢太郎向け動画生成エラー: {e}", exc_info=True)
-        raise HTTPException(
-            status_code=500,
-            detail=f"賢杉賢太郎向け動画生成に失敗しました: {str(e)}"
-        )
 @app.get("/health")
 async def health_check():
     """ヘルスチェックエンドポイント"""

 from fastapi import FastAPI, HTTPException
 from fastapi.middleware.cors import CORSMiddleware
 from pydantic import BaseModel, HttpUrl
+from typing import Optional, Union
 import requests
 import tempfile
 import os
 from datetime import datetime
 import uuid
 from pathlib import Path
 # 画像・動画処理ライブラリ
 from pdf2image import convert_from_path
 logging.basicConfig(level=logging.INFO)
 logger = logging.getLogger(__name__)
 # ==============================
 # リクエスト/レスポンスモデル
 # ==============================
     total_slides: Optional[int] = None
     video_duration: Optional[float] = None
 # ==============================
 # URL前処理ユーティリティ
 # ==============================
         return ""
 def convert_pil_to_array(pil_image: Image.Image, target_size: tuple) -> np.ndarray:
     """
     PIL ImageをNumPy配列に変換し、指定サイズにリサイズ
 # V2.0: Gemini TTS音声生成
 # ==============================
+def generate_audio_with_gemini(audio_text: str, gemini_token: str) -> bytes:
     """
     Gemini REST APIでテキストから音声を生成
     Args:
         audio_text: 読み上げるテキスト
         gemini_token: GEMINI_TOKEN環境変数
     Returns:
         WAVバイナリデータ（24kHz PCM16）
     """
     import base64
+    url = f"https://generativelanguage.googleapis.com/v1beta/models/gemini-2.5-pro-preview-tts:generateContent?key={gemini_token}"
     headers = {
         "Content-Type": "application/json"
         }
     }
+    logger.info(f"Gemini TTS API呼び出し: {len(audio_text)}文字")
     logger.info(f"Payload: {payload}")
+    response = requests.post(url, json=payload, headers=headers, timeout=60)
     # エラーレスポンスの詳細をログ出力
     if response.status_code != 200:
             except Exception as e:
                 logger.warning(f"動画ファイル削除エラー: {e}")
 # ==============================
 # コア機能実装
 # ==============================
             detail=f"動画生成に失敗しました: {str(e)}"
         )
 @app.get("/health")
 async def health_check():
     """ヘルスチェックエンドポイント"""

実装ステップ.md ADDED Viewed

	@@ -0,0 +1,709 @@

+# PDF→動画変換API 実装ステップ
+## 📋 プロジェクト概要
+### 目的
+PDFファイルをURLから取得し、各ページを画像に分解して5秒ずつ表示するスライドショー動画を生成し、Hugging Faceデータセットリポジトリに保存してURLを返すAPIを構築する。
+### 技術スタック
+- **Gradio 4.19.2** - UI/SDK（Hugging Face Spacesのフレームワーク）
+- **FastAPI** - RESTful APIエンドポイント
+- **pdf2image** - PDF→画像変換（popplerベース）
+- **OpenCV (cv2)** - 動画生成
+- **huggingface_hub** - データセットへのファイルアップロード
+- **requests** - PDF URLからのダウンロード
+### 処理フロー
+```
+PDF URL → ダウンロード → PDF→画像変換 → 動画生成（5秒/ページ） → HF Dataset保存 → URL返却
+```
+---
+## 🗂️ ディレクトリ構造
+```
+majin/v4_spinoff/HUG/
+├── 実装ステップ.md          # 本ドキュメント
+├── app.py                   # メインアプリケーション
+├── requirements.txt         # Python依存パッケージ
+├── packages.txt             # システムパッケージ
+├── README.md                # Hugging Face Space設定
+├── .env.example             # 環境変数のサンプル
+└── FASTAPI_GRADIO_sample/   # 参考資料（既存）
+```
+---
+## 📝 実装ステップ
+### フェーズ1: 環境セットアップ
+#### ステップ1.1: packages.txt作成
+システムレベルの依存パッケージを定義します。
+**ファイル: `packages.txt`**
+```
+poppler-utils
+ffmpeg
+```
+**解説:**
+- `poppler-utils`: pdf2imageがPDFをレンダリングするために必要
+- `ffmpeg`: OpenCVの動画エンコーディングに必要
+#### ステップ1.2: requirements.txt作成
+Pythonパッケージの依存関係を定義します。
+**ファイル: `requirements.txt`**
+```
+gradio==4.19.2
+fastapi
+uvicorn[standard]
+pdf2image
+opencv-python-headless
+Pillow
+requests
+huggingface_hub
+python-dotenv
+```
+**解説:**
+- `opencv-python-headless`: GUI不要のOpenCV（Spaceに最適）
+- `huggingface_hub`: Dataset APIアクセス用
+- `python-dotenv`: 環境変数管理（開発時）
+---
+### フェーズ2: コア機能実装
+#### ステップ2.1: PDFダウンロード機能
+```python
+import requests
+import tempfile
+import os
+from pathlib import Path
+def download_pdf_from_url(pdf_url: str) -> str:
+    """
+    指定されたURLからPDFをダウンロードして一時ファイルとして保存
+    Args:
+        pdf_url: PDFファイルのURL
+    Returns:
+        str: ダウンロードされたPDFファイルのパス
+    Raises:
+        Exception: ダウンロード失敗時
+    """
+    try:
+        logger.info(f"PDFダウンロード開始: {pdf_url}")
+        # HTTPリクエスト
+        response = requests.get(pdf_url, timeout=30, stream=True)
+        response.raise_for_status()
+        # Content-Typeの検証
+        content_type = response.headers.get('Content-Type', '')
+        if 'pdf' not in content_type.lower():
+            logger.warning(f"Content-Type が PDF ではありません: {content_type}")
+        # 一時ファイルに保存
+        with tempfile.NamedTemporaryFile(suffix=".pdf", delete=False) as tmp_file:
+            tmp_path = tmp_file.name
+            for chunk in response.iter_content(chunk_size=8192):
+                tmp_file.write(chunk)
+        logger.info(f"PDFダウンロード完了: {tmp_path}")
+        return tmp_path
+    except requests.exceptions.RequestException as e:
+        logger.error(f"PDFダウンロードエラー: {e}")
+        raise Exception(f"PDFのダウンロードに失敗しました: {e}")
+```
+**ポイント:**
+- `stream=True`で大きなファイルにも対応
+- タイムアウト設定で無限待機を防止
+- Content-Type検証でPDF以外のファイルを警告
+#### ステップ2.2: PDF→画像変換機能
+```python
+from pdf2image import convert_from_path
+from PIL import Image
+import logging
+logger = logging.getLogger(__name__)
+def convert_pdf_to_images(pdf_path: str, dpi: int = 150) -> list:
+    """
+    PDFファイルを画像リストに変換
+    Args:
+        pdf_path: PDFファイルのパス
+        dpi: 解像度（デフォルト150）
+    Returns:
+        list: PIL.Imageオブジェクトのリスト
+    """
+    try:
+        logger.info(f"PDF→画像変換開始: {pdf_path}, DPI={dpi}")
+        # PDFを画像に変換
+        images = convert_from_path(
+            pdf_path,
+            dpi=dpi,
+            fmt='jpeg',  # JPEG形式で出力
+            thread_count=2  # 並列処理スレッド数
+        )
+        logger.info(f"PDF変換完了: {len(images)}ページ")
+        return images
+    except Exception as e:
+        logger.error(f"PDF変換エラー: {e}")
+        raise Exception(f"PDFの画像変換に失敗しました: {e}")
+```
+**ポイント:**
+- DPI調整で画質と処理速度のバランス調整
+- JPEG形式で動画サイズを抑制
+- thread_count でリソース使用を制御
+#### ステップ2.3: 画像→動画生成機能
+```python
+import cv2
+import numpy as np
+from PIL import Image
+import tempfile
+def create_video_from_images(
+    images: list,
+    duration_per_page: int = 5,
+    fps: int = 30
+) -> str:
+    """
+    画像リストからスライドショー動画を生成
+    Args:
+        images: PIL.Imageオブジェクトのリスト
+        duration_per_page: 1ページあたりの表示秒数（デフォルト5秒）
+        fps: フレームレート（デフォルト30fps）
+    Returns:
+        str: 生成された動画ファイルのパス
+    """
+    try:
+        if not images:
+            raise ValueError("画像リストが空です")
+        logger.info(f"動画生成開始: {len(images)}ページ, {duration_per_page}秒/ページ, {fps}fps")
+        # 全画像を同じサイズにリサイズ（最初の画像のサイズに統一）
+        first_img = images[0]
+        width, height = first_img.size
+        logger.info(f"動画サイズ: {width}x{height}")
+        # 一時ファイルパス
+        tmp_video = tempfile.NamedTemporaryFile(suffix=".mp4", delete=False)
+        video_path = tmp_video.name
+        tmp_video.close()
+        # 動画ライター初期化
+        fourcc = cv2.VideoWriter_fourcc(*'mp4v')
+        video_writer = cv2.VideoWriter(
+            video_path,
+            fourcc,
+            fps,
+            (width, height)
+        )
+        # 各画像を指定秒数分のフレームとして追加
+        frames_per_page = duration_per_page * fps
+        for idx, img in enumerate(images):
+            logger.info(f"ページ {idx+1}/{len(images)} を処理中...")
+            # 画像をリサイズ（必要な場合）
+            if img.size != (width, height):
+                img = img.resize((width, height), Image.Resampling.LANCZOS)
+            # PIL Image → OpenCV形式に変換（RGB→BGR）
+            img_array = np.array(img)
+            if len(img_array.shape) == 3 and img_array.shape[2] == 3:
+                img_bgr = cv2.cvtColor(img_array, cv2.COLOR_RGB2BGR)
+            else:
+                img_bgr = img_array
+            # 同じフレームを複数回書き込み（静止画として表示）
+            for _ in range(frames_per_page):
+                video_writer.write(img_bgr)
+        video_writer.release()
+        logger.info(f"動画生成完了: {video_path}")
+        return video_path
+    except Exception as e:
+        logger.error(f"動画生成エラー: {e}")
+        raise Exception(f"動画の生成に失敗しました: {e}")
+```
+**ポイント:**
+- 全画像を統一サイズにリサイズ（動画の要件）
+- RGB→BGR変換（OpenCVの要件）
+- フレーム数計算: `duration_per_page * fps`
+#### ステップ2.4: Hugging Faceアップロード機能
+```python
+from huggingface_hub import HfApi, login
+import os
+from datetime import datetime
+import uuid
+class VideoUploader:
+    """Hugging Face Datasetへの動画アップロード機能"""
+    def __init__(self):
+        self.repo_id = os.environ.get("HF_REPO_ID", "tomo2chin2/video-storage")
+        self.token = os.environ.get("HF_TOKEN")
+        if not self.token:
+            raise ValueError("HF_TOKEN 環境変数が設定されていません")
+        # ログイン
+        login(token=self.token)
+        self.api = HfApi()
+        logger.info(f"HuggingFace にログイン完了: {self.repo_id}")
+    def upload_video(self, video_path: str, prefix: str = "video") -> str:
+        """
+        動画をHugging Faceデータセットにアップロード
+        Args:
+            video_path: アップロードする動画ファイルのパス
+            prefix: ファイル名のプレフィックス
+        Returns:
+            str: アップロードされた動画のURL
+        """
+        try:
+            # ユニークなファイル名を生成
+            timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
+            unique_id = str(uuid.uuid4())[:8]
+            filename = f"{prefix}_{timestamp}_{unique_id}.mp4"
+            path_in_repo = f"videos/{filename}"
+            logger.info(f"動画アップロード開始: {path_in_repo}")
+            # アップロード実行
+            upload_info = self.api.upload_file(
+                path_or_fileobj=video_path,
+                path_in_repo=path_in_repo,
+                repo_id=self.repo_id,
+                repo_type="dataset"
+            )
+            # URLを構築
+            video_url = f"https://huggingface.co/datasets/{self.repo_id}/resolve/main/{path_in_repo}"
+            logger.info(f"動画アップロード完了: {video_url}")
+            return video_url
+        except Exception as e:
+            logger.error(f"動画アップロードエラー: {e}")
+            raise Exception(f"動画のアップロードに失敗しました: {e}")
+```
+**ポイント:**
+- タイムスタンプ+UUIDでファイル名の一意性を保証
+- `repo_type="dataset"` でデータセットリポジトリを指定
+- URL形式: `https://huggingface.co/datasets/{repo_id}/resolve/main/{path}`
+---
+### フェーズ3: FastAPI実装
+#### ステップ3.1: リクエスト/レスポンスモデル定義
+```python
+from pydantic import BaseModel, HttpUrl
+from typing import Optional
+class PdfToVideoRequest(BaseModel):
+    """PDF→動画変換リクエストモデル"""
+    pdf_url: HttpUrl
+    duration_per_page: int = 5  # デフォルト5秒
+    dpi: int = 150  # デフォルトDPI
+class VideoResponse(BaseModel):
+    """動画生成レスポンスモデル"""
+    status: str
+    video_url: Optional[str] = None
+    message: str
+    total_pages: Optional[int] = None
+    video_duration: Optional[float] = None  # 秒
+```
+#### ステップ3.2: APIエンドポイント実装
+```python
+from fastapi import FastAPI, HTTPException
+from fastapi.middleware.cors import CORSMiddleware
+import logging
+# ロギング設定
+logging.basicConfig(level=logging.INFO)
+logger = logging.getLogger(__name__)
+app = FastAPI(title="PDF to Video API")
+# CORS設定
+app.add_middleware(
+    CORSMiddleware,
+    allow_origins=["*"],
+    allow_credentials=True,
+    allow_methods=["*"],
+    allow_headers=["*"],
+)
+# グローバルなアップローダーインスタンス
+video_uploader = VideoUploader()
+@app.post(
+    "/api/pdf-to-video",
+    response_model=VideoResponse,
+    tags=["Video Generation"],
+    summary="PDFをスライドショー動画に変換",
+    description="指定されたURLからPDFをダウンロードし、各ページを画像化して動画を生成します。"
+)
+async def pdf_to_video(request: PdfToVideoRequest):
+    """PDF→動画変換APIエンドポイント"""
+    pdf_path = None
+    video_path = None
+    try:
+        logger.info(f"API リクエスト受信: {request.pdf_url}")
+        # 1. PDFダウンロード
+        pdf_path = download_pdf_from_url(str(request.pdf_url))
+        # 2. PDF→画像変換
+        images = convert_pdf_to_images(pdf_path, dpi=request.dpi)
+        total_pages = len(images)
+        # 3. 動画生成
+        video_path = create_video_from_images(
+            images,
+            duration_per_page=request.duration_per_page
+        )
+        # 4. Hugging Faceにアップロード
+        video_url = video_uploader.upload_video(video_path, prefix="pdf_video")
+        # 動画の総再生時間を計算
+        video_duration = total_pages * request.duration_per_page
+        logger.info(f"処理完了: {video_url}")
+        return VideoResponse(
+            status="success",
+            video_url=video_url,
+            message="動画の生成とアップロードに成功しました",
+            total_pages=total_pages,
+            video_duration=video_duration
+        )
+    except Exception as e:
+        logger.error(f"エラー発生: {e}", exc_info=True)
+        raise HTTPException(
+            status_code=500,
+            detail=f"動画生成に失敗しました: {str(e)}"
+        )
+    finally:
+        # 一時ファイルのクリーンアップ
+        if pdf_path and os.path.exists(pdf_path):
+            try:
+                os.remove(pdf_path)
+                logger.info(f"一時PDFファイル削除: {pdf_path}")
+            except Exception as e:
+                logger.warning(f"PDFファイル削除エラー: {e}")
+        if video_path and os.path.exists(video_path):
+            try:
+                os.remove(video_path)
+                logger.info(f"一時動画ファイル削除: {video_path}")
+            except Exception as e:
+                logger.warning(f"動画ファイル削除エラー: {e}")
+@app.get("/health")
+async def health_check():
+    """ヘルスチェックエンドポイント"""
+    return {"status": "healthy", "service": "PDF to Video API"}
+```
+---
+### フェーズ4: Gradio UI実装
+```python
+import gradio as gr
+def process_pdf_url(pdf_url, duration_per_page, dpi):
+    """Gradio UIからの処理関数"""
+    try:
+        if not pdf_url:
+            return None, "PDF URLを入力してください", None
+        # 内部的にAPI関数を呼び出し
+        request = PdfToVideoRequest(
+            pdf_url=pdf_url,
+            duration_per_page=duration_per_page,
+            dpi=dpi
+        )
+        # 同期的に処理（Gradioは非同期不要）
+        import asyncio
+        result = asyncio.run(pdf_to_video(request))
+        return (
+            result.video_url,  # ビデオURL
+            f"✅ 成功: {result.total_pages}ページ、{result.video_duration}秒の動画を生成しました",
+            result.video_url  # プレビュー用
+        )
+    except Exception as e:
+        logger.error(f"Gradio処理エラー: {e}")
+        return None, f"❌ エラー: {str(e)}", None
+# Gradio UI定義
+with gr.Blocks(title="PDF to Video Converter", theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 📄 PDF → 🎬 動画変換")
+    gr.Markdown("PDFのURLを指定すると、各ページをスライドショー動画に変換します。")
+    with gr.Row():
+        with gr.Column(scale=2):
+            pdf_url_input = gr.Textbox(
+                label="PDF URL",
+                placeholder="https://example.com/sample.pdf",
+                info="変換したいPDFファイルのURLを入力してください"
+            )
+            with gr.Row():
+                duration_slider = gr.Slider(
+                    minimum=1,
+                    maximum=10,
+                    step=1,
+                    value=5,
+                    label="1ページあたりの表示秒数"
+                )
+                dpi_slider = gr.Slider(
+                    minimum=72,
+                    maximum=300,
+                    step=1,
+                    value=150,
+                    label="画像解像度（DPI）",
+                    info="高いほど高画質ですが処理時間が増加します"
+                )
+            convert_btn = gr.Button("🎬 動画生成", variant="primary", size="lg")
+        with gr.Column(scale=1):
+            status_output = gr.Textbox(
+                label="ステータス",
+                interactive=False
+            )
+            video_url_output = gr.Textbox(
+                label="動画URL",
+                interactive=False,
+                info="生成された動画のURL"
+            )
+    with gr.Row():
+        video_preview = gr.Video(
+            label="プレビュー",
+            interactive=False
+        )
+    # イベント設定
+    convert_btn.click(
+        fn=process_pdf_url,
+        inputs=[pdf_url_input, duration_slider, dpi_slider],
+        outputs=[video_url_output, status_output, video_preview]
+    )
+    # 使用例
+    gr.Markdown("""
+    ## 📖 使用方法
+    1. PDFのURLを入力
+    2. 1ページあたりの表示秒数を調整（デフォルト5秒）
+    3. 解像度（DPI）を調整（デフォルト150）
+    4. 「動画生成」ボタンをクリック
+    5. 生成された動画URLをコピーして利用
+    ## ⚙️ 環境変数
+    - `HF_TOKEN`: Hugging Face認証トークン（必須）
+    - `HF_REPO_ID`: データセットリポジトリID（例: username/repo-name）
+    ## 🔗 APIエンドポイント
+    - `POST /api/pdf-to-video`: PDF→動画変換API
+    - `GET /health`: ヘルスチェック
+    """)
+# FastAPIにGradioをマウント
+app = gr.mount_gradio_app(app, demo, path="/")
+```
+---
+### フェーズ5: 設定ファイル作成
+#### README.md (Hugging Face Space設定)
+```markdown
+---
+title: PDF to Video Converter
+emoji: 🎬
+colorFrom: blue
+colorTo: purple
+sdk: gradio
+sdk_version: 4.19.2
+app_file: app.py
+pinned: true
+---
+# PDF to Video Converter
+PDFファイルをスライドショー動画に変換するAPIです。
+## 機能
+- PDF URLからのダウンロード
+- 各ページを画像化
+- 1ページ5秒のスライドショー動画生成
+- Hugging Faceデータセットへの自動アップロード
+## API仕様
+- `POST /api/pdf-to-video`
+## 環境変数
+- `HF_TOKEN`: 必須
+- `HF_REPO_ID`: データセットリポジトリID
+```
+---
+## 🚀 デプロイ手順
+### 1. Hugging Face Spaceの作成
+1. https://huggingface.co/new-space にアクセス
+2. Space名を入力（例: `pdf-to-video-converter`）
+3. SDKで「Gradio」を選択
+4. 「Create Space」をクリック
+### 2. ファイルのアップロード
+```bash
+git clone https://huggingface.co/spaces/your-username/pdf-to-video-converter
+cd pdf-to-video-converter
+# ファイルをコピー
+cp majin/v4_spinoff/HUG/app.py .
+cp majin/v4_spinoff/HUG/requirements.txt .
+cp majin/v4_spinoff/HUG/packages.txt .
+cp majin/v4_spinoff/HUG/README.md .
+# コミット&プッシュ
+git add .
+git commit -m "Initial implementation"
+git push
+```
+### 3. 環境変数の設定
+Space設定画面で以下を設定：
+- `HF_TOKEN`: あなたのHugging Face Tokenを設定
+- `HF_REPO_ID`: 動画保存先のデータセットリポジトリID
+### 4. 動作確認
+- Space URLにアクセス
+- サンプルPDF URLで動作テスト
+- APIエンドポイント `/api/pdf-to-video` をテスト
+---
+## 🧪 テスト方法
+### curlでのAPIテスト
+```bash
+curl -X POST "https://your-space-url.hf.space/api/pdf-to-video" \
+  -H "Content-Type: application/json" \
+  -d '{
+    "pdf_url": "https://www.w3.org/WAI/ER/tests/xhtml/testfiles/resources/pdf/dummy.pdf",
+    "duration_per_page": 5,
+    "dpi": 150
+  }'
+```
+### Pythonでのテスト
+```python
+import requests
+response = requests.post(
+    "https://your-space-url.hf.space/api/pdf-to-video",
+    json={
+        "pdf_url": "https://example.com/sample.pdf",
+        "duration_per_page": 5,
+        "dpi": 150
+    }
+)
+print(response.json())
+# {"status": "success", "video_url": "https://...", ...}
+```
+---
+## ⚠️ 注意事項
+1. **PDFサイズ制限**: 大きなPDFは処理に時間がかかります（目安: 10ページ以下を推奨）
+2. **タイムアウト**: Hugging Face Spacesのタイムアウト制限に注意
+3. **ストレージ**: データセットリポジトリの容量制限を確認
+4. **セキュリティ**: PDF URLは信頼できるソースのみを使用
+---
+## 🔧 トラブルシューティング
+### pdf2imageエラー
+- `packages.txt`に`poppler-utils`が含まれているか確認
+### 動画エンコードエラー
+- `packages.txt`に`ffmpeg`が含まれているか確認
+- OpenCVのバージョンを確認
+### アップロードエラー
+- `HF_TOKEN`が正しく設定されているか確認
+- データセットリポジトリが存在するか確認
+- トークンに書き込み権限があるか確認
+---
+## 📚 参考資料
+- [pdf2image Documentation](https://github.com/Belval/pdf2image)
+- [OpenCV Video I/O](https://docs.opencv.org/4.x/dd/d43/tutorial_py_video_display.html)
+- [Hugging Face Hub API](https://huggingface.co/docs/huggingface_hub/guides/upload)
+- [Gradio Documentation](https://www.gradio.app/docs/)
+---
+## 📝 更新履歴
+- 2025-10-07: 初版作成