| # 多言語・簡易多モーダルWeb参照AIエージェント(Hugging Face Spaces対応) | |
| ## 概要 | |
| このプロジェクトは、テキスト・画像・動画を入力として受け取り、多言語でのWeb情報検索と要約を並列に行い、指定された言語で結果を統合・出力するAIエージェントです。 | |
| **Hugging Face Spaces(無料ティア)でのデプロイを想定**して設計されています。 | |
| --- | |
| ## 主な機能 | |
| * テキスト、画像、動画のマルチモーダル入力に対応 | |
| * 入力言語の自動検出と処理 | |
| * タスクの自動分解と並列処理(非同期実行) | |
| * Web検索とページ要約(Serper API + BeautifulSoup) | |
| * アップロードされた画像・動画のLLMによる簡易分析(GPT-4oなど) | |
| * 指定言語での統合出力(日本語、英語、スペイン語、フランス語、中国語) | |
| --- | |
| ## 使用技術 | |
| * **フロントエンド/UI**: Gradio | |
| * **バックエンド**: Python + asyncio + OpenAI API | |
| * **Web検索**: Serper API([https://serper.dev)](https://serper.dev)) | |
| * **LLM**: GPT-4o(openaiライブラリ経由) | |
| * **画像処理**: Pillow(軽量な画像サイズ取得など) | |
| * **動画処理**: MoviePy(キーフレーム抽出) | |
| --- | |
| ## インストールと実行方法 | |
| ```bash | |
| # 依存ライブラリのインストール | |
| pip install -r requirements.txt | |
| # 環境変数の設定(.envファイルまたはシェルで) | |
| export OPENAI_API_KEY=your_openai_key | |
| export SERPER_API_KEY=your_serper_key | |
| # アプリ起動 | |
| python app.py | |
| ``` | |
| --- | |
| ## Hugging Face Spacesでの注意点 | |
| * **無料ティアでは** CPUリソースとディスク容量に制限があります。 | |
| * 画像・動画の処理はアップロードされた小ファイル(短時間の.mp4等)に限定してください。 | |
| * Webからの画像・動画の**ダウンロード・保存は行わず、URLと要約のみ表示**されます。 | |
| * GPT-4oの使用により画像・動画内容の要約は可能ですが、コスト・速度に注意。 | |
| * 外部APIキーは Spaces の Secrets に登録してください(例: `OPENAI_API_KEY`, `SERPER_API_KEY`)。 | |
| --- | |
| ## 今後の拡張可能性 | |
| * Gemini API や Claude API 対応 | |
| * 音声抽出および文字起こし対応(短時間動画) | |
| * 出力形式のカスタマイズ(Markdown, JSONなど) | |
| --- | |
| ## 作者 | |
| tugaa | |
| --- | |
| ## ライセンス | |
| MIT | |