tugaa
/

testAgentForHFSpace

Model card Files Files and versions

testAgentForHFSpace / README.md

tugaa's picture

Update README.md

be44d6b verified 8 months ago

|

history blame contribute delete

2.45 kB

	# 多言語・簡易多モーダルWeb参照AIエージェント（Hugging Face Spaces対応）

	## 概要

	このプロジェクトは、テキスト・画像・動画を入力として受け取り、多言語でのWeb情報検索と要約を並列に行い、指定された言語で結果を統合・出力するAIエージェントです。

	Hugging Face Spaces（無料ティア）でのデプロイを想定して設計されています。

	---

	## 主な機能

	* テキスト、画像、動画のマルチモーダル入力に対応
	* 入力言語の自動検出と処理
	* タスクの自動分解と並列処理（非同期実行）
	* Web検索とページ要約（Serper API + BeautifulSoup）
	* アップロードされた画像・動画のLLMによる簡易分析（GPT-4oなど）
	* 指定言語での統合出力（日本語、英語、スペイン語、フランス語、中国語）

	---

	## 使用技術

	* フロントエンド/UI: Gradio
	* バックエンド: Python + asyncio + OpenAI API
	* Web検索: Serper API（[https://serper.dev）](https://serper.dev）)
	* LLM: GPT-4o（openaiライブラリ経由）
	* 画像処理: Pillow（軽量な画像サイズ取得など）
	* 動画処理: MoviePy（キーフレーム抽出）

	---

	## インストールと実行方法

	```bash
	# 依存ライブラリのインストール
	pip install -r requirements.txt

	# 環境変数の設定（.envファイルまたはシェルで）
	export OPENAI_API_KEY=your_openai_key
	export SERPER_API_KEY=your_serper_key

	# アプリ起動
	python app.py
	```

	---

	## Hugging Face Spacesでの注意点

	* 無料ティアでは CPUリソースとディスク容量に制限があります。
	* 画像・動画の処理はアップロードされた小ファイル（短時間の.mp4等）に限定してください。
	* Webからの画像・動画のダウンロード・保存は行わず、URLと要約のみ表示されます。
	* GPT-4oの使用により画像・動画内容の要約は可能ですが、コスト・速度に注意。
	* 外部APIキーは Spaces の Secrets に登録してください（例: `OPENAI_API_KEY`, `SERPER_API_KEY`）。

	---

	## 今後の拡張可能性

	* Gemini API や Claude API 対応
	* 音声抽出および文字起こし対応（短時間動画）
	* 出力形式のカスタマイズ（Markdown, JSONなど）

	---

	## 作者

	tugaa

	---

	## ライセンス

	MIT