| --- |
| title: Vision Language Chatbot |
| emoji: 😻 |
| colorFrom: indigo |
| colorTo: pink |
| sdk: gradio |
| sdk_version: 5.49.1 |
| app_file: app.py |
| pinned: false |
| --- |
| |
| Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference |
|
|
| 題目:視覺語言模型問答系統(Vision-Language Chatbot) |
|
|
| 專案簡介 |
| 本專案實作一個「視覺問答(Visual Question Answering, VQA)」網頁應用程式, |
| 使用者可以上傳一張圖片並以自然語言提問,AI 模型將根據圖片內容回答問題。 |
|
|
| 系統整合多種 BLIP(Bootstrapped Language-Image Pretraining)** 模型, |
| 可切換不同版本進行效果比較,如: |
| - BLIP VQA Base:基礎版問答模型 |
| - BLIP VQA Large:大型版本,表現更佳但速度稍慢 |
| - BLIP Captioning:用於產生圖片描述(非問答) |
|
|
| --- |
|
|
| 功能特色 |
| - 支援圖片上傳 |
| - 可進行多輪問答(聊天模式) |
| - 可隨時更換圖片並重新提問 |
| - 可切換模型比較不同回答效果 |
| - 使用Gradio製作介面,介面簡潔、可即時互動 |
|
|
| --- |
|
|
| 環境安裝(本地執行) |
| conda create -n hw3 python=3.10 -y |
| conda activate hw3 |
| pip install -r requirements.txt |
| python app.py |
|
|
| --- |
|
|
| 檔案結構 |
| - `app.py`: 包含所有邏輯的主要 Gradio 應用程式腳本 |
| - `requirements.txt`: 專案所需的 Python 套件列表 |
| - `README.md`:此檔案 |
| - `sample_images/`: 包含用於 Gradio 介面範例的測試圖片 |
|
|