File size: 1,440 Bytes
d742615
 
 
 
 
 
 
 
 
 
 
 
af0bb47
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
---
title: Vision Language Chatbot
emoji: 😻
colorFrom: indigo
colorTo: pink
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: false
---

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

題目:視覺語言模型問答系統(Vision-Language Chatbot)

專案簡介
本專案實作一個「視覺問答(Visual Question Answering, VQA)」網頁應用程式,  
使用者可以上傳一張圖片並以自然語言提問,AI 模型將根據圖片內容回答問題。  

系統整合多種 BLIP(Bootstrapped Language-Image Pretraining)** 模型,  
可切換不同版本進行效果比較,如:
- BLIP VQA Base:基礎版問答模型  
- BLIP VQA Large:大型版本,表現更佳但速度稍慢  
- BLIP Captioning:用於產生圖片描述(非問答)

---

功能特色
- 支援圖片上傳  
- 可進行多輪問答(聊天模式)  
- 可隨時更換圖片並重新提問  
- 可切換模型比較不同回答效果  
- 使用Gradio製作介面,介面簡潔、可即時互動  

---

環境安裝(本地執行)
conda create -n hw3 python=3.10 -y
conda activate hw3
pip install -r requirements.txt
python app.py

---

 檔案結構
- `app.py`: 包含所有邏輯的主要 Gradio 應用程式腳本
- `requirements.txt`: 專案所需的 Python 套件列表
- `README.md`:此檔案
- `sample_images/`: 包含用於 Gradio 介面範例的測試圖片