Spaces:

idkWhatToUse
/

Vision-Language-Chatbot

Running

Update README.md

af0bb47 verified 8 months ago

1.44 kB

	---
	title: Vision Language Chatbot
	emoji: 😻
	colorFrom: indigo
	colorTo: pink
	sdk: gradio
	sdk_version: 5.49.1
	app_file: app.py
	pinned: false
	---

	Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

	題目：視覺語言模型問答系統（Vision-Language Chatbot）

	專案簡介
	本專案實作一個「視覺問答（Visual Question Answering, VQA）」網頁應用程式，
	使用者可以上傳一張圖片並以自然語言提問，AI 模型將根據圖片內容回答問題。

	系統整合多種 BLIP（Bootstrapped Language-Image Pretraining）** 模型，
	可切換不同版本進行效果比較，如：
	- BLIP VQA Base：基礎版問答模型
	- BLIP VQA Large：大型版本，表現更佳但速度稍慢
	- BLIP Captioning：用於產生圖片描述（非問答）

	---

	功能特色
	- 支援圖片上傳
	- 可進行多輪問答（聊天模式）
	- 可隨時更換圖片並重新提問
	- 可切換模型比較不同回答效果
	- 使用Gradio製作介面，介面簡潔、可即時互動

	---

	環境安裝（本地執行）
	conda create -n hw3 python=3.10 -y
	conda activate hw3
	pip install -r requirements.txt
	python app.py

	---

	檔案結構
	- `app.py`: 包含所有邏輯的主要 Gradio 應用程式腳本
	- `requirements.txt`: 專案所需的 Python 套件列表
	- `README.md`:此檔案
	- `sample_images/`: 包含用於 Gradio 介面範例的測試圖片