idkWhatToUse's picture
Update README.md
af0bb47 verified
|
Raw
History Blame Contribute Delete
1.44 kB

A newer version of the Gradio SDK is available: 6.19.0

Upgrade
metadata
title: Vision Language Chatbot
emoji: 😻
colorFrom: indigo
colorTo: pink
sdk: gradio
sdk_version: 5.49.1
app_file: app.py
pinned: false

Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

題目:視覺語言模型問答系統(Vision-Language Chatbot)

專案簡介 本專案實作一個「視覺問答(Visual Question Answering, VQA)」網頁應用程式,
使用者可以上傳一張圖片並以自然語言提問,AI 模型將根據圖片內容回答問題。

系統整合多種 BLIP(Bootstrapped Language-Image Pretraining)** 模型,
可切換不同版本進行效果比較,如:

  • BLIP VQA Base:基礎版問答模型
  • BLIP VQA Large:大型版本,表現更佳但速度稍慢
  • BLIP Captioning:用於產生圖片描述(非問答)

功能特色

  • 支援圖片上傳
  • 可進行多輪問答(聊天模式)
  • 可隨時更換圖片並重新提問
  • 可切換模型比較不同回答效果
  • 使用Gradio製作介面,介面簡潔、可即時互動

環境安裝(本地執行) conda create -n hw3 python=3.10 -y conda activate hw3 pip install -r requirements.txt python app.py


檔案結構

  • app.py: 包含所有邏輯的主要 Gradio 應用程式腳本
  • requirements.txt: 專案所需的 Python 套件列表
  • README.md:此檔案
  • sample_images/: 包含用於 Gradio 介面範例的測試圖片