BLIP[[blip]]
๊ฐ์[[overview]]
BLIP ๋ชจ๋ธ์ Junnan Li, Dongxu Li, Caiming Xiong, Steven Hoi์ BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation ๋ ผ๋ฌธ์์ ์ ์๋์์ต๋๋ค.
BLIP์ ์ฌ๋ฌ ๋ฉํฐ๋ชจ๋ฌ ์์ ์ ์ํํ ์ ์๋ ๋ชจ๋ธ์ ๋๋ค:
- ์๊ฐ ์ง๋ฌธ ์๋ต (Visual Question Answering, VQA)
- ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์ (์ด๋ฏธ์ง-ํ ์คํธ ๋งค์นญ)
- ์ด๋ฏธ์ง ์บก์ ๋
๋ ผ๋ฌธ์ ์ด๋ก์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
๋น์ -์ธ์ด ์ฌ์ ํ์ต(Vision-Language Pre-training, VLP)์ ๋ค์ํ ๋น์ -์ธ์ด ์์ ์ ์ฑ๋ฅ์ ํฌ๊ฒ ํฅ์์์ผฐ์ต๋๋ค. ํ์ง๋ง, ๋๋ถ๋ถ์ ๊ธฐ์กด ์ฌ์ ํ์ต ๋ชจ๋ธ๋ค์ ์ดํด ๊ธฐ๋ฐ ์์ ์ด๋ ์์ฑ ๊ธฐ๋ฐ ์์ ์ค ํ๋์์๋ง ๋ฐ์ด๋ ์ฑ๋ฅ์ ๋ฐํํฉ๋๋ค. ๋ํ ์ฑ๋ฅ ํฅ์์ ์ฃผ๋ก ์น์์ ์์งํ ๋ ธ์ด์ฆ๊ฐ ๋ง์ ์ด๋ฏธ์ง-ํ ์คํธ ์์ผ๋ก ๋ฐ์ดํฐ์ ์ ๊ท๋ชจ๋ฅผ ํค์ฐ๋ ๋ฐฉ์์ผ๋ก ์ด๋ฃจ์ด์ก๋๋ฐ, ์ด๋ ์ต์ ์ ์ง๋ ํ์ต ๋ฐฉ์์ด๋ผ๊ณ ๋ณด๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ณธ ๋ ผ๋ฌธ์์๋ BLIP์ด๋ผ๋ ์๋ก์ด VLP ํ๋ ์์ํฌ๋ฅผ ์ ์ํฉ๋๋ค. ์ด ํ๋ ์์ํฌ๋ ๋น์ -์ธ์ด ์ดํด ๋ฐ ์์ฑ ์์ ๋ชจ๋์ ์ ์ฐํ๊ฒ ์ ์ฉ๋ ์ ์์ต๋๋ค. BLIP๋ ์บก์ ๋๊ฐ ํฉ์ฑ ์บก์ ์ ์์ฑํ๊ณ ํํฐ๊ฐ ๋ ธ์ด์ฆ ์บก์ ์ ์ ๊ฑฐํ๋ ๋ถํธ์คํธ๋ํ ๋ฐฉ๋ฒ์ ํตํด ์น ๋ฐ์ดํฐ์ ๋ ธ์ด์ฆ๋ฅผ ํจ๊ณผ์ ์ผ๋ก ํ์ฉํฉ๋๋ค. ์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง-ํ ์คํธ ๊ฒ์(Recall@1์์ +2.7%), ์ด๋ฏธ์ง ์บก์ ๋(CIDEr์์ +2.8%), ๊ทธ๋ฆฌ๊ณ VQA(VQA ์ ์์์ +1.6%)์ ๊ฐ์ ๋ค์ํ ๋น์ -์ธ์ด ์์ ์์ ์ต์ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ต๋๋ค. ๋ํ BLIP์ ์ ๋ก์ท ๋ฐฉ์์ผ๋ก ๋น๋์ค-์ธ์ด ์์ ์ ์ง์ ์ ์ด๋ ๋๋ ๊ฐ๋ ฅํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ ๋ณด์ฌ์ค๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ฝ๋, ๋ชจ๋ธ, ๋ฐ์ดํฐ์ ์ ๊ณต๊ฐ๋์์ต๋๋ค.
์ด ๋ชจ๋ธ์ ybelkada๊ฐ ๊ธฐ์ฌํ์ต๋๋ค. ์๋ณธ ์ฝ๋๋ ์ฌ๊ธฐ์์ ์ฐพ์ ์ ์์ต๋๋ค.
์๋ฃ[[resources]]
- Jupyter notebook: ์ฌ์ฉ์ ์ ์ ๋ฐ์ดํฐ์ ์์ BLIP๋ฅผ ์ด๋ฏธ์ง ์บก์ ๋์ผ๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ
BlipConfig[[transformers.BlipConfig]]
[[autodoc]] BlipConfig - from_text_vision_configs
BlipTextConfig[[transformers.BlipTextConfig]]
[[autodoc]] BlipTextConfig
BlipVisionConfig[[transformers.BlipVisionConfig]]
[[autodoc]] BlipVisionConfig
BlipProcessor[[transformers.BlipProcessor]]
[[autodoc]] BlipProcessor
BlipImageProcessor[[transformers.BlipImageProcessor]]
[[autodoc]] BlipImageProcessor - preprocess
BlipModel[[transformers.BlipModel]]
BlipModel์ ํฅํ ๋ฒ์ ์์ ๋ ์ด์ ์ง์๋์ง ์์ ์์ ์
๋๋ค. ๋ชฉ์ ์ ๋ฐ๋ผ BlipForConditionalGeneration, BlipForImageTextRetrieval ๋๋ BlipForQuestionAnswering์ ์ฌ์ฉํ์ญ์์ค.
[[autodoc]] BlipModel - forward - get_text_features - get_image_features
BlipTextModel[[transformers.BlipTextModel]]
[[autodoc]] BlipTextModel - forward
BlipVisionModel[[transformers.BlipVisionModel]]
[[autodoc]] BlipVisionModel - forward
BlipForConditionalGeneration[[transformers.BlipForConditionalGeneration]]
[[autodoc]] BlipForConditionalGeneration - forward
BlipForImageTextRetrieval[[transformers.BlipForImageTextRetrieval]]
[[autodoc]] BlipForImageTextRetrieval - forward
BlipForQuestionAnswering[[transformers.BlipForQuestionAnswering]]
[[autodoc]] BlipForQuestionAnswering - forward
TFBlipModel[[transformers.TFBlipModel]]
[[autodoc]] TFBlipModel - call - get_text_features - get_image_features
TFBlipTextModel[[transformers.TFBlipTextModel]]
[[autodoc]] TFBlipTextModel - call
TFBlipVisionModel[[transformers.TFBlipVisionModel]]
[[autodoc]] TFBlipVisionModel - call
TFBlipForConditionalGeneration[[transformers.TFBlipForConditionalGeneration]]
[[autodoc]] TFBlipForConditionalGeneration - call
TFBlipForImageTextRetrieval[[transformers.TFBlipForImageTextRetrieval]]
[[autodoc]] TFBlipForImageTextRetrieval - call
TFBlipForQuestionAnswering[[transformers.TFBlipForQuestionAnswering]]
[[autodoc]] TFBlipForQuestionAnswering - call
