Video Vision Transformer (ViViT) [[video-vision-transformer-vivit]]
๊ฐ์ [[overview]]
Vivit ๋ชจ๋ธ์ Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luฤiฤ, Cordelia Schmid๊ฐ ์ ์ํ ๋ ผ๋ฌธ ViViT: A Video Vision Transformer์์ ์๊ฐ๋์์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๋น๋์ค ์ดํด๋ฅผ ์ํ pure-transformer ๊ธฐ๋ฐ์ ๋ชจ๋ธ ์งํฉ ์ค์์ ์ต์ด๋ก ์ฑ๊ณตํ ๋ชจ๋ธ ์ค ํ๋๋ฅผ ์๊ฐํฉ๋๋ค.
๋ ผ๋ฌธ์ ์ด๋ก์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
์ฐ๋ฆฌ๋ ์ด๋ฏธ์ง ๋ถ๋ฅ์์ ์ต๊ทผ ์ฑ๊ณต์ ๊ฑฐ๋ ์์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ฐํ์ผ๋ก ๋น๋์ค ๋ถ๋ฅ๋ฅผ ์ํ ๋ชจ๋ธ์ ์ ์ํฉ๋๋ค. ๋ณธ ๋ชจ๋ธ์ ์ ๋ ฅ ๋น๋์ค๋ก๋ถํฐ ์๊ณต๊ฐ ํ ํฐ์ ์ถ์ถํ ํ, ์ด๋ฅผ ์ผ๋ จ์ ํธ๋์คํฌ๋จธ ๋ ์ด์ด๋ก ์ธ์ฝ๋ฉํฉ๋๋ค. ๋น๋์ค์์ ๋ฐ์ํ๋ ๊ธด ํ ํฐ ์ํ์ค๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํด, ์ ๋ ฅ์ ๊ณต๊ฐ ๋ฐ ์๊ฐ ์ฐจ์์ ๋ถ๋ฆฌํ๋ ์ฌ๋ฌ ํจ์จ์ ์ธ ๋ชจ๋ธ ๋ณํ์ ์ ์ํฉ๋๋ค. ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋๊ท๋ชจ ํ์ต ๋ฐ์ดํฐ์ ์์๋ง ํจ๊ณผ์ ์ด๋ผ๋ ๊ฒ์ด ์ผ๋ฐ์ ์ด์ง๋ง, ์ฐ๋ฆฌ๋ ํ์ต ์ค ๋ชจ๋ธ์ ํจ๊ณผ์ ์ผ๋ก ์ ๊ทํํ๊ณ , ์ฌ์ ํ์ต๋ ์ด๋ฏธ์ง ๋ชจ๋ธ์ ํ์ฉํจ์ผ๋ก์จ ์๋์ ์ผ๋ก ์์ ๋ฐ์ดํฐ์ ์์๋ ํ์ตํ ์ ์๋ ๋ฐฉ๋ฒ์ ๋ณด์ฌ์ค๋๋ค. ๋ํ, ์ฒ ์ ํ ์๊ฑฐ(ablation) ์ฐ๊ตฌ๋ฅผ ์ํํ๊ณ Kinetics 400 ๋ฐ 600, Epic Kitchens, Something-Something v2, Moments in Time์ ํฌํจํ ์ฌ๋ฌ ๋น๋์ค ๋ถ๋ฅ ๋ฒค์น๋งํฌ์์ ์ต์ฒจ๋จ ์ฑ๊ณผ๋ฅผ ๋ฌ์ฑํ์ฌ, ๊ธฐ์กด์ 3D ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง ๊ธฐ๋ฐ ๋ฐฉ๋ฒ๋ค์ ๋ฅ๊ฐํฉ๋๋ค.
์ด ๋ชจ๋ธ์ jegormeister๊ฐ ๊ธฐ์ฌํ์์ต๋๋ค. ์๋ณธ ์ฝ๋(JAX๋ก ์์ฑ๋จ)๋ ์ฌ๊ธฐ์์ ํ์ธํ ์ ์์ต๋๋ค.
VivitConfig [[transformers.VivitConfig]]
[[autodoc]] VivitConfig
VivitImageProcessor [[transformers.VivitImageProcessor]]
[[autodoc]] VivitImageProcessor - preprocess
VivitModel [[transformers.VivitModel]]
[[autodoc]] VivitModel - forward
VivitForVideoClassification [[transformers.VivitForVideoClassification]]
[[autodoc]] transformers.VivitForVideoClassification - forward