Taiga10969
/

MPRG_DL_LectureNotebook_VLM

@@ -27,6 +27,7 @@ VisionEncoderの出力をCLSトークンだけでなく，全てパッチ分の
 しかし，LLMが経験するVision的な特徴量の量に差があるため，再び学習する必要があると考えられます．<br>
 - 元々CLSトークン1つの画像特徴から説明文を生成するように学習
 - 全てのトークン257つ画像特徴から説明文を生成するように学習
 この違いがモデルの経験値として差に現れてしまいます．<br>
 どちらがより精度が良い説明文を生成することができるのでしょうか？<br>
 画像特徴が1トークンだけですと，情報量が少なすぎるような気もします．（1単語と同じ情報量）<br>

 しかし，LLMが経験するVision的な特徴量の量に差があるため，再び学習する必要があると考えられます．<br>
 - 元々CLSトークン1つの画像特徴から説明文を生成するように学習
 - 全てのトークン257つ画像特徴から説明文を生成するように学習
 この違いがモデルの経験値として差に現れてしまいます．<br>
 どちらがより精度が良い説明文を生成することができるのでしょうか？<br>
 画像特徴が1トークンだけですと，情報量が少なすぎるような気もします．（1単語と同じ情報量）<br>