Taiga10969
/

MPRG_DL_LectureNotebook_VLM

+---
+language: ja
+tags:
+- vision-language
+- pytorch
+- custom-model
+license: mit
+---
+# MPRG_DL_LectureNotebook_VLM
+MPRGでは，[初学者向けの学習用教材としてLectureNotebook](https://github.com/machine-perception-robotics-group/MPRGDeepLearningLectureNotebook)を公開しています．
+## 概要
+このリポジトリは，MPRGのDeep Learning Lecture Notebookで公開されているVision Language Model（VLM）に関連したデータを共有しています．<br>
+演習ではCLIPの画像エンコーダとGPT-2の言語モデルを組み合わせて，画像からテキストを生成するVLMモデルを構築・学習する方法を学ぶことができます．<br>
+## 共有データ
+ここで共有するデータは，以下のとおりです．<br>
+演習時間の都合により学習無しでVLMモデルを触りたい時や，さらなる調査にお役立てください．
+表のテンプレート
+| Data       | explanation |
+|:-----------|:------------|
+| `trained_model.pt`| Notebookに記載されている演習では，COCOデータセットのValデータを分割して小規模化した学習用データと検証用データを作成しています．<br> そこで，無料版のGoogle Clabratoryでは実行困難なCOCOデータセットの大規模なTrainデータを用いて学習した，学習済みの重みパラメータを共有します．<br>|
+| `trained_model_v2.pt`| 課題2で行うCLIPの画像エンコーダの出力特徴をCLSトークンだけでなくすべてのトークンをLLMに渡たす場合の学習済みの重みパラメータです．|