Upload README.md with huggingface_hub
Browse files
README.md
ADDED
|
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language: ja
|
| 3 |
+
tags:
|
| 4 |
+
- vision-language
|
| 5 |
+
- pytorch
|
| 6 |
+
- custom-model
|
| 7 |
+
license: mit
|
| 8 |
+
---
|
| 9 |
+
|
| 10 |
+
# MPRG_DL_LectureNotebook_VLM
|
| 11 |
+
MPRGでは,[初学者向けの学習用教材としてLectureNotebook](https://github.com/machine-perception-robotics-group/MPRGDeepLearningLectureNotebook)を公開しています.
|
| 12 |
+
|
| 13 |
+
## 概要
|
| 14 |
+
このリポジトリは,MPRGのDeep Learning Lecture Notebookで公開されているVision Language Model(VLM)に関連したデータを共有しています.<br>
|
| 15 |
+
演習ではCLIPの画像エンコーダとGPT-2の言語モデルを組み合わせて,画像からテキストを生成するVLMモデルを構築・学習する方法を学ぶことができます.<br>
|
| 16 |
+
|
| 17 |
+
## 共有データ
|
| 18 |
+
ここで共有するデータは,以下のとおりです.<br>
|
| 19 |
+
演習時間の都合により学習無しでVLMモデルを触りたい時や,さらなる調査にお役立てください.
|
| 20 |
+
表のテンプレート
|
| 21 |
+
|
| 22 |
+
| Data | explanation |
|
| 23 |
+
|:-----------|:------------|
|
| 24 |
+
| `trained_model.pt`| Notebookに記載されている演習では,COCOデータセットのValデータを分割して小規模化した学習用データと検証用データを作成しています.<br> そこで,無料版のGoogle Clabratoryでは実行困難なCOCOデータセットの大規模なTrainデータを用いて学習した,学習済みの重みパラメータを共有します.<br>|
|
| 25 |
+
| `trained_model_v2.pt`| 課題2で行うCLIPの画像エンコーダの出力特徴をCLSトークンだけでなくすべてのトークンをLLMに渡たす場合の学習済みの重みパラメータです.|
|
| 26 |
+
|