Upload 4 files
Browse files- .gitattributes +2 -0
- report/TensorBoard01.png +3 -0
- report/TensorBoard02.png +0 -0
- report/TensorBoard03.png +3 -0
- report/report-vs-adamw(JPN).txt +51 -0
.gitattributes
CHANGED
|
@@ -111,3 +111,5 @@ AMP-compatible/logs/fluctuation_and_accuracy_panel.png filter=lfs diff=lfs merge
|
|
| 111 |
AMP-compatible/logs/loss_comparison_panel.png filter=lfs diff=lfs merge=lfs -text
|
| 112 |
AMP-compatible/logs/trec_gpt2_weight_pca_3panel.png filter=lfs diff=lfs merge=lfs -text
|
| 113 |
AMP-compatible/logs/trec_weights_log.json filter=lfs diff=lfs merge=lfs -text
|
|
|
|
|
|
|
|
|
| 111 |
AMP-compatible/logs/loss_comparison_panel.png filter=lfs diff=lfs merge=lfs -text
|
| 112 |
AMP-compatible/logs/trec_gpt2_weight_pca_3panel.png filter=lfs diff=lfs merge=lfs -text
|
| 113 |
AMP-compatible/logs/trec_weights_log.json filter=lfs diff=lfs merge=lfs -text
|
| 114 |
+
report/TensorBoard01.png filter=lfs diff=lfs merge=lfs -text
|
| 115 |
+
report/TensorBoard03.png filter=lfs diff=lfs merge=lfs -text
|
report/TensorBoard01.png
ADDED
|
Git LFS Details
|
report/TensorBoard02.png
ADDED
|
report/TensorBoard03.png
ADDED
|
Git LFS Details
|
report/report-vs-adamw(JPN).txt
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
TensorBoard
|
| 2 |
+
黄色:AdamW、橙色:emonavi、緑色:emosens、紫色:emoairy
|
| 3 |
+
グラフのとおりです。Loss は emonavi / sens は AdamW より少しだけ下(0.003程差)を進行します
|
| 4 |
+
|
| 5 |
+
VRAM使用量と進行結果
|
| 6 |
+
AdamW:9.0~9.8
|
| 7 |
+
steps: 100%|█| 780/780 [20:00<00:00, 1.54s/it, Average key norm=0.132
|
| 8 |
+
emonavi:8.8~9.1
|
| 9 |
+
steps: 100%|█| 780/780 [20:37<00:00, 1.59s/it, Average key norm=0.294
|
| 10 |
+
emosens:8.8~9.1 --optimizer_args "use_shadow=False"
|
| 11 |
+
steps: 100%|█| 780/780 [21:44<00:00, 1.67s/it, Average key norm=0.305
|
| 12 |
+
emoairy:8.4~8.7 --optimizer_args "use_shadow=False"
|
| 13 |
+
steps: 100%|█| 780/780 [24:10<00:00, 1.86s/it, Average key norm=0.00669
|
| 14 |
+
|
| 15 |
+
xyz-grid
|
| 16 |
+
adw00(AdamW)、emn00(navi)、ens00(sens)、ena00(airy)
|
| 17 |
+
どうでしょう傾向として2つに分けられるかも。AdamWとAiry、naviとsens、
|
| 18 |
+
元モデルに寄せて覚えるのはAiryかも(キャラ学習は向かないかも)
|
| 19 |
+
emo系は細部もキレイな気がしますが好みの違いかもしれません
|
| 20 |
+
|
| 21 |
+
主要パラメータ(統一条件です)
|
| 22 |
+
LR:2e-4(層別50%=1e-4)、フルLoRA(c3lier)、R16a8、20epoch/780step、解像度:1024px
|
| 23 |
+
cosine with restart(2回)、bf16、huber-snr:0.1、GC(Gradient-Checkpoint)
|
| 24 |
+
LoRA学習モデル:Illustrious-XL-v0.1、LoRA適用モデル:Illustrious-XL-v0.1
|
| 25 |
+
emo系はすべてv2.0です
|
| 26 |
+
|
| 27 |
+
<試験結果>
|
| 28 |
+
emonavi、AdamW、ほとんど同じだといえます。
|
| 29 |
+
Q:詳細や細部を覚えるか? A:AdamW相当(emo系キレイかも)
|
| 30 |
+
Q:色移りや色抜けするか? A:AdamW相当(AiryはAdamWに近い)
|
| 31 |
+
Q:飽和すると覚えなくなるか? A:AdamW相当(他とも同じ)
|
| 32 |
+
|
| 33 |
+
Q:わざわざemo系をつかう理由なさそうだよね?
|
| 34 |
+
A:いいえ、追加学習等の面倒なハイパーパラメータは不要になります
|
| 35 |
+
過学習傾向や発散傾向にあるとき自動修復機能を働かせます
|
| 36 |
+
スケジューラに依存せず収束します(使うのもOKです/ご自由に)
|
| 37 |
+
特殊な学習環境における"同期"等も不要です
|
| 38 |
+
|
| 39 |
+
Q:emo系の欠点は?
|
| 40 |
+
A:あります!AdamWと比べて実績がありません(実績や普及度ではAdamW優位)
|
| 41 |
+
(信頼性や安定性に欠けるのではなく、単純にAdamWほど使われてないだけ)
|
| 42 |
+
ただしこの欠点だけで上記のメリットを享受できます
|
| 43 |
+
|
| 44 |
+
<最終結論>
|
| 45 |
+
emo系を選んでもいいし、選ばなくてもいいし、みんな自由だ!
|
| 46 |
+
ただし「自律的な収束」「過学習の自動修復」「VRAM効率の良さ」など、
|
| 47 |
+
従来のOptimizerにはないメリットを得られます
|
| 48 |
+
|
| 49 |
+
<謝意/ライセンス>
|
| 50 |
+
LoRAは商用利用不可でお願いします
|
| 51 |
+
2025/08/20 最新版
|