Upload 4 files

Browse files

Files changed (5) hide show

.gitattributes +2 -0
report/TensorBoard01.png +3 -0
report/TensorBoard02.png +0 -0
report/TensorBoard03.png +3 -0
report/report-vs-adamw(JPN).txt +51 -0

.gitattributes CHANGED Viewed

@@ -111,3 +111,5 @@ AMP-compatible/logs/fluctuation_and_accuracy_panel.png filter=lfs diff=lfs merge
 AMP-compatible/logs/loss_comparison_panel.png filter=lfs diff=lfs merge=lfs -text
 AMP-compatible/logs/trec_gpt2_weight_pca_3panel.png filter=lfs diff=lfs merge=lfs -text
 AMP-compatible/logs/trec_weights_log.json filter=lfs diff=lfs merge=lfs -text

 AMP-compatible/logs/loss_comparison_panel.png filter=lfs diff=lfs merge=lfs -text
 AMP-compatible/logs/trec_gpt2_weight_pca_3panel.png filter=lfs diff=lfs merge=lfs -text
 AMP-compatible/logs/trec_weights_log.json filter=lfs diff=lfs merge=lfs -text
+report/TensorBoard01.png filter=lfs diff=lfs merge=lfs -text
+report/TensorBoard03.png filter=lfs diff=lfs merge=lfs -text

report/TensorBoard01.png ADDED Viewed

Git LFS Details

SHA256: bca74119ba5995b01a260ebadf62332d84bfa7b41a926f99e0440eedbdfad0cf
Pointer size: 131 Bytes
Size of remote file: 109 kB

report/TensorBoard02.png ADDED Viewed

report/TensorBoard03.png ADDED Viewed

Git LFS Details

SHA256: 7bea541d3bc55775c861e4687bf3399dc5f434de0d68028b609cd507f2b4b5b6
Pointer size: 131 Bytes
Size of remote file: 108 kB

report/report-vs-adamw(JPN).txt ADDED Viewed

	@@ -0,0 +1,51 @@

+TensorBoard
+黄色：AdamW、橙色：emonavi、緑色：emosens、紫色：emoairy
+グラフのとおりです。Loss は emonavi / sens は AdamW より少しだけ下(0.003程差)を進行します
+VRAM使用量と進行結果
+AdamW:9.0～9.8
+steps: 100%|█| 780/780 [20:00<00:00,  1.54s/it, Average key norm=0.132
+emonavi:8.8～9.1
+steps: 100%|█| 780/780 [20:37<00:00,  1.59s/it, Average key norm=0.294
+emosens:8.8～9.1 --optimizer_args "use_shadow=False"
+steps: 100%|█| 780/780 [21:44<00:00,  1.67s/it, Average key norm=0.305
+emoairy:8.4～8.7 --optimizer_args "use_shadow=False"
+steps: 100%|█| 780/780 [24:10<00:00,  1.86s/it, Average key norm=0.00669
+xyz-grid
+adw00(AdamW)、emn00(navi)、ens00(sens)、ena00(airy)
+どうでしょう傾向として２つに分けられるかも。AdamWとAiry、naviとsens、
+元モデルに寄せて覚えるのはAiryかも(キャラ学習は向かないかも)
+emo系は細部もキレイな気がしますが好みの違いかもしれません
+主要パラメータ(統一条件です)
+LR:2e-4(層別50%＝1e-4)、フルLoRA(c3lier)、R16a8、20epoch/780step、解像度：1024px
+cosine with restart(2回)、bf16、huber-snr：0.1、GC(Gradient-Checkpoint)
+LoRA学習モデル：Illustrious-XL-v0.1、LoRA適用モデル：Illustrious-XL-v0.1
+emo系はすべてv2.0です
+<試験結果>
+emonavi、AdamW、ほとんど同じだといえます。
+Ｑ：詳細や細部を覚えるか？ Ａ：AdamW相当(emo系キレイかも)
+Ｑ：色移りや色抜けするか？ Ａ：AdamW相当(AiryはAdamWに近い)
+Ｑ：飽和すると覚えなくなるか？ Ａ：AdamW相当(他とも同じ)
+Ｑ：わざわざemo系をつかう理由なさそうだよね？
+Ａ：いいえ、追加学習等の面倒なハイパーパラメータは不要になります
+　　過学習傾向や発散傾向にあるとき自動修復機能を働かせます
+　　スケジューラに依存せず収束します(使うのもOKです/ご自由に)
+　　特殊な学習環境における"同期"等も不要です
+Ｑ：emo系の欠点は？
+Ａ：あります！AdamWと比べて実績がありません(実績や普及度ではAdamW優位)
+　　(信頼性や安定性に欠けるのではなく、単純にAdamWほど使われてないだけ)
+　　ただしこの欠点だけで上記のメリットを享受できます
+＜最終結論＞
+emo系を選んでもいいし、選ばなくてもいいし、みんな自由だ！
+ただし｢自律的な収束｣｢過学習の自動修復｣｢VRAM効率の良さ｣など、
+従来のOptimizerにはないメリットを得られます
+＜謝意／ライセンス＞
+LoRAは商用利用不可でお願いします
+2025/08/20 最新版