muooon commited on
Commit
e01c233
·
verified ·
1 Parent(s): 1764cb0

Upload 4 files

Browse files
.gitattributes CHANGED
@@ -111,3 +111,5 @@ AMP-compatible/logs/fluctuation_and_accuracy_panel.png filter=lfs diff=lfs merge
111
  AMP-compatible/logs/loss_comparison_panel.png filter=lfs diff=lfs merge=lfs -text
112
  AMP-compatible/logs/trec_gpt2_weight_pca_3panel.png filter=lfs diff=lfs merge=lfs -text
113
  AMP-compatible/logs/trec_weights_log.json filter=lfs diff=lfs merge=lfs -text
 
 
 
111
  AMP-compatible/logs/loss_comparison_panel.png filter=lfs diff=lfs merge=lfs -text
112
  AMP-compatible/logs/trec_gpt2_weight_pca_3panel.png filter=lfs diff=lfs merge=lfs -text
113
  AMP-compatible/logs/trec_weights_log.json filter=lfs diff=lfs merge=lfs -text
114
+ report/TensorBoard01.png filter=lfs diff=lfs merge=lfs -text
115
+ report/TensorBoard03.png filter=lfs diff=lfs merge=lfs -text
report/TensorBoard01.png ADDED

Git LFS Details

  • SHA256: bca74119ba5995b01a260ebadf62332d84bfa7b41a926f99e0440eedbdfad0cf
  • Pointer size: 131 Bytes
  • Size of remote file: 109 kB
report/TensorBoard02.png ADDED
report/TensorBoard03.png ADDED

Git LFS Details

  • SHA256: 7bea541d3bc55775c861e4687bf3399dc5f434de0d68028b609cd507f2b4b5b6
  • Pointer size: 131 Bytes
  • Size of remote file: 108 kB
report/report-vs-adamw(JPN).txt ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ TensorBoard
2
+ 黄色:AdamW、橙色:emonavi、緑色:emosens、紫色:emoairy
3
+ グラフのとおりです。Loss は emonavi / sens は AdamW より少しだけ下(0.003程差)を進行します
4
+
5
+ VRAM使用量と進行結果
6
+ AdamW:9.0~9.8
7
+ steps: 100%|█| 780/780 [20:00<00:00, 1.54s/it, Average key norm=0.132
8
+ emonavi:8.8~9.1
9
+ steps: 100%|█| 780/780 [20:37<00:00, 1.59s/it, Average key norm=0.294
10
+ emosens:8.8~9.1 --optimizer_args "use_shadow=False"
11
+ steps: 100%|█| 780/780 [21:44<00:00, 1.67s/it, Average key norm=0.305
12
+ emoairy:8.4~8.7 --optimizer_args "use_shadow=False"
13
+ steps: 100%|█| 780/780 [24:10<00:00, 1.86s/it, Average key norm=0.00669
14
+
15
+ xyz-grid
16
+ adw00(AdamW)、emn00(navi)、ens00(sens)、ena00(airy)
17
+ どうでしょう傾向として2つに分けられるかも。AdamWとAiry、naviとsens、
18
+ 元モデルに寄せて覚えるのはAiryかも(キャラ学習は向かないかも)
19
+ emo系は細部もキレイな気がしますが好みの違いかもしれません
20
+
21
+ 主要パラメータ(統一条件です)
22
+ LR:2e-4(層別50%=1e-4)、フルLoRA(c3lier)、R16a8、20epoch/780step、解像度:1024px
23
+ cosine with restart(2回)、bf16、huber-snr:0.1、GC(Gradient-Checkpoint)
24
+ LoRA学習モデル:Illustrious-XL-v0.1、LoRA適用モデル:Illustrious-XL-v0.1
25
+ emo系はすべてv2.0です
26
+
27
+ <試験結果>
28
+ emonavi、AdamW、ほとんど同じだといえます。
29
+ Q:詳細や細部を覚えるか? A:AdamW相当(emo系キレイかも)
30
+ Q:色移りや色抜けするか? A:AdamW相当(AiryはAdamWに近い)
31
+ Q:飽和すると覚えなくなるか? A:AdamW相当(他とも同じ)
32
+
33
+ Q:わざわざemo系をつかう理由なさそうだよね?
34
+ A:いいえ、追加学習等の面倒なハイパーパラメータは不要になります
35
+   過学習傾向や発散傾向にあるとき自動修復機能を働かせます
36
+   スケジューラに依存せず収束します(使うのもOKです/ご自由に)
37
+   特殊な学習環境における"同期"等も不要です
38
+
39
+ Q:emo系の欠点は?
40
+ A:あります!AdamWと比べて実績がありません(実績や普及度ではAdamW優位)
41
+   (信頼性や安定性に欠けるのではなく、単純にAdamWほど使われてないだけ)
42
+   ただしこの欠点だけで上記のメリットを享受できます
43
+
44
+ <最終結論>
45
+ emo系を選んでもいいし、選ばなくてもいいし、みんな自由だ!
46
+ ただし「自律的な収束」「過学習の自動修復」「VRAM効率の良さ」など、
47
+ 従来のOptimizerにはないメリットを得られます
48
+
49
+ <謝意/ライセンス>
50
+ LoRAは商用利用不可でお願いします
51
+ 2025/08/20 最新版