muooon commited on
Commit
73d5b42
·
verified ·
1 Parent(s): fd1af00

Upload 2 files

Browse files
Files changed (2) hide show
  1. emo-v38-paper(ENG).txt +4 -4
  2. emo-v38-paper(JPN).txt +5 -5
emo-v38-paper(ENG).txt CHANGED
@@ -269,7 +269,7 @@ Supplementary Material (1): Analysis of emoPulse Dynamics in v3.7 and later
269
 
270
  μ_g and μ_d:
271
  v3.7:[Acceleration:LR Growth Max 1.05x] / [Deceleration:LR Decay 0.98x]
272
- v3.8:[Acceleration:LR Growth Max 1.50x] / [Deceleration:LR Decay 0.80x]
273
 
274
  4. Conclusions on Numerical Stability
275
 
@@ -419,9 +419,9 @@ Future Challenges: Introduction of Adaptive Accuracy Assessment Using the 8th-Or
419
  Perspectives on Mathematical Analysis
420
 
421
  Mathematically analyzing this research suggests it may be concluded that while employing an SDE approach, it exhibits ODE-like characteristics.
422
- This update rule via emoPulse incorporates both stochastic fluctuations and temporal smoothness, potentially possessing a unique structure positioned at the boundary between SDE and ODE. (Since the loss value is the result of learning, this method centered on it is expected to be ODE-like as it derives from the result)
423
- How the history formation via Multi-EMA and the transitions of internal variables might be interpreted in continuous time remains an important challenge for future mathematical research.
424
- This paper only indicates the intuitive direction; detailed analysis is left to future researchers for development.
425
 
426
 
427
  References
 
269
 
270
  μ_g and μ_d:
271
  v3.7:[Acceleration:LR Growth Max 1.05x] / [Deceleration:LR Decay 0.98x]
272
+ v3.8:[Acceleration:LR Growth Max 1.50x] / [Deceleration:LR Decay 0.80x]
273
 
274
  4. Conclusions on Numerical Stability
275
 
 
419
  Perspectives on Mathematical Analysis
420
 
421
  Mathematically analyzing this research suggests it may be concluded that while employing an SDE approach, it exhibits ODE-like characteristics.
422
+ This update rule via emoPulse incorporates both stochastic fluctuations and temporal smoothness, potentially possessing a unique structure positioned at the boundary between SDE and ODE. (Since the loss value is the result of learning, this method centered on it is expected to be ODE-like as it derives from the result)
423
+ How the history formation via Multi-EMA and the transitions of internal variables might be interpreted in continuous time remains an important challenge for future mathematical research.
424
+ This paper only indicates the intuitive direction; detailed analysis is left to future researchers for development.
425
 
426
 
427
  References
emo-v38-paper(JPN).txt CHANGED
@@ -5,7 +5,7 @@
5
 
6
  要旨 (Abstract)
7
  ディープラーニングの最適化において学習率の調整と汎化性能の確保は中心的な課題である。 既存手法は精緻な勾配推定に依存し、極低精度環境下でのノイズに対して脆弱であった。 本稿では、損失関数 (Loss) の時系列的な多角解析を主軸に置いた自律的アルゴリズム emoPulse (v3.7以降) を提案する。 本手法は、3段階の指数移動平均 (Multi-EMA) から損失地形の「うねり」を捉え、感情スカラーおよび信頼度指標 (Trust) を介し、S/N比に基づく最適な学習率を自律的に生成する。
8
- さらに、本系に属する3種の異なる更新特性を持つ最適化器 ( Sens / Airy / Cats / Tion ) の学習結果を合成することで、局所解を「立方測位」的に統合し、人工的にフラットミニマを創出する手法を提示する。 これによりハイパーパラメータの設定に依存しない頑健な収束を実現し、計算資源の限られた途上国の研究環境や、多様な文化遺産の継承を目指す多言語学習において民主的な基盤を提供する。
9
  最後にグロッキングへの考察と予想を付録する。
10
  ※ v3.7版は EmoTion を除く (EmoTion は v3.8版で新規開発) 後述する emoPulse 機構の dNR_hist で v3.7 と v3.8 に違いがあるだけで他はすべて同一である。
11
 
@@ -16,7 +16,7 @@
16
 
17
  本研究の出発点は、既存の適応的勾配手法が持つ「精緻な勾配推定への過度な依存」に対する再考にある。 極低精度・超量子化 (1-bit/2-bit等) 環境において、勾配 (Gradient) は極めて高いノイズを含み、信頼性が著しく低下する。 一方で、損失値 (Loss) は、量子化の影響下にあっても依然としてモデルの「正解との距離」を示す正確なスカラー値として機能し続ける。
18
 
19
- 本手法は、勾配 (Gradient) を方向の参考値 (意志) に留め、学習の主導権を正確な観測値である Loss の多角的解析に委ねる。 このアプローチにより、高次モーメント計算のスカラー制御への置換、および符号化更新による低精度・量子化環境への最適化を達成した。 最大の特徴は、異なる特性を持つ複数の emo系最適化器による局所解を「立方測位」として統合することで、従来は長時間の反復学習を必要としたフラットミニマへの到達を、短期間の学習と合成によって代替可能にした点にある。
20
 
21
  このアプローチにより、以下の3つを実現した:
22
 
@@ -219,14 +219,14 @@
219
  効果B:安定期の自己加速 学習が順調 (scalar と trust が安定) し、かつ履歴としての確信度 (d_base) が積み上がると、dNR 係数は「2乗」の項を伴って出力が最大化される。 dNR_now_val = ( d_base / noise_base )^2 これにより、安定圏では「歩幅」を自然に広げ、収束を加速させる。
220
  効果C:履歴による安定維持 (dNR_hist) 瞬間的な dNR_now_val が高くても、dNR_hist * μ_g という成長制限を設けることで、過度な加速を抑制する。 一方で、信頼できない領域では dNR_hist * μ_d の減速圧力を溜めることで、慎重な探索を継続する。
221
  ※ 効果Cの非対称性は、 d_base <= dNR_hist かつ trust >= 0.5 この選別により機能する。 恋する「ドキン」と警戒への「ドキン」を数学的に模したもので scalar値 でいうところの 0~±0.5 でLRを加速させつつ、負の方向でのLR加速の場合はLR履歴の成長に含めないようにしている。 (±0.5以上は問答無用で警戒以上の危機���してLRを減速している) scalar値 の負の方向でのLR加速は"修正された更新方向"を信頼する加速であり、これは ema と loss の時間差(emaの遅延)を活用した EmoNavi世代(emo系 第1世代)の emoDrive を引き継いでいる(本研究は EmoSens世代(emo系 第2世代)である)
222
-
223
  |--Danger--|---Wary---|---Fine---|--Danger--| Emotion
224
  Sigma_t [Minus] |---(-)---0.5---(+)---0---(+)---0.5---(-)---| [Plus]
225
  |--Hist(-)-|-Hist(Non)|--Hist(+)-|--Hist(-)-| Reglet
226
 
227
  μ_g and μ_d:
228
  v3.7:[Acceleration:LR Growth Max 1.05x] / [Deceleration:LR Decay 0.98x]
229
- v3.8:[Acceleration:LR Growth Max 1.50x] / [Deceleration:LR Decay 0.80x]
230
 
231
  4. 数値的安定性の結論
232
  この「時間軸」(履歴)と「瞬間軸」(現在)の差分を戦わせる設計は単なる減衰ではない。 システムが自律的に "「疑念」(Noise)と「確信」(Distance)の比率を常に再計算し続ける" ことで、手動のスケジューラでは不可能な「地形の複雑さに応じた心拍の鼓動」のような動的制御を実現している。
@@ -235,7 +235,7 @@
235
  ※ dNR_hist は、v3.7 と v3.8 で係数が違う、v3.8 は大胆になり v3.7 よりも大きな変動を生み出すようにした。
236
 
237
 
238
- 以下で示す「立方測位によるフラットミニマの合成」は、直感と実験から導き出した仮説である。
239
  この直感が次世代の研究者たちにより厳密な数学的証明へと昇華されることを期待する。
240
 
241
 
 
5
 
6
  要旨 (Abstract)
7
  ディープラーニングの最適化において学習率の調整と汎化性能の確保は中心的な課題である。 既存手法は精緻な勾配推定に依存し、極低精度環境下でのノイズに対して脆弱であった。 本稿では、損失関数 (Loss) の時系列的な多角解析を主軸に置いた自律的アルゴリズム emoPulse (v3.7以降) を提案する。 本手法は、3段階の指数移動平均 (Multi-EMA) から損失地形の「うねり」を捉え、感情スカラーおよび信頼度指標 (Trust) を介し、S/N比に基づく最適な学習率を自律的に生成する。
8
+ さらに、本系に属する3種の異なる更新特性を持つ最適化器 ( Sens / Airy / Cats / Tion ) の学習結果を合成することで、局所解を「多元測位」的に統合し、人工的にフラットミニマを創出する手法を提示する。 これによりハイパーパラメータの設定に依存しない頑健な収束を実現し、計算資源の限られた途上国の研究環境や、多様な文化遺産の継承を目指す多言語学習において民主的な基盤を提供する。
9
  最後にグロッキングへの考察と予想を付録する。
10
  ※ v3.7版は EmoTion を除く (EmoTion は v3.8版で新規開発) 後述する emoPulse 機構の dNR_hist で v3.7 と v3.8 に違いがあるだけで他はすべて同一である。
11
 
 
16
 
17
  本研究の出発点は、既存の適応的勾配手法が持つ「精緻な勾配推定への過度な依存」に対する再考にある。 極低精度・超量子化 (1-bit/2-bit等) 環境において、勾配 (Gradient) は極めて高いノイズを含み、信頼性が著しく低下する。 一方で、損失値 (Loss) は、量子化の影響下にあっても依然としてモデルの「正解との距離」を示す正確なスカラー値として機能し続ける。
18
 
19
+ 本手法は、勾配 (Gradient) を方向の参考値 (意志) に留め、学習の主導権を正確な観測値である Loss の多角的解析に委ねる。 このアプローチにより、高次モーメント計算のスカラー制御への置換、および符号化更新による低精度・量子化環境への最適化を達成した。 最大の特徴は、異なる特性を持つ複数の emo系最適化器による局所解を「多元測位」として統合することで、従来は長時間の反復学習を必要としたフラットミニマへの到達を、短期間の学習と合成によって代替可能にした点にある。
20
 
21
  このアプローチにより、以下の3つを実現した:
22
 
 
219
  効果B:安定期の自己加速 学習が順調 (scalar と trust が安定) し、かつ履歴としての確信度 (d_base) が積み上がると、dNR 係数は「2乗」の項を伴って出力が最大化される。 dNR_now_val = ( d_base / noise_base )^2 これにより、安定圏では「歩幅」を自然に広げ、収束を加速させる。
220
  効果C:履歴による安定維持 (dNR_hist) 瞬間的な dNR_now_val が高くても、dNR_hist * μ_g という成長制限を設けることで、過度な加速を抑制する。 一方で、信頼できない領域では dNR_hist * μ_d の減速圧力を溜めることで、慎重な探索を継続する。
221
  ※ 効果Cの非対称性は、 d_base <= dNR_hist かつ trust >= 0.5 この選別により機能する。 恋する「ドキン」と警戒への「ドキン」を数学的に模したもので scalar値 でいうところの 0~±0.5 でLRを加速させつつ、負の方向でのLR加速の場合はLR履歴の成長に含めないようにしている。 (±0.5以上は問答無用で警戒以上の危機���してLRを減速している) scalar値 の負の方向でのLR加速は"修正された更新方向"を信頼する加速であり、これは ema と loss の時間差(emaの遅延)を活用した EmoNavi世代(emo系 第1世代)の emoDrive を引き継いでいる(本研究は EmoSens世代(emo系 第2世代)である)
222
+
223
  |--Danger--|---Wary---|---Fine---|--Danger--| Emotion
224
  Sigma_t [Minus] |---(-)---0.5---(+)---0---(+)---0.5---(-)---| [Plus]
225
  |--Hist(-)-|-Hist(Non)|--Hist(+)-|--Hist(-)-| Reglet
226
 
227
  μ_g and μ_d:
228
  v3.7:[Acceleration:LR Growth Max 1.05x] / [Deceleration:LR Decay 0.98x]
229
+ v3.8:[Acceleration:LR Growth Max 1.50x] / [Deceleration:LR Decay 0.80x]
230
 
231
  4. 数値的安定性の結論
232
  この「時間軸」(履歴)と「瞬間軸」(現在)の差分を戦わせる設計は単なる減衰ではない。 システムが自律的に "「疑念」(Noise)と「確信」(Distance)の比率を常に再計算し続ける" ことで、手動のスケジューラでは不可能な「地形の複雑さに応じた心拍の鼓動」のような動的制御を実現している。
 
235
  ※ dNR_hist は、v3.7 と v3.8 で係数が違う、v3.8 は大胆になり v3.7 よりも大きな変動を生み出すようにした。
236
 
237
 
238
+ 以下で示す「多元測位によるフラットミニマの合成」は、直感と実験から導き出した仮説である。
239
  この直感が次世代の研究者たちにより厳密な数学的証明へと昇華されることを期待する。
240
 
241