muooon commited on
Commit
9fb0e2e
·
verified ·
1 Parent(s): 8d1abb4

Upload 2 files

Browse files
Files changed (2) hide show
  1. emo-v38-paper(ENG).txt +31 -2
  2. emo-v38-paper(JPN).txt +29 -2
emo-v38-paper(ENG).txt CHANGED
@@ -282,11 +282,11 @@ Abstract
282
  3. Alternative to Update-Based Encoding and L2 Regularization
283
  The final key to EmoTion, EmoVoid remaining second-moment-free lies in separating sign extraction (Sign) and weight decay. By determining the update direction solely based on sign(m_t), the magnitude of the weight update is no longer influenced by the “size” of the gradient. This enables stable updates that are resilient to fluctuations and noise in the gradient scale.
284
 
285
- EmoTion Update Rule:
286
  W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
287
  (emoPulse is the learning rate derived from dNR, and lambda is the WeightDecay coefficient.)
288
 
289
- EmoVoid Update Rule:
290
  W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
291
  (EmoVoid enables stable convergence without explicit lambdas through its self-suppression mechanism.)
292
 
@@ -294,6 +294,35 @@ Abstract
294
  ※ Geometric Interpretation of the Curse of Dimensionality: By leveraging the concentration phenomenon of vectors in high-dimensional space (their tendency to be mutually orthogonal), it detects even slight “deviations” from orthogonality as redundant information. This enables higher-precision, low-latency inertial control without relying on statistical variance estimation. In high-dimensional spaces (e.g., layers with hundreds of millions of parameters), the probability of two vectors coincidentally becoming parallel is extremely low. Since nearly all vectors are orthogonal, any deviation of ρ from zero (approaching parallelism) statistically signifies “extremely strong correlation” (duplication). This means that without consulting vast historical statistics (second moments), it becomes possible to instantly determine whether an update is valuable based solely on its relationship to the current weights.
295
  ※ Resonance with emoPulse: emoPulse controls the “temporal axis pulse” (when and how much to move), while W-Ref Geometry determines the “spatial axis direction” (where and how much to move). This integrated autonomous control of time and space is the core mechanism enabling both VRAM reduction and high-precision convergence, thereby enhancing learning robustness.
296
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
297
 
298
  7. Conclusion
299
 
 
282
  3. Alternative to Update-Based Encoding and L2 Regularization
283
  The final key to EmoTion, EmoVoid remaining second-moment-free lies in separating sign extraction (Sign) and weight decay. By determining the update direction solely based on sign(m_t), the magnitude of the weight update is no longer influenced by the “size” of the gradient. This enables stable updates that are resilient to fluctuations and noise in the gradient scale.
284
 
285
+ EmoTion Update Rule:
286
  W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
287
  (emoPulse is the learning rate derived from dNR, and lambda is the WeightDecay coefficient.)
288
 
289
+ EmoVoid Update Rule:
290
  W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
291
  (EmoVoid enables stable convergence without explicit lambdas through its self-suppression mechanism.)
292
 
 
294
  ※ Geometric Interpretation of the Curse of Dimensionality: By leveraging the concentration phenomenon of vectors in high-dimensional space (their tendency to be mutually orthogonal), it detects even slight “deviations” from orthogonality as redundant information. This enables higher-precision, low-latency inertial control without relying on statistical variance estimation. In high-dimensional spaces (e.g., layers with hundreds of millions of parameters), the probability of two vectors coincidentally becoming parallel is extremely low. Since nearly all vectors are orthogonal, any deviation of ρ from zero (approaching parallelism) statistically signifies “extremely strong correlation” (duplication). This means that without consulting vast historical statistics (second moments), it becomes possible to instantly determine whether an update is valuable based solely on its relationship to the current weights.
295
  ※ Resonance with emoPulse: emoPulse controls the “temporal axis pulse” (when and how much to move), while W-Ref Geometry determines the “spatial axis direction” (where and how much to move). This integrated autonomous control of time and space is the core mechanism enabling both VRAM reduction and high-precision convergence, thereby enhancing learning robustness.
296
 
297
+ 4. Implementation Lightweighting via Approximation of W-Ref Geometry
298
+
299
+ Theoretically, W-Ref Geometry rigorously measures the orthogonality between weights and gradients as follows.
300
+ ρt(rho_t) = | <W_t, G_t> | / ( ||W_t|| * ||G_t|| + eps )
301
+
302
+ However, in large models, the sequential computation of the inner product across all layers, the norm across all layers, and the cosine similarity becomes a bottleneck in terms of VRAM and computational load. Therefore, in the implementation, we introduced an approximation formula for W-Ref Geometry. This achieves near-zero VRAM usage while preserving the “essence” of W-Ref Geometry.
303
+
304
+ 4-1. EmoTion: Estimating “Directional Novelty” Based on L1 Norm Change
305
+
306
+ EmoTion estimates “how much the model is trying to move in a new direction” based on the change in the L1 norm of the overall weights.
307
+ g_ratio_t = | L1_t - L1_{t-1} | / ( L1_{t-1} + eps )
308
+ Freshness_t = min( g_ratio_t / freshness_scale , freshness_cap )
309
+
310
+ This Freshness_t is used as the mixing ratio for the first moment (exp_avg), enabling a lightweight implementation of the precise measurement method for W-Ref Geometry, which “strongly reacts to orthogonal directions while retaining inertia in parallel directions.”
311
+
312
+ 4-2. EmoVoid: Approximation via “Direct Scaling” of Weight Energy
313
+
314
+ EmoVoid does not perform inertial control such as freshness because it possesses neither first-order nor second-order moments.
315
+ g_ratio_t = L1_{t-1} / ( L1_t + eps )
316
+ W_t ← W_t * g_ratio_t
317
+
318
+ Instead, we approximate the “directional purity” of W-Ref Geometry by directly scaling the L1 norm of the entire weight. Scaling for EmoVoid is performed only during the “warm-up period and final stabilization phase”; outside these periods, scaling is not performed and updates are made solely based on sign(G_t).
319
+ This establishes EmoVoid's unique “geometric self-suppression,” which prevents the energy of weights from running wild, suppresses bias in the gradient direction, and enables stable convergence even without momentum.
320
+
321
+ 4-3. Significance of Approximation Formulas: Approximations are designed not as “complete versions of theory” but as “implementation optimizations.”
322
+
323
+ The two differ in how they handle the “time axis” (emoPulse) and the “space axis” (W-Ref Geometry), but ultimately both achieve “geometric optimization independent of statistics.”
324
+ EmoTion employs inertial control through Freshness, while EmoVoid utilizes self-suppression via energy correction; both share the core principle of “evaluating directional purity” at the heart of W-Ref Geometry.
325
+
326
 
327
  7. Conclusion
328
 
emo-v38-paper(JPN).txt CHANGED
@@ -233,11 +233,11 @@
233
  3. 更新式の符号化と L2 正規化の代替
234
  EmoTion および EmoVoid が、2次モーメント・フリー(あるいは完全モーメント・フリー)でいられる最後の鍵は、符号抽出 (Sign) と Weight Decay の分離にある、更新方向を sign(m_t) だけで決めることで、重みの更新幅が勾配の"大きさ"に左右されなくなる。 これにより勾配スケールの揺らぎやノイズに強い、安定した更新が可能になる。
235
 
236
- EmoTion の更新式:
237
  W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
238
  ( emoPulse は dNRから導出した学習率、lambda は WeightDecay 係数 )
239
 
240
- EmoVoid の更新式:
241
  W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
242
  ( EmoVoid は 自己抑制機能により、明示的な lambda を用いずとも安定的な収束が可能である )
243
 
@@ -245,6 +245,33 @@
245
  ※ 次元の呪いへの幾何学的解釈: 高次元空間におけるベクトルの集中現象(互いに直交しやすい性質)を利用し、直交からの僅かな「ズレ」を情報の重複(冗長性)として検知する。 これにより、統計的な分散推定に頼らずとも、より高精度かつ低遅延な慣性制御を実現する。 高次元空間(数億パラメータの層など)では、二つのベクトルが偶然に平行になる確率は極めて低く、ほぼ全てのベクトルは直交するため ρ が 0 から少しでも離れる(平行に近づく)ことは、統計的に 「極めて強い相関」(重複)を意味することになる。 つまり、過去の膨大な統計(2次モーメント)を参照せずに、現在の重みとの関係性だけで「その更新に価値があるか」を即座に判別可能となる。
246
  ※ emoPulse との共鳴: emoPulse が「時間軸の鼓動」(いつどのくらい動くか)を制御し、W-Ref Geometry が「空間軸の方向」(どこへどれくらい動くか)を決める。 この時間・空間の統合的自律制御は、VRAM 削減と高精度な収束を両立させる核心であり、これは学習の頑健性を向上させる。
247
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
248
 
249
  7. 結論
250
 
 
233
  3. 更新式の符号化と L2 正規化の代替
234
  EmoTion および EmoVoid が、2次モーメント・フリー(あるいは完全モーメント・フリー)でいられる最後の鍵は、符号抽出 (Sign) と Weight Decay の分離にある、更新方向を sign(m_t) だけで決めることで、重みの更新幅が勾配の"大きさ"に左右されなくなる。 これにより勾配スケールの揺らぎやノイズに強い、安定した更新が可能になる。
235
 
236
+ EmoTion の更新式:
237
  W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
238
  ( emoPulse は dNRから導出した学習率、lambda は WeightDecay 係数 )
239
 
240
+ EmoVoid の更新式:
241
  W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
242
  ( EmoVoid は 自己抑制機能により、明示的な lambda を用いずとも安定的な収束が可能である )
243
 
 
245
  ※ 次元の呪いへの幾何学的解釈: 高次元空間におけるベクトルの集中現象(互いに直交しやすい性質)を利用し、直交からの僅かな「ズレ」を情報の重複(冗長性)として検知する。 これにより、統計的な分散推定に頼らずとも、より高精度かつ低遅延な慣性制御を実現する。 高次元空間(数億パラメータの層など)では、二つのベクトルが偶然に平行になる確率は極めて低く、ほぼ全てのベクトルは直交するため ρ が 0 から少しでも離れる(平行に近づく)ことは、統計的に 「極めて強い相関」(重複)を意味することになる。 つまり、過去の膨大な統計(2次モーメント)を参照せずに、現在の重みとの関係性だけで「その更新に価値があるか」を即座に判別可能となる。
246
  ※ emoPulse との共鳴: emoPulse が「時間軸の鼓動」(いつどのくらい動くか)を制御し、W-Ref Geometry が「空間軸の方向」(どこへどれくらい動くか)を決める。 この時間・空間の統合的自律制御は、VRAM 削減と高精度な収束を両立させる核心であり、これは学習の頑健性を向上させる。
247
 
248
+ 4. W-Ref Geometry の近似化(Approx W-Ref Geometry)による実装的軽量化
249
+
250
+ 理論的に W-Ref Geometry は以下のように重みと勾配の直交性を厳密に測定する。
251
+ ρt(rho_t) = | <W_t, G_t> | / ( ||W_t|| * ||G_t|| + eps )
252
+
253
+ しかし、巨大モデルでは、全層の内積、全層のノルム、cos 類似度、それらの逐次計算が VRAM と計算負荷のボトルネックになる。 そこで実装では、W-Ref Geometry の近似式を導入した。 これは、W‑Ref Geometry の"本質"を保ちながら、VRAM 使用量をほぼゼロにしている。
254
+
255
+ 4-1. EmoTion:L1 ノルム変化量による「方向の新鮮さ」推定
256
+
257
+ EmoTion は、重み全体の L1 ノルムの変化量から「モデルがどれだけ新しい方向へ動こうとしているか」を推定する。
258
+ g_ratio_t = | L1_t - L1_{t-1} | / ( L1_{t-1} + eps )
259
+ Freshness_t = min( g_ratio_t / freshness_scale , freshness_cap )
260
+
261
+ この Freshness_t を、1次モーメント(exp_avg)への混合比率として使用し「直交方向には強く反応し、平行方向には慣性を残す」という W‑Ref Geometry の厳密な測定手法を軽量に実現している。
262
+
263
+ 4-2. EmoVoid:重みエネルギーの"直接スケーリング"による近似
264
+
265
+ EmoVoid は、1次2次の両方のモーメントを持たないため、freshness のような慣性制御を行わない。
266
+ g_ratio_t = L1_{t-1} / ( L1_t + eps )
267
+ W_t ← W_t * g_ratio_t
268
+
269
+ その代わりに重み全体の L1 ノルムを直接スケーリングすることで W‑Ref Geometry の「方向の純度」を近似的に維持する。 EmoVoid のスケーリングは"ウォームアップ期間と最終盤の安定期"のみ行われ、その他ではスケーリングをせず sign(G_t) のみで更新する。 これにより、重みのエネルギーが暴走しない、勾配方向の偏りが抑制される、モーメントなしでも安定した収束が可能になる、という EmoVoid 独自の"幾何学的自己抑制" が成立する。
270
+
271
+ 4-3. 近似式の意義:近似版は「理論の完全版」ではなく「実装上の最適化」として設計
272
+
273
+ 両者は「時間軸」(emoPulse)と「空間軸」(W‑Ref Geometry)をどう扱うかという点で異なるが、最終的にはどちらも「統計に頼らない幾何学的最適化」を実現している。 EmoTion は Freshness による慣性制御を、EmoVoid はエネルギー補正による自己抑制を用いるが、どちらも W‑Ref Geometry の核心である「方向の純度の評価」を共有している。
274
+
275
 
276
  7. 結論
277