Upload 2 files
Browse files- emo-v38-paper(ENG).txt +31 -2
- emo-v38-paper(JPN).txt +29 -2
emo-v38-paper(ENG).txt
CHANGED
|
@@ -282,11 +282,11 @@ Abstract
|
|
| 282 |
3. Alternative to Update-Based Encoding and L2 Regularization
|
| 283 |
The final key to EmoTion, EmoVoid remaining second-moment-free lies in separating sign extraction (Sign) and weight decay. By determining the update direction solely based on sign(m_t), the magnitude of the weight update is no longer influenced by the “size” of the gradient. This enables stable updates that are resilient to fluctuations and noise in the gradient scale.
|
| 284 |
|
| 285 |
-
|
| 286 |
W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
|
| 287 |
(emoPulse is the learning rate derived from dNR, and lambda is the WeightDecay coefficient.)
|
| 288 |
|
| 289 |
-
|
| 290 |
W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
|
| 291 |
(EmoVoid enables stable convergence without explicit lambdas through its self-suppression mechanism.)
|
| 292 |
|
|
@@ -294,6 +294,35 @@ Abstract
|
|
| 294 |
※ Geometric Interpretation of the Curse of Dimensionality: By leveraging the concentration phenomenon of vectors in high-dimensional space (their tendency to be mutually orthogonal), it detects even slight “deviations” from orthogonality as redundant information. This enables higher-precision, low-latency inertial control without relying on statistical variance estimation. In high-dimensional spaces (e.g., layers with hundreds of millions of parameters), the probability of two vectors coincidentally becoming parallel is extremely low. Since nearly all vectors are orthogonal, any deviation of ρ from zero (approaching parallelism) statistically signifies “extremely strong correlation” (duplication). This means that without consulting vast historical statistics (second moments), it becomes possible to instantly determine whether an update is valuable based solely on its relationship to the current weights.
|
| 295 |
※ Resonance with emoPulse: emoPulse controls the “temporal axis pulse” (when and how much to move), while W-Ref Geometry determines the “spatial axis direction” (where and how much to move). This integrated autonomous control of time and space is the core mechanism enabling both VRAM reduction and high-precision convergence, thereby enhancing learning robustness.
|
| 296 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 297 |
|
| 298 |
7. Conclusion
|
| 299 |
|
|
|
|
| 282 |
3. Alternative to Update-Based Encoding and L2 Regularization
|
| 283 |
The final key to EmoTion, EmoVoid remaining second-moment-free lies in separating sign extraction (Sign) and weight decay. By determining the update direction solely based on sign(m_t), the magnitude of the weight update is no longer influenced by the “size” of the gradient. This enables stable updates that are resilient to fluctuations and noise in the gradient scale.
|
| 284 |
|
| 285 |
+
EmoTion Update Rule:
|
| 286 |
W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
|
| 287 |
(emoPulse is the learning rate derived from dNR, and lambda is the WeightDecay coefficient.)
|
| 288 |
|
| 289 |
+
EmoVoid Update Rule:
|
| 290 |
W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
|
| 291 |
(EmoVoid enables stable convergence without explicit lambdas through its self-suppression mechanism.)
|
| 292 |
|
|
|
|
| 294 |
※ Geometric Interpretation of the Curse of Dimensionality: By leveraging the concentration phenomenon of vectors in high-dimensional space (their tendency to be mutually orthogonal), it detects even slight “deviations” from orthogonality as redundant information. This enables higher-precision, low-latency inertial control without relying on statistical variance estimation. In high-dimensional spaces (e.g., layers with hundreds of millions of parameters), the probability of two vectors coincidentally becoming parallel is extremely low. Since nearly all vectors are orthogonal, any deviation of ρ from zero (approaching parallelism) statistically signifies “extremely strong correlation” (duplication). This means that without consulting vast historical statistics (second moments), it becomes possible to instantly determine whether an update is valuable based solely on its relationship to the current weights.
|
| 295 |
※ Resonance with emoPulse: emoPulse controls the “temporal axis pulse” (when and how much to move), while W-Ref Geometry determines the “spatial axis direction” (where and how much to move). This integrated autonomous control of time and space is the core mechanism enabling both VRAM reduction and high-precision convergence, thereby enhancing learning robustness.
|
| 296 |
|
| 297 |
+
4. Implementation Lightweighting via Approximation of W-Ref Geometry
|
| 298 |
+
|
| 299 |
+
Theoretically, W-Ref Geometry rigorously measures the orthogonality between weights and gradients as follows.
|
| 300 |
+
ρt(rho_t) = | <W_t, G_t> | / ( ||W_t|| * ||G_t|| + eps )
|
| 301 |
+
|
| 302 |
+
However, in large models, the sequential computation of the inner product across all layers, the norm across all layers, and the cosine similarity becomes a bottleneck in terms of VRAM and computational load. Therefore, in the implementation, we introduced an approximation formula for W-Ref Geometry. This achieves near-zero VRAM usage while preserving the “essence” of W-Ref Geometry.
|
| 303 |
+
|
| 304 |
+
4-1. EmoTion: Estimating “Directional Novelty” Based on L1 Norm Change
|
| 305 |
+
|
| 306 |
+
EmoTion estimates “how much the model is trying to move in a new direction” based on the change in the L1 norm of the overall weights.
|
| 307 |
+
g_ratio_t = | L1_t - L1_{t-1} | / ( L1_{t-1} + eps )
|
| 308 |
+
Freshness_t = min( g_ratio_t / freshness_scale , freshness_cap )
|
| 309 |
+
|
| 310 |
+
This Freshness_t is used as the mixing ratio for the first moment (exp_avg), enabling a lightweight implementation of the precise measurement method for W-Ref Geometry, which “strongly reacts to orthogonal directions while retaining inertia in parallel directions.”
|
| 311 |
+
|
| 312 |
+
4-2. EmoVoid: Approximation via “Direct Scaling” of Weight Energy
|
| 313 |
+
|
| 314 |
+
EmoVoid does not perform inertial control such as freshness because it possesses neither first-order nor second-order moments.
|
| 315 |
+
g_ratio_t = L1_{t-1} / ( L1_t + eps )
|
| 316 |
+
W_t ← W_t * g_ratio_t
|
| 317 |
+
|
| 318 |
+
Instead, we approximate the “directional purity” of W-Ref Geometry by directly scaling the L1 norm of the entire weight. Scaling for EmoVoid is performed only during the “warm-up period and final stabilization phase”; outside these periods, scaling is not performed and updates are made solely based on sign(G_t).
|
| 319 |
+
This establishes EmoVoid's unique “geometric self-suppression,” which prevents the energy of weights from running wild, suppresses bias in the gradient direction, and enables stable convergence even without momentum.
|
| 320 |
+
|
| 321 |
+
4-3. Significance of Approximation Formulas: Approximations are designed not as “complete versions of theory” but as “implementation optimizations.”
|
| 322 |
+
|
| 323 |
+
The two differ in how they handle the “time axis” (emoPulse) and the “space axis” (W-Ref Geometry), but ultimately both achieve “geometric optimization independent of statistics.”
|
| 324 |
+
EmoTion employs inertial control through Freshness, while EmoVoid utilizes self-suppression via energy correction; both share the core principle of “evaluating directional purity” at the heart of W-Ref Geometry.
|
| 325 |
+
|
| 326 |
|
| 327 |
7. Conclusion
|
| 328 |
|
emo-v38-paper(JPN).txt
CHANGED
|
@@ -233,11 +233,11 @@
|
|
| 233 |
3. 更新式の符号化と L2 正規化の代替
|
| 234 |
EmoTion および EmoVoid が、2次モーメント・フリー(あるいは完全モーメント・フリー)でいられる最後の鍵は、符号抽出 (Sign) と Weight Decay の分離にある、更新方向を sign(m_t) だけで決めることで、重みの更新幅が勾配の"大きさ"に左右されなくなる。 これにより勾配スケールの揺らぎやノイズに強い、安定した更新が可能になる。
|
| 235 |
|
| 236 |
-
|
| 237 |
W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
|
| 238 |
( emoPulse は dNRから導出した学習率、lambda は WeightDecay 係数 )
|
| 239 |
|
| 240 |
-
|
| 241 |
W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
|
| 242 |
( EmoVoid は 自己抑制機能により、明示的な lambda を用いずとも安定的な収束が可能である )
|
| 243 |
|
|
@@ -245,6 +245,33 @@
|
|
| 245 |
※ 次元の呪いへの幾何学的解釈: 高次元空間におけるベクトルの集中現象(互いに直交しやすい性質)を利用し、直交からの僅かな「ズレ」を情報の重複(冗長性)として検知する。 これにより、統計的な分散推定に頼らずとも、より高精度かつ低遅延な慣性制御を実現する。 高次元空間(数億パラメータの層など)では、二つのベクトルが偶然に平行になる確率は極めて低く、ほぼ全てのベクトルは直交するため ρ が 0 から少しでも離れる(平行に近づく)ことは、統計的に 「極めて強い相関」(重複)を意味することになる。 つまり、過去の膨大な統計(2次モーメント)を参照せずに、現在の重みとの関係性だけで「その更新に価値があるか」を即座に判別可能となる。
|
| 246 |
※ emoPulse との共鳴: emoPulse が「時間軸の鼓動」(いつどのくらい動くか)を制御し、W-Ref Geometry が「空間軸の方向」(どこへどれくらい動くか)を決める。 この時間・空間の統合的自律制御は、VRAM 削減と高精度な収束を両立させる核心であり、これは学習の頑健性を向上させる。
|
| 247 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 248 |
|
| 249 |
7. 結論
|
| 250 |
|
|
|
|
| 233 |
3. 更新式の符号化と L2 正規化の代替
|
| 234 |
EmoTion および EmoVoid が、2次モーメント・フリー(あるいは完全モーメント・フリー)でいられる最後の鍵は、符号抽出 (Sign) と Weight Decay の分離にある、更新方向を sign(m_t) だけで決めることで、重みの更新幅が勾配の"大きさ"に左右されなくなる。 これにより勾配スケールの揺らぎやノイズに強い、安定した更新が可能になる。
|
| 235 |
|
| 236 |
+
EmoTion の更新式:
|
| 237 |
W_{t+1} = W_t * (1 - emoPulse_t * lambda) - emoPulse_t * sign(m_t)
|
| 238 |
( emoPulse は dNRから導出した学習率、lambda は WeightDecay 係数 )
|
| 239 |
|
| 240 |
+
EmoVoid の更新式:
|
| 241 |
W_{t+1} = W_t − emoPulse_t * sign(G_t) * (1−ρ_t)
|
| 242 |
( EmoVoid は 自己抑制機能により、明示的な lambda を用いずとも安定的な収束が可能である )
|
| 243 |
|
|
|
|
| 245 |
※ 次元の呪いへの幾何学的解釈: 高次元空間におけるベクトルの集中現象(互いに直交しやすい性質)を利用し、直交からの僅かな「ズレ」を情報の重複(冗長性)として検知する。 これにより、統計的な分散推定に頼らずとも、より高精度かつ低遅延な慣性制御を実現する。 高次元空間(数億パラメータの層など)では、二つのベクトルが偶然に平行になる確率は極めて低く、ほぼ全てのベクトルは直交するため ρ が 0 から少しでも離れる(平行に近づく)ことは、統計的に 「極めて強い相関」(重複)を意味することになる。 つまり、過去の膨大な統計(2次モーメント)を参照せずに、現在の重みとの関係性だけで「その更新に価値があるか」を即座に判別可能となる。
|
| 246 |
※ emoPulse との共鳴: emoPulse が「時間軸の鼓動」(いつどのくらい動くか)を制御し、W-Ref Geometry が「空間軸の方向」(どこへどれくらい動くか)を決める。 この時間・空間の統合的自律制御は、VRAM 削減と高精度な収束を両立させる核心であり、これは学習の頑健性を向上させる。
|
| 247 |
|
| 248 |
+
4. W-Ref Geometry の近似化(Approx W-Ref Geometry)による実装的軽量化
|
| 249 |
+
|
| 250 |
+
理論的に W-Ref Geometry は以下のように重みと勾配の直交性を厳密に測定する。
|
| 251 |
+
ρt(rho_t) = | <W_t, G_t> | / ( ||W_t|| * ||G_t|| + eps )
|
| 252 |
+
|
| 253 |
+
しかし、巨大モデルでは、全層の内積、全層のノルム、cos 類似度、それらの逐次計算が VRAM と計算負荷のボトルネックになる。 そこで実装では、W-Ref Geometry の近似式を導入した。 これは、W‑Ref Geometry の"本質"を保ちながら、VRAM 使用量をほぼゼロにしている。
|
| 254 |
+
|
| 255 |
+
4-1. EmoTion:L1 ノルム変化量による「方向の新鮮さ」推定
|
| 256 |
+
|
| 257 |
+
EmoTion は、重み全体の L1 ノルムの変化量から「モデルがどれだけ新しい方向へ動こうとしているか」を推定する。
|
| 258 |
+
g_ratio_t = | L1_t - L1_{t-1} | / ( L1_{t-1} + eps )
|
| 259 |
+
Freshness_t = min( g_ratio_t / freshness_scale , freshness_cap )
|
| 260 |
+
|
| 261 |
+
この Freshness_t を、1次モーメント(exp_avg)への混合比率として使用し「直交方向には強く反応し、平行方向には慣性を残す」という W‑Ref Geometry の厳密な測定手法を軽量に実現している。
|
| 262 |
+
|
| 263 |
+
4-2. EmoVoid:重みエネルギーの"直接スケーリング"による近似
|
| 264 |
+
|
| 265 |
+
EmoVoid は、1次2次の両方のモーメントを持たないため、freshness のような慣性制御を行わない。
|
| 266 |
+
g_ratio_t = L1_{t-1} / ( L1_t + eps )
|
| 267 |
+
W_t ← W_t * g_ratio_t
|
| 268 |
+
|
| 269 |
+
その代わりに重み全体の L1 ノルムを直接スケーリングすることで W‑Ref Geometry の「方向の純度」を近似的に維持する。 EmoVoid のスケーリングは"ウォームアップ期間と最終盤の安定期"のみ行われ、その他ではスケーリングをせず sign(G_t) のみで更新する。 これにより、重みのエネルギーが暴走しない、勾配方向の偏りが抑制される、モーメントなしでも安定した収束が可能になる、という EmoVoid 独自の"幾何学的自己抑制" が成立する。
|
| 270 |
+
|
| 271 |
+
4-3. 近似式の意義:近似版は「理論の完全版」ではなく「実装上の最適化」として設計
|
| 272 |
+
|
| 273 |
+
両者は「時間軸」(emoPulse)と「空間軸」(W‑Ref Geometry)をどう扱うかという点で異なるが、最終的にはどちらも「統計に頼らない幾何学的最適化」を実現している。 EmoTion は Freshness による慣性制御を、EmoVoid はエネルギー補正による自己抑制を用いるが、どちらも W‑Ref Geometry の核心である「方向の純度の評価」を共有している。
|
| 274 |
+
|
| 275 |
|
| 276 |
7. 結論
|
| 277 |
|