muooon
/

EmoNAVI

@@ -132,14 +132,14 @@ class EmoAiry(Optimizer):
                 # 行列の形状が2次元以上の場合、分散情報ベースのAB近似を使用
                 if grad.dim() >= 2:
                     # 行と列の2乗平均を計算 (分散の軽量な近似)
-                    r_sq = torch.mean(grad * grad, dim=tuple(range(1, grad.dim())), keepdim=True).add_(group['eps'])
-                    c_sq = torch.mean(grad * grad, dim=0, keepdim=True).add_(group['eps'])
                     # 分散情報から勾配の近似行列を生成
                     # AB行列として見立てたものを直接生成し更新項を計算する
                     # A = sqrt(r_sq), B = sqrt(c_sq) AB行列近似を再現し履歴化で平滑化する
-                    state.setdefault('exp_avg_r', torch.zeros_like(r_sq)).mul_(beta1).add_(torch.sqrt(r_sq), alpha=1 - beta1)
-                    state.setdefault('exp_avg_c', torch.zeros_like(c_sq)).mul_(beta1).add_(torch.sqrt(c_sq), alpha=1 - beta1)
                     # 再構築した近似勾配の平方根の積で正規化
                     denom = torch.sqrt(state['exp_avg_r'] * state['exp_avg_c']).add_(group['eps'])
@@ -148,9 +148,8 @@ class EmoAiry(Optimizer):
                 # 1次元(ベクトル)の勾配補正
                 else:
-                    beta1, beta2 = group['betas']
                     exp_avg_sq = state.setdefault('exp_avg_sq', torch.zeros_like(p))
-                    exp_avg_sq.mul_(beta1).addcmul_(grad, grad, value=(1 - beta2))
                     denom = exp_avg_sq.sqrt().add_(group['eps'])
                     # 最終的な更新項を計算
                     update_term = grad / denom

                 # 行列の形状が2次元以上の場合、分散情報ベースのAB近似を使用
                 if grad.dim() >= 2:
                     # 行と列の2乗平均を計算 (分散の軽量な近似)
+                    r_sq = grad.pow(2).mean(dim=tuple(range(1, grad.dim())), keepdim=True)
+                    c_sq = grad.pow(2).mean(dim=0, keepdim=True)
                     # 分散情報から勾配の近似行列を生成
                     # AB行列として見立てたものを直接生成し更新項を計算する
                     # A = sqrt(r_sq), B = sqrt(c_sq) AB行列近似を再現し履歴化で平滑化する
+                    state.setdefault('exp_avg_r', torch.zeros_like(r_sq)).mul_(beta2).add_(r_sq, alpha=1 - beta2)
+                    state.setdefault('exp_avg_c', torch.zeros_like(c_sq)).mul_(beta2).add_(c_sq, alpha=1 - beta2)
                     # 再構築した近似勾配の平方根の積で正規化
                     denom = torch.sqrt(state['exp_avg_r'] * state['exp_avg_c']).add_(group['eps'])
                 # 1次元(ベクトル)の勾配補正
                 else:
                     exp_avg_sq = state.setdefault('exp_avg_sq', torch.zeros_like(p))
+                    exp_avg_sq.mul_(beta2).addcmul_(grad, grad, value=1 - beta2)
                     denom = exp_avg_sq.sqrt().add_(group['eps'])
                     # 最終的な更新項を計算
                     update_term = grad / denom

2Gv38_AutoLR/emotion.py CHANGED Viewed

@@ -3,13 +3,11 @@ from torch.optim import Optimizer
 import math
 """
-EmoTion v3.8.1 (260202) shadow-system v3.1 -moment v3.1 emoPulse v3.8
-emoScorp、emoPulse、についてアグレッシブな更新にも耐えられるように調整し安全性を向上
-EmoTion v3.7.6 (260120) shadow-system v3.1 -moment v3.1 emoPulse v3.7
-All-Emo v3.6, v3.7 継承 emoDrive 機構を emoPulse へ統合し簡略化(循環器的機構)
-emoPulse 機構により完全自動化を目指す(ユーザーによる emoScope 調整可／改善度反映率)
-dNR係数により emoPulse に履歴を混ぜて安定させた(d / N 履歴 による信頼度の維持)
-Early scalar、Early Stop、効率化しつつ精度向上させ負荷も軽減する等の改修と微調整
 """
 class EmoTion(Optimizer):
@@ -40,7 +38,7 @@ class EmoTion(Optimizer):
     # 感情スカラー値生成(EMA差分、滑らかな非線形スカラー、tanh(diff) は ±1.0 で有界性)
     # 係数"1"：ema差分 のスケール調整処理に活用(感度調節係数)／通常は1(タスクに応じ調整可(非推奨))
-    # scale_base：Loss値とema値の乖離を修正(分母 ema(long) 「改善率」共通化/loss種に非依存)
     # 1e-5(デフォルト)／1e-6(感度向上)／1e-4(安定性向上)：分母を０にせず安定させる
     # トラウマ的反応や慣れによる鈍化で安定性向上(ema-medium 安定と急変を信頼度で感知)
     def _compute_scalar(self, ema):
@@ -111,7 +109,6 @@ class EmoTion(Optimizer):
                 grad = p.grad
                 state = self.state[p]
-                d_p = grad.shape
                 # 動的学習率補正により shadow 形成を信頼度で調整(trustは正値化(負にならない))
                 # shadow：必要時のみ(スパイクp部分に現在値を最大10%追従させる動的履歴更新)
@@ -128,38 +125,42 @@ class EmoTion(Optimizer):
                         state['shadow'].lerp_(p, leap_ratio)
                 # --- Start Gradient Update Logic ---
-                # 2次元以上かつ一定サイズ以上を行列近似対象とする
-                # 判定：2次元以上かつ「低ランク化」でメモリコストが全体の 5% 以下の場合に適用
-                if grad.dim() >= 2 and ((d_p[0] + d_p[1]) / p.numel()) < 0.05:
-                    grad_matrix = grad.view(d_p[0], -1)
-                    d0, d1 = grad_matrix.shape
-                    if 'exp_avg_row' not in state:
-                        state['exp_avg_row'] = torch.zeros(d0, dtype=grad.dtype, device=grad.device)
-                        state['exp_avg_col'] = torch.zeros(d1, dtype=grad.dtype, device=grad.device)
-                        #state['exp_avg_m'] = torch.zeros_like(grad_matrix)
-                    row, col = state['exp_avg_row'], state['exp_avg_col']
-                    # 1. 行列構造の統計更新（2次モーメントによる地形の解像度維持）
-                    row.mul_(beta2).add_(grad_matrix.pow(2).mean(dim=1), alpha=1 - beta2)
-                    col.mul_(beta2).add_(grad_matrix.pow(2).mean(dim=0), alpha=1 - beta2)
-                    # 2. 意志の正規化 (構造情報の抽出)
-                    inv_sq_row = torch.rsqrt(row.add(group['eps'])).unsqueeze(1)
-                    inv_sq_col = torch.rsqrt(col.add(group['eps'])).unsqueeze(0)
-                    # 3. 復元と更新ベクトル生成
-                    # 統計量でスケーリングすることで「信頼できる方向」を浮き彫りにする
-                    update = (grad_matrix * inv_sq_row * inv_sq_col).view_as(grad)
-                else:
-                    # 1次元/小行列はそのまま流す
-                    update = grad
-                # 最終出力：Weight Decay と Sign 更新の統合
-                p.mul_(1.0 - group['weight_decay'] * emoPulse)
-                p.add_(update.sign_(), alpha=-emoPulse)
                 # --- End Gradient Update Logic ---
         # ユーザー指定初期LRを実効値(emoPulse)で可視化する(PyTorch標準)
@@ -179,6 +180,6 @@ class EmoTion(Optimizer):
 """
  https://github.com/muooon/EmoSens
- Thank you Adafactor and Lion.
- Believing in a future for democratic AI learning.
 """

 import math
 """
+EmoTion v3.8.1 (260204) shadow-system v3.1 -moment v3.1 emoPulse v3.8
+これまでの emo系 のすべて、emo系 v3.7 を継承し独自更新式を持つ、完全オリジナル最適化器
+The “geometric relationship” between "W"eight and "G"radient Method
+これまでの統計手法をやめ、重みベクトルと勾配ベクトルの直交性(W-Ref Geometry)に基づいて、
+過去の慣性と現在の勾配を動的にブレンドする、1次モーメント単一保持型の幾何学的最適化アルゴリズム
 """
 class EmoTion(Optimizer):
     # 感情スカラー値生成(EMA差分、滑らかな非線形スカラー、tanh(diff) は ±1.0 で有界性)
     # 係数"1"：ema差分 のスケール調整処理に活用(感度調節係数)／通常は1(タスクに応じ調整可(非推奨))
+    # scale_base：Loss値とema値の乖離を修正(分母 ema(long) ｢改善率｣共通化/loss種に非依存)
     # 1e-5(デフォルト)／1e-6(感度向上)／1e-4(安定性向上)：分母を０にせず安定させる
     # トラウマ的反応や慣れによる鈍化で安定性向上(ema-medium 安定と急変を信頼度で感知)
     def _compute_scalar(self, ema):
                 grad = p.grad
                 state = self.state[p]
                 # 動的学習率補正により shadow 形成を信頼度で調整(trustは正値化(負にならない))
                 # shadow：必要時のみ(スパイクp部分に現在値を最大10%追従させる動的履歴更新)
                         state['shadow'].lerp_(p, leap_ratio)
                 # --- Start Gradient Update Logic ---
+                # --- Start EmoTion v4.0 (Pure W-Ref Geometry) ---
+                # p: 重みW, grad: 勾配g, state: 状態保存用辞書
+                # 1. 1次モーメント(exp_avg)の初期化: O(N) のみ
+                if 'exp_avg' not in state:
+                    state['exp_avg'] = torch.zeros_like(p)
+                    state['rho_ema'] = torch.zeros(1, device=p.device, dtype=p.dtype)
+                # 2. W-Reference / Geometry (幾何学的直交性) 算出
+                # 勾配が重みに対して｢新鮮｣(直交)か｢冗長｣(平行)かを判定
+                p_norm = p.norm()
+                g_norm = grad.norm()
+                rho = torch.abs(torch.sum(p * grad)) / (p_norm * g_norm + 1e-8)
+                # rhoの履歴更新 (スカラーのみ)
+                state['rho_ema'].mul_(beta1).add_(rho, alpha=1 - beta1)
+                # 3. 幾何学的適応型ブレンド
+                # 従来の beta1 固定ではなく、直交しているほど今の勾配 g を強く取り込む
+                # freshness が高い(rhoが小さい)ほど、慣性を無視して新しい方向へ舵を切る
+                freshness = (1.0 - state['rho_ema'])
+                # exp_avg = beta1 * exp_avg + (1 - beta1) * grad の｢幾何学的拡張｣
+                # 慣性と現時点の勾配を、直交性に基づいて混ぜ合わせる
+                state['exp_avg'].mul_(beta1).add_(grad, alpha=(1.0 - beta1) * freshness.item())
+                # 4. 更新ベクトルの決定 (Lionライクな符号抽出、または生ベクトル)
+                # ここでは｢方向の純度｣を優先し、更新の勢いを一定に保つ
+                update_vec = torch.sign(state['exp_avg'])
+                # 5. 重みの更新 (emoPulse = 絶対歩幅)
+                if group['weight_decay'] != 0:
+                    p.mul_(1 - emoPulse * group['weight_decay'])
+                p.add_(update_vec, alpha=-emoPulse)
+                # --- End EmoTion v4.0 ---
                 # --- End Gradient Update Logic ---
         # ユーザー指定初期LRを実効値(emoPulse)で可視化する(PyTorch標準)
 """
  https://github.com/muooon/EmoSens
+ Pure W-Ref Geometry. Believing in a future for democratic AI learning.
+ Taking decisive steps forward, Weight-Reference Optimizer.
 """