muooon
/

EmoNAVI

@@ -146,13 +146,16 @@ class EmoAiry(Optimizer):
                     # 最終的な更新項を計算
                     update_term = grad / denom
-                # 1次元(ベクトル)の勾配(履歴化せず瞬間値にする)
                 else:
                     # 最終的な更新項を計算
-                    update_term = grad
                 # 最終的なパラメータ更新 (decoupled weight decayも適用)
-                # [テンソル]2D以上：不正確、1D：正確、[履歴]2D以上：正確化、1D：ナシ、でバランス改善
                 # sign化で２次momentと１次ベクトルのデータの質(粒度)を揃える
                 p.mul_(1.0 - group['weight_decay'] * emoPulse)
                 p.add_(update_term.sign_(), alpha=-emoPulse)

                     # 最終的な更新項を計算
                     update_term = grad / denom
+                # 1次元(ベクトル)の勾配補正
                 else:
+                    beta1, beta2 = group['betas']
+                    exp_avg_sq = state.setdefault('exp_avg_sq', torch.zeros_like(p))
+                    exp_avg_sq.mul_(beta1).addcmul_(grad, grad, value=(1 - beta2))
+                    denom = exp_avg_sq.sqrt().add_(group['eps'])
                     # 最終的な更新項を計算
+                    update_term = grad / denom
                 # 最終的なパラメータ更新 (decoupled weight decayも適用)
                 # sign化で２次momentと１次ベクトルのデータの質(粒度)を揃える
                 p.mul_(1.0 - group['weight_decay'] * emoPulse)
                 p.add_(update_term.sign_(), alpha=-emoPulse)

2Gv38_AutoLR/emotion.py CHANGED Viewed

@@ -72,7 +72,7 @@ class EmoTion(Optimizer):
     # 損失取得(損失値 loss_val を数値化、感情判定に使用、存在しないパラメータ(更新不要)はスキップ)
     @torch.no_grad()
-    def step(self, closure=None):
         loss = torch.enable_grad()(closure)() if closure is not None else None
         loss_val = loss.item() if loss is not None else 0.0
@@ -131,34 +131,33 @@ class EmoTion(Optimizer):
                 # 2次元以上かつ一定サイズ以上を行列近似対象とする
                 # 判定：2次元以上かつ「低ランク化」でメモリコストが全体の 5% 以下の場合に適用
                 if grad.dim() >= 2 and ((d_p[0] + d_p[1]) / p.numel()) < 0.05:
-                    # 4次元を2次元(行列)として解釈する
                     grad_matrix = grad.view(d_p[0], -1)
                     d0, d1 = grad_matrix.shape
-                    # 低ランク近似にする
                     if 'exp_avg_row' not in state:
                         state['exp_avg_row'] = torch.zeros(d0, dtype=grad.dtype, device=grad.device)
                         state['exp_avg_col'] = torch.zeros(d1, dtype=grad.dtype, device=grad.device)
                     row, col = state['exp_avg_row'], state['exp_avg_col']
-                    # 履歴の更新(行列の構造的統計量)
-                    row.mul_(beta2).add_(grad_matrix.mean(dim=1), alpha=1 - beta2)
-                    col.mul_(beta2).add_(grad_matrix.mean(dim=0), alpha=1 - beta2)
-                    # 行列フィルタ生成「1次モーメントの慣性」を近似的に含む
-                    r_filter = row / (row.norm() + group['eps'])
-                    c_filter = col / (col.norm() + group['eps'])
-                    # grad_matrix 構造情報で「更新ベクトル場」へ変換する
-                    grad_matrix.mul_(r_filter.unsqueeze(1)).mul_(c_filter.unsqueeze(0))
-                    # 多次元行列の更新準備
-                    update = grad
                 else:
-                    # 1次元/小行列の更新準備
                     update = grad
-                # Weight Decay
                 p.mul_(1.0 - group['weight_decay'] * emoPulse)
                 p.add_(update.sign_(), alpha=-emoPulse)
                 # --- End Gradient Update Logic ---
@@ -180,6 +179,6 @@ class EmoTion(Optimizer):
 """
  https://github.com/muooon/EmoSens
- Thank you Adafactor and Lion.
  Believing in a future for democratic AI learning.
 """

     # 損失取得(損失値 loss_val を数値化、感情判定に使用、存在しないパラメータ(更新不要)はスキップ)
     @torch.no_grad()
+    def step(self, closure=None):
         loss = torch.enable_grad()(closure)() if closure is not None else None
         loss_val = loss.item() if loss is not None else 0.0
                 # 2次元以上かつ一定サイズ以上を行列近似対象とする
                 # 判定：2次元以上かつ「低ランク化」でメモリコストが全体の 5% 以下の場合に適用
                 if grad.dim() >= 2 and ((d_p[0] + d_p[1]) / p.numel()) < 0.05:
                     grad_matrix = grad.view(d_p[0], -1)
                     d0, d1 = grad_matrix.shape
                     if 'exp_avg_row' not in state:
                         state['exp_avg_row'] = torch.zeros(d0, dtype=grad.dtype, device=grad.device)
                         state['exp_avg_col'] = torch.zeros(d1, dtype=grad.dtype, device=grad.device)
+                        #state['exp_avg_m'] = torch.zeros_like(grad_matrix)
                     row, col = state['exp_avg_row'], state['exp_avg_col']
+                    # 1. 行列構造の統計更新（2次モーメントによる地形の解像度維持）
+                    row.mul_(beta2).add_(grad_matrix.pow(2).mean(dim=1), alpha=1 - beta2)
+                    col.mul_(beta2).add_(grad_matrix.pow(2).mean(dim=0), alpha=1 - beta2)
+                    # 2. 意志の正規化 (構造情報の抽出)
+                    inv_sq_row = torch.rsqrt(row.add(group['eps'])).unsqueeze(1)
+                    inv_sq_col = torch.rsqrt(col.add(group['eps'])).unsqueeze(0)
+                    # 3. 復元と更新ベクトル生成
+                    # 統計量でスケーリングすることで「信頼できる方向」を浮き彫りにする
+                    update = (grad_matrix * inv_sq_row * inv_sq_col).view_as(grad)
                 else:
+                    # 1次元/小行列はそのまま流す
                     update = grad
+                # 最終出力：Weight Decay と Sign 更新の統合
                 p.mul_(1.0 - group['weight_decay'] * emoPulse)
                 p.add_(update.sign_(), alpha=-emoPulse)
                 # --- End Gradient Update Logic ---
 """
  https://github.com/muooon/EmoSens
+ Thank you Adafactor and Lion.
  Believing in a future for democratic AI learning.
 """