SayaGugu commited on Dec 8, 2025

Commit

45bc017

0 Parent(s):

Upload SR2 ARC-AGI checkpoints (all evaluator steps and configs)

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

.gitattributes +1 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/all_config.yaml +41 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1030727/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1091359/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1151990/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_121262/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1212621/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1273252/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1333883/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1394514/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1455145/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1515776/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1576408/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1637039/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1697671/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1758302/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_181893/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1818933/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_242524/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_303155/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_363786/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_424417/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_485048/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_545679/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_606308/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_60631/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_666939/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_727571/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_788203/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_848834/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_909465/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_970096/submission.json +0 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/losses.py +105 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/sr2.py +360 -0
Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/step_1818933 +3 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/all_config.yaml +41 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1036146/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_103616/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1087953/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1139760/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1191567/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1243374/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1295181/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1346988/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1398795/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1450603/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1502410/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1554218/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_155423/submission.json +0 -0
Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_207230/submission.json +0 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1 @@


1	+ step_* filter=lfs diff=lfs merge=lfs -text

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/all_config.yaml ADDED Viewed

	@@ -0,0 +1,41 @@

+arch:
+  H_cycles: 1
+  H_layers: 16
+  expansion: 4
+  halt_exploration_prob: 0.1
+  halt_max_steps: 16
+  hidden_size: 512
+  loss:
+    loss_type: stablemax_cross_entropy
+    name: losses@ACTLossHead
+  name: hrm.sr2@HierarchicalReasoningModel_ACTV3
+  num_heads: 8
+  pos_encodings: rope
+  puzzle_emb_ndim: 512
+beta1: 0.9
+beta2: 0.95
+checkpoint_every_eval: true
+checkpoint_path: checkpoints/Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3
+  spectacular-dragon
+data_path: data/arc-2-aug-1000
+ema_decay: 0.999
+ema_device: cuda
+ema_enabled: true
+ema_use_buffers: true
+epochs: 300000
+eval_interval: 10000
+eval_save_outputs: []
+evaluators:
+- name: arc@ARC
+global_batch_size: 768
+load_checkpoint: null
+lr: 0.0001
+lr_min_ratio: 1.0
+lr_warmup_steps: 2000
+project_name: Arc-2-aug-1000 ACT-torch
+puzzle_emb_lr: 0.01
+puzzle_emb_weight_decay: 0.1
+run_name: HierarchicalReasoningModel_ACTV3 spectacular-dragon
+seed: 0
+target_q_update_every: 4
+weight_decay: 0.1

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1030727/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1091359/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1151990/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_121262/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1212621/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1273252/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1333883/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1394514/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1455145/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1515776/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1576408/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1637039/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1697671/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1758302/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_181893/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_1818933/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_242524/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_303155/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_363786/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_424417/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_485048/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_545679/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_606308/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_60631/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_666939/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_727571/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_788203/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_848834/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_909465/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/evaluator_ARC_step_970096/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/losses.py ADDED Viewed

	@@ -0,0 +1,105 @@

+from typing import Any, Tuple, Dict, Set, Optional
+import torch
+import torch.nn.functional as F
+from torch import nn
+IGNORE_LABEL_ID = -100
+def s(x, epsilon=1e-30):
+    return torch.where(
+        x<0,
+        1/(1-x+ epsilon),
+        x + 1
+    )
+def log_stablemax(x, dim=-1):
+    s_x = s(x)
+    return torch.log(s_x/torch.sum(s_x, dim=dim, keepdim=True))
+def stablemax_cross_entropy(logits, labels, ignore_index: int = -100):
+    logprobs = log_stablemax(logits.to(torch.float64), dim=-1)
+    valid_mask = labels != ignore_index
+    transformed_labels = torch.where(valid_mask, labels, 0)
+    prediction_logprobs = torch.gather(logprobs, index=transformed_labels.to(torch.long).unsqueeze(-1), dim=-1).squeeze(-1)
+    return -torch.where(valid_mask, prediction_logprobs, 0)
+def softmax_cross_entropy(logits, labels, ignore_index: int = -100):
+    # Cast logits to f32
+    # Flatten logits
+    return F.cross_entropy(logits.to(torch.float32).view(-1, logits.shape[-1]), labels.to(torch.long).view(-1), ignore_index=ignore_index, reduction="none").view(labels.shape)
+class ACTLossHead(nn.Module):
+    def __init__(self, model: nn.Module, loss_type: str):
+        super().__init__()
+        self.model = model
+        self.loss_fn = globals()[loss_type]
+    def initial_carry(self, *args, **kwargs):
+        return self.model.initial_carry(*args, **kwargs)  # type: ignore
+    def forward(
+        self,
+        return_keys: Set[str],
+        # Model args
+        **model_kwargs,
+    ) -> Tuple[Any, torch.Tensor, Dict[str, torch.Tensor], Optional[Dict[str, torch.Tensor]], torch.Tensor]:
+        # Model logits
+        # B x SeqLen x D
+        new_carry, outputs = self.model(**model_kwargs)
+        labels = new_carry.current_data["labels"]
+        # Correctness
+        with torch.no_grad():
+            # Preds
+            outputs["preds"] = torch.argmax(outputs["logits"], dim=-1)
+            # Correctness
+            mask = labels != IGNORE_LABEL_ID
+            loss_counts = mask.sum(-1)
+            loss_divisor = loss_counts.clamp_min(1).unsqueeze(-1)  # Avoid NaNs in division
+            is_correct = mask & (outputs["preds"] == labels)
+            seq_is_correct = is_correct.sum(-1) == loss_counts
+            # Metrics (halted)
+            valid_metrics = new_carry.halted & (loss_counts > 0)
+            metrics = {
+                "count": valid_metrics.sum(),
+                "accuracy":       torch.where(valid_metrics, (is_correct.to(torch.float32) / loss_divisor).sum(-1), 0).sum(),
+                "exact_accuracy": (valid_metrics & seq_is_correct).sum(),
+                "q_halt_accuracy": (valid_metrics & ((outputs["q_halt_logits"] >= 0) == seq_is_correct)).sum(),
+                "steps":          torch.where(valid_metrics, new_carry.steps, 0).sum(),
+            }
+        # Losses
+        # FIXME: Assuming the batch is always full
+        lm_loss = (self.loss_fn(outputs["logits"], labels, ignore_index=IGNORE_LABEL_ID) / loss_divisor).sum()
+        q_halt_loss = F.binary_cross_entropy_with_logits(outputs["q_halt_logits"], seq_is_correct.to(outputs["q_halt_logits"].dtype), reduction="sum")
+        metrics.update({
+            "lm_loss": lm_loss.detach(),
+            "q_halt_loss": q_halt_loss.detach(),
+        })
+        # Q continue (bootstrapping target loss)
+        q_continue_loss = 0
+        if "target_q_continue" in outputs:
+            q_continue_loss = F.binary_cross_entropy_with_logits(outputs["q_continue_logits"], outputs["target_q_continue"], reduction="sum")
+            metrics["q_continue_loss"] = q_continue_loss.detach()
+        # Filter outputs for return
+        detached_outputs = {k: outputs[k].detach() for k in return_keys if k in outputs}
+        return new_carry, lm_loss + 0.5 * (q_halt_loss + q_continue_loss), metrics, detached_outputs, new_carry.halted.all()

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/sr2.py ADDED Viewed

	@@ -0,0 +1,360 @@

+"""
+HRM ACT V2: Transformer Baseline for Architecture Ablation
+This is an architecture ablation of the Hierarchical Reasoning Model (HRM).
+Key changes from V1:
+1. REMOVED hierarchical split (no separate H and L levels)
+2. REMOVED inner cycles (no H_cycles/L_cycles loops within reasoning)
+3. KEPT ACT outer loop structure intact
+4. KEPT all data preprocessing, embeddings, and evaluation infrastructure
+Architecture: Single-level transformer that processes the full 30x30 grid as a
+900-token sequence, with the same positional encodings and sparse embeddings as V1.
+"""
+from typing import Tuple, List, Dict, Optional
+from dataclasses import dataclass
+import math
+import torch
+import torch.nn.functional as F
+from torch import nn
+from pydantic import BaseModel
+from models.common import trunc_normal_init_
+from models.layers import rms_norm, SwiGLU, Attention, RotaryEmbedding, CosSin, CastedEmbedding, CastedLinear
+from models.sparse_embedding import CastedSparseEmbedding
+@dataclass
+class HierarchicalReasoningModel_ACTV3InnerCarry:
+    z_H: torch.Tensor
+@dataclass
+class HierarchicalReasoningModel_ACTV3Carry:
+    inner_carry: HierarchicalReasoningModel_ACTV3InnerCarry
+    steps: torch.Tensor
+    halted: torch.Tensor
+    current_data: Dict[str, torch.Tensor]
+class HierarchicalReasoningModel_ACTV3Config(BaseModel):
+    batch_size: int
+    seq_len: int
+    puzzle_emb_ndim: int = 0
+    num_puzzle_identifiers: int
+    vocab_size: int
+    H_cycles: int
+    H_layers: int
+    # Transformer config
+    hidden_size: int
+    expansion: float
+    num_heads: int
+    pos_encodings: str
+    rms_norm_eps: float = 1e-5
+    rope_theta: float = 10000.0
+    # Halting Q-learning config
+    halt_max_steps: int
+    halt_exploration_prob: float
+    act_enabled: bool = True  # If False, always run halt_max_steps (no early stopping during training)
+    act_inference: bool = False  # If True, use adaptive computation during inference
+    forward_dtype: str = "bfloat16"
+class HierarchicalReasoningModel_ACTV3Block(nn.Module):
+    def __init__(self, config: HierarchicalReasoningModel_ACTV3Config) -> None:
+        super().__init__()
+        self.self_attn = Attention(
+            hidden_size=config.hidden_size,
+            head_dim=config.hidden_size // config.num_heads,
+            num_heads=config.num_heads,
+            num_key_value_heads=config.num_heads,
+            causal=False,
+        )
+        self.mlp = SwiGLU(
+            hidden_size=config.hidden_size,
+            expansion=config.expansion,
+        )
+        self.norm_eps = config.rms_norm_eps
+    def forward(self, cos_sin: CosSin, hidden_states: torch.Tensor) -> torch.Tensor:
+        # Post Norm
+        # Self Attention
+        hidden_states = rms_norm(
+            hidden_states + self.self_attn(cos_sin=cos_sin, hidden_states=hidden_states),
+            variance_epsilon=self.norm_eps,
+        )
+        # Fully Connected
+        hidden_states = rms_norm(hidden_states + self.mlp(hidden_states), variance_epsilon=self.norm_eps)
+        return hidden_states
+class HierarchicalReasoningModel_ACTV3ReasoningModule(nn.Module):
+    """
+    说明（已修改）：
+    - 原来通过传入 List[Block] 构造若干“参数彼此独立”的层。
+    - 现在改为只持有一个共享的 block，并通过 `self.repeats` 在前向中重复调用同一个 block。
+    - 为了减少对外部代码的影响，仍然保留 `self.layers` 属性，但其只包含一个共享 block。
+    """
+    def __init__(self, block: HierarchicalReasoningModel_ACTV3Block, repeats: int):
+        super().__init__()
+        # 仅注册一个共享 block（保持属性名 layers 以避免外部依赖破坏）
+        self.layers = torch.nn.ModuleList([block])
+        self.repeats = int(repeats)
+    def forward(self, hidden_states: torch.Tensor, input_injection: torch.Tensor, **kwargs) -> torch.Tensor:
+        # Input injection (add)
+        # hidden_states = hidden_states + input_injection
+        # 使用同一个 block 重复 n 次（权重完全共享）
+        shared_block = self.layers[0]
+        for _ in range(self.repeats):
+            hidden_states = shared_block(hidden_states=hidden_states + input_injection, **kwargs)
+        return hidden_states
+class HierarchicalReasoningModel_ACTV3_Inner(nn.Module):
+    def __init__(self, config: HierarchicalReasoningModel_ACTV3Config) -> None:
+        super().__init__()
+        self.config = config
+        self.forward_dtype = getattr(torch, self.config.forward_dtype)
+        # I/O
+        self.embed_scale = math.sqrt(self.config.hidden_size)
+        embed_init_std = 1.0 / self.embed_scale
+        self.embed_tokens = CastedEmbedding(
+            self.config.vocab_size,
+            self.config.hidden_size,
+            init_std=embed_init_std,
+            cast_to=self.forward_dtype,
+        )
+        self.lm_head = CastedLinear(self.config.hidden_size, self.config.vocab_size, bias=False)
+        self.q_head = CastedLinear(self.config.hidden_size, 2, bias=True)
+        self.puzzle_emb_len = -(self.config.puzzle_emb_ndim // -self.config.hidden_size)  # ceil div
+        if self.config.puzzle_emb_ndim > 0:
+            # Zero init puzzle embeddings
+            self.puzzle_emb = CastedSparseEmbedding(
+                self.config.num_puzzle_identifiers,
+                self.config.puzzle_emb_ndim,
+                batch_size=self.config.batch_size,
+                init_std=0,
+                cast_to=self.forward_dtype,
+            )
+        # LM Blocks
+        if self.config.pos_encodings == "rope":
+            self.rotary_emb = RotaryEmbedding(
+                dim=self.config.hidden_size // self.config.num_heads,
+                max_position_embeddings=self.config.seq_len + self.puzzle_emb_len,
+                base=self.config.rope_theta,
+            )
+        elif self.config.pos_encodings == "learned":
+            self.embed_pos = CastedEmbedding(
+                self.config.seq_len + self.puzzle_emb_len,
+                self.config.hidden_size,
+                init_std=embed_init_std,
+                cast_to=self.forward_dtype,
+            )
+        else:
+            raise NotImplementedError()
+        # Reasoning Layers
+        # self.H_level = HierarchicalReasoningModel_ACTV3ReasoningModule(
+        #     layers=[HierarchicalReasoningModel_ACTV3Block(self.config) for _i in range(self.config.H_layers)]
+        # )
+        H_block = HierarchicalReasoningModel_ACTV3Block(self.config)
+        self.H_level = HierarchicalReasoningModel_ACTV3ReasoningModule(
+            block=H_block,
+            repeats=self.config.H_layers
+        )
+        # Initial states
+        self.H_init = nn.Buffer(
+            trunc_normal_init_(torch.empty(self.config.hidden_size, dtype=self.forward_dtype), std=1),
+            persistent=True,
+        )
+        # Q head special init
+        # Init Q to (almost) zero for faster learning during bootstrapping
+        with torch.no_grad():
+            self.q_head.weight.zero_()
+            self.q_head.bias.fill_(-5)  # type: ignore
+    def _input_embeddings(self, input: torch.Tensor, puzzle_identifiers: torch.Tensor):
+        # Token embedding
+        embedding = self.embed_tokens(input.to(torch.int32))
+        # Puzzle embeddings
+        if self.config.puzzle_emb_ndim > 0:
+            puzzle_embedding = self.puzzle_emb(puzzle_identifiers)
+            pad_count = self.puzzle_emb_len * self.config.hidden_size - puzzle_embedding.shape[-1]
+            if pad_count > 0:
+                puzzle_embedding = F.pad(puzzle_embedding, (0, pad_count))
+            embedding = torch.cat(
+                (puzzle_embedding.view(-1, self.puzzle_emb_len, self.config.hidden_size), embedding), dim=-2
+            )
+        # Position embeddings
+        if self.config.pos_encodings == "learned":
+            # scale by 1/sqrt(2) to maintain forward variance
+            embedding = 0.707106781 * (embedding + self.embed_pos.embedding_weight.to(self.forward_dtype))
+        # Scale
+        return self.embed_scale * embedding
+    def empty_carry(self, batch_size: int):
+        return HierarchicalReasoningModel_ACTV3InnerCarry(
+            z_H=torch.empty(
+                batch_size,
+                self.config.seq_len + self.puzzle_emb_len,
+                self.config.hidden_size,
+                dtype=self.forward_dtype,
+            ),
+        )
+    def reset_carry(self, reset_flag: torch.Tensor, carry: HierarchicalReasoningModel_ACTV3InnerCarry):
+        return HierarchicalReasoningModel_ACTV3InnerCarry(
+            z_H=torch.where(reset_flag.view(-1, 1, 1), self.H_init, carry.z_H),
+        )
+    def forward(
+        self, carry: HierarchicalReasoningModel_ACTV3InnerCarry, batch: Dict[str, torch.Tensor], carry_steps: torch.Tensor
+    ) -> Tuple[HierarchicalReasoningModel_ACTV3InnerCarry, torch.Tensor, Tuple[torch.Tensor, torch.Tensor]]:
+        seq_info = dict(
+            cos_sin=self.rotary_emb() if hasattr(self, "rotary_emb") else None,
+        )
+        # Input encoding
+        input_embeddings = self._input_embeddings(batch["inputs"], batch["puzzle_identifiers"])
+        # 仅第一步注入 input
+        first_step_mask = (carry_steps == 0).view(-1, 1, 1).to(device=input_embeddings.device, dtype=input_embeddings.dtype)
+        gated_injection = input_embeddings * first_step_mask  # [B,S_full,D]
+        # 1-step grad
+        z_H = self.H_level(carry.z_H, gated_injection, **seq_info)
+        # LM Outputs
+        new_carry = HierarchicalReasoningModel_ACTV3InnerCarry(
+            z_H=z_H.detach(),
+        )  # New carry no grad
+        output = self.lm_head(z_H)[:, self.puzzle_emb_len :]
+        # Q head
+        q_logits = self.q_head(z_H[:, 0]).to(torch.float32)
+        return new_carry, output, (q_logits[..., 0], q_logits[..., 1])
+class HierarchicalReasoningModel_ACTV3(nn.Module):
+    """ACT wrapper."""
+    def __init__(self, config_dict: dict):
+        super().__init__()
+        self.config = HierarchicalReasoningModel_ACTV3Config(**config_dict)
+        self.inner = HierarchicalReasoningModel_ACTV3_Inner(self.config)
+    @property
+    def puzzle_emb(self):
+        return self.inner.puzzle_emb
+    def initial_carry(self, batch: Dict[str, torch.Tensor]):
+        batch_size = batch["inputs"].shape[0]
+        return HierarchicalReasoningModel_ACTV3Carry(
+            inner_carry=self.inner.empty_carry(
+                batch_size
+            ),  # Empty is expected, it will be reseted in first pass as all sequences are halted.
+            steps=torch.zeros((batch_size,), dtype=torch.int32),
+            halted=torch.ones((batch_size,), dtype=torch.bool),  # Default to halted
+            current_data={k: torch.empty_like(v) for k, v in batch.items()},
+        )
+    def forward(
+        self,
+        carry: HierarchicalReasoningModel_ACTV3Carry,
+        batch: Dict[str, torch.Tensor],
+        compute_target_q: bool = False,
+    ) -> Tuple[HierarchicalReasoningModel_ACTV3Carry, Dict[str, torch.Tensor]]:
+        # Update data, carry (removing halted sequences)
+        new_inner_carry = self.inner.reset_carry(carry.halted, carry.inner_carry)
+        new_steps = torch.where(carry.halted, 0, carry.steps)
+        new_current_data = {
+            k: torch.where(carry.halted.view((-1,) + (1,) * (batch[k].ndim - 1)), batch[k], v)
+            for k, v in carry.current_data.items()
+        }
+        # Forward inner model
+        new_inner_carry, logits, (q_halt_logits, q_continue_logits) = self.inner(
+            new_inner_carry, new_current_data, new_steps
+        )
+        outputs = {"logits": logits, "q_halt_logits": q_halt_logits, "q_continue_logits": q_continue_logits}
+        with torch.no_grad():
+            # Step
+            new_steps = new_steps + 1
+            is_last_step = new_steps >= self.config.halt_max_steps
+            halted = is_last_step
+            # Check if adaptive computation should be used
+            use_adaptive = (self.config.halt_max_steps > 1) and (
+                (self.training and self.config.act_enabled)
+                or (not self.training and self.config.act_inference)
+            )
+            if use_adaptive:
+                # Halt signal based on Q-values (but always halt at max steps)
+                q_halt_signal = q_halt_logits > q_continue_logits
+                halted = halted | q_halt_signal
+                # Store actual steps used for logging (only during inference)
+                if not self.training:
+                    outputs["actual_steps"] = new_steps.float()
+                # Exploration (only during training)
+                if self.training:
+                    min_halt_steps = (
+                        torch.rand_like(q_halt_logits) < self.config.halt_exploration_prob
+                    ) * torch.randint_like(new_steps, low=2, high=self.config.halt_max_steps + 1)
+                    halted = halted & (new_steps >= min_halt_steps)
+                # Compute target Q (only during training)
+                # NOTE: No replay buffer and target networks for computing target Q-value.
+                # As batch_size is large, there're many parallel envs.
+                # Similar concept as PQN https://arxiv.org/abs/2407.04811
+                if self.training and compute_target_q:
+                    next_q_halt_logits, next_q_continue_logits = self.inner(
+                        new_inner_carry, new_current_data, new_steps
+                    )[-1]
+                    outputs["target_q_continue"] = torch.sigmoid(
+                        torch.where(
+                            is_last_step,
+                            next_q_halt_logits,
+                            torch.maximum(next_q_halt_logits, next_q_continue_logits),
+                        )
+                    )
+        return HierarchicalReasoningModel_ACTV3Carry(
+            new_inner_carry, new_steps, halted, new_current_data
+        ), outputs

Arc-2-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 spectacular-dragon/step_1818933 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8436b037d0f366ca02870c66dfd9a22590f17677aee752bf3ac3f43b2089a10
+size 4311137979

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/all_config.yaml ADDED Viewed

	@@ -0,0 +1,41 @@

+arch:
+  H_cycles: 1
+  H_layers: 16
+  expansion: 4
+  halt_exploration_prob: 0.1
+  halt_max_steps: 16
+  hidden_size: 512
+  loss:
+    loss_type: stablemax_cross_entropy
+    name: losses@ACTLossHead
+  name: hrm.sr2@HierarchicalReasoningModel_ACTV3
+  num_heads: 8
+  pos_encodings: rope
+  puzzle_emb_ndim: 512
+beta1: 0.9
+beta2: 0.95
+checkpoint_every_eval: true
+checkpoint_path: checkpoints/Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3
+  quizzical-labradoodle
+data_path: data/arc-aug-1000
+ema_decay: 0.999
+ema_device: cuda
+ema_enabled: true
+ema_use_buffers: true
+epochs: 300000
+eval_interval: 10000
+eval_save_outputs: []
+evaluators:
+- name: arc@ARC
+global_batch_size: 768
+load_checkpoint: null
+lr: 0.0001
+lr_min_ratio: 1.0
+lr_warmup_steps: 2000
+project_name: Arc-aug-1000 ACT-torch
+puzzle_emb_lr: 0.01
+puzzle_emb_weight_decay: 0.1
+run_name: HierarchicalReasoningModel_ACTV3 quizzical-labradoodle
+seed: 0
+target_q_update_every: 4
+weight_decay: 0.1

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1036146/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_103616/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1087953/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1139760/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1191567/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1243374/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1295181/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1346988/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1398795/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1450603/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1502410/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_1554218/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_155423/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff

Arc-aug-1000 ACT-torch/HierarchicalReasoningModel_ACTV3 quizzical-labradoodle/evaluator_ARC_step_207230/submission.json ADDED Viewed

The diff for this file is too large to render. See raw diff