File size: 12,363 Bytes

76de008

from __future__ import annotations

import dataclasses
import math
import random
from dataclasses import dataclass
from typing import Iterable

import torch

from addition.config import ExperimentConfig


DIGIT_OFFSET = 0
DEFAULT_SYMBOLS = "0123456789ABCDEF"


@dataclass
class AdditionProblem:
    a_digits: list[int]
    b_digits: list[int]
    sum_digits: list[int]
    carry_out: list[int]
    active_digits: int
    is_carry_heavy: bool


@dataclass
class Batch:
    input_ids: torch.Tensor
    target_digits: torch.Tensor
    target_digit_mask: torch.Tensor
    target_carry: torch.Tensor
    target_final_carry: torch.Tensor
    active_digits: torch.Tensor
    is_carry_heavy: torch.Tensor


@dataclass
class EvaluationSuite:
    validation_uniform: dict[int, list[AdditionProblem]]
    test_uniform: dict[int, list[AdditionProblem]]
    test_carry_heavy: dict[int, list[AdditionProblem]]


def a_token_id(radix: int) -> int:
    return radix


def b_token_id(radix: int) -> int:
    return radix + 1


def seed_everything(seed: int) -> None:
    random.seed(seed)
    torch.manual_seed(seed)
    if torch.cuda.is_available():
        torch.cuda.manual_seed_all(seed)


def compute_sum_and_carry(a_digits: list[int], b_digits: list[int], radix: int) -> tuple[list[int], list[int]]:
    sum_digits: list[int] = []
    carry_out: list[int] = []
    carry = 0
    for a_digit, b_digit in zip(a_digits, b_digits):
        total = int(a_digit) + int(b_digit) + carry
        sum_digits.append(total % radix)
        carry = total // radix
        carry_out.append(carry)
    return sum_digits, carry_out


def sample_uniform_problem(max_digits: int, active_digits: int, radix: int, rng: random.Random) -> AdditionProblem:
    a_digits = [0] * max_digits
    b_digits = [0] * max_digits
    for index in range(active_digits):
        a_digits[index] = rng.randint(0, radix - 1)
        b_digits[index] = rng.randint(0, radix - 1)
    sum_digits, carry_out = compute_sum_and_carry(a_digits, b_digits, radix=radix)
    return AdditionProblem(
        a_digits=a_digits,
        b_digits=b_digits,
        sum_digits=sum_digits,
        carry_out=carry_out,
        active_digits=active_digits,
        is_carry_heavy=False,
    )


def sample_carry_heavy_problem(max_digits: int, active_digits: int, radix: int, rng: random.Random) -> AdditionProblem:
    a_digits = [0] * max_digits
    b_digits = [0] * max_digits
    carry = 0
    for index in range(active_digits):
        high_floor = max(0, radix // 2)
        a_digit = rng.randint(high_floor, radix - 1)
        if carry == 0:
            min_b = max(0, radix - a_digit)
        else:
            min_b = max(0, (radix - 1) - a_digit)
        b_digit = rng.randint(min_b, radix - 1)
        a_digits[index] = a_digit
        b_digits[index] = b_digit
        total = a_digit + b_digit + carry
        carry = total // radix
    sum_digits, carry_out = compute_sum_and_carry(a_digits, b_digits, radix=radix)
    return AdditionProblem(
        a_digits=a_digits,
        b_digits=b_digits,
        sum_digits=sum_digits,
        carry_out=carry_out,
        active_digits=active_digits,
        is_carry_heavy=True,
    )


def sample_problem(
    max_digits: int,
    active_digits: int,
    radix: int,
    rng: random.Random,
    carry_heavy: bool = False,
) -> AdditionProblem:
    if carry_heavy:
        return sample_carry_heavy_problem(max_digits=max_digits, active_digits=active_digits, radix=radix, rng=rng)
    return sample_uniform_problem(max_digits=max_digits, active_digits=active_digits, radix=radix, rng=rng)


def encode_problem_tokens(problem: AdditionProblem, radix: int) -> list[int]:
    return (
        [a_token_id(radix)]
        + [DIGIT_OFFSET + digit for digit in problem.a_digits[: problem.active_digits]]
        + [b_token_id(radix)]
        + [DIGIT_OFFSET + digit for digit in problem.b_digits[: problem.active_digits]]
    )


def build_batch(
    problems: list[AdditionProblem],
    radix: int,
    device: str,
) -> Batch:
    active_digits = problems[0].active_digits if problems else 0
    input_ids = torch.tensor(
        [
            encode_problem_tokens(problem=problem, radix=radix)
            for problem in problems
        ],
        dtype=torch.long,
        device=device,
    )
    target_digits = torch.tensor(
        [problem.sum_digits[:active_digits] for problem in problems],
        dtype=torch.long,
        device=device,
    )
    target_digit_mask = torch.tensor(
        [[1] * active_digits for _ in problems],
        dtype=torch.bool,
        device=device,
    )
    target_carry = torch.tensor(
        [problem.carry_out[:active_digits] for problem in problems],
        dtype=torch.long,
        device=device,
    )
    target_final_carry = torch.tensor(
        [problem.carry_out[problem.active_digits - 1] for problem in problems],
        dtype=torch.long,
        device=device,
    )
    return Batch(
        input_ids=input_ids,
        target_digits=target_digits,
        target_digit_mask=target_digit_mask,
        target_carry=target_carry,
        target_final_carry=target_final_carry,
        active_digits=torch.tensor([problem.active_digits for problem in problems], dtype=torch.long, device=device),
        is_carry_heavy=torch.tensor([int(problem.is_carry_heavy) for problem in problems], dtype=torch.bool, device=device),
    )


def sample_training_batch(
    config: ExperimentConfig,
    stage: int,
    rng: random.Random,
    device: str,
) -> Batch:
    problems: list[AdditionProblem] = []
    for _ in range(config.train_batch_size):
        carry_heavy = rng.random() < config.train_carry_heavy_prob
        problem = sample_problem(
            max_digits=stage,
            active_digits=stage,
            radix=config.radix,
            rng=rng,
            carry_heavy=carry_heavy,
        )
        problems.append(problem)
    return build_batch(
        problems=problems,
        radix=config.radix,
        device=device,
    )


def build_problem_set(
    *,
    max_digits: int,
    active_digits: int,
    radix: int,
    count: int,
    seed: int,
    carry_heavy: bool,
) -> list[AdditionProblem]:
    rng = random.Random(seed)
    return [
        sample_problem(max_digits=max_digits, active_digits=active_digits, radix=radix, rng=rng, carry_heavy=carry_heavy)
        for _ in range(count)
    ]


def build_evaluation_suite(config: ExperimentConfig) -> EvaluationSuite:
    validation_uniform: dict[int, list[AdditionProblem]] = {}
    test_uniform: dict[int, list[AdditionProblem]] = {}
    test_carry_heavy: dict[int, list[AdditionProblem]] = {}
    all_lengths = sorted(set(range(1, config.train_max_digits + 1)).union(config.ood_lengths))
    for length in all_lengths:
        validation_uniform[length] = build_problem_set(
            max_digits=length,
            active_digits=length,
            radix=config.radix,
            count=config.eval_examples_per_length,
            seed=10_000 + length,
            carry_heavy=False,
        )
        test_uniform[length] = build_problem_set(
            max_digits=length,
            active_digits=length,
            radix=config.radix,
            count=config.eval_examples_per_length,
            seed=20_000 + length,
            carry_heavy=False,
        )
        test_carry_heavy[length] = build_problem_set(
            max_digits=length,
            active_digits=length,
            radix=config.radix,
            count=config.carry_heavy_examples_per_length,
            seed=30_000 + length,
            carry_heavy=True,
        )
    return EvaluationSuite(
        validation_uniform=validation_uniform,
        test_uniform=test_uniform,
        test_carry_heavy=test_carry_heavy,
    )


def digits_to_string(digits: Iterable[int], final_carry: int, radix: int) -> str:
    digits = list(digits)
    significant_digits = list(digits)
    if final_carry:
        significant_digits.append(final_carry)
    while len(significant_digits) > 1 and significant_digits[-1] == 0:
        significant_digits.pop()
    symbols = DEFAULT_SYMBOLS[:radix]
    return "".join(symbols[digit] for digit in reversed(significant_digits))


def value_from_digits(digits: Iterable[int], final_carry: int, radix: int) -> int:
    value = 0
    place = 1
    for digit in digits:
        value += int(digit) * place
        place *= radix
    if final_carry:
        value += int(final_carry) * place
    return value


def exact_sum_matches(
    predicted_digits: list[int],
    predicted_final_carry: int,
    truth_digits: list[int],
    truth_final_carry: int,
) -> bool:
    return predicted_digits == truth_digits and int(predicted_final_carry) == int(truth_final_carry)


def summarize_problem(problem: AdditionProblem, radix: int) -> dict[str, int | str]:
    final_carry = problem.carry_out[problem.active_digits - 1]
    return {
        "a": digits_to_string(problem.a_digits[: problem.active_digits], final_carry=0, radix=radix),
        "b": digits_to_string(problem.b_digits[: problem.active_digits], final_carry=0, radix=radix),
        "sum": digits_to_string(problem.sum_digits[: problem.active_digits], final_carry=final_carry, radix=radix),
        "radix": radix,
        "active_digits": problem.active_digits,
        "carry_heavy": int(problem.is_carry_heavy),
    }


def count_carry_chain(problem: AdditionProblem) -> int:
    longest = 0
    current = 0
    for index in range(problem.active_digits):
        if problem.carry_out[index]:
            current += 1
            longest = max(longest, current)
        else:
            current = 0
    return longest


def carry_density(problem: AdditionProblem) -> float:
    if problem.active_digits <= 0:
        return 0.0
    return float(sum(problem.carry_out[: problem.active_digits])) / float(problem.active_digits)


def curriculum_stage_lengths(config: ExperimentConfig) -> list[int]:
    if config.uses_curriculum:
        return list(range(1, config.train_max_digits + 1))
    return [config.train_max_digits]


def infer_eval_lengths(config: ExperimentConfig) -> list[int]:
    return sorted(set(range(1, config.train_max_digits + 1)).union(config.ood_lengths))


def estimate_train_tokens_per_step(config: ExperimentConfig, stage: int) -> int:
    latent_steps = config.latent_steps_for_stage(stage)
    return config.train_batch_size * (config.base_sequence_length_for_digits(stage) + latent_steps)


def stage_fraction(stage: int, max_stage: int) -> float:
    if max_stage <= 1:
        return 1.0
    return float(stage - 1) / float(max_stage - 1)


def maybe_trim_examples(problems: list[AdditionProblem], limit: int) -> list[AdditionProblem]:
    if limit <= 0 or len(problems) <= limit:
        return list(problems)
    return list(problems[:limit])


def stage_display_name(stage: int) -> str:
    suffix = "th"
    if stage % 10 == 1 and stage % 100 != 11:
        suffix = "st"
    elif stage % 10 == 2 and stage % 100 != 12:
        suffix = "nd"
    elif stage % 10 == 3 and stage % 100 != 13:
        suffix = "rd"
    return f"{stage}{suffix}-digit"


def ideal_carry_chain_examples(config: ExperimentConfig, active_digits: int) -> list[AdditionProblem]:
    examples: list[AdditionProblem] = []
    for base_digit in (max(0, config.radix - 2), config.radix - 1):
        a_digits = [base_digit] * active_digits
        b_digits = [1] * active_digits
        sum_digits, carry_out = compute_sum_and_carry(a_digits, b_digits, radix=config.radix)
        examples.append(
            AdditionProblem(
                a_digits=a_digits,
                b_digits=b_digits,
                sum_digits=sum_digits,
                carry_out=carry_out,
                active_digits=active_digits,
                is_carry_heavy=True,
            )
        )
    return examples


def expected_sum_length(problem: AdditionProblem) -> int:
    final_carry = problem.carry_out[problem.active_digits - 1]
    return problem.active_digits + int(final_carry > 0)


def average_query_count(config: ExperimentConfig) -> float:
    lengths = curriculum_stage_lengths(config)
    return sum(lengths) / float(len(lengths))


def token_budget(config: ExperimentConfig) -> int:
    avg_stage = int(math.ceil(average_query_count(config)))
    return config.base_sequence_length_for_digits(avg_stage) + config.latent_steps_for_stage(avg_stage)