#!/usr/bin/env bash
set -euo pipefail

DATA_PATH="${DATA_PATH:-/home/student/Data/TaoData/pretrain.jsonl}"
SFT_DATA_PATH="${SFT_DATA_PATH:-/home/student/Data/TaoData/sft.jsonl}"
TOKENIZER_PATH="${TOKENIZER_PATH:-/home/student/YouZheng/tokenizers/taodata_pilot_8k/tokenizer.model}"
SSM_REPO_PATH="${SSM_REPO_PATH:-/home/student/YouZheng/gamma_ssm_repo}"
PYTHON_BIN="${PYTHON_BIN:-/home/student/.venv/bin/python}"
REMOTE_REPO="${REMOTE_REPO:-$(pwd)}"
OUTPUT_BASE="${REPOBRIDGE_OUTPUT_DIR:-$REMOTE_REPO/results/pre-200m-stability-gate}"
CHECKPOINT_BASE="${TAOTERN_CHECKPOINT_DIR:-$OUTPUT_BASE/checkpoints}"

SEQ_LEN="${SEQ_LEN:-512}"
BATCH_SIZE="${BATCH_SIZE:-8}"
TARGET_TOKENS="${TARGET_TOKENS:-20000000}"
MAX_TOKENS="${MAX_TOKENS:-50000000}"
MAX_RECORDS="${MAX_RECORDS:-120000}"
EVAL_BATCHES="${EVAL_BATCHES:-64}"
LEARNING_RATE="${LEARNING_RATE:-0.0008}"
WEIGHT_DECAY="${WEIGHT_DECAY:-0.01}"
TRAIN_LOG_EVERY="${TRAIN_LOG_EVERY:-250}"
SFT_SANITY_SAMPLES="${SFT_SANITY_SAMPLES:-4}"
SFT_SANITY_STEPS="${SFT_SANITY_STEPS:-120}"
SFT_SANITY_LR="${SFT_SANITY_LR:-0.00005}"

ceil_div() {
  local numerator="$1"
  local denominator="$2"
  echo $(( (numerator + denominator - 1) / denominator ))
}

TRAIN_STEPS="${TRAIN_STEPS:-$(ceil_div "$TARGET_TOKENS" $((BATCH_SIZE * SEQ_LEN)))}"

export PYTHONPATH="$REMOTE_REPO/src:$SSM_REPO_PATH"
mkdir -p "$OUTPUT_BASE" "$CHECKPOINT_BASE" "$OUTPUT_BASE/configs" "$OUTPUT_BASE/diagnostics"

cat > "$OUTPUT_BASE/run_plan.json" <<JSON
{
  "purpose": "pre_200m_stability_gate_before_4b_sft_chatbot_run",
  "candidate": "pure_ssm_196m_stabilized_m256_h32",
  "target_tokens": $TARGET_TOKENS,
  "train_steps": $TRAIN_STEPS,
  "batch_size": $BATCH_SIZE,
  "seq_len": $SEQ_LEN,
  "learning_rate": $LEARNING_RATE,
  "weight_decay": $WEIGHT_DECAY,
  "checks": [
    "bounded pretrain loss/eval/grad telemetry",
    "activation scale probe",
    "sample generation",
    "tiny SFT overfit probe"
  ]
}
JSON

printf '\n============================================================\n'
printf 'Pre-200M stability gate: pure SSM stabilized candidate\n'
printf 'target_tokens=%s batch=%s seq_len=%s train_steps=%s eval_batches=%s\n' \
  "$TARGET_TOKENS" "$BATCH_SIZE" "$SEQ_LEN" "$TRAIN_STEPS" "$EVAL_BATCHES"
printf '============================================================\n'

"$PYTHON_BIN" scripts/benchmark_taonet_real_tokens.py \
  --data-path "$DATA_PATH" \
  --text-field text \
  --tokenizer-type sentencepiece \
  --tokenizer-path "$TOKENIZER_PATH" \
  --max-records "$MAX_RECORDS" \
  --max-tokens "$MAX_TOKENS" \
  --eval-fraction 0.1 \
  --architectures taonet_ssm \
  --batch-sizes "$BATCH_SIZE" \
  --seq-len "$SEQ_LEN" \
  --hidden-dim 1024 \
  --num-layers 18 \
  --num-heads 8 \
  --d-latent-kv 768 \
  --d-rope 128 \
  --hidden-dim-ff 3072 \
  --dropout 0.0 \
  --ssm-core dplr \
  --ssm-hidden-dims 32 \
  --ssm-mixer-dims 256 \
  --ssm-num-lanes-list 2 \
  --ssm-lane-combine channel \
  --ssm-lane-modes split \
  --ssm-split-mixes none \
  --ssm-rank 1 \
  --ssm-kernel-mode conv \
  --no-ssm-finite-tail-correction \
  --ssm-gate-types channel \
  --dtype bf16 \
  --device cuda \
  --warmup 1 \
  --repeats 2 \
  --backward \
  --train-steps "$TRAIN_STEPS" \
  --train-log-every "$TRAIN_LOG_EVERY" \
  --learning-rate "$LEARNING_RATE" \
  --weight-decay "$WEIGHT_DECAY" \
  --max-grad-norm 1.0 \
  --eval-batches "$EVAL_BATCHES" \
  --ssm-local-shift \
  --ssm-local-shift-per-channel \
  --ssm-local-shift-init 0.1 \
  --ssm-branch-rms-norm \
  --ssm-branch-clip-value 1.0 \
  --block-residual-rms-norm \
  --block-residual-rms-target 1.0 \
  --output-dir "$OUTPUT_BASE/pretrain" \
  --resume-completed \
  --incremental-output \
  --save-case-checkpoints \
  --checkpoint-dir "$CHECKPOINT_BASE/pretrain"

PRETRAIN_CKPT="$CHECKPOINT_BASE/pretrain/latest.pt"
if [[ ! -f "$PRETRAIN_CKPT" ]]; then
  echo "Expected pretrain checkpoint missing: $PRETRAIN_CKPT" >&2
  exit 2
fi

"$PYTHON_BIN" scripts/diagnostics/activation_probe.py \
  --checkpoint "$PRETRAIN_CKPT" \
  --tokenizer-path "$TOKENIZER_PATH" \
  --data-path "$DATA_PATH" \
  --text-field text \
  --output "$OUTPUT_BASE/diagnostics/activation_probe_pretrain_latest.json" \
  --batch-size 2 \
  --seq-len "$SEQ_LEN" \
  --device cuda \
  --dtype bfloat16

"$PYTHON_BIN" scripts/diagnostics/generate_checkpoint_samples.py \
  --checkpoint "$PRETRAIN_CKPT" \
  --tokenizer-path "$TOKENIZER_PATH" \
  --output "$OUTPUT_BASE/diagnostics/generation_samples_pretrain_latest.json" \
  --max-new-tokens 80 \
  --temperature 0.8 \
  --top-p 0.9 \
  --prompt "The purpose of artificial intelligence is" \
  --prompt "In a small village," \
  --prompt "<user>Hello, who are you?<assistant>"

SFT_CONFIG="$OUTPUT_BASE/configs/sft_sanity.yaml"
cat > "$SFT_CONFIG" <<YAML
model:
  architecture_type: taonet_ssm
  vocab_size: 8192
  hidden_dim: 1024
  num_layers: 18
  num_heads: 8
  max_seq_length: $SEQ_LEN
  d_latent_kv: 768
  d_rope: 128
  hidden_dim_ff: 3072
  dropout: 0.0
  gqa_groups: 1
  use_factorized_embedding: false
  d_embed_rank: 96
  init_std: 0.02
  ssm_core: dplr
  ssm_hidden_dim: 32
  ssm_mixer_dim: 256
  ssm_num_lanes: 2
  ssm_lane_combine: channel
  ssm_lane_mode: split
  ssm_split_mix: none
  ssm_rank: 1
  ssm_max_low_rank_scale: 0.1
  ssm_finite_tail_correction: false
  ssm_discretization: bilinear
  ssm_kernel_mode: conv
  ssm_kernel_threshold: 64
  ssm_dt_min: 1e-3
  ssm_dt_max: 1e-1
  ssm_dt_init: 1e-2
  ssm_use_d: true
  ssm_activation: gelu
  ssm_gate: true
  ssm_input_gate: true
  ssm_gate_type: channel
  ssm_use_padding_mask: false
  ssm_layer_scale_init: 0.1
  ssm_branch_rms_norm: true
  ssm_branch_clip_value: 1.0
  block_residual_rms_norm: true
  block_residual_rms_target: 1.0
  ssm_local_shift: true
  ssm_local_shift_init: 0.1
  ssm_local_shift_per_channel: true

dataset:
  split: train
  instruction_column: input
  response_column: output
  local: true
  jsonl_path: $SFT_DATA_PATH
  samples_per_chunk: 2000
  tokenizer_type: sentencepiece
  tokenizer_path: $TOKENIZER_PATH
  tokenizer_threads: 8

checkpoint_path: $PRETRAIN_CKPT
user_token: "<user>"
assistant_token: "<assistant>"
response_loss_only: true

batch_size: $BATCH_SIZE
num_epochs: 100000
max_steps: $SFT_SANITY_STEPS
gradient_accumulation_steps: 1
max_grad_norm: 1.0

optimizer:
  optimizer_type: adamw
  learning_rate: $SFT_SANITY_LR
  weight_decay: 0.0
  betas: [0.9, 0.999]
  eps: 1e-8

scheduler:
  scheduler_type: linearWarmup
  warmup_steps: 0

dtype: bfloat16
device: cuda
checkpoint_dir: $CHECKPOINT_BASE/sft_sanity
save_every_steps: 5000
save_best_model: false
keep_last_n_checkpoints: 1
eval_every_steps: 5000
eval_samples: 32
log_every_steps: 10
aim_repo: $OUTPUT_BASE/.aim-sft-sanity
seed: 43
num_workers: 0
pin_memory: true
YAML

"$PYTHON_BIN" scripts/diagnostics/sft_sanity_check.py \
  --config "$SFT_CONFIG" \
  --checkpoint "$PRETRAIN_CKPT" \
  --output "$OUTPUT_BASE/diagnostics/sft_sanity_pretrain_latest.json" \
  --samples "$SFT_SANITY_SAMPLES" \
  --steps "$SFT_SANITY_STEPS" \
  --lr "$SFT_SANITY_LR" \
  --log-every 20 \
  --device cuda \
  --dtype bfloat16 \
  --ssm-branch-rms-norm \
  --ssm-branch-clip-value 1.0 \
  --block-residual-rms-norm \
  --block-residual-rms-target 1.0

cat > "$OUTPUT_BASE/gate_summary.json" <<JSON
{
  "state": "completed",
  "pretrain_checkpoint": "$PRETRAIN_CKPT",
  "pretrain_results": "$OUTPUT_BASE/pretrain/taonet_real_token_benchmark.json",
  "activation_probe": "$OUTPUT_BASE/diagnostics/activation_probe_pretrain_latest.json",
  "generation_samples": "$OUTPUT_BASE/diagnostics/generation_samples_pretrain_latest.json",
  "sft_sanity": "$OUTPUT_BASE/diagnostics/sft_sanity_pretrain_latest.json"
}
JSON

echo "Pre-200M stability gate completed."
cat "$OUTPUT_BASE/gate_summary.json"