faro1219 commited on Nov 28, 2025

Commit

938160b

verified ·

1 Parent(s): 64d0b77

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/.hydra/config.yaml +56 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/.hydra/hydra.yaml +168 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/.hydra/overrides.yaml +26 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_100.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1000.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_10000.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1100.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1200.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1300.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1400.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1500.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1600.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1700.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1800.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_1900.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_200.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2000.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2100.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2200.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2300.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2400.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2500.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2600.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2700.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2800.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_2900.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_300.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3000.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3100.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3200.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3300.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3400.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3500.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3600.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3700.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3800.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_3900.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_400.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4000.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4100.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4200.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4300.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4400.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4500.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4600.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4700.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4800.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_4900.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_500.pth +3 -0
logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/checkpoints/step_5000.pth +3 -0

logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438/.hydra/config.yaml ADDED Viewed

	@@ -0,0 +1,56 @@

+dataset:
+  name: fineweb
+  root: /mnt/hdfs/__MERLIN_USER_DIR__/data/fineweb
+  seed: 42
+  size: 10000000000
+  input_bin: data/fineweb/fineweb10B/fineweb_train_*.bin
+  input_val_bin: data/fineweb/fineweb10B/fineweb_val_*.bin
+model:
+  name: gpt2_small
+  n_embd: 768
+  n_head: 12
+  n_layers: 12
+  vocab_size: 50257
+  rotary: true
+  auto_regressive: true
+  swiglu: false
+  tie_embedding_and_output_weights: true
+  attn_output_gate: true
+  use_qk_norm: true
+training:
+  seed: 42
+  steps: 10000
+  sequence_length: 1024
+  max_global_steps: null
+  max_local_steps: null
+  compile: true
+  val: true
+  val_max_steps: 50
+  log_every: 1
+  val_every: 200
+  save_every: 100
+  optimizer:
+    name: adamw
+    lr: 0.0018
+    beta1: 0.9
+    beta2: 0.95
+    eps: 1.0e-08
+    weight_decay: 0.1
+    batch_size: 64
+    minibatch_size: 32
+  scheduler:
+    name: wsd
+    warmup_steps: 400
+    start_steps: 8000
+    end_steps: 10000
+    gamma: 0
+type: nlp
+project_name: stochastic-eos
+exp_name: nlp-eos
+run_name: ${mk_run_name:${type},${dataset},${model},${training},${now:%y%m%d-%H%M%S}}
+wandb:
+  use: true
+  project: seos-nlp
+  name: ${mk_run_name_short:${type},${dataset},${model},${training},${now:%y%m%d-%H%M%S}}
+update_hdfs: true
+remote_root: hdfs://haruna/home/byte_data_seed/ssd_hldy/user/yuhang.cai/stochastic-eos

	@@ -0,0 +1,168 @@

+hydra:
+  run:
+    dir: logs/${project_name}/${exp_name}/${run_name}
+  sweep:
+    dir: logs/${project_name}/${exp_name}/multirun/${run_name}
+    subdir: ${hydra.job.num}
+  launcher:
+    _target_: hydra._internal.core_plugins.basic_launcher.BasicLauncher
+  sweeper:
+    _target_: hydra._internal.core_plugins.basic_sweeper.BasicSweeper
+    max_batch_size: null
+    params: null
+  help:
+    app_name: ${hydra.job.name}
+    header: '${hydra.help.app_name} is powered by Hydra.
+      '
+    footer: 'Powered by Hydra (https://hydra.cc)
+      Use --hydra-help to view Hydra specific help
+      '
+    template: '${hydra.help.header}
+      == Configuration groups ==
+      Compose your configuration from those groups (group=option)
+      $APP_CONFIG_GROUPS
+      == Config ==
+      Override anything in the config (foo.bar=value)
+      $CONFIG
+      ${hydra.help.footer}
+      '
+  hydra_help:
+    template: 'Hydra (${hydra.runtime.version})
+      See https://hydra.cc for more info.
+      == Flags ==
+      $FLAGS_HELP
+      == Configuration groups ==
+      Compose your configuration from those groups (For example, append hydra/job_logging=disabled
+      to command line)
+      $HYDRA_CONFIG_GROUPS
+      Use ''--cfg hydra'' to Show the Hydra config.
+      '
+    hydra_help: ???
+  hydra_logging:
+    version: 1
+    formatters:
+      simple:
+        format: '[%(asctime)s][HYDRA] %(message)s'
+    handlers:
+      console:
+        class: logging.StreamHandler
+        formatter: simple
+        stream: ext://sys.stdout
+    root:
+      level: INFO
+      handlers:
+      - console
+    loggers:
+      logging_example:
+        level: DEBUG
+    disable_existing_loggers: false
+  job_logging:
+    version: 1
+    root:
+      level: ERROR
+    disable_existing_loggers: true
+  env: {}
+  mode: RUN
+  searchpath: []
+  callbacks: {}
+  output_subdir: .hydra
+  overrides:
+    hydra:
+    - hydra.mode=RUN
+    task:
+    - dataset=fineweb
+    - dataset.input_bin=data/fineweb/fineweb10B/fineweb_train_*.bin
+    - dataset.input_val_bin=data/fineweb/fineweb10B/fineweb_val_*.bin
+    - model=gpt2_small
+    - training=adamw_nlp
+    - wandb.use=true
+    - training.seed=42
+    - training.log_every=1
+    - training.val_every=200
+    - training.save_every=100
+    - training.steps=10000
+    - training.optimizer.name=adamw
+    - training.optimizer.lr=0.0018
+    - training.optimizer.weight_decay=0.1
+    - training.optimizer.beta1=0.9
+    - training.optimizer.beta2=0.95
+    - training.optimizer.eps=1e-8
+    - training.optimizer.batch_size=64
+    - training.optimizer.minibatch_size=32
+    - training.compile=true
+    - training.sequence_length=1024
+    - training.scheduler.name=wsd
+    - training.scheduler.warmup_steps=400
+    - training.scheduler.start_steps=8000
+    - training.scheduler.end_steps=10000
+    - training.scheduler.gamma=0
+  job:
+    name: train_nlp
+    chdir: null
+    override_dirname: dataset.input_bin=data/fineweb/fineweb10B/fineweb_train_*.bin,dataset.input_val_bin=data/fineweb/fineweb10B/fineweb_val_*.bin,dataset=fineweb,model=gpt2_small,training.compile=true,training.log_every=1,training.optimizer.batch_size=64,training.optimizer.beta1=0.9,training.optimizer.beta2=0.95,training.optimizer.eps=1e-8,training.optimizer.lr=0.0018,training.optimizer.minibatch_size=32,training.optimizer.name=adamw,training.optimizer.weight_decay=0.1,training.save_every=100,training.scheduler.end_steps=10000,training.scheduler.gamma=0,training.scheduler.name=wsd,training.scheduler.start_steps=8000,training.scheduler.warmup_steps=400,training.seed=42,training.sequence_length=1024,training.steps=10000,training.val_every=200,training=adamw_nlp,wandb.use=true
+    id: ???
+    num: ???
+    config_name: config_nlp_pretrain
+    env_set: {}
+    env_copy: []
+    config:
+      override_dirname:
+        kv_sep: '='
+        item_sep: ','
+        exclude_keys: []
+  runtime:
+    version: 1.3.2
+    version_base: '1.3'
+    cwd: /data01/home/yuhang.cai/Stochastic-EoS
+    config_sources:
+    - path: hydra.conf
+      schema: pkg
+      provider: hydra
+    - path: /data01/home/yuhang.cai/Stochastic-EoS/configs
+      schema: file
+      provider: main
+    - path: ''
+      schema: structured
+      provider: schema
+    output_dir: /data01/home/yuhang.cai/Stochastic-EoS/logs/stochastic-eos/nlp-eos/next-token-prediction-pretrain_fineweb_gpt2_small-attnOgate-qkNorm_adamw-lr0.0018-b0.9-0.95-eps1e-08-wd0.1-bs64_wsd-10000-400-8000-10000-0_251127-155438
+    choices:
+      training: adamw_nlp
+      model: gpt2_small
+      dataset: fineweb
+      hydra/env: default
+      hydra/callbacks: null
+      hydra/job_logging: disabled
+      hydra/hydra_logging: default
+      hydra/hydra_help: default
+      hydra/help: default
+      hydra/sweeper: basic
+      hydra/launcher: basic
+      hydra/output: default
+  verbose: false

	@@ -0,0 +1,26 @@

+- dataset=fineweb
+- dataset.input_bin=data/fineweb/fineweb10B/fineweb_train_*.bin
+- dataset.input_val_bin=data/fineweb/fineweb10B/fineweb_val_*.bin
+- model=gpt2_small
+- training=adamw_nlp
+- wandb.use=true
+- training.seed=42
+- training.log_every=1
+- training.val_every=200
+- training.save_every=100
+- training.steps=10000
+- training.optimizer.name=adamw
+- training.optimizer.lr=0.0018
+- training.optimizer.weight_decay=0.1
+- training.optimizer.beta1=0.9
+- training.optimizer.beta2=0.95
+- training.optimizer.eps=1e-8
+- training.optimizer.batch_size=64
+- training.optimizer.minibatch_size=32
+- training.compile=true
+- training.sequence_length=1024
+- training.scheduler.name=wsd
+- training.scheduler.warmup_steps=400
+- training.scheduler.start_steps=8000
+- training.scheduler.end_steps=10000
+- training.scheduler.gamma=0

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77f671f1878098c5a11eac28fcc27dd281151896a6a552c54f60510e1dc255a2
+size 2031036461

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe10e6833b87f80f23cc95a25b820d3424c4b731f5fe5aa01f71acf5380320a0
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1bea4ffb13139e5ee11a361dd7fc73589d4d05ce6b4259ec50f6a4143145e848
+size 2031037673

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fa14d665faf6509e845fc44b2124557995681b41124a4b71254738cda5feaf9a
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:98fd37ab0c372da734f1aa047320438c7205819e5682acb7b87cc463301fd8d3
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cf767a9345ed6f62e83621052a67dc9eeff0ae652bb034249994b1a746848597
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:868dc8092b01f501fea5da56f3d45109d35ff8371081048c40397d97d8b4247f
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e7ed12a4e914f158a1a2e1b9b8bd1d92060599ad082d43a06c911193b374a4ff
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b6882ad82f64df7f099c5f3d354861a36a4ad16203373b3a8be8f1065e24ae93
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f035051c0998108bab5a2cd9ebb48965741d9bb36bfcac0dfe8ce079e2a87b5
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d2350f36f1bfef9fc095e4cf341d9f1eb12a77a9f9ada031d4db2efa87afe4a3
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6146c92a9317a8e9246b42e27ee41ae027bd4b7c275ce1b5ab4920ee1847e554
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94bfc0cfae168dab8e2a17cf15bc0f92b0e9388175992a701a67182f6ff2bdb7
+size 2031036461

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc900cc93306f9b4c4f85da37d9fd589475fdab56dcdde0b4d0087076d11f3e2
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf219bc1711b9d11ac4f48fcf42f57913d9beabca4d201269e926288b19f75ed
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:520155cbd6933f3b18d51468f81ccae32c932eb4817edd61113e7fa28c692649
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2e7c5ce56e8f323feccf3c32d5434457b42470a9e0a10683faee9877871cacfe
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aec8403fa2877b9f4f3982322b46060cad09817b502222251809c7bd0563de7e
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70a2acd285760f5e10fde52a3396f3356015b7f36bf8b9ff6951989bcf6ad07c
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f1177fc94c65cf755f52d9389bf4eceb7da2719d636dd7567d99b6ffd9702c4
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c62fd999e2310584c7099789e5394dc6b0349b77c2217432b3423d00af1aa644
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14db0f51c1ed12a7e3b68fd6b81fa565618adbab724b8046e028d5846b021cc1
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10c9d9cf83751a5fbdd572ef04255dc1b871aafea4a061f5ff07d5ed646b6ebc
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ef760ad94a2be7b4a05bdc58968a46c5dd2a1412729f4e87bc3859cc481db13
+size 2031036461

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4c628c86f1c6113fbec2ded90d2edbf5c25706441acc895990bc78e8da28f0f
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:79a6965e63494b9406697aada4c4ebacad24016bcdf204f2c08ce20a355ba686
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d58ad203e5ac948a3935a308c537b189b36d5a565f2e40f78c55794b63aa617f
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7767c47bfd26f9f29b18197919513762dfabdd02a9a1b2d558e250625821ddea
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f7fc949b98e61bc872416d4df76872e0936742e53f129065f8c3cfe446cd1d7
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cdd784aac9809b4ecd293cd07c3d82c48cb7d320674712aedcec3e647f817c1
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cb49c6bfc38666d70c34b820a62c883bcd7d3465d73a4efd66d3bc4a8f2ee2bf
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e8c75345429b5cc64b65cfc19bbaaf284f22846f4a8eb03bb3441e15dc228689
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:90addd1d091564835c51b609aeef0f3f0b6eb551befa36990c107e9f5bddf8d4
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5714ef9b103d9da7ce534b2f705d20af995cdc64da66254911e7418968260a56
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:35f87d552adf8010b4acc914a60af05ef20c80001f3e0eab31e02da8040658ff
+size 2031036461

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18886b6298ae422c9a95e1675799e9ebbd5cd0ae63c87001cbfad6c53caca468
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aebc2b5fd1345502e6a6b24dded7d05802e200dedee53510b351ef04c0f17516
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fc5a2cbd5e098bbd5e5994ee13c72766973cf9dacab0a66e03775790e2ff4e17
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6d1275a17091ee545b2efeeba5c6ee4d8199171291d0e6dcbe11f1f7d245368
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e4d6db73da3e7ede8659cf0c080107e14c7783cbb2550a051790fe1819e6764
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b130671ee783053f2759f3afa418d011972b1722161e59bca488d9f2f66d139a
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55e04a4ed522ff27a5aa3df8d9bf0fb572954eba01b6e3b9ddc26f3a7fe0e35b
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8d64168199cb94e316ed7f84fe1c2445113ee5bdb9a7e66425ac1a2e8429001e
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:af2b30e7f0df4d0461aae75e3fbd67d03bac7cd5d10064ff6cf6b4baa3f48309
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fdc35cd922268a0b5738a48836281482e96396780b937c4e11f4a4d112566968
+size 2031037067

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:97ca9e6b997b09123184d0c55f877590806eaeba319a4fe171d5d5dd903e9ac3
+size 2031036461

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3b311277c115606076228e320a44569d5a2a6acccc6f9c38e48204b19211c5f
+size 2031037067