{
  "training": {
    "batch_size": 16,
    "num_epochs": 1,
    "learning_rate": 5e-5,
    "weight_decay": 0.01,
    "gradient_accumulation_steps": 4,
    "tokenize_batch_size": 100,
    "train_split_ratio": 0.8,
    "val_split_ratio": 0.1,
    "test_split_ratio": 0.1,
    "include_for_metrics": ["input_ids", "attention_mask", "labels"]
  },
  "model": {
    "max_position_embeddings": 512,
    "hidden_size": 320,
    "num_hidden_layers": 6,
    "num_attention_heads": 4,
    "num_key_value_heads": 2,
    "head_dim": 64,
    "intermediate_size": 1280,
    "sliding_window": 16,
    "rope_theta": 10000.0,
    "attention_dropout": 0.1
  },
  "generation": {
    "max_length": 64,
    "top_k": 50,
    "top_p": 0.9,
    "temperature": 1,
    "do_sample": true,
    "num_return_sequences": 3
  }
}