lzc0525 commited on Mar 12, 2025

Commit

822e382

verified ·

1 Parent(s): e89b0f2

Upload folder using huggingface_hub

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

added_tokens.json +13 -0
all_results.json +22 -0
checkpoint-12/added_tokens.json +13 -0
checkpoint-12/config.json +36 -0
checkpoint-12/generation_config.json +11 -0
checkpoint-12/model-00001-of-00002.safetensors +3 -0
checkpoint-12/model-00002-of-00002.safetensors +3 -0
checkpoint-12/model.safetensors.index.json +202 -0
checkpoint-12/special_tokens_map.json +30 -0
checkpoint-12/tokenizer.json +0 -0
checkpoint-12/tokenizer_config.json +131 -0
checkpoint-12/trainer_state.json +213 -0
checkpoint-24/added_tokens.json +13 -0
checkpoint-24/config.json +36 -0
checkpoint-24/generation_config.json +11 -0
checkpoint-24/model-00001-of-00002.safetensors +3 -0
checkpoint-24/model-00002-of-00002.safetensors +3 -0
checkpoint-24/model.safetensors.index.json +202 -0
checkpoint-24/special_tokens_map.json +30 -0
checkpoint-24/tokenizer.json +0 -0
checkpoint-24/tokenizer_config.json +131 -0
checkpoint-24/trainer_state.json +393 -0
checkpoint-36/added_tokens.json +13 -0
checkpoint-36/config.json +36 -0
checkpoint-36/generation_config.json +11 -0
checkpoint-36/model-00001-of-00002.safetensors +3 -0
checkpoint-36/model-00002-of-00002.safetensors +3 -0
checkpoint-36/model.safetensors.index.json +202 -0
checkpoint-36/special_tokens_map.json +30 -0
checkpoint-36/tokenizer.json +0 -0
checkpoint-36/tokenizer_config.json +131 -0
checkpoint-36/trainer_state.json +573 -0
checkpoint-48/added_tokens.json +13 -0
checkpoint-48/config.json +36 -0
checkpoint-48/generation_config.json +11 -0
checkpoint-48/model-00001-of-00002.safetensors +3 -0
checkpoint-48/model-00002-of-00002.safetensors +3 -0
checkpoint-48/model.safetensors.index.json +202 -0
checkpoint-48/special_tokens_map.json +30 -0
checkpoint-48/tokenizer.json +0 -0
checkpoint-48/tokenizer_config.json +131 -0
checkpoint-48/trainer_state.json +753 -0
checkpoint-60/added_tokens.json +13 -0
checkpoint-60/config.json +36 -0
checkpoint-60/generation_config.json +11 -0
checkpoint-60/model-00001-of-00002.safetensors +3 -0
checkpoint-60/model-00002-of-00002.safetensors +3 -0
checkpoint-60/model.safetensors.index.json +202 -0
checkpoint-60/special_tokens_map.json +30 -0
checkpoint-60/tokenizer.json +0 -0

added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+    "epoch": 0.9880609304240429,
+    "eval_logits/chosen": 9.137195587158203,
+    "eval_logits/rejected": 9.94820499420166,
+    "eval_logps/chosen": -0.38139861822128296,
+    "eval_logps/rejected": -0.3884890377521515,
+    "eval_loss": 1.3865872621536255,
+    "eval_rewards/accuracies": 0.519444465637207,
+    "eval_rewards/chosen": -0.7627972364425659,
+    "eval_rewards/margins": 0.014180805534124374,
+    "eval_rewards/rejected": -0.776978075504303,
+    "eval_runtime": 165.9053,
+    "eval_samples": 1080,
+    "eval_samples_per_second": 6.51,
+    "eval_steps_per_second": 1.627,
+    "total_flos": 0.0,
+    "train_loss": 1.3642690054575601,
+    "train_runtime": 7453.8282,
+    "train_samples": 9715,
+    "train_samples_per_second": 1.303,
+    "train_steps_per_second": 0.01
+}

checkpoint-12/added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

checkpoint-12/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "/home/v-liuzichuan/huggingface/Phi-3-mini-4k-instruct",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "vocab_size": 32064
+}

checkpoint-12/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    32000,
+    32001,
+    32007
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.45.2"
+}

checkpoint-12/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3f4c00d93527624f62c593391630ca2f6028a78ea82f4b49ca97ca12095e3d0
+size 4972489328

checkpoint-12/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b37830d429094b2102c03ffdce608f398f1e54b1312d3a2e3c393c4c8ead442c
+size 2669692552

checkpoint-12/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-12/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-12/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-12/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,131 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-12/trainer_state.json ADDED Viewed

	@@ -0,0 +1,213 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.15808974886784685,
+  "eval_steps": 500,
+  "global_step": 12,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013174145738987238,
+      "grad_norm": 0.5080101490020752,
+      "learning_rate": 1.25e-07,
+      "logits/chosen": 10.32492733001709,
+      "logits/rejected": 10.282785415649414,
+      "logps/chosen": -1.0583709478378296,
+      "logps/rejected": -1.1253927946090698,
+      "loss": 1.3887,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": -2.116741895675659,
+      "rewards/margins": 0.1340436041355133,
+      "rewards/rejected": -2.2507855892181396,
+      "step": 1
+    },
+    {
+      "epoch": 0.026348291477974475,
+      "grad_norm": 0.5300341844558716,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": 10.530074119567871,
+      "logits/rejected": 10.672085762023926,
+      "logps/chosen": -1.1093882322311401,
+      "logps/rejected": -1.2041704654693604,
+      "loss": 1.3086,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2187764644622803,
+      "rewards/margins": 0.18956437706947327,
+      "rewards/rejected": -2.4083409309387207,
+      "step": 2
+    },
+    {
+      "epoch": 0.03952243721696171,
+      "grad_norm": 1.1035377979278564,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": 10.240287780761719,
+      "logits/rejected": 10.40180492401123,
+      "logps/chosen": -1.1902998685836792,
+      "logps/rejected": -1.311903715133667,
+      "loss": 1.3245,
+      "rewards/accuracies": 0.6484375,
+      "rewards/chosen": -2.3805997371673584,
+      "rewards/margins": 0.24320749938488007,
+      "rewards/rejected": -2.623807430267334,
+      "step": 3
+    },
+    {
+      "epoch": 0.05269658295594895,
+      "grad_norm": 1.8411834239959717,
+      "learning_rate": 5e-07,
+      "logits/chosen": 10.358713150024414,
+      "logits/rejected": 10.405998229980469,
+      "logps/chosen": -1.0821034908294678,
+      "logps/rejected": -1.1429979801177979,
+      "loss": 1.3768,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.1642069816589355,
+      "rewards/margins": 0.12178920209407806,
+      "rewards/rejected": -2.2859959602355957,
+      "step": 4
+    },
+    {
+      "epoch": 0.06587072869493618,
+      "grad_norm": 0.5591928362846375,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 10.748247146606445,
+      "logits/rejected": 10.783531188964844,
+      "logps/chosen": -1.1161627769470215,
+      "logps/rejected": -1.1165733337402344,
+      "loss": 1.4573,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.232325553894043,
+      "rewards/margins": 0.0008210651576519012,
+      "rewards/rejected": -2.2331466674804688,
+      "step": 5
+    },
+    {
+      "epoch": 0.07904487443392343,
+      "grad_norm": 1.0748578310012817,
+      "learning_rate": 7.5e-07,
+      "logits/chosen": 10.895101547241211,
+      "logits/rejected": 10.935002326965332,
+      "logps/chosen": -1.051721453666687,
+      "logps/rejected": -1.1617565155029297,
+      "loss": 1.3341,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.103442907333374,
+      "rewards/margins": 0.22007031738758087,
+      "rewards/rejected": -2.3235130310058594,
+      "step": 6
+    },
+    {
+      "epoch": 0.09221902017291066,
+      "grad_norm": 1.2474150657653809,
+      "learning_rate": 8.75e-07,
+      "logits/chosen": 10.060023307800293,
+      "logits/rejected": 10.135562896728516,
+      "logps/chosen": -1.0141205787658691,
+      "logps/rejected": -1.1586568355560303,
+      "loss": 1.3246,
+      "rewards/accuracies": 0.6328125,
+      "rewards/chosen": -2.0282411575317383,
+      "rewards/margins": 0.28907278180122375,
+      "rewards/rejected": -2.3173136711120605,
+      "step": 7
+    },
+    {
+      "epoch": 0.1053931659118979,
+      "grad_norm": 1.7001811265945435,
+      "learning_rate": 1e-06,
+      "logits/chosen": 10.837862014770508,
+      "logits/rejected": 10.750317573547363,
+      "logps/chosen": -1.0156888961791992,
+      "logps/rejected": -1.1156163215637207,
+      "loss": 1.314,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.0313777923583984,
+      "rewards/margins": 0.19985482096672058,
+      "rewards/rejected": -2.2312326431274414,
+      "step": 8
+    },
+    {
+      "epoch": 0.11856731165088513,
+      "grad_norm": 1.0888780355453491,
+      "learning_rate": 9.994504457428556e-07,
+      "logits/chosen": 10.434420585632324,
+      "logits/rejected": 10.604791641235352,
+      "logps/chosen": -1.1994280815124512,
+      "logps/rejected": -1.1771385669708252,
+      "loss": 1.4926,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": -2.3988561630249023,
+      "rewards/margins": -0.04457877576351166,
+      "rewards/rejected": -2.3542771339416504,
+      "step": 9
+    },
+    {
+      "epoch": 0.13174145738987236,
+      "grad_norm": 0.9426828622817993,
+      "learning_rate": 9.97802991010949e-07,
+      "logits/chosen": 10.330013275146484,
+      "logits/rejected": 10.423635482788086,
+      "logps/chosen": -1.1276183128356934,
+      "logps/rejected": -1.1535909175872803,
+      "loss": 1.4741,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.2552366256713867,
+      "rewards/margins": 0.05194506794214249,
+      "rewards/rejected": -2.3071818351745605,
+      "step": 10
+    },
+    {
+      "epoch": 0.14491560312885962,
+      "grad_norm": 1.174481987953186,
+      "learning_rate": 9.950612572673255e-07,
+      "logits/chosen": 10.557825088500977,
+      "logits/rejected": 10.500927925109863,
+      "logps/chosen": -1.2195600271224976,
+      "logps/rejected": -1.3650047779083252,
+      "loss": 1.3192,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": -2.439120054244995,
+      "rewards/margins": 0.2908894717693329,
+      "rewards/rejected": -2.7300095558166504,
+      "step": 11
+    },
+    {
+      "epoch": 0.15808974886784685,
+      "grad_norm": 0.9938077330589294,
+      "learning_rate": 9.912312714377879e-07,
+      "logits/chosen": 10.221735000610352,
+      "logits/rejected": 10.339948654174805,
+      "logps/chosen": -1.072077989578247,
+      "logps/rejected": -1.114700198173523,
+      "loss": 1.3846,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.144155979156494,
+      "rewards/margins": 0.08524461090564728,
+      "rewards/rejected": -2.229400396347046,
+      "step": 12
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 75,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 12,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-24/added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

checkpoint-24/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "/home/v-liuzichuan/huggingface/Phi-3-mini-4k-instruct",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "vocab_size": 32064
+}

checkpoint-24/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    32000,
+    32001,
+    32007
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.45.2"
+}

checkpoint-24/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da41e6713140da458b69ead69d85f9017d947bb92eb09195b1c6832c3b3a8195
+size 4972489328

checkpoint-24/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:02ebc22fa2541c800440639e90c4dc7d9e8b200b7b62d64e8796f54943dc5259
+size 2669692552

checkpoint-24/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-24/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-24/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-24/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,131 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-24/trainer_state.json ADDED Viewed

	@@ -0,0 +1,393 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.3161794977356937,
+  "eval_steps": 500,
+  "global_step": 24,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013174145738987238,
+      "grad_norm": 0.5080101490020752,
+      "learning_rate": 1.25e-07,
+      "logits/chosen": 10.32492733001709,
+      "logits/rejected": 10.282785415649414,
+      "logps/chosen": -1.0583709478378296,
+      "logps/rejected": -1.1253927946090698,
+      "loss": 1.3887,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": -2.116741895675659,
+      "rewards/margins": 0.1340436041355133,
+      "rewards/rejected": -2.2507855892181396,
+      "step": 1
+    },
+    {
+      "epoch": 0.026348291477974475,
+      "grad_norm": 0.5300341844558716,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": 10.530074119567871,
+      "logits/rejected": 10.672085762023926,
+      "logps/chosen": -1.1093882322311401,
+      "logps/rejected": -1.2041704654693604,
+      "loss": 1.3086,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2187764644622803,
+      "rewards/margins": 0.18956437706947327,
+      "rewards/rejected": -2.4083409309387207,
+      "step": 2
+    },
+    {
+      "epoch": 0.03952243721696171,
+      "grad_norm": 1.1035377979278564,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": 10.240287780761719,
+      "logits/rejected": 10.40180492401123,
+      "logps/chosen": -1.1902998685836792,
+      "logps/rejected": -1.311903715133667,
+      "loss": 1.3245,
+      "rewards/accuracies": 0.6484375,
+      "rewards/chosen": -2.3805997371673584,
+      "rewards/margins": 0.24320749938488007,
+      "rewards/rejected": -2.623807430267334,
+      "step": 3
+    },
+    {
+      "epoch": 0.05269658295594895,
+      "grad_norm": 1.8411834239959717,
+      "learning_rate": 5e-07,
+      "logits/chosen": 10.358713150024414,
+      "logits/rejected": 10.405998229980469,
+      "logps/chosen": -1.0821034908294678,
+      "logps/rejected": -1.1429979801177979,
+      "loss": 1.3768,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.1642069816589355,
+      "rewards/margins": 0.12178920209407806,
+      "rewards/rejected": -2.2859959602355957,
+      "step": 4
+    },
+    {
+      "epoch": 0.06587072869493618,
+      "grad_norm": 0.5591928362846375,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 10.748247146606445,
+      "logits/rejected": 10.783531188964844,
+      "logps/chosen": -1.1161627769470215,
+      "logps/rejected": -1.1165733337402344,
+      "loss": 1.4573,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.232325553894043,
+      "rewards/margins": 0.0008210651576519012,
+      "rewards/rejected": -2.2331466674804688,
+      "step": 5
+    },
+    {
+      "epoch": 0.07904487443392343,
+      "grad_norm": 1.0748578310012817,
+      "learning_rate": 7.5e-07,
+      "logits/chosen": 10.895101547241211,
+      "logits/rejected": 10.935002326965332,
+      "logps/chosen": -1.051721453666687,
+      "logps/rejected": -1.1617565155029297,
+      "loss": 1.3341,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.103442907333374,
+      "rewards/margins": 0.22007031738758087,
+      "rewards/rejected": -2.3235130310058594,
+      "step": 6
+    },
+    {
+      "epoch": 0.09221902017291066,
+      "grad_norm": 1.2474150657653809,
+      "learning_rate": 8.75e-07,
+      "logits/chosen": 10.060023307800293,
+      "logits/rejected": 10.135562896728516,
+      "logps/chosen": -1.0141205787658691,
+      "logps/rejected": -1.1586568355560303,
+      "loss": 1.3246,
+      "rewards/accuracies": 0.6328125,
+      "rewards/chosen": -2.0282411575317383,
+      "rewards/margins": 0.28907278180122375,
+      "rewards/rejected": -2.3173136711120605,
+      "step": 7
+    },
+    {
+      "epoch": 0.1053931659118979,
+      "grad_norm": 1.7001811265945435,
+      "learning_rate": 1e-06,
+      "logits/chosen": 10.837862014770508,
+      "logits/rejected": 10.750317573547363,
+      "logps/chosen": -1.0156888961791992,
+      "logps/rejected": -1.1156163215637207,
+      "loss": 1.314,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.0313777923583984,
+      "rewards/margins": 0.19985482096672058,
+      "rewards/rejected": -2.2312326431274414,
+      "step": 8
+    },
+    {
+      "epoch": 0.11856731165088513,
+      "grad_norm": 1.0888780355453491,
+      "learning_rate": 9.994504457428556e-07,
+      "logits/chosen": 10.434420585632324,
+      "logits/rejected": 10.604791641235352,
+      "logps/chosen": -1.1994280815124512,
+      "logps/rejected": -1.1771385669708252,
+      "loss": 1.4926,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": -2.3988561630249023,
+      "rewards/margins": -0.04457877576351166,
+      "rewards/rejected": -2.3542771339416504,
+      "step": 9
+    },
+    {
+      "epoch": 0.13174145738987236,
+      "grad_norm": 0.9426828622817993,
+      "learning_rate": 9.97802991010949e-07,
+      "logits/chosen": 10.330013275146484,
+      "logits/rejected": 10.423635482788086,
+      "logps/chosen": -1.1276183128356934,
+      "logps/rejected": -1.1535909175872803,
+      "loss": 1.4741,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.2552366256713867,
+      "rewards/margins": 0.05194506794214249,
+      "rewards/rejected": -2.3071818351745605,
+      "step": 10
+    },
+    {
+      "epoch": 0.14491560312885962,
+      "grad_norm": 1.174481987953186,
+      "learning_rate": 9.950612572673255e-07,
+      "logits/chosen": 10.557825088500977,
+      "logits/rejected": 10.500927925109863,
+      "logps/chosen": -1.2195600271224976,
+      "logps/rejected": -1.3650047779083252,
+      "loss": 1.3192,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": -2.439120054244995,
+      "rewards/margins": 0.2908894717693329,
+      "rewards/rejected": -2.7300095558166504,
+      "step": 11
+    },
+    {
+      "epoch": 0.15808974886784685,
+      "grad_norm": 0.9938077330589294,
+      "learning_rate": 9.912312714377879e-07,
+      "logits/chosen": 10.221735000610352,
+      "logits/rejected": 10.339948654174805,
+      "logps/chosen": -1.072077989578247,
+      "logps/rejected": -1.114700198173523,
+      "loss": 1.3846,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.144155979156494,
+      "rewards/margins": 0.08524461090564728,
+      "rewards/rejected": -2.229400396347046,
+      "step": 12
+    },
+    {
+      "epoch": 0.17126389460683408,
+      "grad_norm": 0.9858765006065369,
+      "learning_rate": 9.863214526624063e-07,
+      "logits/chosen": 10.290239334106445,
+      "logits/rejected": 10.385334014892578,
+      "logps/chosen": -1.1751586198806763,
+      "logps/rejected": -1.3674362897872925,
+      "loss": 1.2879,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.3503172397613525,
+      "rewards/margins": 0.38455531001091003,
+      "rewards/rejected": -2.734872579574585,
+      "step": 13
+    },
+    {
+      "epoch": 0.1844380403458213,
+      "grad_norm": 1.6941860914230347,
+      "learning_rate": 9.8034259378842e-07,
+      "logits/chosen": 10.756081581115723,
+      "logits/rejected": 10.947944641113281,
+      "logps/chosen": -1.0922513008117676,
+      "logps/rejected": -1.1827645301818848,
+      "loss": 1.3465,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.184502601623535,
+      "rewards/margins": 0.18102645874023438,
+      "rewards/rejected": -2.3655290603637695,
+      "step": 14
+    },
+    {
+      "epoch": 0.19761218608480857,
+      "grad_norm": 0.33364373445510864,
+      "learning_rate": 9.73307837645217e-07,
+      "logits/chosen": 10.299134254455566,
+      "logits/rejected": 10.412195205688477,
+      "logps/chosen": -1.1260679960250854,
+      "logps/rejected": -1.2360444068908691,
+      "loss": 1.3164,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.252135992050171,
+      "rewards/margins": 0.219952791929245,
+      "rewards/rejected": -2.4720888137817383,
+      "step": 15
+    },
+    {
+      "epoch": 0.2107863318237958,
+      "grad_norm": 0.7868668437004089,
+      "learning_rate": 9.652326481535433e-07,
+      "logits/chosen": 10.79407024383545,
+      "logits/rejected": 10.986239433288574,
+      "logps/chosen": -1.0521718263626099,
+      "logps/rejected": -1.0945489406585693,
+      "loss": 1.415,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -2.1043436527252197,
+      "rewards/margins": 0.08475431054830551,
+      "rewards/rejected": -2.1890978813171387,
+      "step": 16
+    },
+    {
+      "epoch": 0.22396047756278303,
+      "grad_norm": 0.6708123683929443,
+      "learning_rate": 9.561347763324483e-07,
+      "logits/chosen": 10.472009658813477,
+      "logits/rejected": 10.457694053649902,
+      "logps/chosen": -1.0896780490875244,
+      "logps/rejected": -1.1595150232315063,
+      "loss": 1.3736,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.179356098175049,
+      "rewards/margins": 0.13967394828796387,
+      "rewards/rejected": -2.3190300464630127,
+      "step": 17
+    },
+    {
+      "epoch": 0.23713462330177026,
+      "grad_norm": 0.9609116911888123,
+      "learning_rate": 9.460342212786932e-07,
+      "logits/chosen": 10.532232284545898,
+      "logits/rejected": 10.626241683959961,
+      "logps/chosen": -1.1494747400283813,
+      "logps/rejected": -1.1549882888793945,
+      "loss": 1.4623,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2989494800567627,
+      "rewards/margins": 0.011027364060282707,
+      "rewards/rejected": -2.309976577758789,
+      "step": 18
+    },
+    {
+      "epoch": 0.2503087690407575,
+      "grad_norm": 0.49065420031547546,
+      "learning_rate": 9.349531862043951e-07,
+      "logits/chosen": 10.552773475646973,
+      "logits/rejected": 10.44497013092041,
+      "logps/chosen": -1.123961329460144,
+      "logps/rejected": -1.2145094871520996,
+      "loss": 1.3068,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.247922658920288,
+      "rewards/margins": 0.18109644949436188,
+      "rewards/rejected": -2.429018974304199,
+      "step": 19
+    },
+    {
+      "epoch": 0.2634829147797447,
+      "grad_norm": 1.4662220478057861,
+      "learning_rate": 9.229160296295487e-07,
+      "logits/chosen": 10.48397445678711,
+      "logits/rejected": 10.557746887207031,
+      "logps/chosen": -1.0979560613632202,
+      "logps/rejected": -1.1902183294296265,
+      "loss": 1.355,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.1959121227264404,
+      "rewards/margins": 0.1845243275165558,
+      "rewards/rejected": -2.380436658859253,
+      "step": 20
+    },
+    {
+      "epoch": 0.276657060518732,
+      "grad_norm": 1.0163906812667847,
+      "learning_rate": 9.099492118367122e-07,
+      "logits/chosen": 10.452715873718262,
+      "logits/rejected": 10.512972831726074,
+      "logps/chosen": -1.0967323780059814,
+      "logps/rejected": -1.2304078340530396,
+      "loss": 1.2888,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.193464756011963,
+      "rewards/margins": 0.26735079288482666,
+      "rewards/rejected": -2.460815668106079,
+      "step": 21
+    },
+    {
+      "epoch": 0.28983120625771924,
+      "grad_norm": 3.908339738845825,
+      "learning_rate": 8.960812367055646e-07,
+      "logits/chosen": 10.526410102844238,
+      "logits/rejected": 10.603084564208984,
+      "logps/chosen": -1.224048376083374,
+      "logps/rejected": -1.2536935806274414,
+      "loss": 1.4348,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.448096752166748,
+      "rewards/margins": 0.0592900887131691,
+      "rewards/rejected": -2.507387161254883,
+      "step": 22
+    },
+    {
+      "epoch": 0.3030053519967065,
+      "grad_norm": 0.31968942284584045,
+      "learning_rate": 8.813425890551909e-07,
+      "logits/chosen": 10.193231582641602,
+      "logits/rejected": 10.474884986877441,
+      "logps/chosen": -1.1644542217254639,
+      "logps/rejected": -1.1897979974746704,
+      "loss": 1.4224,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -2.3289084434509277,
+      "rewards/margins": 0.05068742483854294,
+      "rewards/rejected": -2.379595994949341,
+      "step": 23
+    },
+    {
+      "epoch": 0.3161794977356937,
+      "grad_norm": 1.0304734706878662,
+      "learning_rate": 8.657656676318345e-07,
+      "logits/chosen": 10.281815528869629,
+      "logits/rejected": 10.21823501586914,
+      "logps/chosen": -1.0919454097747803,
+      "logps/rejected": -1.210888385772705,
+      "loss": 1.325,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.1838908195495605,
+      "rewards/margins": 0.23788578808307648,
+      "rewards/rejected": -2.42177677154541,
+      "step": 24
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 75,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 12,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-36/added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

checkpoint-36/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "/home/v-liuzichuan/huggingface/Phi-3-mini-4k-instruct",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "vocab_size": 32064
+}

checkpoint-36/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    32000,
+    32001,
+    32007
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.45.2"
+}

checkpoint-36/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d19b8db4fdd6a991f15f0d7355b8b5ad05896df9000e6b8751ec263a171571b5
+size 4972489328

checkpoint-36/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1070cf296a5a60c4402aa4a1bb2d7b2c556a2dece469361dcd53ff92fe6e2b08
+size 2669692552

checkpoint-36/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-36/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-36/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-36/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,131 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-36/trainer_state.json ADDED Viewed

	@@ -0,0 +1,573 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.47426924660354053,
+  "eval_steps": 500,
+  "global_step": 36,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013174145738987238,
+      "grad_norm": 0.5080101490020752,
+      "learning_rate": 1.25e-07,
+      "logits/chosen": 10.32492733001709,
+      "logits/rejected": 10.282785415649414,
+      "logps/chosen": -1.0583709478378296,
+      "logps/rejected": -1.1253927946090698,
+      "loss": 1.3887,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": -2.116741895675659,
+      "rewards/margins": 0.1340436041355133,
+      "rewards/rejected": -2.2507855892181396,
+      "step": 1
+    },
+    {
+      "epoch": 0.026348291477974475,
+      "grad_norm": 0.5300341844558716,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": 10.530074119567871,
+      "logits/rejected": 10.672085762023926,
+      "logps/chosen": -1.1093882322311401,
+      "logps/rejected": -1.2041704654693604,
+      "loss": 1.3086,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2187764644622803,
+      "rewards/margins": 0.18956437706947327,
+      "rewards/rejected": -2.4083409309387207,
+      "step": 2
+    },
+    {
+      "epoch": 0.03952243721696171,
+      "grad_norm": 1.1035377979278564,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": 10.240287780761719,
+      "logits/rejected": 10.40180492401123,
+      "logps/chosen": -1.1902998685836792,
+      "logps/rejected": -1.311903715133667,
+      "loss": 1.3245,
+      "rewards/accuracies": 0.6484375,
+      "rewards/chosen": -2.3805997371673584,
+      "rewards/margins": 0.24320749938488007,
+      "rewards/rejected": -2.623807430267334,
+      "step": 3
+    },
+    {
+      "epoch": 0.05269658295594895,
+      "grad_norm": 1.8411834239959717,
+      "learning_rate": 5e-07,
+      "logits/chosen": 10.358713150024414,
+      "logits/rejected": 10.405998229980469,
+      "logps/chosen": -1.0821034908294678,
+      "logps/rejected": -1.1429979801177979,
+      "loss": 1.3768,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.1642069816589355,
+      "rewards/margins": 0.12178920209407806,
+      "rewards/rejected": -2.2859959602355957,
+      "step": 4
+    },
+    {
+      "epoch": 0.06587072869493618,
+      "grad_norm": 0.5591928362846375,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 10.748247146606445,
+      "logits/rejected": 10.783531188964844,
+      "logps/chosen": -1.1161627769470215,
+      "logps/rejected": -1.1165733337402344,
+      "loss": 1.4573,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.232325553894043,
+      "rewards/margins": 0.0008210651576519012,
+      "rewards/rejected": -2.2331466674804688,
+      "step": 5
+    },
+    {
+      "epoch": 0.07904487443392343,
+      "grad_norm": 1.0748578310012817,
+      "learning_rate": 7.5e-07,
+      "logits/chosen": 10.895101547241211,
+      "logits/rejected": 10.935002326965332,
+      "logps/chosen": -1.051721453666687,
+      "logps/rejected": -1.1617565155029297,
+      "loss": 1.3341,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.103442907333374,
+      "rewards/margins": 0.22007031738758087,
+      "rewards/rejected": -2.3235130310058594,
+      "step": 6
+    },
+    {
+      "epoch": 0.09221902017291066,
+      "grad_norm": 1.2474150657653809,
+      "learning_rate": 8.75e-07,
+      "logits/chosen": 10.060023307800293,
+      "logits/rejected": 10.135562896728516,
+      "logps/chosen": -1.0141205787658691,
+      "logps/rejected": -1.1586568355560303,
+      "loss": 1.3246,
+      "rewards/accuracies": 0.6328125,
+      "rewards/chosen": -2.0282411575317383,
+      "rewards/margins": 0.28907278180122375,
+      "rewards/rejected": -2.3173136711120605,
+      "step": 7
+    },
+    {
+      "epoch": 0.1053931659118979,
+      "grad_norm": 1.7001811265945435,
+      "learning_rate": 1e-06,
+      "logits/chosen": 10.837862014770508,
+      "logits/rejected": 10.750317573547363,
+      "logps/chosen": -1.0156888961791992,
+      "logps/rejected": -1.1156163215637207,
+      "loss": 1.314,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.0313777923583984,
+      "rewards/margins": 0.19985482096672058,
+      "rewards/rejected": -2.2312326431274414,
+      "step": 8
+    },
+    {
+      "epoch": 0.11856731165088513,
+      "grad_norm": 1.0888780355453491,
+      "learning_rate": 9.994504457428556e-07,
+      "logits/chosen": 10.434420585632324,
+      "logits/rejected": 10.604791641235352,
+      "logps/chosen": -1.1994280815124512,
+      "logps/rejected": -1.1771385669708252,
+      "loss": 1.4926,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": -2.3988561630249023,
+      "rewards/margins": -0.04457877576351166,
+      "rewards/rejected": -2.3542771339416504,
+      "step": 9
+    },
+    {
+      "epoch": 0.13174145738987236,
+      "grad_norm": 0.9426828622817993,
+      "learning_rate": 9.97802991010949e-07,
+      "logits/chosen": 10.330013275146484,
+      "logits/rejected": 10.423635482788086,
+      "logps/chosen": -1.1276183128356934,
+      "logps/rejected": -1.1535909175872803,
+      "loss": 1.4741,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.2552366256713867,
+      "rewards/margins": 0.05194506794214249,
+      "rewards/rejected": -2.3071818351745605,
+      "step": 10
+    },
+    {
+      "epoch": 0.14491560312885962,
+      "grad_norm": 1.174481987953186,
+      "learning_rate": 9.950612572673255e-07,
+      "logits/chosen": 10.557825088500977,
+      "logits/rejected": 10.500927925109863,
+      "logps/chosen": -1.2195600271224976,
+      "logps/rejected": -1.3650047779083252,
+      "loss": 1.3192,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": -2.439120054244995,
+      "rewards/margins": 0.2908894717693329,
+      "rewards/rejected": -2.7300095558166504,
+      "step": 11
+    },
+    {
+      "epoch": 0.15808974886784685,
+      "grad_norm": 0.9938077330589294,
+      "learning_rate": 9.912312714377879e-07,
+      "logits/chosen": 10.221735000610352,
+      "logits/rejected": 10.339948654174805,
+      "logps/chosen": -1.072077989578247,
+      "logps/rejected": -1.114700198173523,
+      "loss": 1.3846,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.144155979156494,
+      "rewards/margins": 0.08524461090564728,
+      "rewards/rejected": -2.229400396347046,
+      "step": 12
+    },
+    {
+      "epoch": 0.17126389460683408,
+      "grad_norm": 0.9858765006065369,
+      "learning_rate": 9.863214526624063e-07,
+      "logits/chosen": 10.290239334106445,
+      "logits/rejected": 10.385334014892578,
+      "logps/chosen": -1.1751586198806763,
+      "logps/rejected": -1.3674362897872925,
+      "loss": 1.2879,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.3503172397613525,
+      "rewards/margins": 0.38455531001091003,
+      "rewards/rejected": -2.734872579574585,
+      "step": 13
+    },
+    {
+      "epoch": 0.1844380403458213,
+      "grad_norm": 1.6941860914230347,
+      "learning_rate": 9.8034259378842e-07,
+      "logits/chosen": 10.756081581115723,
+      "logits/rejected": 10.947944641113281,
+      "logps/chosen": -1.0922513008117676,
+      "logps/rejected": -1.1827645301818848,
+      "loss": 1.3465,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.184502601623535,
+      "rewards/margins": 0.18102645874023438,
+      "rewards/rejected": -2.3655290603637695,
+      "step": 14
+    },
+    {
+      "epoch": 0.19761218608480857,
+      "grad_norm": 0.33364373445510864,
+      "learning_rate": 9.73307837645217e-07,
+      "logits/chosen": 10.299134254455566,
+      "logits/rejected": 10.412195205688477,
+      "logps/chosen": -1.1260679960250854,
+      "logps/rejected": -1.2360444068908691,
+      "loss": 1.3164,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.252135992050171,
+      "rewards/margins": 0.219952791929245,
+      "rewards/rejected": -2.4720888137817383,
+      "step": 15
+    },
+    {
+      "epoch": 0.2107863318237958,
+      "grad_norm": 0.7868668437004089,
+      "learning_rate": 9.652326481535433e-07,
+      "logits/chosen": 10.79407024383545,
+      "logits/rejected": 10.986239433288574,
+      "logps/chosen": -1.0521718263626099,
+      "logps/rejected": -1.0945489406585693,
+      "loss": 1.415,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -2.1043436527252197,
+      "rewards/margins": 0.08475431054830551,
+      "rewards/rejected": -2.1890978813171387,
+      "step": 16
+    },
+    {
+      "epoch": 0.22396047756278303,
+      "grad_norm": 0.6708123683929443,
+      "learning_rate": 9.561347763324483e-07,
+      "logits/chosen": 10.472009658813477,
+      "logits/rejected": 10.457694053649902,
+      "logps/chosen": -1.0896780490875244,
+      "logps/rejected": -1.1595150232315063,
+      "loss": 1.3736,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.179356098175049,
+      "rewards/margins": 0.13967394828796387,
+      "rewards/rejected": -2.3190300464630127,
+      "step": 17
+    },
+    {
+      "epoch": 0.23713462330177026,
+      "grad_norm": 0.9609116911888123,
+      "learning_rate": 9.460342212786932e-07,
+      "logits/chosen": 10.532232284545898,
+      "logits/rejected": 10.626241683959961,
+      "logps/chosen": -1.1494747400283813,
+      "logps/rejected": -1.1549882888793945,
+      "loss": 1.4623,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2989494800567627,
+      "rewards/margins": 0.011027364060282707,
+      "rewards/rejected": -2.309976577758789,
+      "step": 18
+    },
+    {
+      "epoch": 0.2503087690407575,
+      "grad_norm": 0.49065420031547546,
+      "learning_rate": 9.349531862043951e-07,
+      "logits/chosen": 10.552773475646973,
+      "logits/rejected": 10.44497013092041,
+      "logps/chosen": -1.123961329460144,
+      "logps/rejected": -1.2145094871520996,
+      "loss": 1.3068,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.247922658920288,
+      "rewards/margins": 0.18109644949436188,
+      "rewards/rejected": -2.429018974304199,
+      "step": 19
+    },
+    {
+      "epoch": 0.2634829147797447,
+      "grad_norm": 1.4662220478057861,
+      "learning_rate": 9.229160296295487e-07,
+      "logits/chosen": 10.48397445678711,
+      "logits/rejected": 10.557746887207031,
+      "logps/chosen": -1.0979560613632202,
+      "logps/rejected": -1.1902183294296265,
+      "loss": 1.355,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.1959121227264404,
+      "rewards/margins": 0.1845243275165558,
+      "rewards/rejected": -2.380436658859253,
+      "step": 20
+    },
+    {
+      "epoch": 0.276657060518732,
+      "grad_norm": 1.0163906812667847,
+      "learning_rate": 9.099492118367122e-07,
+      "logits/chosen": 10.452715873718262,
+      "logits/rejected": 10.512972831726074,
+      "logps/chosen": -1.0967323780059814,
+      "logps/rejected": -1.2304078340530396,
+      "loss": 1.2888,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.193464756011963,
+      "rewards/margins": 0.26735079288482666,
+      "rewards/rejected": -2.460815668106079,
+      "step": 21
+    },
+    {
+      "epoch": 0.28983120625771924,
+      "grad_norm": 3.908339738845825,
+      "learning_rate": 8.960812367055646e-07,
+      "logits/chosen": 10.526410102844238,
+      "logits/rejected": 10.603084564208984,
+      "logps/chosen": -1.224048376083374,
+      "logps/rejected": -1.2536935806274414,
+      "loss": 1.4348,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.448096752166748,
+      "rewards/margins": 0.0592900887131691,
+      "rewards/rejected": -2.507387161254883,
+      "step": 22
+    },
+    {
+      "epoch": 0.3030053519967065,
+      "grad_norm": 0.31968942284584045,
+      "learning_rate": 8.813425890551909e-07,
+      "logits/chosen": 10.193231582641602,
+      "logits/rejected": 10.474884986877441,
+      "logps/chosen": -1.1644542217254639,
+      "logps/rejected": -1.1897979974746704,
+      "loss": 1.4224,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -2.3289084434509277,
+      "rewards/margins": 0.05068742483854294,
+      "rewards/rejected": -2.379595994949341,
+      "step": 23
+    },
+    {
+      "epoch": 0.3161794977356937,
+      "grad_norm": 1.0304734706878662,
+      "learning_rate": 8.657656676318345e-07,
+      "logits/chosen": 10.281815528869629,
+      "logits/rejected": 10.21823501586914,
+      "logps/chosen": -1.0919454097747803,
+      "logps/rejected": -1.210888385772705,
+      "loss": 1.325,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.1838908195495605,
+      "rewards/margins": 0.23788578808307648,
+      "rewards/rejected": -2.42177677154541,
+      "step": 24
+    },
+    {
+      "epoch": 0.32935364347468093,
+      "grad_norm": 2.0577356815338135,
+      "learning_rate": 8.493847138894208e-07,
+      "logits/chosen": 10.638153076171875,
+      "logits/rejected": 10.773796081542969,
+      "logps/chosen": -1.0134081840515137,
+      "logps/rejected": -1.0593600273132324,
+      "loss": 1.372,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.0268163681030273,
+      "rewards/margins": 0.09190365672111511,
+      "rewards/rejected": -2.118720054626465,
+      "step": 25
+    },
+    {
+      "epoch": 0.34252778921366817,
+      "grad_norm": 0.6051430106163025,
+      "learning_rate": 8.322357367194108e-07,
+      "logits/chosen": 10.498373031616211,
+      "logits/rejected": 10.679786682128906,
+      "logps/chosen": -1.0168992280960083,
+      "logps/rejected": -1.0872042179107666,
+      "loss": 1.3499,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.0337984561920166,
+      "rewards/margins": 0.14060987532138824,
+      "rewards/rejected": -2.174408435821533,
+      "step": 26
+    },
+    {
+      "epoch": 0.3557019349526554,
+      "grad_norm": 1.769278645515442,
+      "learning_rate": 8.143564332954425e-07,
+      "logits/chosen": 10.561027526855469,
+      "logits/rejected": 10.846573829650879,
+      "logps/chosen": -1.114155650138855,
+      "logps/rejected": -1.1514461040496826,
+      "loss": 1.399,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.22831130027771,
+      "rewards/margins": 0.07458095252513885,
+      "rewards/rejected": -2.3028922080993652,
+      "step": 27
+    },
+    {
+      "epoch": 0.3688760806916426,
+      "grad_norm": 0.6603056192398071,
+      "learning_rate": 7.957861062067612e-07,
+      "logits/chosen": 10.477982521057129,
+      "logits/rejected": 10.683720588684082,
+      "logps/chosen": -1.0256245136260986,
+      "logps/rejected": -1.1278630495071411,
+      "loss": 1.3446,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.0512490272521973,
+      "rewards/margins": 0.20447733998298645,
+      "rewards/rejected": -2.2557260990142822,
+      "step": 28
+    },
+    {
+      "epoch": 0.3820502264306299,
+      "grad_norm": 1.5685954093933105,
+      "learning_rate": 7.765655770625996e-07,
+      "logits/chosen": 10.337364196777344,
+      "logits/rejected": 10.332595825195312,
+      "logps/chosen": -1.043882966041565,
+      "logps/rejected": -1.0915210247039795,
+      "loss": 1.3965,
+      "rewards/accuracies": 0.6796875,
+      "rewards/chosen": -2.08776593208313,
+      "rewards/margins": 0.09527605772018433,
+      "rewards/rejected": -2.183042049407959,
+      "step": 29
+    },
+    {
+      "epoch": 0.39522437216961714,
+      "grad_norm": 0.5102595686912537,
+      "learning_rate": 7.567370967574209e-07,
+      "logits/chosen": 10.61121654510498,
+      "logits/rejected": 10.84305191040039,
+      "logps/chosen": -1.0729877948760986,
+      "logps/rejected": -1.1098031997680664,
+      "loss": 1.4371,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.1459755897521973,
+      "rewards/margins": 0.07363072782754898,
+      "rewards/rejected": -2.219606399536133,
+      "step": 30
+    },
+    {
+      "epoch": 0.4083985179086044,
+      "grad_norm": 0.8290932774543762,
+      "learning_rate": 7.363442525942826e-07,
+      "logits/chosen": 10.494096755981445,
+      "logits/rejected": 10.498456954956055,
+      "logps/chosen": -0.9797660708427429,
+      "logps/rejected": -1.0840959548950195,
+      "loss": 1.3044,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.9595321416854858,
+      "rewards/margins": 0.2086598128080368,
+      "rewards/rejected": -2.168191909790039,
+      "step": 31
+    },
+    {
+      "epoch": 0.4215726636475916,
+      "grad_norm": 0.36728209257125854,
+      "learning_rate": 7.154318724704851e-07,
+      "logits/chosen": 10.502325057983398,
+      "logits/rejected": 10.551267623901367,
+      "logps/chosen": -1.040996789932251,
+      "logps/rejected": -1.0938708782196045,
+      "loss": 1.3946,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.081993579864502,
+      "rewards/margins": 0.10574813187122345,
+      "rewards/rejected": -2.187741756439209,
+      "step": 32
+    },
+    {
+      "epoch": 0.43474680938657884,
+      "grad_norm": 0.5727468132972717,
+      "learning_rate": 6.940459263361248e-07,
+      "logits/chosen": 10.425085067749023,
+      "logits/rejected": 10.45986270904541,
+      "logps/chosen": -1.0259983539581299,
+      "logps/rejected": -1.064608097076416,
+      "loss": 1.4179,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.0519967079162598,
+      "rewards/margins": 0.07721954584121704,
+      "rewards/rejected": -2.129216194152832,
+      "step": 33
+    },
+    {
+      "epoch": 0.44792095512556607,
+      "grad_norm": 0.8594540953636169,
+      "learning_rate": 6.722334251421664e-07,
+      "logits/chosen": 10.195260047912598,
+      "logits/rejected": 10.263075828552246,
+      "logps/chosen": -1.0975958108901978,
+      "logps/rejected": -1.1462163925170898,
+      "loss": 1.4471,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.1951916217803955,
+      "rewards/margins": 0.09724146127700806,
+      "rewards/rejected": -2.2924327850341797,
+      "step": 34
+    },
+    {
+      "epoch": 0.4610951008645533,
+      "grad_norm": 2.0125956535339355,
+      "learning_rate": 6.500423175001703e-07,
+      "logits/chosen": 10.623847007751465,
+      "logits/rejected": 10.824085235595703,
+      "logps/chosen": -1.1299512386322021,
+      "logps/rejected": -1.1615726947784424,
+      "loss": 1.4721,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.2599024772644043,
+      "rewards/margins": 0.06324289739131927,
+      "rewards/rejected": -2.3231453895568848,
+      "step": 35
+    },
+    {
+      "epoch": 0.47426924660354053,
+      "grad_norm": 0.9820675253868103,
+      "learning_rate": 6.275213842808382e-07,
+      "logits/chosen": 10.475167274475098,
+      "logits/rejected": 10.816570281982422,
+      "logps/chosen": -1.0255820751190186,
+      "logps/rejected": -1.0681825876235962,
+      "loss": 1.3712,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.051164150238037,
+      "rewards/margins": 0.08520102500915527,
+      "rewards/rejected": -2.1363651752471924,
+      "step": 36
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 75,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 12,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-48/added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

checkpoint-48/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "/home/v-liuzichuan/huggingface/Phi-3-mini-4k-instruct",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "vocab_size": 32064
+}

checkpoint-48/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    32000,
+    32001,
+    32007
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.45.2"
+}

checkpoint-48/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f6d932382f0ee07542b6c84b0c69a2a6eaeaaf0990496904af33bc5494e3bf0
+size 4972489328

checkpoint-48/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c28735dd3651809fe70cd838851334742f2e286e463e21a75eae3e602f0ea982
+size 2669692552

checkpoint-48/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-48/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-48/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-48/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,131 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": false
+    },
+    "32000": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "32001": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32002": {
+      "content": "<|placeholder1|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32003": {
+      "content": "<|placeholder2|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32004": {
+      "content": "<|placeholder3|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32005": {
+      "content": "<|placeholder4|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32006": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32007": {
+      "content": "<|end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32008": {
+      "content": "<|placeholder5|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32009": {
+      "content": "<|placeholder6|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    },
+    "32010": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": true,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "chat_template": "{% for message in messages %}{% if message['role'] == 'system' %}{{'<|system|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'user' %}{{'<|user|>\n' + message['content'] + '<|end|>\n'}}{% elif message['role'] == 'assistant' %}{{'<|assistant|>\n' + message['content'] + '<|end|>\n'}}{% endif %}{% endfor %}{% if add_generation_prompt %}{{ '<|assistant|>\n' }}{% else %}{{ eos_token }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "legacy": false,
+  "model_max_length": 4096,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

checkpoint-48/trainer_state.json ADDED Viewed

	@@ -0,0 +1,753 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.6323589954713874,
+  "eval_steps": 500,
+  "global_step": 48,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.013174145738987238,
+      "grad_norm": 0.5080101490020752,
+      "learning_rate": 1.25e-07,
+      "logits/chosen": 10.32492733001709,
+      "logits/rejected": 10.282785415649414,
+      "logps/chosen": -1.0583709478378296,
+      "logps/rejected": -1.1253927946090698,
+      "loss": 1.3887,
+      "rewards/accuracies": 0.5390625,
+      "rewards/chosen": -2.116741895675659,
+      "rewards/margins": 0.1340436041355133,
+      "rewards/rejected": -2.2507855892181396,
+      "step": 1
+    },
+    {
+      "epoch": 0.026348291477974475,
+      "grad_norm": 0.5300341844558716,
+      "learning_rate": 2.5e-07,
+      "logits/chosen": 10.530074119567871,
+      "logits/rejected": 10.672085762023926,
+      "logps/chosen": -1.1093882322311401,
+      "logps/rejected": -1.2041704654693604,
+      "loss": 1.3086,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2187764644622803,
+      "rewards/margins": 0.18956437706947327,
+      "rewards/rejected": -2.4083409309387207,
+      "step": 2
+    },
+    {
+      "epoch": 0.03952243721696171,
+      "grad_norm": 1.1035377979278564,
+      "learning_rate": 3.75e-07,
+      "logits/chosen": 10.240287780761719,
+      "logits/rejected": 10.40180492401123,
+      "logps/chosen": -1.1902998685836792,
+      "logps/rejected": -1.311903715133667,
+      "loss": 1.3245,
+      "rewards/accuracies": 0.6484375,
+      "rewards/chosen": -2.3805997371673584,
+      "rewards/margins": 0.24320749938488007,
+      "rewards/rejected": -2.623807430267334,
+      "step": 3
+    },
+    {
+      "epoch": 0.05269658295594895,
+      "grad_norm": 1.8411834239959717,
+      "learning_rate": 5e-07,
+      "logits/chosen": 10.358713150024414,
+      "logits/rejected": 10.405998229980469,
+      "logps/chosen": -1.0821034908294678,
+      "logps/rejected": -1.1429979801177979,
+      "loss": 1.3768,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.1642069816589355,
+      "rewards/margins": 0.12178920209407806,
+      "rewards/rejected": -2.2859959602355957,
+      "step": 4
+    },
+    {
+      "epoch": 0.06587072869493618,
+      "grad_norm": 0.5591928362846375,
+      "learning_rate": 6.249999999999999e-07,
+      "logits/chosen": 10.748247146606445,
+      "logits/rejected": 10.783531188964844,
+      "logps/chosen": -1.1161627769470215,
+      "logps/rejected": -1.1165733337402344,
+      "loss": 1.4573,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.232325553894043,
+      "rewards/margins": 0.0008210651576519012,
+      "rewards/rejected": -2.2331466674804688,
+      "step": 5
+    },
+    {
+      "epoch": 0.07904487443392343,
+      "grad_norm": 1.0748578310012817,
+      "learning_rate": 7.5e-07,
+      "logits/chosen": 10.895101547241211,
+      "logits/rejected": 10.935002326965332,
+      "logps/chosen": -1.051721453666687,
+      "logps/rejected": -1.1617565155029297,
+      "loss": 1.3341,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.103442907333374,
+      "rewards/margins": 0.22007031738758087,
+      "rewards/rejected": -2.3235130310058594,
+      "step": 6
+    },
+    {
+      "epoch": 0.09221902017291066,
+      "grad_norm": 1.2474150657653809,
+      "learning_rate": 8.75e-07,
+      "logits/chosen": 10.060023307800293,
+      "logits/rejected": 10.135562896728516,
+      "logps/chosen": -1.0141205787658691,
+      "logps/rejected": -1.1586568355560303,
+      "loss": 1.3246,
+      "rewards/accuracies": 0.6328125,
+      "rewards/chosen": -2.0282411575317383,
+      "rewards/margins": 0.28907278180122375,
+      "rewards/rejected": -2.3173136711120605,
+      "step": 7
+    },
+    {
+      "epoch": 0.1053931659118979,
+      "grad_norm": 1.7001811265945435,
+      "learning_rate": 1e-06,
+      "logits/chosen": 10.837862014770508,
+      "logits/rejected": 10.750317573547363,
+      "logps/chosen": -1.0156888961791992,
+      "logps/rejected": -1.1156163215637207,
+      "loss": 1.314,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.0313777923583984,
+      "rewards/margins": 0.19985482096672058,
+      "rewards/rejected": -2.2312326431274414,
+      "step": 8
+    },
+    {
+      "epoch": 0.11856731165088513,
+      "grad_norm": 1.0888780355453491,
+      "learning_rate": 9.994504457428556e-07,
+      "logits/chosen": 10.434420585632324,
+      "logits/rejected": 10.604791641235352,
+      "logps/chosen": -1.1994280815124512,
+      "logps/rejected": -1.1771385669708252,
+      "loss": 1.4926,
+      "rewards/accuracies": 0.5234375,
+      "rewards/chosen": -2.3988561630249023,
+      "rewards/margins": -0.04457877576351166,
+      "rewards/rejected": -2.3542771339416504,
+      "step": 9
+    },
+    {
+      "epoch": 0.13174145738987236,
+      "grad_norm": 0.9426828622817993,
+      "learning_rate": 9.97802991010949e-07,
+      "logits/chosen": 10.330013275146484,
+      "logits/rejected": 10.423635482788086,
+      "logps/chosen": -1.1276183128356934,
+      "logps/rejected": -1.1535909175872803,
+      "loss": 1.4741,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.2552366256713867,
+      "rewards/margins": 0.05194506794214249,
+      "rewards/rejected": -2.3071818351745605,
+      "step": 10
+    },
+    {
+      "epoch": 0.14491560312885962,
+      "grad_norm": 1.174481987953186,
+      "learning_rate": 9.950612572673255e-07,
+      "logits/chosen": 10.557825088500977,
+      "logits/rejected": 10.500927925109863,
+      "logps/chosen": -1.2195600271224976,
+      "logps/rejected": -1.3650047779083252,
+      "loss": 1.3192,
+      "rewards/accuracies": 0.640625,
+      "rewards/chosen": -2.439120054244995,
+      "rewards/margins": 0.2908894717693329,
+      "rewards/rejected": -2.7300095558166504,
+      "step": 11
+    },
+    {
+      "epoch": 0.15808974886784685,
+      "grad_norm": 0.9938077330589294,
+      "learning_rate": 9.912312714377879e-07,
+      "logits/chosen": 10.221735000610352,
+      "logits/rejected": 10.339948654174805,
+      "logps/chosen": -1.072077989578247,
+      "logps/rejected": -1.114700198173523,
+      "loss": 1.3846,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.144155979156494,
+      "rewards/margins": 0.08524461090564728,
+      "rewards/rejected": -2.229400396347046,
+      "step": 12
+    },
+    {
+      "epoch": 0.17126389460683408,
+      "grad_norm": 0.9858765006065369,
+      "learning_rate": 9.863214526624063e-07,
+      "logits/chosen": 10.290239334106445,
+      "logits/rejected": 10.385334014892578,
+      "logps/chosen": -1.1751586198806763,
+      "logps/rejected": -1.3674362897872925,
+      "loss": 1.2879,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.3503172397613525,
+      "rewards/margins": 0.38455531001091003,
+      "rewards/rejected": -2.734872579574585,
+      "step": 13
+    },
+    {
+      "epoch": 0.1844380403458213,
+      "grad_norm": 1.6941860914230347,
+      "learning_rate": 9.8034259378842e-07,
+      "logits/chosen": 10.756081581115723,
+      "logits/rejected": 10.947944641113281,
+      "logps/chosen": -1.0922513008117676,
+      "logps/rejected": -1.1827645301818848,
+      "loss": 1.3465,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -2.184502601623535,
+      "rewards/margins": 0.18102645874023438,
+      "rewards/rejected": -2.3655290603637695,
+      "step": 14
+    },
+    {
+      "epoch": 0.19761218608480857,
+      "grad_norm": 0.33364373445510864,
+      "learning_rate": 9.73307837645217e-07,
+      "logits/chosen": 10.299134254455566,
+      "logits/rejected": 10.412195205688477,
+      "logps/chosen": -1.1260679960250854,
+      "logps/rejected": -1.2360444068908691,
+      "loss": 1.3164,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.252135992050171,
+      "rewards/margins": 0.219952791929245,
+      "rewards/rejected": -2.4720888137817383,
+      "step": 15
+    },
+    {
+      "epoch": 0.2107863318237958,
+      "grad_norm": 0.7868668437004089,
+      "learning_rate": 9.652326481535433e-07,
+      "logits/chosen": 10.79407024383545,
+      "logits/rejected": 10.986239433288574,
+      "logps/chosen": -1.0521718263626099,
+      "logps/rejected": -1.0945489406585693,
+      "loss": 1.415,
+      "rewards/accuracies": 0.53125,
+      "rewards/chosen": -2.1043436527252197,
+      "rewards/margins": 0.08475431054830551,
+      "rewards/rejected": -2.1890978813171387,
+      "step": 16
+    },
+    {
+      "epoch": 0.22396047756278303,
+      "grad_norm": 0.6708123683929443,
+      "learning_rate": 9.561347763324483e-07,
+      "logits/chosen": 10.472009658813477,
+      "logits/rejected": 10.457694053649902,
+      "logps/chosen": -1.0896780490875244,
+      "logps/rejected": -1.1595150232315063,
+      "loss": 1.3736,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.179356098175049,
+      "rewards/margins": 0.13967394828796387,
+      "rewards/rejected": -2.3190300464630127,
+      "step": 17
+    },
+    {
+      "epoch": 0.23713462330177026,
+      "grad_norm": 0.9609116911888123,
+      "learning_rate": 9.460342212786932e-07,
+      "logits/chosen": 10.532232284545898,
+      "logits/rejected": 10.626241683959961,
+      "logps/chosen": -1.1494747400283813,
+      "logps/rejected": -1.1549882888793945,
+      "loss": 1.4623,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.2989494800567627,
+      "rewards/margins": 0.011027364060282707,
+      "rewards/rejected": -2.309976577758789,
+      "step": 18
+    },
+    {
+      "epoch": 0.2503087690407575,
+      "grad_norm": 0.49065420031547546,
+      "learning_rate": 9.349531862043951e-07,
+      "logits/chosen": 10.552773475646973,
+      "logits/rejected": 10.44497013092041,
+      "logps/chosen": -1.123961329460144,
+      "logps/rejected": -1.2145094871520996,
+      "loss": 1.3068,
+      "rewards/accuracies": 0.671875,
+      "rewards/chosen": -2.247922658920288,
+      "rewards/margins": 0.18109644949436188,
+      "rewards/rejected": -2.429018974304199,
+      "step": 19
+    },
+    {
+      "epoch": 0.2634829147797447,
+      "grad_norm": 1.4662220478057861,
+      "learning_rate": 9.229160296295487e-07,
+      "logits/chosen": 10.48397445678711,
+      "logits/rejected": 10.557746887207031,
+      "logps/chosen": -1.0979560613632202,
+      "logps/rejected": -1.1902183294296265,
+      "loss": 1.355,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.1959121227264404,
+      "rewards/margins": 0.1845243275165558,
+      "rewards/rejected": -2.380436658859253,
+      "step": 20
+    },
+    {
+      "epoch": 0.276657060518732,
+      "grad_norm": 1.0163906812667847,
+      "learning_rate": 9.099492118367122e-07,
+      "logits/chosen": 10.452715873718262,
+      "logits/rejected": 10.512972831726074,
+      "logps/chosen": -1.0967323780059814,
+      "logps/rejected": -1.2304078340530396,
+      "loss": 1.2888,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.193464756011963,
+      "rewards/margins": 0.26735079288482666,
+      "rewards/rejected": -2.460815668106079,
+      "step": 21
+    },
+    {
+      "epoch": 0.28983120625771924,
+      "grad_norm": 3.908339738845825,
+      "learning_rate": 8.960812367055646e-07,
+      "logits/chosen": 10.526410102844238,
+      "logits/rejected": 10.603084564208984,
+      "logps/chosen": -1.224048376083374,
+      "logps/rejected": -1.2536935806274414,
+      "loss": 1.4348,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.448096752166748,
+      "rewards/margins": 0.0592900887131691,
+      "rewards/rejected": -2.507387161254883,
+      "step": 22
+    },
+    {
+      "epoch": 0.3030053519967065,
+      "grad_norm": 0.31968942284584045,
+      "learning_rate": 8.813425890551909e-07,
+      "logits/chosen": 10.193231582641602,
+      "logits/rejected": 10.474884986877441,
+      "logps/chosen": -1.1644542217254639,
+      "logps/rejected": -1.1897979974746704,
+      "loss": 1.4224,
+      "rewards/accuracies": 0.59375,
+      "rewards/chosen": -2.3289084434509277,
+      "rewards/margins": 0.05068742483854294,
+      "rewards/rejected": -2.379595994949341,
+      "step": 23
+    },
+    {
+      "epoch": 0.3161794977356937,
+      "grad_norm": 1.0304734706878662,
+      "learning_rate": 8.657656676318345e-07,
+      "logits/chosen": 10.281815528869629,
+      "logits/rejected": 10.21823501586914,
+      "logps/chosen": -1.0919454097747803,
+      "logps/rejected": -1.210888385772705,
+      "loss": 1.325,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.1838908195495605,
+      "rewards/margins": 0.23788578808307648,
+      "rewards/rejected": -2.42177677154541,
+      "step": 24
+    },
+    {
+      "epoch": 0.32935364347468093,
+      "grad_norm": 2.0577356815338135,
+      "learning_rate": 8.493847138894208e-07,
+      "logits/chosen": 10.638153076171875,
+      "logits/rejected": 10.773796081542969,
+      "logps/chosen": -1.0134081840515137,
+      "logps/rejected": -1.0593600273132324,
+      "loss": 1.372,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.0268163681030273,
+      "rewards/margins": 0.09190365672111511,
+      "rewards/rejected": -2.118720054626465,
+      "step": 25
+    },
+    {
+      "epoch": 0.34252778921366817,
+      "grad_norm": 0.6051430106163025,
+      "learning_rate": 8.322357367194108e-07,
+      "logits/chosen": 10.498373031616211,
+      "logits/rejected": 10.679786682128906,
+      "logps/chosen": -1.0168992280960083,
+      "logps/rejected": -1.0872042179107666,
+      "loss": 1.3499,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.0337984561920166,
+      "rewards/margins": 0.14060987532138824,
+      "rewards/rejected": -2.174408435821533,
+      "step": 26
+    },
+    {
+      "epoch": 0.3557019349526554,
+      "grad_norm": 1.769278645515442,
+      "learning_rate": 8.143564332954425e-07,
+      "logits/chosen": 10.561027526855469,
+      "logits/rejected": 10.846573829650879,
+      "logps/chosen": -1.114155650138855,
+      "logps/rejected": -1.1514461040496826,
+      "loss": 1.399,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.22831130027771,
+      "rewards/margins": 0.07458095252513885,
+      "rewards/rejected": -2.3028922080993652,
+      "step": 27
+    },
+    {
+      "epoch": 0.3688760806916426,
+      "grad_norm": 0.6603056192398071,
+      "learning_rate": 7.957861062067612e-07,
+      "logits/chosen": 10.477982521057129,
+      "logits/rejected": 10.683720588684082,
+      "logps/chosen": -1.0256245136260986,
+      "logps/rejected": -1.1278630495071411,
+      "loss": 1.3446,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.0512490272521973,
+      "rewards/margins": 0.20447733998298645,
+      "rewards/rejected": -2.2557260990142822,
+      "step": 28
+    },
+    {
+      "epoch": 0.3820502264306299,
+      "grad_norm": 1.5685954093933105,
+      "learning_rate": 7.765655770625996e-07,
+      "logits/chosen": 10.337364196777344,
+      "logits/rejected": 10.332595825195312,
+      "logps/chosen": -1.043882966041565,
+      "logps/rejected": -1.0915210247039795,
+      "loss": 1.3965,
+      "rewards/accuracies": 0.6796875,
+      "rewards/chosen": -2.08776593208313,
+      "rewards/margins": 0.09527605772018433,
+      "rewards/rejected": -2.183042049407959,
+      "step": 29
+    },
+    {
+      "epoch": 0.39522437216961714,
+      "grad_norm": 0.5102595686912537,
+      "learning_rate": 7.567370967574209e-07,
+      "logits/chosen": 10.61121654510498,
+      "logits/rejected": 10.84305191040039,
+      "logps/chosen": -1.0729877948760986,
+      "logps/rejected": -1.1098031997680664,
+      "loss": 1.4371,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.1459755897521973,
+      "rewards/margins": 0.07363072782754898,
+      "rewards/rejected": -2.219606399536133,
+      "step": 30
+    },
+    {
+      "epoch": 0.4083985179086044,
+      "grad_norm": 0.8290932774543762,
+      "learning_rate": 7.363442525942826e-07,
+      "logits/chosen": 10.494096755981445,
+      "logits/rejected": 10.498456954956055,
+      "logps/chosen": -0.9797660708427429,
+      "logps/rejected": -1.0840959548950195,
+      "loss": 1.3044,
+      "rewards/accuracies": 0.65625,
+      "rewards/chosen": -1.9595321416854858,
+      "rewards/margins": 0.2086598128080368,
+      "rewards/rejected": -2.168191909790039,
+      "step": 31
+    },
+    {
+      "epoch": 0.4215726636475916,
+      "grad_norm": 0.36728209257125854,
+      "learning_rate": 7.154318724704851e-07,
+      "logits/chosen": 10.502325057983398,
+      "logits/rejected": 10.551267623901367,
+      "logps/chosen": -1.040996789932251,
+      "logps/rejected": -1.0938708782196045,
+      "loss": 1.3946,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.081993579864502,
+      "rewards/margins": 0.10574813187122345,
+      "rewards/rejected": -2.187741756439209,
+      "step": 32
+    },
+    {
+      "epoch": 0.43474680938657884,
+      "grad_norm": 0.5727468132972717,
+      "learning_rate": 6.940459263361248e-07,
+      "logits/chosen": 10.425085067749023,
+      "logits/rejected": 10.45986270904541,
+      "logps/chosen": -1.0259983539581299,
+      "logps/rejected": -1.064608097076416,
+      "loss": 1.4179,
+      "rewards/accuracies": 0.6015625,
+      "rewards/chosen": -2.0519967079162598,
+      "rewards/margins": 0.07721954584121704,
+      "rewards/rejected": -2.129216194152832,
+      "step": 33
+    },
+    {
+      "epoch": 0.44792095512556607,
+      "grad_norm": 0.8594540953636169,
+      "learning_rate": 6.722334251421664e-07,
+      "logits/chosen": 10.195260047912598,
+      "logits/rejected": 10.263075828552246,
+      "logps/chosen": -1.0975958108901978,
+      "logps/rejected": -1.1462163925170898,
+      "loss": 1.4471,
+      "rewards/accuracies": 0.5703125,
+      "rewards/chosen": -2.1951916217803955,
+      "rewards/margins": 0.09724146127700806,
+      "rewards/rejected": -2.2924327850341797,
+      "step": 34
+    },
+    {
+      "epoch": 0.4610951008645533,
+      "grad_norm": 2.0125956535339355,
+      "learning_rate": 6.500423175001703e-07,
+      "logits/chosen": 10.623847007751465,
+      "logits/rejected": 10.824085235595703,
+      "logps/chosen": -1.1299512386322021,
+      "logps/rejected": -1.1615726947784424,
+      "loss": 1.4721,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.2599024772644043,
+      "rewards/margins": 0.06324289739131927,
+      "rewards/rejected": -2.3231453895568848,
+      "step": 35
+    },
+    {
+      "epoch": 0.47426924660354053,
+      "grad_norm": 0.9820675253868103,
+      "learning_rate": 6.275213842808382e-07,
+      "logits/chosen": 10.475167274475098,
+      "logits/rejected": 10.816570281982422,
+      "logps/chosen": -1.0255820751190186,
+      "logps/rejected": -1.0681825876235962,
+      "loss": 1.3712,
+      "rewards/accuracies": 0.578125,
+      "rewards/chosen": -2.051164150238037,
+      "rewards/margins": 0.08520102500915527,
+      "rewards/rejected": -2.1363651752471924,
+      "step": 36
+    },
+    {
+      "epoch": 0.4874433923425278,
+      "grad_norm": 0.5090928077697754,
+      "learning_rate": 6.047201313830723e-07,
+      "logits/chosen": 10.42083740234375,
+      "logits/rejected": 10.372156143188477,
+      "logps/chosen": -1.0987904071807861,
+      "logps/rejected": -1.2581254243850708,
+      "loss": 1.2585,
+      "rewards/accuracies": 0.6640625,
+      "rewards/chosen": -2.1975808143615723,
+      "rewards/margins": 0.3186701834201813,
+      "rewards/rejected": -2.5162508487701416,
+      "step": 37
+    },
+    {
+      "epoch": 0.500617538081515,
+      "grad_norm": 2.139826774597168,
+      "learning_rate": 5.816886809092651e-07,
+      "logits/chosen": 10.55873966217041,
+      "logits/rejected": 10.591476440429688,
+      "logps/chosen": -1.1373264789581299,
+      "logps/rejected": -1.1765114068984985,
+      "loss": 1.3998,
+      "rewards/accuracies": 0.6484375,
+      "rewards/chosen": -2.2746529579162598,
+      "rewards/margins": 0.07836979627609253,
+      "rewards/rejected": -2.353022813796997,
+      "step": 38
+    },
+    {
+      "epoch": 0.5137916838205022,
+      "grad_norm": 2.3105835914611816,
+      "learning_rate": 5.584776609860413e-07,
+      "logits/chosen": 10.445201873779297,
+      "logits/rejected": 10.462349891662598,
+      "logps/chosen": -1.0283745527267456,
+      "logps/rejected": -1.0441796779632568,
+      "loss": 1.4224,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.056749105453491,
+      "rewards/margins": 0.03160998225212097,
+      "rewards/rejected": -2.0883593559265137,
+      "step": 39
+    },
+    {
+      "epoch": 0.5269658295594895,
+      "grad_norm": 0.9087686538696289,
+      "learning_rate": 5.351380944726465e-07,
+      "logits/chosen": 10.493326187133789,
+      "logits/rejected": 10.636161804199219,
+      "logps/chosen": -1.0796146392822266,
+      "logps/rejected": -1.1792174577713013,
+      "loss": 1.3171,
+      "rewards/accuracies": 0.6875,
+      "rewards/chosen": -2.159229278564453,
+      "rewards/margins": 0.1992054581642151,
+      "rewards/rejected": -2.3584349155426025,
+      "step": 40
+    },
+    {
+      "epoch": 0.5401399752984768,
+      "grad_norm": 4.677896022796631,
+      "learning_rate": 5.117212868016303e-07,
+      "logits/chosen": 10.75143814086914,
+      "logits/rejected": 10.868351936340332,
+      "logps/chosen": -1.0814591646194458,
+      "logps/rejected": -1.154773235321045,
+      "loss": 1.3634,
+      "rewards/accuracies": 0.546875,
+      "rewards/chosen": -2.1629183292388916,
+      "rewards/margins": 0.14662815630435944,
+      "rewards/rejected": -2.30954647064209,
+      "step": 41
+    },
+    {
+      "epoch": 0.553314121037464,
+      "grad_norm": 0.9839391112327576,
+      "learning_rate": 4.882787131983697e-07,
+      "logits/chosen": 10.169832229614258,
+      "logits/rejected": 10.324451446533203,
+      "logps/chosen": -0.9578548669815063,
+      "logps/rejected": -1.03363835811615,
+      "loss": 1.3441,
+      "rewards/accuracies": 0.5859375,
+      "rewards/chosen": -1.9157097339630127,
+      "rewards/margins": 0.15156704187393188,
+      "rewards/rejected": -2.0672767162323,
+      "step": 42
+    },
+    {
+      "epoch": 0.5664882667764513,
+      "grad_norm": 1.3352464437484741,
+      "learning_rate": 4.648619055273537e-07,
+      "logits/chosen": 9.958123207092285,
+      "logits/rejected": 10.148454666137695,
+      "logps/chosen": -0.9660685062408447,
+      "logps/rejected": -1.1172298192977905,
+      "loss": 1.2631,
+      "rewards/accuracies": 0.703125,
+      "rewards/chosen": -1.9321370124816895,
+      "rewards/margins": 0.3023225665092468,
+      "rewards/rejected": -2.234459638595581,
+      "step": 43
+    },
+    {
+      "epoch": 0.5796624125154385,
+      "grad_norm": 0.859604001045227,
+      "learning_rate": 4.4152233901395875e-07,
+      "logits/chosen": 10.425186157226562,
+      "logits/rejected": 10.529376983642578,
+      "logps/chosen": -1.035997986793518,
+      "logps/rejected": -1.11883544921875,
+      "loss": 1.3453,
+      "rewards/accuracies": 0.6171875,
+      "rewards/chosen": -2.071995973587036,
+      "rewards/margins": 0.16567496955394745,
+      "rewards/rejected": -2.2376708984375,
+      "step": 44
+    },
+    {
+      "epoch": 0.5928365582544257,
+      "grad_norm": 0.5243343710899353,
+      "learning_rate": 4.183113190907348e-07,
+      "logits/chosen": 10.306164741516113,
+      "logits/rejected": 10.420225143432617,
+      "logps/chosen": -1.0819859504699707,
+      "logps/rejected": -1.1435920000076294,
+      "loss": 1.3655,
+      "rewards/accuracies": 0.6328125,
+      "rewards/chosen": -2.1639719009399414,
+      "rewards/margins": 0.12321220338344574,
+      "rewards/rejected": -2.287184000015259,
+      "step": 45
+    },
+    {
+      "epoch": 0.606010703993413,
+      "grad_norm": 4.204680919647217,
+      "learning_rate": 3.9527986861692785e-07,
+      "logits/chosen": 10.315364837646484,
+      "logits/rejected": 10.468154907226562,
+      "logps/chosen": -1.0733493566513062,
+      "logps/rejected": -1.1826094388961792,
+      "loss": 1.3462,
+      "rewards/accuracies": 0.609375,
+      "rewards/chosen": -2.1466987133026123,
+      "rewards/margins": 0.21852055191993713,
+      "rewards/rejected": -2.3652188777923584,
+      "step": 46
+    },
+    {
+      "epoch": 0.6191848497324002,
+      "grad_norm": 0.4108594059944153,
+      "learning_rate": 3.724786157191618e-07,
+      "logits/chosen": 10.772510528564453,
+      "logits/rejected": 10.858367919921875,
+      "logps/chosen": -1.147858738899231,
+      "logps/rejected": -1.1819148063659668,
+      "loss": 1.4181,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": -2.295717477798462,
+      "rewards/margins": 0.06811191886663437,
+      "rewards/rejected": -2.3638296127319336,
+      "step": 47
+    },
+    {
+      "epoch": 0.6323589954713874,
+      "grad_norm": 0.5696843266487122,
+      "learning_rate": 3.499576824998297e-07,
+      "logits/chosen": 10.961053848266602,
+      "logits/rejected": 10.980447769165039,
+      "logps/chosen": -1.0650501251220703,
+      "logps/rejected": -1.1953485012054443,
+      "loss": 1.3094,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -2.1301002502441406,
+      "rewards/margins": 0.2605968713760376,
+      "rewards/rejected": -2.3906970024108887,
+      "step": 48
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 75,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 12,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-60/added_tokens.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "<|assistant|>": 32001,
+  "<|endoftext|>": 32000,
+  "<|end|>": 32007,
+  "<|placeholder1|>": 32002,
+  "<|placeholder2|>": 32003,
+  "<|placeholder3|>": 32004,
+  "<|placeholder4|>": 32005,
+  "<|placeholder5|>": 32008,
+  "<|placeholder6|>": 32009,
+  "<|system|>": 32006,
+  "<|user|>": 32010
+}

checkpoint-60/config.json ADDED Viewed

	@@ -0,0 +1,36 @@

+{
+  "_name_or_path": "/home/v-liuzichuan/huggingface/Phi-3-mini-4k-instruct",
+  "architectures": [
+    "Phi3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "auto_map": {
+    "AutoConfig": "configuration_phi3.Phi3Config",
+    "AutoModelForCausalLM": "modeling_phi3.Phi3ForCausalLM"
+  },
+  "bos_token_id": 1,
+  "embd_pdrop": 0.0,
+  "eos_token_id": 32000,
+  "hidden_act": "silu",
+  "hidden_size": 3072,
+  "initializer_range": 0.02,
+  "intermediate_size": 8192,
+  "max_position_embeddings": 4096,
+  "model_type": "phi3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 32,
+  "original_max_position_embeddings": 4096,
+  "pad_token_id": 32000,
+  "resid_pdrop": 0.0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "sliding_window": 2047,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "vocab_size": 32064
+}

checkpoint-60/generation_config.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    32000,
+    32001,
+    32007
+  ],
+  "pad_token_id": 32000,
+  "transformers_version": "4.45.2"
+}

checkpoint-60/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c61333d73a391e6b203f10f8c578c2496a4bbca006a1765350d8c9a49b3d925
+size 4972489328

checkpoint-60/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b299bf4aaa4c2385a6e24827ffdb1275d29c33e661b899e7ca8818b1faa6e28e
+size 2669692552

checkpoint-60/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,202 @@

+{
+  "metadata": {
+    "total_size": 7642159104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00002-of-00002.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.0.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.1.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.10.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.11.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.12.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.13.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.14.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.15.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.16.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.17.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.18.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.19.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.2.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.20.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.21.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.22.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.23.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.24.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.25.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.26.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.27.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.28.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.29.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.3.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.30.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.mlp.gate_up_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.31.self_attn.qkv_proj.weight": "model-00002-of-00002.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.4.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.5.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.6.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.7.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.8.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.mlp.gate_up_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00002.safetensors",
+    "model.layers.9.self_attn.qkv_proj.weight": "model-00001-of-00002.safetensors",
+    "model.norm.weight": "model-00002-of-00002.safetensors"
+  }
+}

checkpoint-60/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-60/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff