Upload bf16 - Migration QLoRA DPO

Browse files

Files changed (9) hide show

.gitattributes +1 -0
README.md +69 -0
chat_template.jinja +89 -0
config.json +71 -0
generation_config.json +13 -0
model.safetensors +3 -0
tokenizer.json +3 -0
tokenizer_config.json +29 -0
trainer_state.json +514 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,69 @@

+---
+language:
+- ja
+- ko
+- en
+license: apache-2.0
+base_model: Qwen/Qwen3.5-9B
+tags:
+- migration
+- mainframe
+- cobol
+- jcl
+- assembler
+- qlora
+- dpo
+- ofkms
+library_name: transformers
+pipeline_tag: text-generation
+---
+# OFKMS Migration Design - Qwen3.5-9B DPO (bf16)
+Mainframe migration design specialized model fine-tuned from Qwen3.5-9B.
+## Model Description
+This model is fine-tuned for **COBOL/JCL/Assembler migration design** tasks,
+trained on TmaxSoft Japan's proprietary migration knowledge base.
+- **Base Model**: Qwen3.5-9B
+- **Fine-tuning**: QLoRA (DPO)
+- **Training Data**: 1,288 SFT entries + 1,288 DPO pairs
+- **Languages**: Japanese (primary), Korean, English
+- **Variant**: bf16
+## Training Details
+- **Method**: QLoRA (rank=64, alpha=128)
+- **Trainable params**: 174M / 8.4B (2.09%)
+- **Epochs**: 3
+- **Batch size**: 4 (gradient accumulation: 16, effective: 64)
+- **Learning rate**: 2e-5 (cosine schedule)
+- **Hardware**: NVIDIA A100 40GB
+## Supported Tasks
+- COBOL source pattern analysis and conversion rules
+- JCL to OpenFrame JCL migration
+- Assembler to C/OFASM migration
+- Migration design document generation
+- Error pattern diagnosis (ABEND codes, JES messages)
+## Usage
+```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
+model = AutoModelForCausalLM.from_pretrained("jtmaxsoft/OFKMS-Migration-Qwen3.5-9B-DPO")
+tokenizer = AutoTokenizer.from_pretrained("jtmaxsoft/OFKMS-Migration-Qwen3.5-9B-DPO")
+prompt = "COBOL PERFORM statement OpenFrame migration pattern"
+inputs = tokenizer(prompt, return_tensors="pt")
+outputs = model.generate(**inputs, max_new_tokens=512)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
+## Organization
+[TmaxSoft Japan](https://huggingface.co/jtmaxsoft)

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,89 @@

+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- messages[0].content + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- if message.content is string %}
+        {%- set content = message.content %}
+    {%- else %}
+        {%- set content = '' %}
+    {%- endif %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- set reasoning_content = '' %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = message.reasoning_content %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {%- if loop.last or (not loop.last and reasoning_content) %}
+                {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
+            {%- else %}
+                {{- '<|im_start|>' + message.role + '\n' + content }}
+            {%- endif %}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {%- for tool_call in message.tool_calls %}
+                {%- if (loop.first and content) or (not loop.first) %}
+                    {{- '\n' }}
+                {%- endif %}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>user' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n' }}
+    {%- if enable_thinking is defined and enable_thinking is false %}
+        {{- '<think>\n\n</think>\n\n' }}
+    {%- endif %}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,71 @@

+{
+  "architectures": [
+    "Qwen3ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "dtype": "bfloat16",
+  "eos_token_id": 151645,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 12288,
+  "layer_types": [
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 40960,
+  "max_window_layers": 36,
+  "model_type": "qwen3",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 36,
+  "num_key_value_heads": 8,
+  "pad_token_id": null,
+  "rms_norm_eps": 1e-06,
+  "rope_parameters": {
+    "rope_theta": 1000000,
+    "rope_type": "default"
+  },
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "transformers_version": "5.3.0",
+  "use_cache": true,
+  "use_sliding_window": false,
+  "vocab_size": 151936
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "bos_token_id": 151643,
+  "do_sample": true,
+  "eos_token_id": [
+    151645,
+    151643
+  ],
+  "pad_token_id": 151643,
+  "temperature": 0.6,
+  "top_k": 20,
+  "top_p": 0.95,
+  "transformers_version": "5.3.0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b13ab529495892871ef1e774d60099b3cc4ced5fd5e36116557309de23e3a4fd
+size 16381517208

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:be75606093db2094d7cd20f3c2f385c212750648bd6ea4fb2bf507a6a4c55506
+size 11422650

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,29 @@

+{
+  "add_prefix_space": false,
+  "backend": "tokenizers",
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>"
+  ],
+  "is_local": true,
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,514 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 322,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.062111801242236024,
+      "grad_norm": 2.031649589538574,
+      "learning_rate": 1.3636363636363636e-06,
+      "logits/chosen": -1.1706674098968506,
+      "logits/rejected": -1.0306828022003174,
+      "logps/chosen": -564.5164794921875,
+      "logps/rejected": -463.99603271484375,
+      "loss": 0.6916566371917725,
+      "rewards/accuracies": 0.4375,
+      "rewards/chosen": 0.010852223262190819,
+      "rewards/margins": 0.004624844063073397,
+      "rewards/rejected": 0.006227378733456135,
+      "step": 10
+    },
+    {
+      "epoch": 0.12422360248447205,
+      "grad_norm": 2.3162496089935303,
+      "learning_rate": 2.8787878787878793e-06,
+      "logits/chosen": -1.0546079874038696,
+      "logits/rejected": -0.9307195544242859,
+      "logps/chosen": -475.3399963378906,
+      "logps/rejected": -421.66693115234375,
+      "loss": 0.6910689353942872,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.020578766241669655,
+      "rewards/margins": 0.0066573722288012505,
+      "rewards/rejected": 0.013921394944190979,
+      "step": 20
+    },
+    {
+      "epoch": 0.18633540372670807,
+      "grad_norm": 2.447273015975952,
+      "learning_rate": 4.393939393939394e-06,
+      "logits/chosen": -1.1174654960632324,
+      "logits/rejected": -1.0690593719482422,
+      "logps/chosen": -606.117919921875,
+      "logps/rejected": -445.750244140625,
+      "loss": 0.6635114669799804,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": 0.11121845245361328,
+      "rewards/margins": 0.06357013434171677,
+      "rewards/rejected": 0.047648314386606216,
+      "step": 30
+    },
+    {
+      "epoch": 0.2484472049689441,
+      "grad_norm": 2.597184896469116,
+      "learning_rate": 4.994684273748881e-06,
+      "logits/chosen": -1.0191378593444824,
+      "logits/rejected": -1.0478084087371826,
+      "logps/chosen": -552.3709716796875,
+      "logps/rejected": -423.89892578125,
+      "loss": 0.6465987205505371,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": 0.2686358094215393,
+      "rewards/margins": 0.10441793501377106,
+      "rewards/rejected": 0.16421787440776825,
+      "step": 40
+    },
+    {
+      "epoch": 0.3105590062111801,
+      "grad_norm": 1.94443941116333,
+      "learning_rate": 4.962281107627828e-06,
+      "logits/chosen": -1.295013427734375,
+      "logits/rejected": -0.8611756563186646,
+      "logps/chosen": -545.5277709960938,
+      "logps/rejected": -374.797119140625,
+      "loss": 0.5243598937988281,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": 0.5271034836769104,
+      "rewards/margins": 0.4082818925380707,
+      "rewards/rejected": 0.11882160604000092,
+      "step": 50
+    },
+    {
+      "epoch": 0.37267080745341613,
+      "grad_norm": 1.8612565994262695,
+      "learning_rate": 4.900810019766151e-06,
+      "logits/chosen": -1.106858253479004,
+      "logits/rejected": -0.8895740509033203,
+      "logps/chosen": -574.3599853515625,
+      "logps/rejected": -398.66595458984375,
+      "loss": 0.46582393646240233,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": 1.0713833570480347,
+      "rewards/margins": 0.6883617639541626,
+      "rewards/rejected": 0.38302165269851685,
+      "step": 60
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 2.610835313796997,
+      "learning_rate": 4.8109966936634885e-06,
+      "logits/chosen": -0.9745047688484192,
+      "logits/rejected": -0.8878741264343262,
+      "logps/chosen": -603.6141357421875,
+      "logps/rejected": -422.431396484375,
+      "loss": 0.3722702980041504,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": 1.5592485666275024,
+      "rewards/margins": 1.0986794233322144,
+      "rewards/rejected": 0.46056899428367615,
+      "step": 70
+    },
+    {
+      "epoch": 0.4968944099378882,
+      "grad_norm": 1.7999701499938965,
+      "learning_rate": 4.693901400921782e-06,
+      "logits/chosen": -0.9704159498214722,
+      "logits/rejected": -0.8450535535812378,
+      "logps/chosen": -521.1560668945312,
+      "logps/rejected": -403.3153076171875,
+      "loss": 0.36702446937561034,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": 1.462435245513916,
+      "rewards/margins": 1.3280738592147827,
+      "rewards/rejected": 0.13436131179332733,
+      "step": 80
+    },
+    {
+      "epoch": 0.5590062111801242,
+      "grad_norm": 1.2426642179489136,
+      "learning_rate": 4.550906484440495e-06,
+      "logits/chosen": -0.9953195452690125,
+      "logits/rejected": -0.8482304811477661,
+      "logps/chosen": -531.6632080078125,
+      "logps/rejected": -381.96258544921875,
+      "loss": 0.28965752124786376,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.4531519412994385,
+      "rewards/margins": 1.6451427936553955,
+      "rewards/rejected": -0.19199064373970032,
+      "step": 90
+    },
+    {
+      "epoch": 0.6211180124223602,
+      "grad_norm": 0.7566975951194763,
+      "learning_rate": 4.38370003946948e-06,
+      "logits/chosen": -1.0843112468719482,
+      "logits/rejected": -0.9646870493888855,
+      "logps/chosen": -541.9859619140625,
+      "logps/rejected": -427.3182067871094,
+      "loss": 0.2813025951385498,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": 1.0933747291564941,
+      "rewards/margins": 1.867444634437561,
+      "rewards/rejected": -0.7740699052810669,
+      "step": 100
+    },
+    {
+      "epoch": 0.6832298136645962,
+      "grad_norm": 1.8626788854599,
+      "learning_rate": 4.194255985169259e-06,
+      "logits/chosen": -1.16153883934021,
+      "logits/rejected": -1.1651047468185425,
+      "logps/chosen": -602.457763671875,
+      "logps/rejected": -449.3597106933594,
+      "loss": 0.1985023260116577,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 0.8817703127861023,
+      "rewards/margins": 2.40962815284729,
+      "rewards/rejected": -1.5278576612472534,
+      "step": 110
+    },
+    {
+      "epoch": 0.7453416149068323,
+      "grad_norm": 1.6138923168182373,
+      "learning_rate": 3.984810761939578e-06,
+      "logits/chosen": -1.2249107360839844,
+      "logits/rejected": -1.1240571737289429,
+      "logps/chosen": -563.8658447265625,
+      "logps/rejected": -429.28021240234375,
+      "loss": 0.14866907596588136,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.36940866708755493,
+      "rewards/margins": 2.9657340049743652,
+      "rewards/rejected": -2.596325397491455,
+      "step": 120
+    },
+    {
+      "epoch": 0.8074534161490683,
+      "grad_norm": 1.6024304628372192,
+      "learning_rate": 3.757836929610803e-06,
+      "logits/chosen": -1.2749364376068115,
+      "logits/rejected": -1.2431113719940186,
+      "logps/chosen": -653.6280517578125,
+      "logps/rejected": -399.4922790527344,
+      "loss": 0.1276548385620117,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": 0.43943363428115845,
+      "rewards/margins": 3.6862716674804688,
+      "rewards/rejected": -3.246838331222534,
+      "step": 130
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 1.489258885383606,
+      "learning_rate": 3.5160139781789615e-06,
+      "logits/chosen": -1.1981886625289917,
+      "logits/rejected": -1.1743550300598145,
+      "logps/chosen": -630.0133056640625,
+      "logps/rejected": -453.70233154296875,
+      "loss": 0.13757349252700807,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.116315484046936,
+      "rewards/margins": 3.7938003540039062,
+      "rewards/rejected": -2.6774849891662598,
+      "step": 140
+    },
+    {
+      "epoch": 0.9316770186335404,
+      "grad_norm": 1.529561996459961,
+      "learning_rate": 3.2621966956719265e-06,
+      "logits/chosen": -1.1383417844772339,
+      "logits/rejected": -1.1288671493530273,
+      "logps/chosen": -605.6137084960938,
+      "logps/rejected": -464.63616943359375,
+      "loss": 0.1510193705558777,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": 1.3723418712615967,
+      "rewards/margins": 3.875206708908081,
+      "rewards/rejected": -2.5028648376464844,
+      "step": 150
+    },
+    {
+      "epoch": 0.9937888198757764,
+      "grad_norm": 1.2801965475082397,
+      "learning_rate": 2.9993814665729605e-06,
+      "logits/chosen": -1.1155999898910522,
+      "logits/rejected": -1.1486127376556396,
+      "logps/chosen": -607.6810913085938,
+      "logps/rejected": -428.43902587890625,
+      "loss": 0.14707612991333008,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": 1.2416237592697144,
+      "rewards/margins": 4.007672309875488,
+      "rewards/rejected": -2.7660484313964844,
+      "step": 160
+    },
+    {
+      "epoch": 1.0559006211180124,
+      "grad_norm": 0.6223127245903015,
+      "learning_rate": 2.730670898658255e-06,
+      "logits/chosen": -1.2678742408752441,
+      "logits/rejected": -1.2089016437530518,
+      "logps/chosen": -546.5106811523438,
+      "logps/rejected": -435.56201171875,
+      "loss": 0.07639291286468505,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.2402414083480835,
+      "rewards/margins": 4.630614280700684,
+      "rewards/rejected": -3.3903732299804688,
+      "step": 170
+    },
+    {
+      "epoch": 1.1180124223602483,
+      "grad_norm": 0.27513387799263,
+      "learning_rate": 2.459237195838577e-06,
+      "logits/chosen": -1.1183346509933472,
+      "logits/rejected": -1.2728922367095947,
+      "logps/chosen": -560.7864990234375,
+      "logps/rejected": -461.84332275390625,
+      "loss": 0.06406531929969787,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.1345335245132446,
+      "rewards/margins": 5.346749305725098,
+      "rewards/rejected": -4.212216377258301,
+      "step": 180
+    },
+    {
+      "epoch": 1.1801242236024845,
+      "grad_norm": 0.5560200810432434,
+      "learning_rate": 2.1882847093989544e-06,
+      "logits/chosen": -1.2576462030410767,
+      "logits/rejected": -1.2605979442596436,
+      "logps/chosen": -598.9000854492188,
+      "logps/rejected": -403.6759033203125,
+      "loss": 0.07317939400672913,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.0486507415771484,
+      "rewards/margins": 4.786526203155518,
+      "rewards/rejected": -3.737874984741211,
+      "step": 190
+    },
+    {
+      "epoch": 1.2422360248447206,
+      "grad_norm": 3.307779312133789,
+      "learning_rate": 1.921012109729562e-06,
+      "logits/chosen": -1.1867707967758179,
+      "logits/rejected": -1.1512377262115479,
+      "logps/chosen": -564.1589965820312,
+      "logps/rejected": -499.6703186035156,
+      "loss": 0.07128837704658508,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.1387567520141602,
+      "rewards/margins": 4.9200215339660645,
+      "rewards/rejected": -3.781264543533325,
+      "step": 200
+    },
+    {
+      "epoch": 1.3043478260869565,
+      "grad_norm": 0.951438307762146,
+      "learning_rate": 1.6605746251211642e-06,
+      "logits/chosen": -1.3087455034255981,
+      "logits/rejected": -1.4264456033706665,
+      "logps/chosen": -574.0267333984375,
+      "logps/rejected": -467.0670471191406,
+      "loss": 0.05501532554626465,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 1.2620090246200562,
+      "rewards/margins": 5.137342929840088,
+      "rewards/rejected": -3.875333309173584,
+      "step": 210
+    },
+    {
+      "epoch": 1.3664596273291925,
+      "grad_norm": 0.4313580095767975,
+      "learning_rate": 1.4100467934067775e-06,
+      "logits/chosen": -1.2540130615234375,
+      "logits/rejected": -1.2541478872299194,
+      "logps/chosen": -557.1004028320312,
+      "logps/rejected": -483.9710388183594,
+      "loss": 0.08154834508895874,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 1.3047633171081543,
+      "rewards/margins": 5.482510566711426,
+      "rewards/rejected": -4.1777472496032715,
+      "step": 220
+    },
+    {
+      "epoch": 1.4285714285714286,
+      "grad_norm": 0.3101217746734619,
+      "learning_rate": 1.1723861661769e-06,
+      "logits/chosen": -1.071692705154419,
+      "logits/rejected": -1.244997262954712,
+      "logps/chosen": -586.4631958007812,
+      "logps/rejected": -464.3282165527344,
+      "loss": 0.05381497144699097,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 1.0372705459594727,
+      "rewards/margins": 4.841385841369629,
+      "rewards/rejected": -3.8041152954101562,
+      "step": 230
+    },
+    {
+      "epoch": 1.4906832298136645,
+      "grad_norm": 0.4230075180530548,
+      "learning_rate": 9.503983940502795e-07,
+      "logits/chosen": -1.3364367485046387,
+      "logits/rejected": -1.3070945739746094,
+      "logps/chosen": -579.2850341796875,
+      "logps/rejected": -420.6127014160156,
+      "loss": 0.08604136109352112,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.7024589776992798,
+      "rewards/margins": 4.885396480560303,
+      "rewards/rejected": -4.1829376220703125,
+      "step": 240
+    },
+    {
+      "epoch": 1.5527950310559007,
+      "grad_norm": 0.31521838903427124,
+      "learning_rate": 7.467041051784155e-07,
+      "logits/chosen": -1.3780875205993652,
+      "logits/rejected": -1.4410358667373657,
+      "logps/chosen": -569.69189453125,
+      "logps/rejected": -491.8089904785156,
+      "loss": 0.09177066087722778,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": 0.8250600099563599,
+      "rewards/margins": 6.094225883483887,
+      "rewards/rejected": -5.269165992736816,
+      "step": 250
+    },
+    {
+      "epoch": 1.6149068322981366,
+      "grad_norm": 0.15115521848201752,
+      "learning_rate": 5.637079679923796e-07,
+      "logits/chosen": -1.3521003723144531,
+      "logits/rejected": -1.344463586807251,
+      "logps/chosen": -596.4379272460938,
+      "logps/rejected": -428.6333923339844,
+      "loss": 0.048569518327713015,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.9481250047683716,
+      "rewards/margins": 6.150216102600098,
+      "rewards/rejected": -5.202090263366699,
+      "step": 260
+    },
+    {
+      "epoch": 1.6770186335403725,
+      "grad_norm": 0.23105435073375702,
+      "learning_rate": 4.035703034149463e-07,
+      "logits/chosen": -1.19241464138031,
+      "logits/rejected": -1.4326884746551514,
+      "logps/chosen": -554.9596557617188,
+      "logps/rejected": -461.3987731933594,
+      "loss": 0.05657889246940613,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.8795555233955383,
+      "rewards/margins": 5.471189498901367,
+      "rewards/rejected": -4.5916337966918945,
+      "step": 270
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 0.14941351115703583,
+      "learning_rate": 2.681815816638503e-07,
+      "logits/chosen": -1.240888237953186,
+      "logits/rejected": -1.4535605907440186,
+      "logps/chosen": -582.7335205078125,
+      "logps/rejected": -481.8042907714844,
+      "loss": 0.043333661556243894,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.9755797386169434,
+      "rewards/margins": 6.308679580688477,
+      "rewards/rejected": -5.333099365234375,
+      "step": 280
+    },
+    {
+      "epoch": 1.8012422360248448,
+      "grad_norm": 0.7390910983085632,
+      "learning_rate": 1.5914010471859947e-07,
+      "logits/chosen": -1.3577600717544556,
+      "logits/rejected": -1.4665708541870117,
+      "logps/chosen": -542.1375732421875,
+      "logps/rejected": -501.33306884765625,
+      "loss": 0.051105821132659913,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.9414765238761902,
+      "rewards/margins": 6.377541542053223,
+      "rewards/rejected": -5.436064720153809,
+      "step": 290
+    },
+    {
+      "epoch": 1.8633540372670807,
+      "grad_norm": 0.29464995861053467,
+      "learning_rate": 7.773313791559545e-08,
+      "logits/chosen": -1.350490689277649,
+      "logits/rejected": -1.069253921508789,
+      "logps/chosen": -596.630859375,
+      "logps/rejected": -484.7491149902344,
+      "loss": 0.07570538520812989,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": 0.8024793863296509,
+      "rewards/margins": 5.369864463806152,
+      "rewards/rejected": -4.567385196685791,
+      "step": 300
+    },
+    {
+      "epoch": 1.9254658385093166,
+      "grad_norm": 0.14690952003002167,
+      "learning_rate": 2.492171341840405e-08,
+      "logits/chosen": -1.299762487411499,
+      "logits/rejected": -1.3709434270858765,
+      "logps/chosen": -577.23974609375,
+      "logps/rejected": -418.92852783203125,
+      "loss": 0.026452887058258056,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.9688733816146851,
+      "rewards/margins": 5.997436046600342,
+      "rewards/rejected": -5.028562545776367,
+      "step": 310
+    },
+    {
+      "epoch": 1.9875776397515528,
+      "grad_norm": 0.13554854691028595,
+      "learning_rate": 1.3292849624821357e-09,
+      "logits/chosen": -1.3074995279312134,
+      "logits/rejected": -1.5039985179901123,
+      "logps/chosen": -596.8470458984375,
+      "logps/rejected": -474.729248046875,
+      "loss": 0.02374868541955948,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 0.9388774037361145,
+      "rewards/margins": 6.432289123535156,
+      "rewards/rejected": -5.493411064147949,
+      "step": 320
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 322,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}