limajr commited on 7 days ago

Commit

e15164d

verified ·

1 Parent(s): e9ab503

Upload folder using huggingface_hub

Browse files

Files changed (30) hide show

README.md +68 -0
checkpoint-100/config.json +31 -0
checkpoint-100/generation_config.json +9 -0
checkpoint-100/model.safetensors +3 -0
checkpoint-100/optimizer.pt +3 -0
checkpoint-100/rng_state.pth +3 -0
checkpoint-100/scheduler.pt +3 -0
checkpoint-100/special_tokens_map.json +24 -0
checkpoint-100/tokenizer.json +0 -0
checkpoint-100/tokenizer_config.json +46 -0
checkpoint-100/trainer_state.json +184 -0
checkpoint-100/training_args.bin +3 -0
checkpoint-114/config.json +31 -0
checkpoint-114/generation_config.json +9 -0
checkpoint-114/model.safetensors +3 -0
checkpoint-114/optimizer.pt +3 -0
checkpoint-114/rng_state.pth +3 -0
checkpoint-114/scheduler.pt +3 -0
checkpoint-114/special_tokens_map.json +24 -0
checkpoint-114/tokenizer.json +0 -0
checkpoint-114/tokenizer_config.json +46 -0
checkpoint-114/trainer_state.json +199 -0
checkpoint-114/training_args.bin +3 -0
config.json +31 -0
generation_config.json +9 -0
model.safetensors +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer_config.json +46 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+library_name: transformers
+model_name: dpo
+tags:
+- generated_from_trainer
+- trl
+- dpo
+licence: license
+---
+# Model Card for dpo
+This model is a fine-tuned version of [None](https://huggingface.co/None).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="None", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
+### Framework versions
+- TRL: 0.26.2
+- Transformers: 4.57.3
+- Pytorch: 2.6.0+cu124
+- Datasets: 4.4.2
+- Tokenizers: 0.22.1
+## Citations
+Cite DPO as:
+```bibtex
+@inproceedings{rafailov2023direct,
+    title        = {{Direct Preference Optimization: Your Language Model is Secretly a Reward Model}},
+    author       = {Rafael Rafailov and Archit Sharma and Eric Mitchell and Christopher D. Manning and Stefano Ermon and Chelsea Finn},
+    year         = 2023,
+    booktitle    = {Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023},
+    url          = {http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html},
+    editor       = {Alice Oh and Tristan Naumann and Amir Globerson and Kate Saenko and Moritz Hardt and Sergey Levine},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

checkpoint-100/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_comment": "NBR-500: ~500M par\u00e2metros para portugu\u00eas brasileiro",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "bfloat16",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.3",
+  "use_cache": false,
+  "vocab_size": 32000
+}

checkpoint-100/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "pad_token_id": 2,
+  "transformers_version": "4.57.3"
+}

checkpoint-100/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a992f659b95ebdee2e0cb46d7b5fc233803353d14eef4ccf33a1dab5b438d4b1
+size 936503664

checkpoint-100/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b11b3fa85bccc03d9bd12799fec6b94d0eec821dc7fa4874f5a95d795ea0aabd
+size 1873142010

checkpoint-100/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-100/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aaed6329260e258afe9ac442743aa37f2be3d46edb6a545c5a761ef3faeeaa70
+size 1064

checkpoint-100/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-100/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-100/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

checkpoint-100/trainer_state.json ADDED Viewed

	@@ -0,0 +1,184 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.8839779005524862,
+  "eval_steps": 500,
+  "global_step": 100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08839779005524862,
+      "grad_norm": 13.0625,
+      "learning_rate": 4.605263157894737e-06,
+      "logits/chosen": -3.266218900680542,
+      "logits/rejected": -3.173306703567505,
+      "logps/chosen": -169.16183471679688,
+      "logps/rejected": -190.1395263671875,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": 0.0008526706951670349,
+      "rewards/margins": 0.0017210483783856034,
+      "rewards/rejected": -0.0008683774503879249,
+      "step": 10
+    },
+    {
+      "epoch": 0.17679558011049723,
+      "grad_norm": 12.625,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -3.263390302658081,
+      "logits/rejected": -3.2149460315704346,
+      "logps/chosen": -162.94313049316406,
+      "logps/rejected": -179.63369750976562,
+      "loss": 0.6946,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -0.0010867499513551593,
+      "rewards/margins": -0.002635319484397769,
+      "rewards/rejected": 0.0015485694166272879,
+      "step": 20
+    },
+    {
+      "epoch": 0.26519337016574585,
+      "grad_norm": 13.625,
+      "learning_rate": 3.728070175438597e-06,
+      "logits/chosen": -3.299316883087158,
+      "logits/rejected": -3.243040084838867,
+      "logps/chosen": -168.03802490234375,
+      "logps/rejected": -191.59165954589844,
+      "loss": 0.6908,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.005441132001578808,
+      "rewards/margins": 0.004950051195919514,
+      "rewards/rejected": 0.0004910803982056677,
+      "step": 30
+    },
+    {
+      "epoch": 0.35359116022099446,
+      "grad_norm": 12.8125,
+      "learning_rate": 3.289473684210527e-06,
+      "logits/chosen": -3.3205394744873047,
+      "logits/rejected": -3.2248268127441406,
+      "logps/chosen": -163.4181365966797,
+      "logps/rejected": -190.28494262695312,
+      "loss": 0.692,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": 0.0033660412300378084,
+      "rewards/margins": 0.0026486157439649105,
+      "rewards/rejected": 0.0007174253696575761,
+      "step": 40
+    },
+    {
+      "epoch": 0.4419889502762431,
+      "grad_norm": 13.4375,
+      "learning_rate": 2.8508771929824565e-06,
+      "logits/chosen": -3.266845226287842,
+      "logits/rejected": -3.239501953125,
+      "logps/chosen": -165.8727569580078,
+      "logps/rejected": -180.970703125,
+      "loss": 0.69,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.002517760032787919,
+      "rewards/margins": 0.006597781088203192,
+      "rewards/rejected": -0.004080021288245916,
+      "step": 50
+    },
+    {
+      "epoch": 0.5303867403314917,
+      "grad_norm": 13.0,
+      "learning_rate": 2.412280701754386e-06,
+      "logits/chosen": -3.300370454788208,
+      "logits/rejected": -3.2336509227752686,
+      "logps/chosen": -166.43919372558594,
+      "logps/rejected": -177.72369384765625,
+      "loss": 0.6912,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.0010731505462899804,
+      "rewards/margins": 0.004260644782334566,
+      "rewards/rejected": -0.0031874938867986202,
+      "step": 60
+    },
+    {
+      "epoch": 0.6187845303867403,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.973684210526316e-06,
+      "logits/chosen": -3.292241334915161,
+      "logits/rejected": -3.263917922973633,
+      "logps/chosen": -166.0662841796875,
+      "logps/rejected": -179.9429168701172,
+      "loss": 0.6886,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.004152910318225622,
+      "rewards/margins": 0.009452776983380318,
+      "rewards/rejected": -0.005299866199493408,
+      "step": 70
+    },
+    {
+      "epoch": 0.7071823204419889,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.5350877192982458e-06,
+      "logits/chosen": -3.2774970531463623,
+      "logits/rejected": -3.2063546180725098,
+      "logps/chosen": -166.04795837402344,
+      "logps/rejected": -189.38204956054688,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.002573251724243164,
+      "rewards/margins": 0.00316311651840806,
+      "rewards/rejected": -0.0005898644449189305,
+      "step": 80
+    },
+    {
+      "epoch": 0.7955801104972375,
+      "grad_norm": 11.75,
+      "learning_rate": 1.0964912280701756e-06,
+      "logits/chosen": -3.3311314582824707,
+      "logits/rejected": -3.2796638011932373,
+      "logps/chosen": -157.93948364257812,
+      "logps/rejected": -183.2423095703125,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.002239528112113476,
+      "rewards/margins": 0.00483693415299058,
+      "rewards/rejected": -0.002597406040877104,
+      "step": 90
+    },
+    {
+      "epoch": 0.8839779005524862,
+      "grad_norm": 14.75,
+      "learning_rate": 6.578947368421053e-07,
+      "logits/chosen": -3.2761390209198,
+      "logits/rejected": -3.2539830207824707,
+      "logps/chosen": -178.083984375,
+      "logps/rejected": -185.00401306152344,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.001332092098891735,
+      "rewards/margins": 0.004107826389372349,
+      "rewards/rejected": -0.0027757335919886827,
+      "step": 100
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 114,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-100/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52ae26ca728b9c55a1db652b7133c7e2be09b11b9b63ff4c0d770c9a77cac8da
+size 6328

checkpoint-114/config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_comment": "NBR-500: ~500M par\u00e2metros para portugu\u00eas brasileiro",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "bfloat16",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.3",
+  "use_cache": false,
+  "vocab_size": 32000
+}

checkpoint-114/generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "pad_token_id": 2,
+  "transformers_version": "4.57.3"
+}

checkpoint-114/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcf10b593b7eb0fd168419507c47e04f486dd08b2eaa751599a696af802e75a3
+size 936503664

checkpoint-114/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81e3ea8f3a9eeab81011ff7ee56184b2cce918dc116baf95cf5d9bf957767f79
+size 1873142010

checkpoint-114/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:386fcc8cc1089aade9450d86fb239ea3483f455fd2d78d8378645feecfec9d69
+size 14244

checkpoint-114/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e605dc9a220a2c38aa0574c6768d6a81a37743a7d5cfd9324ba647b6b06737c2
+size 1064

checkpoint-114/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-114/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-114/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

checkpoint-114/trainer_state.json ADDED Viewed

	@@ -0,0 +1,199 @@

+{
+  "best_global_step": null,
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 114,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08839779005524862,
+      "grad_norm": 13.0625,
+      "learning_rate": 4.605263157894737e-06,
+      "logits/chosen": -3.266218900680542,
+      "logits/rejected": -3.173306703567505,
+      "logps/chosen": -169.16183471679688,
+      "logps/rejected": -190.1395263671875,
+      "loss": 0.6924,
+      "rewards/accuracies": 0.48124998807907104,
+      "rewards/chosen": 0.0008526706951670349,
+      "rewards/margins": 0.0017210483783856034,
+      "rewards/rejected": -0.0008683774503879249,
+      "step": 10
+    },
+    {
+      "epoch": 0.17679558011049723,
+      "grad_norm": 12.625,
+      "learning_rate": 4.166666666666667e-06,
+      "logits/chosen": -3.263390302658081,
+      "logits/rejected": -3.2149460315704346,
+      "logps/chosen": -162.94313049316406,
+      "logps/rejected": -179.63369750976562,
+      "loss": 0.6946,
+      "rewards/accuracies": 0.4625000059604645,
+      "rewards/chosen": -0.0010867499513551593,
+      "rewards/margins": -0.002635319484397769,
+      "rewards/rejected": 0.0015485694166272879,
+      "step": 20
+    },
+    {
+      "epoch": 0.26519337016574585,
+      "grad_norm": 13.625,
+      "learning_rate": 3.728070175438597e-06,
+      "logits/chosen": -3.299316883087158,
+      "logits/rejected": -3.243040084838867,
+      "logps/chosen": -168.03802490234375,
+      "logps/rejected": -191.59165954589844,
+      "loss": 0.6908,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.005441132001578808,
+      "rewards/margins": 0.004950051195919514,
+      "rewards/rejected": 0.0004910803982056677,
+      "step": 30
+    },
+    {
+      "epoch": 0.35359116022099446,
+      "grad_norm": 12.8125,
+      "learning_rate": 3.289473684210527e-06,
+      "logits/chosen": -3.3205394744873047,
+      "logits/rejected": -3.2248268127441406,
+      "logps/chosen": -163.4181365966797,
+      "logps/rejected": -190.28494262695312,
+      "loss": 0.692,
+      "rewards/accuracies": 0.4937500059604645,
+      "rewards/chosen": 0.0033660412300378084,
+      "rewards/margins": 0.0026486157439649105,
+      "rewards/rejected": 0.0007174253696575761,
+      "step": 40
+    },
+    {
+      "epoch": 0.4419889502762431,
+      "grad_norm": 13.4375,
+      "learning_rate": 2.8508771929824565e-06,
+      "logits/chosen": -3.266845226287842,
+      "logits/rejected": -3.239501953125,
+      "logps/chosen": -165.8727569580078,
+      "logps/rejected": -180.970703125,
+      "loss": 0.69,
+      "rewards/accuracies": 0.5562499761581421,
+      "rewards/chosen": 0.002517760032787919,
+      "rewards/margins": 0.006597781088203192,
+      "rewards/rejected": -0.004080021288245916,
+      "step": 50
+    },
+    {
+      "epoch": 0.5303867403314917,
+      "grad_norm": 13.0,
+      "learning_rate": 2.412280701754386e-06,
+      "logits/chosen": -3.300370454788208,
+      "logits/rejected": -3.2336509227752686,
+      "logps/chosen": -166.43919372558594,
+      "logps/rejected": -177.72369384765625,
+      "loss": 0.6912,
+      "rewards/accuracies": 0.5249999761581421,
+      "rewards/chosen": 0.0010731505462899804,
+      "rewards/margins": 0.004260644782334566,
+      "rewards/rejected": -0.0031874938867986202,
+      "step": 60
+    },
+    {
+      "epoch": 0.6187845303867403,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.973684210526316e-06,
+      "logits/chosen": -3.292241334915161,
+      "logits/rejected": -3.263917922973633,
+      "logps/chosen": -166.0662841796875,
+      "logps/rejected": -179.9429168701172,
+      "loss": 0.6886,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.004152910318225622,
+      "rewards/margins": 0.009452776983380318,
+      "rewards/rejected": -0.005299866199493408,
+      "step": 70
+    },
+    {
+      "epoch": 0.7071823204419889,
+      "grad_norm": 13.1875,
+      "learning_rate": 1.5350877192982458e-06,
+      "logits/chosen": -3.2774970531463623,
+      "logits/rejected": -3.2063546180725098,
+      "logps/chosen": -166.04795837402344,
+      "logps/rejected": -189.38204956054688,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.574999988079071,
+      "rewards/chosen": 0.002573251724243164,
+      "rewards/margins": 0.00316311651840806,
+      "rewards/rejected": -0.0005898644449189305,
+      "step": 80
+    },
+    {
+      "epoch": 0.7955801104972375,
+      "grad_norm": 11.75,
+      "learning_rate": 1.0964912280701756e-06,
+      "logits/chosen": -3.3311314582824707,
+      "logits/rejected": -3.2796638011932373,
+      "logps/chosen": -157.93948364257812,
+      "logps/rejected": -183.2423095703125,
+      "loss": 0.6909,
+      "rewards/accuracies": 0.5874999761581421,
+      "rewards/chosen": 0.002239528112113476,
+      "rewards/margins": 0.00483693415299058,
+      "rewards/rejected": -0.002597406040877104,
+      "step": 90
+    },
+    {
+      "epoch": 0.8839779005524862,
+      "grad_norm": 14.75,
+      "learning_rate": 6.578947368421053e-07,
+      "logits/chosen": -3.2761390209198,
+      "logits/rejected": -3.2539830207824707,
+      "logps/chosen": -178.083984375,
+      "logps/rejected": -185.00401306152344,
+      "loss": 0.6913,
+      "rewards/accuracies": 0.5625,
+      "rewards/chosen": 0.001332092098891735,
+      "rewards/margins": 0.004107826389372349,
+      "rewards/rejected": -0.0027757335919886827,
+      "step": 100
+    },
+    {
+      "epoch": 0.9723756906077348,
+      "grad_norm": 13.3125,
+      "learning_rate": 2.192982456140351e-07,
+      "logits/chosen": -3.2679781913757324,
+      "logits/rejected": -3.1474175453186035,
+      "logps/chosen": -170.65786743164062,
+      "logps/rejected": -183.07583618164062,
+      "loss": 0.692,
+      "rewards/accuracies": 0.550000011920929,
+      "rewards/chosen": 0.001837458461523056,
+      "rewards/margins": 0.0027389838360249996,
+      "rewards/rejected": -0.0009015247924253345,
+      "step": 110
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 114,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 100,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-114/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52ae26ca728b9c55a1db652b7133c7e2be09b11b9b63ff4c0d770c9a77cac8da
+size 6328

config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "_comment": "NBR-500: ~500M par\u00e2metros para portugu\u00eas brasileiro",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "dtype": "bfloat16",
+  "eos_token_id": 2,
+  "head_dim": 64,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 2048,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "num_key_value_heads": 16,
+  "pad_token_id": 2,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "transformers_version": "4.57.3",
+  "use_cache": false,
+  "vocab_size": 32000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": [
+    2
+  ],
+  "pad_token_id": 2,
+  "transformers_version": "4.57.3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcf10b593b7eb0fd168419507c47e04f486dd08b2eaa751599a696af802e75a3
+size 936503664

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,46 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "extra_special_tokens": {},
+  "model_max_length": 2048,
+  "pad_token": "</s>",
+  "tokenizer_class": "PreTrainedTokenizerFast",
+  "unk_token": "<unk>"
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52ae26ca728b9c55a1db652b7133c7e2be09b11b9b63ff4c0d770c9a77cac8da
+size 6328