Upload 15 files

Browse files

Files changed (15) hide show

README.md +202 -0
adapter_config.json +34 -0
adapter_model.safetensors +3 -0
added_tokens.json +5 -0
merges.txt +0 -0
optimizer.bin +3 -0
pytorch_model_fsdp.bin +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
special_tokens_map.json +20 -0
tokenizer.json +0 -0
tokenizer_config.json +44 -0
trainer_state.json +543 -0
training_args.bin +3 -0
vocab.json +0 -0

README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: sail/Sailor-0.5B
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.12.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "sail/Sailor-0.5B",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "o_proj",
+    "v_proj",
+    "up_proj",
+    "gate_proj",
+    "q_proj",
+    "k_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:358609d571214ce58791e1b8fb128d5a854ec1b8eda9ef23f4f6244f33a2a547
+size 30322120

added_tokens.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

optimizer.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:993882fabf5de36badd750c4d305f589a2686c5b9196298011dd87868c6dce9c
+size 60888770

pytorch_model_fsdp.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b49b5cc59938fa6f93deb8a0584932c9602391e5ae971e7acecb3403acd172fd
+size 30407278

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d28a950a9e0b4e1dc4cf3892bccfde509eaaa334df0bb4d48e623ce81d08cd22
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2073cb175158af2ea3660eb09ab66b565b7b4fb7e819c7769ffb977ce4bcee29
+size 1064

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% set system_message = 'You are an AI assistant named Sailor created by Sea AI Lab. Your answer should be friendly, unbiased, faithful, informative and detailed.' %}{% if messages[0]['role'] == 'system' %}{% set loop_messages = messages[1:] %}{% set system_message = messages[0]['content'] %}{% else %}{% set loop_messages = messages %}{% endif %}{% if system_message is defined %}{{ '<|im_start|>system\n' + system_message + '<|im_end|>\n' }}{% endif %}{% for message in loop_messages %}{% set content = message['content'] %}{% if message['role'] == 'user' %}{{ '<|im_start|>question\n' + content + '<|im_end|>\n<|im_start|>answer\n' }}{% elif message['role'] == 'assistant' %}{{ content + '<|im_end|>' + '\n' }}{% endif %}{% endfor %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,543 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.619834710743802,
+  "eval_steps": 10,
+  "global_step": 340,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1652892561983471,
+      "grad_norm": 2.5004961490631104,
+      "learning_rate": 3.998781654038192e-05,
+      "loss": 1.3959,
+      "step": 10
+    },
+    {
+      "epoch": 0.1652892561983471,
+      "eval_loss": 0.9773627519607544,
+      "eval_runtime": 1.0911,
+      "eval_samples_per_second": 10.998,
+      "eval_steps_per_second": 1.833,
+      "step": 10
+    },
+    {
+      "epoch": 0.3305785123966942,
+      "grad_norm": 3.3259832859039307,
+      "learning_rate": 3.9951281005196486e-05,
+      "loss": 1.195,
+      "step": 20
+    },
+    {
+      "epoch": 0.3305785123966942,
+      "eval_loss": 0.783854603767395,
+      "eval_runtime": 1.1063,
+      "eval_samples_per_second": 10.847,
+      "eval_steps_per_second": 1.808,
+      "step": 20
+    },
+    {
+      "epoch": 0.49586776859504134,
+      "grad_norm": 2.37343168258667,
+      "learning_rate": 3.989043790736547e-05,
+      "loss": 1.035,
+      "step": 30
+    },
+    {
+      "epoch": 0.49586776859504134,
+      "eval_loss": 0.6894669532775879,
+      "eval_runtime": 1.4555,
+      "eval_samples_per_second": 8.245,
+      "eval_steps_per_second": 1.374,
+      "step": 30
+    },
+    {
+      "epoch": 0.6611570247933884,
+      "grad_norm": 3.1549763679504395,
+      "learning_rate": 3.980536137483141e-05,
+      "loss": 0.9097,
+      "step": 40
+    },
+    {
+      "epoch": 0.6611570247933884,
+      "eval_loss": 0.6716279983520508,
+      "eval_runtime": 1.1151,
+      "eval_samples_per_second": 10.761,
+      "eval_steps_per_second": 1.794,
+      "step": 40
+    },
+    {
+      "epoch": 0.8264462809917356,
+      "grad_norm": 2.8315067291259766,
+      "learning_rate": 3.9696155060244166e-05,
+      "loss": 0.8614,
+      "step": 50
+    },
+    {
+      "epoch": 0.8264462809917356,
+      "eval_loss": 0.6319628357887268,
+      "eval_runtime": 1.1073,
+      "eval_samples_per_second": 10.837,
+      "eval_steps_per_second": 1.806,
+      "step": 50
+    },
+    {
+      "epoch": 0.9917355371900827,
+      "grad_norm": 3.369000196456909,
+      "learning_rate": 3.9562952014676116e-05,
+      "loss": 0.9259,
+      "step": 60
+    },
+    {
+      "epoch": 0.9917355371900827,
+      "eval_loss": 0.5961965918540955,
+      "eval_runtime": 1.3743,
+      "eval_samples_per_second": 8.732,
+      "eval_steps_per_second": 1.455,
+      "step": 60
+    },
+    {
+      "epoch": 1.1570247933884297,
+      "grad_norm": 2.863161087036133,
+      "learning_rate": 3.940591452551993e-05,
+      "loss": 0.7896,
+      "step": 70
+    },
+    {
+      "epoch": 1.1570247933884297,
+      "eval_loss": 0.5863456726074219,
+      "eval_runtime": 1.0994,
+      "eval_samples_per_second": 10.915,
+      "eval_steps_per_second": 1.819,
+      "step": 70
+    },
+    {
+      "epoch": 1.322314049586777,
+      "grad_norm": 2.5636465549468994,
+      "learning_rate": 3.922523391876638e-05,
+      "loss": 0.8601,
+      "step": 80
+    },
+    {
+      "epoch": 1.322314049586777,
+      "eval_loss": 0.5487304925918579,
+      "eval_runtime": 1.0935,
+      "eval_samples_per_second": 10.974,
+      "eval_steps_per_second": 1.829,
+      "step": 80
+    },
+    {
+      "epoch": 1.487603305785124,
+      "grad_norm": 2.7444987297058105,
+      "learning_rate": 3.9021130325903076e-05,
+      "loss": 0.7592,
+      "step": 90
+    },
+    {
+      "epoch": 1.487603305785124,
+      "eval_loss": 0.543647050857544,
+      "eval_runtime": 1.1357,
+      "eval_samples_per_second": 10.566,
+      "eval_steps_per_second": 1.761,
+      "step": 90
+    },
+    {
+      "epoch": 1.6528925619834711,
+      "grad_norm": 4.245235919952393,
+      "learning_rate": 3.879385241571817e-05,
+      "loss": 0.7439,
+      "step": 100
+    },
+    {
+      "epoch": 1.6528925619834711,
+      "eval_loss": 0.5209221839904785,
+      "eval_runtime": 1.1049,
+      "eval_samples_per_second": 10.861,
+      "eval_steps_per_second": 1.81,
+      "step": 100
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "grad_norm": 3.720158815383911,
+      "learning_rate": 3.854367709133575e-05,
+      "loss": 0.7675,
+      "step": 110
+    },
+    {
+      "epoch": 1.8181818181818183,
+      "eval_loss": 0.502068281173706,
+      "eval_runtime": 1.416,
+      "eval_samples_per_second": 8.474,
+      "eval_steps_per_second": 1.412,
+      "step": 110
+    },
+    {
+      "epoch": 1.9834710743801653,
+      "grad_norm": 3.368499279022217,
+      "learning_rate": 3.827090915285202e-05,
+      "loss": 0.7396,
+      "step": 120
+    },
+    {
+      "epoch": 1.9834710743801653,
+      "eval_loss": 0.4688035845756531,
+      "eval_runtime": 1.1068,
+      "eval_samples_per_second": 10.842,
+      "eval_steps_per_second": 1.807,
+      "step": 120
+    },
+    {
+      "epoch": 2.1487603305785123,
+      "grad_norm": 3.335733652114868,
+      "learning_rate": 3.7975880925983345e-05,
+      "loss": 0.5938,
+      "step": 130
+    },
+    {
+      "epoch": 2.1487603305785123,
+      "eval_loss": 0.45896804332733154,
+      "eval_runtime": 1.0901,
+      "eval_samples_per_second": 11.008,
+      "eval_steps_per_second": 1.835,
+      "step": 130
+    },
+    {
+      "epoch": 2.3140495867768593,
+      "grad_norm": 4.038167953491211,
+      "learning_rate": 3.7658951857178544e-05,
+      "loss": 0.5712,
+      "step": 140
+    },
+    {
+      "epoch": 2.3140495867768593,
+      "eval_loss": 0.4418785274028778,
+      "eval_runtime": 1.3332,
+      "eval_samples_per_second": 9.001,
+      "eval_steps_per_second": 1.5,
+      "step": 140
+    },
+    {
+      "epoch": 2.479338842975207,
+      "grad_norm": 4.076087951660156,
+      "learning_rate": 3.732050807568878e-05,
+      "loss": 0.6814,
+      "step": 150
+    },
+    {
+      "epoch": 2.479338842975207,
+      "eval_loss": 0.4231901168823242,
+      "eval_runtime": 1.0886,
+      "eval_samples_per_second": 11.023,
+      "eval_steps_per_second": 1.837,
+      "step": 150
+    },
+    {
+      "epoch": 2.644628099173554,
+      "grad_norm": 4.039748668670654,
+      "learning_rate": 3.696096192312852e-05,
+      "loss": 0.6155,
+      "step": 160
+    },
+    {
+      "epoch": 2.644628099173554,
+      "eval_loss": 0.4101436138153076,
+      "eval_runtime": 1.1018,
+      "eval_samples_per_second": 10.891,
+      "eval_steps_per_second": 1.815,
+      "step": 160
+    },
+    {
+      "epoch": 2.809917355371901,
+      "grad_norm": 4.491166114807129,
+      "learning_rate": 3.658075145110083e-05,
+      "loss": 0.5797,
+      "step": 170
+    },
+    {
+      "epoch": 2.809917355371901,
+      "eval_loss": 0.3929840326309204,
+      "eval_runtime": 1.3687,
+      "eval_samples_per_second": 8.768,
+      "eval_steps_per_second": 1.461,
+      "step": 170
+    },
+    {
+      "epoch": 2.975206611570248,
+      "grad_norm": 4.6367106437683105,
+      "learning_rate": 3.6180339887498953e-05,
+      "loss": 0.6346,
+      "step": 180
+    },
+    {
+      "epoch": 2.975206611570248,
+      "eval_loss": 0.3631528615951538,
+      "eval_runtime": 1.1071,
+      "eval_samples_per_second": 10.839,
+      "eval_steps_per_second": 1.806,
+      "step": 180
+    },
+    {
+      "epoch": 3.1404958677685952,
+      "grad_norm": 3.62372088432312,
+      "learning_rate": 3.576021507213444e-05,
+      "loss": 0.4537,
+      "step": 190
+    },
+    {
+      "epoch": 3.1404958677685952,
+      "eval_loss": 0.35405832529067993,
+      "eval_runtime": 1.2103,
+      "eval_samples_per_second": 9.915,
+      "eval_steps_per_second": 1.652,
+      "step": 190
+    },
+    {
+      "epoch": 3.3057851239669422,
+      "grad_norm": 3.1658225059509277,
+      "learning_rate": 3.532088886237956e-05,
+      "loss": 0.4568,
+      "step": 200
+    },
+    {
+      "epoch": 3.3057851239669422,
+      "eval_loss": 0.3364166021347046,
+      "eval_runtime": 1.1013,
+      "eval_samples_per_second": 10.896,
+      "eval_steps_per_second": 1.816,
+      "step": 200
+    },
+    {
+      "epoch": 3.4710743801652892,
+      "grad_norm": 5.640577793121338,
+      "learning_rate": 3.4862896509547886e-05,
+      "loss": 0.4796,
+      "step": 210
+    },
+    {
+      "epoch": 3.4710743801652892,
+      "eval_loss": 0.31573551893234253,
+      "eval_runtime": 1.0982,
+      "eval_samples_per_second": 10.927,
+      "eval_steps_per_second": 1.821,
+      "step": 210
+    },
+    {
+      "epoch": 3.6363636363636362,
+      "grad_norm": 5.163906097412109,
+      "learning_rate": 3.438679600677303e-05,
+      "loss": 0.4309,
+      "step": 220
+    },
+    {
+      "epoch": 3.6363636363636362,
+      "eval_loss": 0.29981058835983276,
+      "eval_runtime": 1.4641,
+      "eval_samples_per_second": 8.196,
+      "eval_steps_per_second": 1.366,
+      "step": 220
+    },
+    {
+      "epoch": 3.8016528925619832,
+      "grad_norm": 10.097945213317871,
+      "learning_rate": 3.3893167409179945e-05,
+      "loss": 0.5423,
+      "step": 230
+    },
+    {
+      "epoch": 3.8016528925619832,
+      "eval_loss": 0.30080342292785645,
+      "eval_runtime": 1.0952,
+      "eval_samples_per_second": 10.957,
+      "eval_steps_per_second": 1.826,
+      "step": 230
+    },
+    {
+      "epoch": 3.9669421487603307,
+      "grad_norm": 5.08881950378418,
+      "learning_rate": 3.3382612127177166e-05,
+      "loss": 0.51,
+      "step": 240
+    },
+    {
+      "epoch": 3.9669421487603307,
+      "eval_loss": 0.30431026220321655,
+      "eval_runtime": 1.1103,
+      "eval_samples_per_second": 10.807,
+      "eval_steps_per_second": 1.801,
+      "step": 240
+    },
+    {
+      "epoch": 4.132231404958677,
+      "grad_norm": 3.142008066177368,
+      "learning_rate": 3.285575219373079e-05,
+      "loss": 0.4218,
+      "step": 250
+    },
+    {
+      "epoch": 4.132231404958677,
+      "eval_loss": 0.29047852754592896,
+      "eval_runtime": 1.2712,
+      "eval_samples_per_second": 9.44,
+      "eval_steps_per_second": 1.573,
+      "step": 250
+    },
+    {
+      "epoch": 4.297520661157025,
+      "grad_norm": 4.357353687286377,
+      "learning_rate": 3.2313229506513167e-05,
+      "loss": 0.3503,
+      "step": 260
+    },
+    {
+      "epoch": 4.297520661157025,
+      "eval_loss": 0.29693418741226196,
+      "eval_runtime": 1.0964,
+      "eval_samples_per_second": 10.945,
+      "eval_steps_per_second": 1.824,
+      "step": 260
+    },
+    {
+      "epoch": 4.462809917355372,
+      "grad_norm": 5.129684925079346,
+      "learning_rate": 3.1755705045849465e-05,
+      "loss": 0.3235,
+      "step": 270
+    },
+    {
+      "epoch": 4.462809917355372,
+      "eval_loss": 0.27224814891815186,
+      "eval_runtime": 1.0905,
+      "eval_samples_per_second": 11.004,
+      "eval_steps_per_second": 1.834,
+      "step": 270
+    },
+    {
+      "epoch": 4.628099173553719,
+      "grad_norm": 5.414126396179199,
+      "learning_rate": 3.1183858069414936e-05,
+      "loss": 0.3671,
+      "step": 280
+    },
+    {
+      "epoch": 4.628099173553719,
+      "eval_loss": 0.2563490867614746,
+      "eval_runtime": 1.0963,
+      "eval_samples_per_second": 10.946,
+      "eval_steps_per_second": 1.824,
+      "step": 280
+    },
+    {
+      "epoch": 4.793388429752066,
+      "grad_norm": 4.964554309844971,
+      "learning_rate": 3.05983852846641e-05,
+      "loss": 0.3399,
+      "step": 290
+    },
+    {
+      "epoch": 4.793388429752066,
+      "eval_loss": 0.25828373432159424,
+      "eval_runtime": 1.1181,
+      "eval_samples_per_second": 10.732,
+      "eval_steps_per_second": 1.789,
+      "step": 290
+    },
+    {
+      "epoch": 4.958677685950414,
+      "grad_norm": 4.63615083694458,
+      "learning_rate": 3.0000000000000004e-05,
+      "loss": 0.3685,
+      "step": 300
+    },
+    {
+      "epoch": 4.958677685950414,
+      "eval_loss": 0.24292020499706268,
+      "eval_runtime": 1.445,
+      "eval_samples_per_second": 8.305,
+      "eval_steps_per_second": 1.384,
+      "step": 300
+    },
+    {
+      "epoch": 5.12396694214876,
+      "grad_norm": 4.34980583190918,
+      "learning_rate": 2.938943125571782e-05,
+      "loss": 0.2943,
+      "step": 310
+    },
+    {
+      "epoch": 5.12396694214876,
+      "eval_loss": 0.20842806994915009,
+      "eval_runtime": 1.1081,
+      "eval_samples_per_second": 10.829,
+      "eval_steps_per_second": 1.805,
+      "step": 310
+    },
+    {
+      "epoch": 5.289256198347108,
+      "grad_norm": 6.3195881843566895,
+      "learning_rate": 2.876742293578155e-05,
+      "loss": 0.2589,
+      "step": 320
+    },
+    {
+      "epoch": 5.289256198347108,
+      "eval_loss": 0.217214435338974,
+      "eval_runtime": 1.0894,
+      "eval_samples_per_second": 11.015,
+      "eval_steps_per_second": 1.836,
+      "step": 320
+    },
+    {
+      "epoch": 5.454545454545454,
+      "grad_norm": 6.084163665771484,
+      "learning_rate": 2.813473286151601e-05,
+      "loss": 0.2143,
+      "step": 330
+    },
+    {
+      "epoch": 5.454545454545454,
+      "eval_loss": 0.22991180419921875,
+      "eval_runtime": 1.2554,
+      "eval_samples_per_second": 9.559,
+      "eval_steps_per_second": 1.593,
+      "step": 330
+    },
+    {
+      "epoch": 5.619834710743802,
+      "grad_norm": 5.4227728843688965,
+      "learning_rate": 2.7492131868318247e-05,
+      "loss": 0.3084,
+      "step": 340
+    },
+    {
+      "epoch": 5.619834710743802,
+      "eval_loss": 0.21594808995723724,
+      "eval_runtime": 1.1006,
+      "eval_samples_per_second": 10.903,
+      "eval_steps_per_second": 1.817,
+      "step": 340
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 900,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 15,
+  "save_steps": 10,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 545316196581376.0,
+  "train_batch_size": 2,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e6b474be69514732ea89105234dd0685735b34fdb15c1b9e230cfe05c8da498e
+size 5368

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff