Upload 8 files

Browse files

Files changed (8) hide show

README.md +202 -3
adapter_config.json +31 -0
adapter_model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +636 -0
training_args.bin +3 -0

README.md CHANGED Viewed

@@ -1,3 +1,202 @@
----
-license: mit
----

+---
+library_name: peft
+base_model: microsoft/phi-2
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.10.1.dev0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,31 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": null,
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 32,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 16,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "v_proj",
+    "q_proj",
+    "dense"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7da1b2c7501c318bcbf34f03146342656821d38fc17f53ed0201405356d7b642
+size 94428896

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1d30ec1c3222a21ca2a1d00d3445dd0ab860b4f9695f1fbc6cdc5db2a2c2978d
+size 84037434

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09a5c3c4f8e7d7d8df474ae4cb24af112d1fca7fd7cde38e11aa150896f43682
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dce78f22ae791fb45ea89bc23518275a187fc3ea4478d60813c1bb21f5d43413
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,636 @@

+{
+  "best_metric": 0.8981696963310242,
+  "best_model_checkpoint": "./Phi-2_PT_QA_1_v5/checkpoint-4100",
+  "epoch": 0.7496286138727003,
+  "eval_steps": 100,
+  "global_step": 4100,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.018283624728602444,
+      "grad_norm": 361.1343994140625,
+      "learning_rate": 1e-05,
+      "loss": 7.4107,
+      "step": 100
+    },
+    {
+      "epoch": 0.018283624728602444,
+      "eval_loss": 7.992985248565674,
+      "eval_runtime": 189.157,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 100
+    },
+    {
+      "epoch": 0.03656724945720489,
+      "grad_norm": 462.70465087890625,
+      "learning_rate": 2e-05,
+      "loss": 6.869,
+      "step": 200
+    },
+    {
+      "epoch": 0.03656724945720489,
+      "eval_loss": 2.2097244262695312,
+      "eval_runtime": 189.1384,
+      "eval_samples_per_second": 2.644,
+      "eval_steps_per_second": 0.169,
+      "step": 200
+    },
+    {
+      "epoch": 0.054850874185807336,
+      "grad_norm": 45.288211822509766,
+      "learning_rate": 3e-05,
+      "loss": 1.3255,
+      "step": 300
+    },
+    {
+      "epoch": 0.054850874185807336,
+      "eval_loss": 1.1541022062301636,
+      "eval_runtime": 188.9446,
+      "eval_samples_per_second": 2.646,
+      "eval_steps_per_second": 0.169,
+      "step": 300
+    },
+    {
+      "epoch": 0.07313449891440978,
+      "grad_norm": 157.0716094970703,
+      "learning_rate": 4e-05,
+      "loss": 1.1832,
+      "step": 400
+    },
+    {
+      "epoch": 0.07313449891440978,
+      "eval_loss": 1.1192466020584106,
+      "eval_runtime": 189.0814,
+      "eval_samples_per_second": 2.644,
+      "eval_steps_per_second": 0.169,
+      "step": 400
+    },
+    {
+      "epoch": 0.09141812364301223,
+      "grad_norm": 26.455596923828125,
+      "learning_rate": 5e-05,
+      "loss": 1.1759,
+      "step": 500
+    },
+    {
+      "epoch": 0.09141812364301223,
+      "eval_loss": 1.0633209943771362,
+      "eval_runtime": 188.7155,
+      "eval_samples_per_second": 2.649,
+      "eval_steps_per_second": 0.17,
+      "step": 500
+    },
+    {
+      "epoch": 0.10970174837161467,
+      "grad_norm": 34.8622932434082,
+      "learning_rate": 4.9950071057370804e-05,
+      "loss": 1.1282,
+      "step": 600
+    },
+    {
+      "epoch": 0.10970174837161467,
+      "eval_loss": 1.0417226552963257,
+      "eval_runtime": 189.0917,
+      "eval_samples_per_second": 2.644,
+      "eval_steps_per_second": 0.169,
+      "step": 600
+    },
+    {
+      "epoch": 0.12798537310021713,
+      "grad_norm": 25.281723022460938,
+      "learning_rate": 4.9800483661428186e-05,
+      "loss": 1.1376,
+      "step": 700
+    },
+    {
+      "epoch": 0.12798537310021713,
+      "eval_loss": 1.0301182270050049,
+      "eval_runtime": 189.2584,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 700
+    },
+    {
+      "epoch": 0.14626899782881955,
+      "grad_norm": 22.426198959350586,
+      "learning_rate": 4.9551835311412955e-05,
+      "loss": 1.1079,
+      "step": 800
+    },
+    {
+      "epoch": 0.14626899782881955,
+      "eval_loss": 1.0073903799057007,
+      "eval_runtime": 189.1597,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 800
+    },
+    {
+      "epoch": 0.164552622557422,
+      "grad_norm": 35.90736389160156,
+      "learning_rate": 4.920511918726131e-05,
+      "loss": 1.0631,
+      "step": 900
+    },
+    {
+      "epoch": 0.164552622557422,
+      "eval_loss": 0.9627833366394043,
+      "eval_runtime": 189.137,
+      "eval_samples_per_second": 2.644,
+      "eval_steps_per_second": 0.169,
+      "step": 900
+    },
+    {
+      "epoch": 0.18283624728602446,
+      "grad_norm": 23.095998764038086,
+      "learning_rate": 4.876172018253099e-05,
+      "loss": 1.0368,
+      "step": 1000
+    },
+    {
+      "epoch": 0.18283624728602446,
+      "eval_loss": 0.9648867249488831,
+      "eval_runtime": 188.6889,
+      "eval_samples_per_second": 2.65,
+      "eval_steps_per_second": 0.17,
+      "step": 1000
+    },
+    {
+      "epoch": 0.2011198720146269,
+      "grad_norm": 29.256031036376953,
+      "learning_rate": 4.82234093726995e-05,
+      "loss": 1.0427,
+      "step": 1100
+    },
+    {
+      "epoch": 0.2011198720146269,
+      "eval_loss": 0.9637861847877502,
+      "eval_runtime": 188.6111,
+      "eval_samples_per_second": 2.651,
+      "eval_steps_per_second": 0.17,
+      "step": 1100
+    },
+    {
+      "epoch": 0.21940349674322934,
+      "grad_norm": 37.598472595214844,
+      "learning_rate": 4.75923369409301e-05,
+      "loss": 1.0326,
+      "step": 1200
+    },
+    {
+      "epoch": 0.21940349674322934,
+      "eval_loss": 0.9529294967651367,
+      "eval_runtime": 188.8671,
+      "eval_samples_per_second": 2.647,
+      "eval_steps_per_second": 0.169,
+      "step": 1200
+    },
+    {
+      "epoch": 0.2376871214718318,
+      "grad_norm": 31.624174118041992,
+      "learning_rate": 4.6871023589562045e-05,
+      "loss": 1.0522,
+      "step": 1300
+    },
+    {
+      "epoch": 0.2376871214718318,
+      "eval_loss": 0.9683192372322083,
+      "eval_runtime": 189.2334,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 1300
+    },
+    {
+      "epoch": 0.25597074620043425,
+      "grad_norm": 20.714860916137695,
+      "learning_rate": 4.60623504716304e-05,
+      "loss": 1.1055,
+      "step": 1400
+    },
+    {
+      "epoch": 0.25597074620043425,
+      "eval_loss": 1.0250566005706787,
+      "eval_runtime": 189.0522,
+      "eval_samples_per_second": 2.645,
+      "eval_steps_per_second": 0.169,
+      "step": 1400
+    },
+    {
+      "epoch": 0.2742543709290367,
+      "grad_norm": 13.228219032287598,
+      "learning_rate": 4.516954768263203e-05,
+      "loss": 1.1199,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2742543709290367,
+      "eval_loss": 0.9792861342430115,
+      "eval_runtime": 189.1669,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 1500
+    },
+    {
+      "epoch": 0.2925379956576391,
+      "grad_norm": 13.624972343444824,
+      "learning_rate": 4.419618135850542e-05,
+      "loss": 1.0705,
+      "step": 1600
+    },
+    {
+      "epoch": 0.2925379956576391,
+      "eval_loss": 0.975660502910614,
+      "eval_runtime": 189.2814,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 1600
+    },
+    {
+      "epoch": 0.31082162038624156,
+      "grad_norm": 28.702505111694336,
+      "learning_rate": 4.314613943135893e-05,
+      "loss": 1.0594,
+      "step": 1700
+    },
+    {
+      "epoch": 0.31082162038624156,
+      "eval_loss": 0.9642728567123413,
+      "eval_runtime": 189.2767,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 1700
+    },
+    {
+      "epoch": 0.329105245114844,
+      "grad_norm": 11.370965957641602,
+      "learning_rate": 4.2023616099843676e-05,
+      "loss": 1.0422,
+      "step": 1800
+    },
+    {
+      "epoch": 0.329105245114844,
+      "eval_loss": 0.9481159448623657,
+      "eval_runtime": 189.186,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 1800
+    },
+    {
+      "epoch": 0.34738886984344647,
+      "grad_norm": 20.44642448425293,
+      "learning_rate": 4.083309507620118e-05,
+      "loss": 1.0466,
+      "step": 1900
+    },
+    {
+      "epoch": 0.34738886984344647,
+      "eval_loss": 0.9562661051750183,
+      "eval_runtime": 189.281,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 1900
+    },
+    {
+      "epoch": 0.3656724945720489,
+      "grad_norm": 10.944358825683594,
+      "learning_rate": 3.95793316769025e-05,
+      "loss": 1.0369,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3656724945720489,
+      "eval_loss": 0.9367031455039978,
+      "eval_runtime": 189.225,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 2000
+    },
+    {
+      "epoch": 0.3839561193006514,
+      "grad_norm": 11.027617454528809,
+      "learning_rate": 3.8267333828414366e-05,
+      "loss": 1.0167,
+      "step": 2100
+    },
+    {
+      "epoch": 0.3839561193006514,
+      "eval_loss": 0.9452427625656128,
+      "eval_runtime": 189.3516,
+      "eval_samples_per_second": 2.641,
+      "eval_steps_per_second": 0.169,
+      "step": 2100
+    },
+    {
+      "epoch": 0.4022397440292538,
+      "grad_norm": 13.287491798400879,
+      "learning_rate": 3.690234206396134e-05,
+      "loss": 1.0456,
+      "step": 2200
+    },
+    {
+      "epoch": 0.4022397440292538,
+      "eval_loss": 0.9392285943031311,
+      "eval_runtime": 189.33,
+      "eval_samples_per_second": 2.641,
+      "eval_steps_per_second": 0.169,
+      "step": 2200
+    },
+    {
+      "epoch": 0.42052336875785623,
+      "grad_norm": 11.296989440917969,
+      "learning_rate": 3.5489808591183144e-05,
+      "loss": 1.0243,
+      "step": 2300
+    },
+    {
+      "epoch": 0.42052336875785623,
+      "eval_loss": 0.926450252532959,
+      "eval_runtime": 189.2591,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 2300
+    },
+    {
+      "epoch": 0.4388069934864587,
+      "grad_norm": 8.259175300598145,
+      "learning_rate": 3.403537551429771e-05,
+      "loss": 0.9798,
+      "step": 2400
+    },
+    {
+      "epoch": 0.4388069934864587,
+      "eval_loss": 0.9248631596565247,
+      "eval_runtime": 189.2646,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 2400
+    },
+    {
+      "epoch": 0.45709061821506114,
+      "grad_norm": 8.901100158691406,
+      "learning_rate": 3.254485229775735e-05,
+      "loss": 1.0033,
+      "step": 2500
+    },
+    {
+      "epoch": 0.45709061821506114,
+      "eval_loss": 0.9127222895622253,
+      "eval_runtime": 189.2237,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 2500
+    },
+    {
+      "epoch": 0.4753742429436636,
+      "grad_norm": 10.157410621643066,
+      "learning_rate": 3.102419256141536e-05,
+      "loss": 1.0023,
+      "step": 2600
+    },
+    {
+      "epoch": 0.4753742429436636,
+      "eval_loss": 0.9139639735221863,
+      "eval_runtime": 189.3397,
+      "eval_samples_per_second": 2.641,
+      "eval_steps_per_second": 0.169,
+      "step": 2600
+    },
+    {
+      "epoch": 0.49365786767226605,
+      "grad_norm": 14.876816749572754,
+      "learning_rate": 2.9479470299890476e-05,
+      "loss": 1.0095,
+      "step": 2700
+    },
+    {
+      "epoch": 0.49365786767226605,
+      "eval_loss": 0.9182960987091064,
+      "eval_runtime": 189.2612,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 2700
+    },
+    {
+      "epoch": 0.5119414924008685,
+      "grad_norm": 10.439401626586914,
+      "learning_rate": 2.79168556211166e-05,
+      "loss": 0.983,
+      "step": 2800
+    },
+    {
+      "epoch": 0.5119414924008685,
+      "eval_loss": 0.9220383763313293,
+      "eval_runtime": 189.1245,
+      "eval_samples_per_second": 2.644,
+      "eval_steps_per_second": 0.169,
+      "step": 2800
+    },
+    {
+      "epoch": 0.530225117129471,
+      "grad_norm": 10.412522315979004,
+      "learning_rate": 2.6342590100985565e-05,
+      "loss": 1.0071,
+      "step": 2900
+    },
+    {
+      "epoch": 0.530225117129471,
+      "eval_loss": 0.9112712144851685,
+      "eval_runtime": 189.2472,
+      "eval_samples_per_second": 2.642,
+      "eval_steps_per_second": 0.169,
+      "step": 2900
+    },
+    {
+      "epoch": 0.5485087418580734,
+      "grad_norm": 7.356208801269531,
+      "learning_rate": 2.476296185252441e-05,
+      "loss": 0.979,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5485087418580734,
+      "eval_loss": 0.9097906351089478,
+      "eval_runtime": 189.1646,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 3000
+    },
+    {
+      "epoch": 0.5667923665866758,
+      "grad_norm": 15.310144424438477,
+      "learning_rate": 2.318428040918855e-05,
+      "loss": 0.969,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5667923665866758,
+      "eval_loss": 0.9059516787528992,
+      "eval_runtime": 189.1543,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 3100
+    },
+    {
+      "epoch": 0.5850759913152782,
+      "grad_norm": 12.159485816955566,
+      "learning_rate": 2.1612851522595114e-05,
+      "loss": 0.9923,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5850759913152782,
+      "eval_loss": 0.9071580171585083,
+      "eval_runtime": 189.0679,
+      "eval_samples_per_second": 2.645,
+      "eval_steps_per_second": 0.169,
+      "step": 3200
+    },
+    {
+      "epoch": 0.6033596160438807,
+      "grad_norm": 7.6948676109313965,
+      "learning_rate": 2.0054951975362067e-05,
+      "loss": 0.9819,
+      "step": 3300
+    },
+    {
+      "epoch": 0.6033596160438807,
+      "eval_loss": 0.9018483757972717,
+      "eval_runtime": 189.0913,
+      "eval_samples_per_second": 2.644,
+      "eval_steps_per_second": 0.169,
+      "step": 3300
+    },
+    {
+      "epoch": 0.6216432407724831,
+      "grad_norm": 8.831514358520508,
+      "learning_rate": 1.8516804509658687e-05,
+      "loss": 0.968,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6216432407724831,
+      "eval_loss": 0.9070228338241577,
+      "eval_runtime": 188.8425,
+      "eval_samples_per_second": 2.648,
+      "eval_steps_per_second": 0.169,
+      "step": 3400
+    },
+    {
+      "epoch": 0.6399268655010856,
+      "grad_norm": 13.450331687927246,
+      "learning_rate": 1.7004552971610604e-05,
+      "loss": 0.9681,
+      "step": 3500
+    },
+    {
+      "epoch": 0.6399268655010856,
+      "eval_loss": 0.9079869389533997,
+      "eval_runtime": 188.9533,
+      "eval_samples_per_second": 2.646,
+      "eval_steps_per_second": 0.169,
+      "step": 3500
+    },
+    {
+      "epoch": 0.658210490229688,
+      "grad_norm": 17.26088523864746,
+      "learning_rate": 1.552423777084053e-05,
+      "loss": 0.978,
+      "step": 3600
+    },
+    {
+      "epoch": 0.658210490229688,
+      "eval_loss": 0.9043178558349609,
+      "eval_runtime": 189.1442,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 3600
+    },
+    {
+      "epoch": 0.6764941149582905,
+      "grad_norm": 10.180910110473633,
+      "learning_rate": 1.4081771753167055e-05,
+      "loss": 0.9892,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6764941149582905,
+      "eval_loss": 0.9008078575134277,
+      "eval_runtime": 189.3709,
+      "eval_samples_per_second": 2.64,
+      "eval_steps_per_second": 0.169,
+      "step": 3700
+    },
+    {
+      "epoch": 0.6947777396868929,
+      "grad_norm": 7.841503620147705,
+      "learning_rate": 1.2682916582833473e-05,
+      "loss": 0.9588,
+      "step": 3800
+    },
+    {
+      "epoch": 0.6947777396868929,
+      "eval_loss": 0.9007475972175598,
+      "eval_runtime": 189.4241,
+      "eval_samples_per_second": 2.64,
+      "eval_steps_per_second": 0.169,
+      "step": 3800
+    },
+    {
+      "epoch": 0.7130613644154954,
+      "grad_norm": 10.395474433898926,
+      "learning_rate": 1.133325972860347e-05,
+      "loss": 0.9645,
+      "step": 3900
+    },
+    {
+      "epoch": 0.7130613644154954,
+      "eval_loss": 0.9001818895339966,
+      "eval_runtime": 189.3239,
+      "eval_samples_per_second": 2.641,
+      "eval_steps_per_second": 0.169,
+      "step": 3900
+    },
+    {
+      "epoch": 0.7313449891440978,
+      "grad_norm": 8.191793441772461,
+      "learning_rate": 1.0038192145648567e-05,
+      "loss": 0.9627,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7313449891440978,
+      "eval_loss": 0.8982793092727661,
+      "eval_runtime": 189.1681,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 4000
+    },
+    {
+      "epoch": 0.7496286138727003,
+      "grad_norm": 11.999282836914062,
+      "learning_rate": 8.802886742372774e-06,
+      "loss": 0.9633,
+      "step": 4100
+    },
+    {
+      "epoch": 0.7496286138727003,
+      "eval_loss": 0.8981696963310242,
+      "eval_runtime": 189.2147,
+      "eval_samples_per_second": 2.643,
+      "eval_steps_per_second": 0.169,
+      "step": 4100
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 5470,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 100,
+  "total_flos": 8.406940484736e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:184b546055c6c2bf93da851693a233a69c37f321cf2be4775250aa2062333056
+size 4984