Super-squash branch 'main' using huggingface_hub

Browse files

Co-authored-by: leaderboard-pr-bot <leaderboard-pr-bot@users.noreply.huggingface.co>

Files changed (14) hide show

.gitattributes +35 -0
README.md +196 -0
checkpoint-1332/config.json +28 -0
checkpoint-1332/generation_config.json +7 -0
checkpoint-1332/model.safetensors +3 -0
checkpoint-1332/trainer_state.json +907 -0
checkpoint-1332/training_args.bin +3 -0
config.json +28 -0
generation_config.json +7 -0
model.safetensors +3 -0
special_tokens_map.json +30 -0
tokenizer.model +3 -0
tokenizer_config.json +44 -0
training_args.bin +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,196 @@

+---
+license: apache-2.0
+datasets:
+- VMware/open-instruct
+base_model: BEE-spoke-data/smol_llama-220M-GQA
+inference:
+  parameters:
+    do_sample: true
+    renormalize_logits: true
+    temperature: 0.25
+    top_p: 0.95
+    top_k: 50
+    min_new_tokens: 2
+    max_new_tokens: 96
+    repetition_penalty: 1.04
+    no_repeat_ngram_size: 6
+    epsilon_cutoff: 0.0006
+widget:
+- text: "Below is an instruction that describes a task, paired with an input that\
+    \ provides further context. Write a response that appropriately completes the\
+    \ request.  \n   \n### Instruction:  \n  \nWrite an ode to Chipotle burritos.\
+    \ \n  \n### Response:  \n"
+  example_title: burritos
+model-index:
+- name: smol_llama-220M-open_instruct
+  results:
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: AI2 Reasoning Challenge (25-Shot)
+      type: ai2_arc
+      config: ARC-Challenge
+      split: test
+      args:
+        num_few_shot: 25
+    metrics:
+    - type: acc_norm
+      value: 25.0
+      name: normalized accuracy
+    source:
+      url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=BEE-spoke-data/smol_llama-220M-open_instruct
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: HellaSwag (10-Shot)
+      type: hellaswag
+      split: validation
+      args:
+        num_few_shot: 10
+    metrics:
+    - type: acc_norm
+      value: 29.71
+      name: normalized accuracy
+    source:
+      url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=BEE-spoke-data/smol_llama-220M-open_instruct
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: MMLU (5-Shot)
+      type: cais/mmlu
+      config: all
+      split: test
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 26.11
+      name: accuracy
+    source:
+      url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=BEE-spoke-data/smol_llama-220M-open_instruct
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: TruthfulQA (0-shot)
+      type: truthful_qa
+      config: multiple_choice
+      split: validation
+      args:
+        num_few_shot: 0
+    metrics:
+    - type: mc2
+      value: 44.06
+    source:
+      url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=BEE-spoke-data/smol_llama-220M-open_instruct
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: Winogrande (5-shot)
+      type: winogrande
+      config: winogrande_xl
+      split: validation
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 50.28
+      name: accuracy
+    source:
+      url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=BEE-spoke-data/smol_llama-220M-open_instruct
+      name: Open LLM Leaderboard
+  - task:
+      type: text-generation
+      name: Text Generation
+    dataset:
+      name: GSM8k (5-shot)
+      type: gsm8k
+      config: main
+      split: test
+      args:
+        num_few_shot: 5
+    metrics:
+    - type: acc
+      value: 0.0
+      name: accuracy
+    source:
+      url: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard?query=BEE-spoke-data/smol_llama-220M-open_instruct
+      name: Open LLM Leaderboard
+---
+# BEE-spoke-data/smol_llama-220M-open_instruct
+> Please note that this is an experiment, and the model has limitations because it is smol.
+prompt format is alpaca.
+```
+Below is an instruction that describes a task, paired with an input that
+provides further context. Write a response that appropriately completes
+the request.
+### Instruction:
+How can I increase my meme production/output? Currently, I only create them in ancient babylonian which is time consuming.
+### Response:
+```
+This was **not** trained using a separate 'inputs' field (as `VMware/open-instruct` doesn't use one).
+## Example
+Output on the text above ^. The inference API is set to sample with low temp so you should see (_at least slightly_) different generations each time.
+![image/png](https://cdn-uploads.huggingface.co/production/uploads/60bccec062080d33f875cd0c/MdOB7TD5UosPGZvdZWG0I.png)
+Note that the inference API parameters used here are an initial educated guess, and may be updated over time:
+```yml
+inference:
+  parameters:
+    do_sample: true
+    renormalize_logits: true
+    temperature: 0.25
+    top_p: 0.95
+    top_k: 50
+    min_new_tokens: 2
+    max_new_tokens: 96
+    repetition_penalty: 1.04
+    no_repeat_ngram_size: 6
+    epsilon_cutoff: 0.0006
+```
+Feel free to experiment with the parameters using the model in Python and let us know if you have improved results with other params!
+## Data
+This was trained on `VMware/open-instruct` so do whatever you want, provided it falls under the base apache-2.0 license :)
+---
+# [Open LLM Leaderboard Evaluation Results](https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard)
+Detailed results can be found [here](https://huggingface.co/datasets/open-llm-leaderboard/details_BEE-spoke-data__smol_llama-220M-open_instruct)
+|             Metric              |Value|
+|---------------------------------|----:|
+|Avg.                             |29.19|
+|AI2 Reasoning Challenge (25-Shot)|25.00|
+|HellaSwag (10-Shot)              |29.71|
+|MMLU (5-Shot)                    |26.11|
+|TruthfulQA (0-shot)              |44.06|
+|Winogrande (5-shot)              |50.28|
+|GSM8k (5-shot)                   | 0.00|

checkpoint-1332/config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "BEE-spoke-data/smol_llama-220M-GQA",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 10,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.36.2",
+  "use_cache": false,
+  "vocab_size": 32128
+}

checkpoint-1332/generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.36.2",
+  "use_cache": false
+}

checkpoint-1332/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:001f96db3db5fef52d8d4f32549dab7821146f27a4a9c557e162ec543c63ef99
+size 435736840

checkpoint-1332/trainer_state.json ADDED Viewed

	@@ -0,0 +1,907 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.7867298578199051,
+  "eval_steps": 123,
+  "global_step": 1332,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "eval_loss": 2.6729655265808105,
+      "eval_runtime": 1.2923,
+      "eval_samples_per_second": 1104.214,
+      "eval_steps_per_second": 138.51,
+      "step": 1
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 1.0344827586206898e-05,
+      "loss": 2.4503,
+      "step": 10
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 2.0689655172413797e-05,
+      "loss": 2.1075,
+      "step": 20
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 3.103448275862069e-05,
+      "loss": 1.846,
+      "step": 30
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 4.137931034482759e-05,
+      "loss": 1.7096,
+      "step": 40
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.172413793103448e-05,
+      "loss": 1.62,
+      "step": 50
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 5.9999705491506956e-05,
+      "loss": 1.5077,
+      "step": 60
+    },
+    {
+      "epoch": 0.09,
+      "learning_rate": 5.998939830138442e-05,
+      "loss": 1.5523,
+      "step": 70
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 5.996437146844947e-05,
+      "loss": 1.497,
+      "step": 80
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 5.9924637276577847e-05,
+      "loss": 1.4915,
+      "step": 90
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 5.987021522843196e-05,
+      "loss": 1.4696,
+      "step": 100
+    },
+    {
+      "epoch": 0.15,
+      "learning_rate": 5.9801132035888535e-05,
+      "loss": 1.4571,
+      "step": 110
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 5.971742160692758e-05,
+      "loss": 1.467,
+      "step": 120
+    },
+    {
+      "epoch": 0.17,
+      "eval_loss": 1.0446314811706543,
+      "eval_runtime": 1.2693,
+      "eval_samples_per_second": 1124.217,
+      "eval_steps_per_second": 141.019,
+      "step": 123
+    },
+    {
+      "epoch": 0.18,
+      "learning_rate": 5.9619125028989474e-05,
+      "loss": 1.4675,
+      "step": 130
+    },
+    {
+      "epoch": 0.19,
+      "learning_rate": 5.9506290548808e-05,
+      "loss": 1.4741,
+      "step": 140
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 5.937897354872957e-05,
+      "loss": 1.4539,
+      "step": 150
+    },
+    {
+      "epoch": 0.22,
+      "learning_rate": 5.923723651952998e-05,
+      "loss": 1.4204,
+      "step": 160
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 5.9081149029742125e-05,
+      "loss": 1.5041,
+      "step": 170
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 5.89107876915099e-05,
+      "loss": 1.4168,
+      "step": 180
+    },
+    {
+      "epoch": 0.26,
+      "learning_rate": 5.8726236122984704e-05,
+      "loss": 1.4291,
+      "step": 190
+    },
+    {
+      "epoch": 0.27,
+      "learning_rate": 5.852758490728334e-05,
+      "loss": 1.4508,
+      "step": 200
+    },
+    {
+      "epoch": 0.28,
+      "learning_rate": 5.831493154802725e-05,
+      "loss": 1.3973,
+      "step": 210
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 5.808838042148501e-05,
+      "loss": 1.4332,
+      "step": 220
+    },
+    {
+      "epoch": 0.31,
+      "learning_rate": 5.784804272534145e-05,
+      "loss": 1.4276,
+      "step": 230
+    },
+    {
+      "epoch": 0.32,
+      "learning_rate": 5.75940364241188e-05,
+      "loss": 1.4506,
+      "step": 240
+    },
+    {
+      "epoch": 0.33,
+      "eval_loss": 0.9973111748695374,
+      "eval_runtime": 1.2436,
+      "eval_samples_per_second": 1147.474,
+      "eval_steps_per_second": 143.937,
+      "step": 246
+    },
+    {
+      "epoch": 0.34,
+      "learning_rate": 5.732648619127626e-05,
+      "loss": 1.4542,
+      "step": 250
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 5.704552334801682e-05,
+      "loss": 1.3958,
+      "step": 260
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 5.6751285798831086e-05,
+      "loss": 1.4643,
+      "step": 270
+    },
+    {
+      "epoch": 0.38,
+      "learning_rate": 5.644391796380987e-05,
+      "loss": 1.4258,
+      "step": 280
+    },
+    {
+      "epoch": 0.39,
+      "learning_rate": 5.6123570707758725e-05,
+      "loss": 1.3974,
+      "step": 290
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 5.579040126614927e-05,
+      "loss": 1.4072,
+      "step": 300
+    },
+    {
+      "epoch": 0.42,
+      "learning_rate": 5.544457316794353e-05,
+      "loss": 1.4257,
+      "step": 310
+    },
+    {
+      "epoch": 0.43,
+      "learning_rate": 5.508625615532936e-05,
+      "loss": 1.4207,
+      "step": 320
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 5.471562610040617e-05,
+      "loss": 1.4272,
+      "step": 330
+    },
+    {
+      "epoch": 0.46,
+      "learning_rate": 5.433286491886194e-05,
+      "loss": 1.3961,
+      "step": 340
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 5.393816048068387e-05,
+      "loss": 1.4054,
+      "step": 350
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 5.353170651794646e-05,
+      "loss": 1.3896,
+      "step": 360
+    },
+    {
+      "epoch": 0.5,
+      "eval_loss": 0.9749273061752319,
+      "eval_runtime": 1.2381,
+      "eval_samples_per_second": 1152.551,
+      "eval_steps_per_second": 144.574,
+      "step": 369
+    },
+    {
+      "epoch": 0.5,
+      "learning_rate": 5.3113702529722396e-05,
+      "loss": 1.3848,
+      "step": 370
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 5.268435368416274e-05,
+      "loss": 1.4035,
+      "step": 380
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 5.224387071779459e-05,
+      "loss": 1.3908,
+      "step": 390
+    },
+    {
+      "epoch": 0.54,
+      "learning_rate": 5.179246983208574e-05,
+      "loss": 1.4346,
+      "step": 400
+    },
+    {
+      "epoch": 0.56,
+      "learning_rate": 5.133037258732677e-05,
+      "loss": 1.3691,
+      "step": 410
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 5.0857805793883114e-05,
+      "loss": 1.4064,
+      "step": 420
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 5.037500140087006e-05,
+      "loss": 1.4202,
+      "step": 430
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 4.988219638230564e-05,
+      "loss": 1.3841,
+      "step": 440
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 4.937963262079706e-05,
+      "loss": 1.4063,
+      "step": 450
+    },
+    {
+      "epoch": 0.62,
+      "learning_rate": 4.886755678881786e-05,
+      "loss": 1.3588,
+      "step": 460
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 4.83462202276342e-05,
+      "loss": 1.4261,
+      "step": 470
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 4.781587882393937e-05,
+      "loss": 1.3587,
+      "step": 480
+    },
+    {
+      "epoch": 0.66,
+      "learning_rate": 4.727679288425746e-05,
+      "loss": 1.3725,
+      "step": 490
+    },
+    {
+      "epoch": 0.67,
+      "eval_loss": 0.9633959531784058,
+      "eval_runtime": 1.2455,
+      "eval_samples_per_second": 1145.725,
+      "eval_steps_per_second": 143.717,
+      "step": 492
+    },
+    {
+      "epoch": 0.68,
+      "learning_rate": 4.672922700717753e-05,
+      "loss": 1.387,
+      "step": 500
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 4.617344995348116e-05,
+      "loss": 1.4212,
+      "step": 510
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 4.56097345142271e-05,
+      "loss": 1.3582,
+      "step": 520
+    },
+    {
+      "epoch": 0.72,
+      "learning_rate": 4.5038357376857706e-05,
+      "loss": 1.3673,
+      "step": 530
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 4.445959898939291e-05,
+      "loss": 1.3926,
+      "step": 540
+    },
+    {
+      "epoch": 0.74,
+      "learning_rate": 4.38737434227785e-05,
+      "loss": 1.3984,
+      "step": 550
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 4.328107823145599e-05,
+      "loss": 1.3786,
+      "step": 560
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 4.2681894312222835e-05,
+      "loss": 1.3879,
+      "step": 570
+    },
+    {
+      "epoch": 0.79,
+      "learning_rate": 4.2076485761452074e-05,
+      "loss": 1.3952,
+      "step": 580
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 4.146514973074152e-05,
+      "loss": 1.3746,
+      "step": 590
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 4.084818628106341e-05,
+      "loss": 1.3788,
+      "step": 600
+    },
+    {
+      "epoch": 0.83,
+      "learning_rate": 4.022589823548594e-05,
+      "loss": 1.3901,
+      "step": 610
+    },
+    {
+      "epoch": 0.83,
+      "eval_loss": 0.9544292688369751,
+      "eval_runtime": 1.2361,
+      "eval_samples_per_second": 1154.443,
+      "eval_steps_per_second": 144.811,
+      "step": 615
+    },
+    {
+      "epoch": 0.84,
+      "learning_rate": 3.959859103053922e-05,
+      "loss": 1.3985,
+      "step": 620
+    },
+    {
+      "epoch": 0.85,
+      "learning_rate": 3.8966572566298416e-05,
+      "loss": 1.3521,
+      "step": 630
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 3.833015305525763e-05,
+      "loss": 1.3964,
+      "step": 640
+    },
+    {
+      "epoch": 0.88,
+      "learning_rate": 3.7689644870068936e-05,
+      "loss": 1.353,
+      "step": 650
+    },
+    {
+      "epoch": 0.89,
+      "learning_rate": 3.704536239022104e-05,
+      "loss": 1.374,
+      "step": 660
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 3.639762184773295e-05,
+      "loss": 1.3879,
+      "step": 670
+    },
+    {
+      "epoch": 0.92,
+      "learning_rate": 3.5746741171938384e-05,
+      "loss": 1.3619,
+      "step": 680
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 3.509303983343707e-05,
+      "loss": 1.3933,
+      "step": 690
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.4436838687289594e-05,
+      "loss": 1.4074,
+      "step": 700
+    },
+    {
+      "epoch": 0.96,
+      "learning_rate": 3.3778459815532676e-05,
+      "loss": 1.3754,
+      "step": 710
+    },
+    {
+      "epoch": 0.97,
+      "learning_rate": 3.3118226369092156e-05,
+      "loss": 1.3612,
+      "step": 720
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 3.2456462409171516e-05,
+      "loss": 1.3759,
+      "step": 730
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.9486423134803772,
+      "eval_runtime": 1.2367,
+      "eval_samples_per_second": 1153.891,
+      "eval_steps_per_second": 144.742,
+      "step": 738
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3.1793492748193396e-05,
+      "loss": 1.3409,
+      "step": 740
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 3.1129642790372544e-05,
+      "loss": 1.3312,
+      "step": 750
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 3.0465238371998244e-05,
+      "loss": 1.3471,
+      "step": 760
+    },
+    {
+      "epoch": 1.03,
+      "learning_rate": 2.9800605601504653e-05,
+      "loss": 1.3114,
+      "step": 770
+    },
+    {
+      "epoch": 1.04,
+      "learning_rate": 2.913607069940759e-05,
+      "loss": 1.3057,
+      "step": 780
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 2.8471959838186304e-05,
+      "loss": 1.3084,
+      "step": 790
+    },
+    {
+      "epoch": 1.07,
+      "learning_rate": 2.7808598982188836e-05,
+      "loss": 1.3462,
+      "step": 800
+    },
+    {
+      "epoch": 1.08,
+      "learning_rate": 2.7146313727639476e-05,
+      "loss": 1.3102,
+      "step": 810
+    },
+    {
+      "epoch": 1.09,
+      "learning_rate": 2.6485429142826975e-05,
+      "loss": 1.3643,
+      "step": 820
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 2.582626960855189e-05,
+      "loss": 1.289,
+      "step": 830
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.5169158658911295e-05,
+      "loss": 1.3365,
+      "step": 840
+    },
+    {
+      "epoch": 1.13,
+      "learning_rate": 2.4514418822499098e-05,
+      "loss": 1.321,
+      "step": 850
+    },
+    {
+      "epoch": 1.15,
+      "learning_rate": 2.386237146409995e-05,
+      "loss": 1.2995,
+      "step": 860
+    },
+    {
+      "epoch": 1.15,
+      "eval_loss": 0.9462347030639648,
+      "eval_runtime": 1.2314,
+      "eval_samples_per_second": 1158.882,
+      "eval_steps_per_second": 145.368,
+      "step": 861
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 2.3213336626954345e-05,
+      "loss": 1.2977,
+      "step": 870
+    },
+    {
+      "epoch": 1.17,
+      "learning_rate": 2.256763287567233e-05,
+      "loss": 1.3168,
+      "step": 880
+    },
+    {
+      "epoch": 1.19,
+      "learning_rate": 2.1925577139873016e-05,
+      "loss": 1.3419,
+      "step": 890
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 2.1287484558626633e-05,
+      "loss": 1.3265,
+      "step": 900
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 2.0653668325775296e-05,
+      "loss": 1.3237,
+      "step": 910
+    },
+    {
+      "epoch": 1.23,
+      "learning_rate": 2.0024439536208675e-05,
+      "loss": 1.3329,
+      "step": 920
+    },
+    {
+      "epoch": 1.24,
+      "learning_rate": 1.9400107033169888e-05,
+      "loss": 1.3135,
+      "step": 930
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.8780977256666445e-05,
+      "loss": 1.3386,
+      "step": 940
+    },
+    {
+      "epoch": 1.27,
+      "learning_rate": 1.816735409306088e-05,
+      "loss": 1.3674,
+      "step": 950
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 1.7559538725914758e-05,
+      "loss": 1.3275,
+      "step": 960
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.6957829488159292e-05,
+      "loss": 1.3255,
+      "step": 970
+    },
+    {
+      "epoch": 1.31,
+      "learning_rate": 1.6362521715665102e-05,
+      "loss": 1.2892,
+      "step": 980
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.9443601369857788,
+      "eval_runtime": 1.2319,
+      "eval_samples_per_second": 1158.341,
+      "eval_steps_per_second": 145.3,
+      "step": 984
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 1.5773907602283046e-05,
+      "loss": 1.3093,
+      "step": 990
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.519227605642722e-05,
+      "loss": 1.3147,
+      "step": 1000
+    },
+    {
+      "epoch": 1.35,
+      "learning_rate": 1.4617912559270592e-05,
+      "loss": 1.344,
+      "step": 1010
+    },
+    {
+      "epoch": 1.36,
+      "learning_rate": 1.405109902462276e-05,
+      "loss": 1.3422,
+      "step": 1020
+    },
+    {
+      "epoch": 1.38,
+      "learning_rate": 1.3492113660558688e-05,
+      "loss": 1.3541,
+      "step": 1030
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.2941230832866392e-05,
+      "loss": 1.3398,
+      "step": 1040
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 1.2398720930380388e-05,
+      "loss": 1.3489,
+      "step": 1050
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 1.1864850232267304e-05,
+      "loss": 1.283,
+      "step": 1060
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.1339880777328485e-05,
+      "loss": 1.3491,
+      "step": 1070
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 1.082407023538399e-05,
+      "loss": 1.3233,
+      "step": 1080
+    },
+    {
+      "epoch": 1.46,
+      "learning_rate": 1.0317671780800976e-05,
+      "loss": 1.3312,
+      "step": 1090
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 9.82093396822857e-06,
+      "loss": 1.3213,
+      "step": 1100
+    },
+    {
+      "epoch": 1.48,
+      "eval_loss": 0.9438613653182983,
+      "eval_runtime": 1.2333,
+      "eval_samples_per_second": 1157.029,
+      "eval_steps_per_second": 145.135,
+      "step": 1107
+    },
+    {
+      "epoch": 1.49,
+      "learning_rate": 9.334100610600213e-06,
+      "loss": 1.3387,
+      "step": 1110
+    },
+    {
+      "epoch": 1.5,
+      "learning_rate": 8.857410659463456e-06,
+      "loss": 1.3257,
+      "step": 1120
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 8.391098087695704e-06,
+      "loss": 1.3256,
+      "step": 1130
+    },
+    {
+      "epoch": 1.53,
+      "learning_rate": 7.935391774663827e-06,
+      "loss": 1.3479,
+      "step": 1140
+    },
+    {
+      "epoch": 1.54,
+      "learning_rate": 7.490515393883629e-06,
+      "loss": 1.3397,
+      "step": 1150
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 7.0566873032346145e-06,
+      "loss": 1.3145,
+      "step": 1160
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 6.634120437783775e-06,
+      "loss": 1.3372,
+      "step": 1170
+    },
+    {
+      "epoch": 1.58,
+      "learning_rate": 6.22302220527104e-06,
+      "loss": 1.3226,
+      "step": 1180
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 5.823594384307744e-06,
+      "loss": 1.3637,
+      "step": 1190
+    },
+    {
+      "epoch": 1.61,
+      "learning_rate": 5.436033025337929e-06,
+      "loss": 1.3552,
+      "step": 1200
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 5.060528354411302e-06,
+      "loss": 1.3379,
+      "step": 1210
+    },
+    {
+      "epoch": 1.64,
+      "learning_rate": 4.697264679814908e-06,
+      "loss": 1.3679,
+      "step": 1220
+    },
+    {
+      "epoch": 1.65,
+      "learning_rate": 4.346420301609418e-06,
+      "loss": 1.3233,
+      "step": 1230
+    },
+    {
+      "epoch": 1.65,
+      "eval_loss": 0.9434655904769897,
+      "eval_runtime": 1.2359,
+      "eval_samples_per_second": 1154.599,
+      "eval_steps_per_second": 144.831,
+      "step": 1230
+    },
+    {
+      "epoch": 1.66,
+      "learning_rate": 4.008167424114447e-06,
+      "loss": 1.3575,
+      "step": 1240
+    },
+    {
+      "epoch": 1.68,
+      "learning_rate": 3.682672071385791e-06,
+      "loss": 1.3296,
+      "step": 1250
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 3.3700940057261587e-06,
+      "loss": 1.3691,
+      "step": 1260
+    },
+    {
+      "epoch": 1.7,
+      "learning_rate": 3.070586649269298e-06,
+      "loss": 1.3525,
+      "step": 1270
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.78429700867612e-06,
+      "loss": 1.3283,
+      "step": 1280
+    },
+    {
+      "epoch": 1.73,
+      "learning_rate": 2.5113656029796437e-06,
+      "loss": 1.3397,
+      "step": 1290
+    },
+    {
+      "epoch": 1.74,
+      "learning_rate": 2.251926394614322e-06,
+      "loss": 1.3354,
+      "step": 1300
+    },
+    {
+      "epoch": 1.76,
+      "learning_rate": 2.0061067236634823e-06,
+      "loss": 1.3426,
+      "step": 1310
+    },
+    {
+      "epoch": 1.77,
+      "learning_rate": 1.7740272453572314e-06,
+      "loss": 1.364,
+      "step": 1320
+    },
+    {
+      "epoch": 1.78,
+      "learning_rate": 1.5558018708514477e-06,
+      "loss": 1.3184,
+      "step": 1330
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 1476,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 148,
+  "total_flos": 4.787173841489101e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1332/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f54d8a906435914ee535a2296ab2ef41450bd0c8f54cf4b7c8bdee39996977b
+size 5304

config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "_name_or_path": "BEE-spoke-data/smol_llama-220M-GQA",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "hidden_act": "silu",
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "max_position_embeddings": 2048,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 10,
+  "num_key_value_heads": 8,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.36.2",
+  "use_cache": false,
+  "vocab_size": 32128
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.36.2",
+  "use_cache": false
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:abe96487e317580862d6d466598183789a4837af487f2984876841774b885e4b
+size 435736840

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,44 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "</s>",
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "</s>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "trust_remote_code": false,
+  "unk_token": "<unk>",
+  "use_default_system_prompt": true,
+  "use_fast": true
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f54d8a906435914ee535a2296ab2ef41450bd0c8f54cf4b7c8bdee39996977b
+size 5304