Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +21 -0
adapter_config.json +21 -0
adapter_model.bin +3 -0
special_tokens_map.json +24 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +32 -0
train_args.json +123 -0
training_args.bin +3 -0
training_logs.json +1067 -0

README.md ADDED Viewed

	@@ -0,0 +1,21 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- quant_method: bitsandbytes
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: float16
+### Framework versions
+- PEFT 0.5.0

adapter_config.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "models/llama-30b",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16,
+  "lora_dropout": 0.0,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "SEQ_CLS"
+}

adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b6bd84e7f15e95593e083a99751b7d84da632694311e1684b23f16db3b5528d
+size 409081617

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9e556afd44213b6bd1be2b850ebbbd98f5481437a8021afaf58ee7fb1818d347
+size 499723

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,32 @@

+{
+  "bos_token": {
+    "__type": "AddedToken",
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "clean_up_tokenization_spaces": false,
+  "eos_token": {
+    "__type": "AddedToken",
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "model_max_length": 2048,
+  "pad_token": null,
+  "sp_model_kwargs": {},
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": {
+    "__type": "AddedToken",
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  },
+  "use_default_system_prompt": true
+}

train_args.json ADDED Viewed

	@@ -0,0 +1,123 @@

+{
+    "initial_model_dir": "models/llama-30b",
+    "distribution_id": "code_hard",
+    "date_trained": "11/10/2023 11:46:13",
+    "output_dir": "models/classify_lora/llama-30b-code_hard",
+    "overwrite_output_dir": false,
+    "do_train": false,
+    "do_eval": true,
+    "do_predict": false,
+    "evaluation_strategy": "steps",
+    "prediction_loss_only": false,
+    "per_device_train_batch_size": 8,
+    "per_device_eval_batch_size": 8,
+    "per_gpu_train_batch_size": null,
+    "per_gpu_eval_batch_size": null,
+    "gradient_accumulation_steps": 1,
+    "eval_accumulation_steps": null,
+    "eval_delay": 0,
+    "learning_rate": 0.0002,
+    "weight_decay": 0.0,
+    "adam_beta1": 0.9,
+    "adam_beta2": 0.999,
+    "adam_epsilon": 1e-08,
+    "max_grad_norm": 0.3,
+    "num_train_epochs": 2,
+    "max_steps": 100,
+    "lr_scheduler_type": "constant",
+    "warmup_ratio": 0.03,
+    "warmup_steps": 0,
+    "log_level": "passive",
+    "log_level_replica": "warning",
+    "log_on_each_node": true,
+    "logging_dir": "models/classify_lora/llama-30b-code_hard/runs/Oct11_08-25-27_compute-permanent-node-975",
+    "logging_strategy": "steps",
+    "logging_first_step": false,
+    "logging_steps": 1,
+    "logging_nan_inf_filter": true,
+    "save_strategy": "steps",
+    "save_steps": 25,
+    "save_total_limit": 0,
+    "save_safetensors": false,
+    "save_on_each_node": false,
+    "no_cuda": false,
+    "use_cpu": false,
+    "use_mps_device": false,
+    "seed": 42,
+    "data_seed": null,
+    "jit_mode_eval": false,
+    "use_ipex": false,
+    "bf16": false,
+    "fp16": false,
+    "fp16_opt_level": "O1",
+    "half_precision_backend": "auto",
+    "bf16_full_eval": false,
+    "fp16_full_eval": false,
+    "tf32": null,
+    "local_rank": 2,
+    "ddp_backend": null,
+    "tpu_num_cores": null,
+    "tpu_metrics_debug": false,
+    "debug": [],
+    "dataloader_drop_last": false,
+    "eval_steps": 25,
+    "dataloader_num_workers": 0,
+    "past_index": -1,
+    "run_name": "train|models-classify_lora-llama-30b-code_hard",
+    "disable_tqdm": false,
+    "remove_unused_columns": false,
+    "label_names": null,
+    "load_best_model_at_end": false,
+    "metric_for_best_model": "eval_code_hard_score",
+    "greater_is_better": true,
+    "ignore_data_skip": false,
+    "sharded_ddp": [],
+    "fsdp": [],
+    "fsdp_min_num_params": 0,
+    "fsdp_config": {
+        "min_num_params": 0,
+        "xla": false,
+        "xla_fsdp_grad_ckpt": false
+    },
+    "fsdp_transformer_layer_cls_to_wrap": null,
+    "deepspeed": "configs/ds_zero_1.json",
+    "label_smoothing_factor": 0.0,
+    "optim": "paged_adamw_32bit",
+    "optim_args": null,
+    "adafactor": false,
+    "group_by_length": false,
+    "length_column_name": "length",
+    "report_to": [
+        "wandb"
+    ],
+    "ddp_find_unused_parameters": false,
+    "ddp_bucket_cap_mb": null,
+    "ddp_broadcast_buffers": null,
+    "dataloader_pin_memory": true,
+    "skip_memory_metrics": true,
+    "use_legacy_prediction_loop": false,
+    "push_to_hub": false,
+    "resume_from_checkpoint": null,
+    "hub_model_id": null,
+    "hub_strategy": "every_save",
+    "hub_token": null,
+    "hub_private_repo": false,
+    "hub_always_push": false,
+    "gradient_checkpointing": false,
+    "include_inputs_for_metrics": false,
+    "fp16_backend": "auto",
+    "push_to_hub_model_id": null,
+    "push_to_hub_organization": null,
+    "push_to_hub_token": null,
+    "_n_gpu": 1,
+    "mp_parameters": "",
+    "auto_find_batch_size": false,
+    "full_determinism": false,
+    "torchdynamo": null,
+    "ray_scope": "last",
+    "ddp_timeout": 1800,
+    "torch_compile": false,
+    "torch_compile_backend": null,
+    "torch_compile_mode": null,
+    "dispatch_batches": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:13ff15e8442ca298720e5bc9114f5c2aed778ffc82d39477f5ba867feaf2d8ee
+size 5115

training_logs.json ADDED Viewed

	@@ -0,0 +1,1067 @@

+[
+    {
+        "loss": 0.7451,
+        "learning_rate": 0.0002,
+        "epoch": 0.02,
+        "step": 1
+    },
+    {
+        "loss": 0.7931,
+        "learning_rate": 0.0002,
+        "epoch": 0.04,
+        "step": 2
+    },
+    {
+        "loss": 0.7147,
+        "learning_rate": 0.0002,
+        "epoch": 0.05,
+        "step": 3
+    },
+    {
+        "loss": 0.6208,
+        "learning_rate": 0.0002,
+        "epoch": 0.07,
+        "step": 4
+    },
+    {
+        "loss": 0.6318,
+        "learning_rate": 0.0002,
+        "epoch": 0.09,
+        "step": 5
+    },
+    {
+        "loss": 0.5347,
+        "learning_rate": 0.0002,
+        "epoch": 0.11,
+        "step": 6
+    },
+    {
+        "loss": 0.5445,
+        "learning_rate": 0.0002,
+        "epoch": 0.12,
+        "step": 7
+    },
+    {
+        "loss": 0.5323,
+        "learning_rate": 0.0002,
+        "epoch": 0.14,
+        "step": 8
+    },
+    {
+        "loss": 0.5599,
+        "learning_rate": 0.0002,
+        "epoch": 0.16,
+        "step": 9
+    },
+    {
+        "loss": 0.544,
+        "learning_rate": 0.0002,
+        "epoch": 0.18,
+        "step": 10
+    },
+    {
+        "loss": 0.495,
+        "learning_rate": 0.0002,
+        "epoch": 0.19,
+        "step": 11
+    },
+    {
+        "loss": 0.4648,
+        "learning_rate": 0.0002,
+        "epoch": 0.21,
+        "step": 12
+    },
+    {
+        "loss": 0.5144,
+        "learning_rate": 0.0002,
+        "epoch": 0.23,
+        "step": 13
+    },
+    {
+        "loss": 0.3049,
+        "learning_rate": 0.0002,
+        "epoch": 0.25,
+        "step": 14
+    },
+    {
+        "loss": 0.2755,
+        "learning_rate": 0.0002,
+        "epoch": 0.26,
+        "step": 15
+    },
+    {
+        "loss": 0.3953,
+        "learning_rate": 0.0002,
+        "epoch": 0.28,
+        "step": 16
+    },
+    {
+        "loss": 0.293,
+        "learning_rate": 0.0002,
+        "epoch": 0.3,
+        "step": 17
+    },
+    {
+        "loss": 0.3035,
+        "learning_rate": 0.0002,
+        "epoch": 0.32,
+        "step": 18
+    },
+    {
+        "loss": 0.2193,
+        "learning_rate": 0.0002,
+        "epoch": 0.33,
+        "step": 19
+    },
+    {
+        "loss": 0.306,
+        "learning_rate": 0.0002,
+        "epoch": 0.35,
+        "step": 20
+    },
+    {
+        "loss": 0.3844,
+        "learning_rate": 0.0002,
+        "epoch": 0.37,
+        "step": 21
+    },
+    {
+        "loss": 0.4754,
+        "learning_rate": 0.0002,
+        "epoch": 0.39,
+        "step": 22
+    },
+    {
+        "loss": 0.247,
+        "learning_rate": 0.0002,
+        "epoch": 0.4,
+        "step": 23
+    },
+    {
+        "loss": 0.2831,
+        "learning_rate": 0.0002,
+        "epoch": 0.42,
+        "step": 24
+    },
+    {
+        "loss": 0.2395,
+        "learning_rate": 0.0002,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "eval_code_hard_loss": 0.18990269303321838,
+        "eval_code_hard_score": -0.06281973421573639,
+        "eval_code_hard_brier_score": 0.06281973421573639,
+        "eval_code_hard_average_probability": 0.8535524010658264,
+        "eval_code_hard_accuracy": 0.91,
+        "eval_code_hard_probabilities": [
+            0.9951574206352234,
+            0.6952859163284302,
+            0.695438027381897,
+            1.0,
+            0.9999997615814209,
+            0.9999988079071045,
+            1.0,
+            0.9999998807907104,
+            0.9999998807907104,
+            0.9022552371025085,
+            0.9998458623886108,
+            0.9992383718490601,
+            1.0,
+            1.0,
+            1.0,
+            0.9705260396003723,
+            0.9934076070785522,
+            0.9893102645874023,
+            0.9892656803131104,
+            1.0,
+            1.0,
+            1.0,
+            0.9999995231628418,
+            0.9999997615814209,
+            0.999992847442627,
+            0.9999940395355225,
+            0.9999849796295166,
+            0.9993022680282593,
+            0.9998225569725037,
+            0.9997448325157166,
+            0.5516940355300903,
+            0.6634960770606995,
+            0.5038003325462341,
+            0.9990589022636414,
+            0.9990129470825195,
+            0.9992672801017761,
+            0.9999462366104126,
+            0.9998952150344849,
+            0.9999340772628784,
+            0.9476701021194458,
+            0.9273682832717896,
+            0.9702255725860596,
+            0.9999784231185913,
+            0.9999960660934448,
+            0.999988317489624,
+            0.6653634309768677,
+            0.4677712023258209,
+            0.5697581768035889,
+            0.8528237342834473,
+            0.8113780617713928,
+            0.7631744742393494,
+            0.4795503616333008,
+            0.4501705467700958,
+            0.45226800441741943,
+            0.9999998807907104,
+            0.9999998807907104,
+            1.0,
+            0.5940175652503967,
+            0.5912690162658691,
+            0.5215416550636292,
+            1.0,
+            1.0,
+            1.0,
+            0.5378963351249695,
+            0.4695456922054291,
+            0.8803982734680176,
+            0.9970523118972778,
+            0.9994822144508362,
+            0.9994255304336548,
+            0.7984318733215332,
+            0.6354186534881592,
+            0.8742010593414307,
+            0.9999979734420776,
+            0.9999983310699463,
+            0.999997615814209,
+            0.9906328916549683,
+            0.9663383364677429,
+            0.9692559838294983,
+            0.46825510263442993,
+            0.6134918928146362,
+            0.5529954433441162,
+            0.6660357713699341,
+            0.9829654097557068,
+            0.47695887088775635,
+            0.9999682903289795,
+            0.9999746084213257,
+            0.5424057841300964,
+            0.518418550491333,
+            0.4060291051864624,
+            0.5124395489692688,
+            0.9932987689971924,
+            0.9838415384292603,
+            0.975809633731842,
+            0.9949588179588318,
+            0.9947303533554077,
+            0.9956455230712891,
+            0.6032052636146545,
+            0.830151379108429,
+            0.38333284854888916,
+            0.7332690954208374
+        ],
+        "eval_code_hard_runtime": 140.0539,
+        "eval_code_hard_samples_per_second": 0.714,
+        "eval_code_hard_steps_per_second": 0.029,
+        "epoch": 0.44,
+        "step": 25
+    },
+    {
+        "loss": 0.217,
+        "learning_rate": 0.0002,
+        "epoch": 0.46,
+        "step": 26
+    },
+    {
+        "loss": 0.2851,
+        "learning_rate": 0.0002,
+        "epoch": 0.47,
+        "step": 27
+    },
+    {
+        "loss": 0.2988,
+        "learning_rate": 0.0002,
+        "epoch": 0.49,
+        "step": 28
+    },
+    {
+        "loss": 0.1119,
+        "learning_rate": 0.0002,
+        "epoch": 0.51,
+        "step": 29
+    },
+    {
+        "loss": 0.1369,
+        "learning_rate": 0.0002,
+        "epoch": 0.53,
+        "step": 30
+    },
+    {
+        "loss": 0.2311,
+        "learning_rate": 0.0002,
+        "epoch": 0.54,
+        "step": 31
+    },
+    {
+        "loss": 0.2201,
+        "learning_rate": 0.0002,
+        "epoch": 0.56,
+        "step": 32
+    },
+    {
+        "loss": 0.1824,
+        "learning_rate": 0.0002,
+        "epoch": 0.58,
+        "step": 33
+    },
+    {
+        "loss": 0.1181,
+        "learning_rate": 0.0002,
+        "epoch": 0.6,
+        "step": 34
+    },
+    {
+        "loss": 0.0781,
+        "learning_rate": 0.0002,
+        "epoch": 0.61,
+        "step": 35
+    },
+    {
+        "loss": 0.1475,
+        "learning_rate": 0.0002,
+        "epoch": 0.63,
+        "step": 36
+    },
+    {
+        "loss": 0.198,
+        "learning_rate": 0.0002,
+        "epoch": 0.65,
+        "step": 37
+    },
+    {
+        "loss": 0.1074,
+        "learning_rate": 0.0002,
+        "epoch": 0.67,
+        "step": 38
+    },
+    {
+        "loss": 0.3816,
+        "learning_rate": 0.0002,
+        "epoch": 0.68,
+        "step": 39
+    },
+    {
+        "loss": 0.2657,
+        "learning_rate": 0.0002,
+        "epoch": 0.7,
+        "step": 40
+    },
+    {
+        "loss": 0.1525,
+        "learning_rate": 0.0002,
+        "epoch": 0.72,
+        "step": 41
+    },
+    {
+        "loss": 0.1426,
+        "learning_rate": 0.0002,
+        "epoch": 0.74,
+        "step": 42
+    },
+    {
+        "loss": 0.1578,
+        "learning_rate": 0.0002,
+        "epoch": 0.75,
+        "step": 43
+    },
+    {
+        "loss": 0.1234,
+        "learning_rate": 0.0002,
+        "epoch": 0.77,
+        "step": 44
+    },
+    {
+        "loss": 0.1591,
+        "learning_rate": 0.0002,
+        "epoch": 0.79,
+        "step": 45
+    },
+    {
+        "loss": 0.0388,
+        "learning_rate": 0.0002,
+        "epoch": 0.81,
+        "step": 46
+    },
+    {
+        "loss": 0.1186,
+        "learning_rate": 0.0002,
+        "epoch": 0.82,
+        "step": 47
+    },
+    {
+        "loss": 0.2242,
+        "learning_rate": 0.0002,
+        "epoch": 0.84,
+        "step": 48
+    },
+    {
+        "loss": 0.2245,
+        "learning_rate": 0.0002,
+        "epoch": 0.86,
+        "step": 49
+    },
+    {
+        "loss": 0.0825,
+        "learning_rate": 0.0002,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "eval_code_hard_loss": 0.1537313610315323,
+        "eval_code_hard_score": -0.04667011648416519,
+        "eval_code_hard_brier_score": 0.04667011648416519,
+        "eval_code_hard_average_probability": 0.8784838318824768,
+        "eval_code_hard_accuracy": 0.94,
+        "eval_code_hard_probabilities": [
+            0.9725497364997864,
+            0.7011394500732422,
+            0.6710378527641296,
+            1.0,
+            1.0,
+            1.0,
+            0.9999716281890869,
+            0.9999884366989136,
+            0.999969482421875,
+            0.48456111550331116,
+            0.9981953501701355,
+            0.9864223003387451,
+            1.0,
+            1.0,
+            1.0,
+            0.9983637928962708,
+            0.9989921450614929,
+            0.9978587031364441,
+            1.0,
+            1.0,
+            1.0,
+            0.9999933242797852,
+            0.9999672174453735,
+            0.9999806880950928,
+            0.9999942779541016,
+            0.9999948740005493,
+            0.9999951124191284,
+            0.9994611144065857,
+            0.9993894100189209,
+            0.999222993850708,
+            0.8560943007469177,
+            0.8921459317207336,
+            0.7734678387641907,
+            0.9890369772911072,
+            0.9659588932991028,
+            0.9716930985450745,
+            0.9913560152053833,
+            0.9888952970504761,
+            0.9655161499977112,
+            0.882901132106781,
+            0.8454601168632507,
+            0.8470443487167358,
+            0.9999980926513672,
+            0.9999996423721313,
+            0.9999994039535522,
+            0.6798665523529053,
+            0.49168092012405396,
+            0.5368497967720032,
+            0.9873051047325134,
+            0.9402137994766235,
+            0.928394615650177,
+            0.35502684116363525,
+            0.9124428629875183,
+            0.946331799030304,
+            1.0,
+            1.0,
+            1.0,
+            0.6016813516616821,
+            0.49267151951789856,
+            0.6437432169914246,
+            1.0,
+            1.0,
+            1.0,
+            0.4486885964870453,
+            0.640812337398529,
+            0.879755437374115,
+            0.9916812777519226,
+            0.9911965131759644,
+            0.9993059635162354,
+            0.589796245098114,
+            0.7118774652481079,
+            0.9268589019775391,
+            0.9999767541885376,
+            0.9999942779541016,
+            0.9999902248382568,
+            0.9828012585639954,
+            0.9357141256332397,
+            0.9222304224967957,
+            0.5056607723236084,
+            0.7614033818244934,
+            0.7656963467597961,
+            0.6500656008720398,
+            0.8527267575263977,
+            0.5424817800521851,
+            0.9999986886978149,
+            0.999997615814209,
+            0.8840383291244507,
+            0.5736863613128662,
+            0.5833655595779419,
+            0.69774329662323,
+            0.9973189234733582,
+            0.9964283108711243,
+            0.9958376884460449,
+            0.9838255047798157,
+            0.9848774671554565,
+            0.9828516244888306,
+            0.7398984432220459,
+            0.9901463389396667,
+            0.3069886267185211,
+            0.7398353219032288
+        ],
+        "eval_code_hard_runtime": 140.0621,
+        "eval_code_hard_samples_per_second": 0.714,
+        "eval_code_hard_steps_per_second": 0.029,
+        "epoch": 0.88,
+        "step": 50
+    },
+    {
+        "loss": 0.1986,
+        "learning_rate": 0.0002,
+        "epoch": 0.89,
+        "step": 51
+    },
+    {
+        "loss": 0.1768,
+        "learning_rate": 0.0002,
+        "epoch": 0.91,
+        "step": 52
+    },
+    {
+        "loss": 0.1257,
+        "learning_rate": 0.0002,
+        "epoch": 0.93,
+        "step": 53
+    },
+    {
+        "loss": 0.1255,
+        "learning_rate": 0.0002,
+        "epoch": 0.95,
+        "step": 54
+    },
+    {
+        "loss": 0.067,
+        "learning_rate": 0.0002,
+        "epoch": 0.96,
+        "step": 55
+    },
+    {
+        "loss": 0.2208,
+        "learning_rate": 0.0002,
+        "epoch": 0.98,
+        "step": 56
+    },
+    {
+        "loss": 0.1187,
+        "learning_rate": 0.0002,
+        "epoch": 1.0,
+        "step": 57
+    },
+    {
+        "loss": 0.159,
+        "learning_rate": 0.0002,
+        "epoch": 1.02,
+        "step": 58
+    },
+    {
+        "loss": 0.0512,
+        "learning_rate": 0.0002,
+        "epoch": 1.04,
+        "step": 59
+    },
+    {
+        "loss": 0.0608,
+        "learning_rate": 0.0002,
+        "epoch": 1.05,
+        "step": 60
+    },
+    {
+        "loss": 0.1049,
+        "learning_rate": 0.0002,
+        "epoch": 1.07,
+        "step": 61
+    },
+    {
+        "loss": 0.0634,
+        "learning_rate": 0.0002,
+        "epoch": 1.09,
+        "step": 62
+    },
+    {
+        "loss": 0.0609,
+        "learning_rate": 0.0002,
+        "epoch": 1.11,
+        "step": 63
+    },
+    {
+        "loss": 0.0888,
+        "learning_rate": 0.0002,
+        "epoch": 1.12,
+        "step": 64
+    },
+    {
+        "loss": 0.1165,
+        "learning_rate": 0.0002,
+        "epoch": 1.14,
+        "step": 65
+    },
+    {
+        "loss": 0.017,
+        "learning_rate": 0.0002,
+        "epoch": 1.16,
+        "step": 66
+    },
+    {
+        "loss": 0.0504,
+        "learning_rate": 0.0002,
+        "epoch": 1.18,
+        "step": 67
+    },
+    {
+        "loss": 0.0958,
+        "learning_rate": 0.0002,
+        "epoch": 1.19,
+        "step": 68
+    },
+    {
+        "loss": 0.0276,
+        "learning_rate": 0.0002,
+        "epoch": 1.21,
+        "step": 69
+    },
+    {
+        "loss": 0.0394,
+        "learning_rate": 0.0002,
+        "epoch": 1.23,
+        "step": 70
+    },
+    {
+        "loss": 0.0398,
+        "learning_rate": 0.0002,
+        "epoch": 1.25,
+        "step": 71
+    },
+    {
+        "loss": 0.108,
+        "learning_rate": 0.0002,
+        "epoch": 1.26,
+        "step": 72
+    },
+    {
+        "loss": 0.0392,
+        "learning_rate": 0.0002,
+        "epoch": 1.28,
+        "step": 73
+    },
+    {
+        "loss": 0.0233,
+        "learning_rate": 0.0002,
+        "epoch": 1.3,
+        "step": 74
+    },
+    {
+        "loss": 0.1554,
+        "learning_rate": 0.0002,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "eval_code_hard_loss": 0.13956719636917114,
+        "eval_code_hard_score": -0.042688366025686264,
+        "eval_code_hard_brier_score": 0.042688366025686264,
+        "eval_code_hard_average_probability": 0.9274539947509766,
+        "eval_code_hard_accuracy": 0.93,
+        "eval_code_hard_probabilities": [
+            0.9999963045120239,
+            0.9699520468711853,
+            0.9745141267776489,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.35654664039611816,
+            0.886887788772583,
+            0.9559746980667114,
+            1.0,
+            1.0,
+            1.0,
+            0.9999935626983643,
+            0.9999960660934448,
+            0.9999923706054688,
+            0.9999997615814209,
+            1.0,
+            0.9999996423721313,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999995231628418,
+            0.9999997615814209,
+            0.9998072981834412,
+            0.9999998807907104,
+            0.999997615814209,
+            0.9905921816825867,
+            0.9987447261810303,
+            0.9492596983909607,
+            1.0,
+            0.9999996423721313,
+            0.9999969005584717,
+            1.0,
+            0.9999995231628418,
+            0.9999992847442627,
+            0.9940958023071289,
+            0.9881225228309631,
+            0.9979448914527893,
+            1.0,
+            1.0,
+            1.0,
+            0.9875559210777283,
+            0.578984797000885,
+            0.643305242061615,
+            0.9999995231628418,
+            0.9999939203262329,
+            0.9999977350234985,
+            0.005097602494060993,
+            0.9997228980064392,
+            0.9975023865699768,
+            1.0,
+            1.0,
+            1.0,
+            0.3311256468296051,
+            0.45201003551483154,
+            0.7562749981880188,
+            1.0,
+            1.0,
+            1.0,
+            0.9942985773086548,
+            0.9975347518920898,
+            0.9981868863105774,
+            0.9999996423721313,
+            0.9999785423278809,
+            1.0,
+            0.46586939692497253,
+            0.9903834462165833,
+            0.9999986886978149,
+            1.0,
+            1.0,
+            1.0,
+            0.9817127585411072,
+            0.2876265347003937,
+            0.8499608635902405,
+            0.61001056432724,
+            0.996311604976654,
+            0.999902606010437,
+            0.9834624528884888,
+            0.9992788434028625,
+            0.9218541383743286,
+            1.0,
+            1.0,
+            0.9609642028808594,
+            0.7825002074241638,
+            0.9717795252799988,
+            0.9860764741897583,
+            0.9999998807907104,
+            0.9999990463256836,
+            0.9999997615814209,
+            0.9999983310699463,
+            0.9999971389770508,
+            0.9999949932098389,
+            0.9969584941864014,
+            0.9999991655349731,
+            0.15736030042171478,
+            0.9994120597839355
+        ],
+        "eval_code_hard_runtime": 140.0578,
+        "eval_code_hard_samples_per_second": 0.714,
+        "eval_code_hard_steps_per_second": 0.029,
+        "epoch": 1.32,
+        "step": 75
+    },
+    {
+        "loss": 0.0227,
+        "learning_rate": 0.0002,
+        "epoch": 1.33,
+        "step": 76
+    },
+    {
+        "loss": 0.0849,
+        "learning_rate": 0.0002,
+        "epoch": 1.35,
+        "step": 77
+    },
+    {
+        "loss": 0.1094,
+        "learning_rate": 0.0002,
+        "epoch": 1.37,
+        "step": 78
+    },
+    {
+        "loss": 0.0689,
+        "learning_rate": 0.0002,
+        "epoch": 1.39,
+        "step": 79
+    },
+    {
+        "loss": 0.0418,
+        "learning_rate": 0.0002,
+        "epoch": 1.4,
+        "step": 80
+    },
+    {
+        "loss": 0.0886,
+        "learning_rate": 0.0002,
+        "epoch": 1.42,
+        "step": 81
+    },
+    {
+        "loss": 0.1833,
+        "learning_rate": 0.0002,
+        "epoch": 1.44,
+        "step": 82
+    },
+    {
+        "loss": 0.1213,
+        "learning_rate": 0.0002,
+        "epoch": 1.46,
+        "step": 83
+    },
+    {
+        "loss": 0.0424,
+        "learning_rate": 0.0002,
+        "epoch": 1.47,
+        "step": 84
+    },
+    {
+        "loss": 0.0194,
+        "learning_rate": 0.0002,
+        "epoch": 1.49,
+        "step": 85
+    },
+    {
+        "loss": 0.0229,
+        "learning_rate": 0.0002,
+        "epoch": 1.51,
+        "step": 86
+    },
+    {
+        "loss": 0.0231,
+        "learning_rate": 0.0002,
+        "epoch": 1.53,
+        "step": 87
+    },
+    {
+        "loss": 0.0263,
+        "learning_rate": 0.0002,
+        "epoch": 1.54,
+        "step": 88
+    },
+    {
+        "loss": 0.0619,
+        "learning_rate": 0.0002,
+        "epoch": 1.56,
+        "step": 89
+    },
+    {
+        "loss": 0.0365,
+        "learning_rate": 0.0002,
+        "epoch": 1.58,
+        "step": 90
+    },
+    {
+        "loss": 0.0523,
+        "learning_rate": 0.0002,
+        "epoch": 1.6,
+        "step": 91
+    },
+    {
+        "loss": 0.0172,
+        "learning_rate": 0.0002,
+        "epoch": 1.61,
+        "step": 92
+    },
+    {
+        "loss": 0.0455,
+        "learning_rate": 0.0002,
+        "epoch": 1.63,
+        "step": 93
+    },
+    {
+        "loss": 0.2764,
+        "learning_rate": 0.0002,
+        "epoch": 1.65,
+        "step": 94
+    },
+    {
+        "loss": 0.0225,
+        "learning_rate": 0.0002,
+        "epoch": 1.67,
+        "step": 95
+    },
+    {
+        "loss": 0.0133,
+        "learning_rate": 0.0002,
+        "epoch": 1.68,
+        "step": 96
+    },
+    {
+        "loss": 0.0188,
+        "learning_rate": 0.0002,
+        "epoch": 1.7,
+        "step": 97
+    },
+    {
+        "loss": 0.0207,
+        "learning_rate": 0.0002,
+        "epoch": 1.72,
+        "step": 98
+    },
+    {
+        "loss": 0.012,
+        "learning_rate": 0.0002,
+        "epoch": 1.74,
+        "step": 99
+    },
+    {
+        "loss": 0.0628,
+        "learning_rate": 0.0002,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "eval_code_hard_loss": 0.1615547239780426,
+        "eval_code_hard_score": -0.03736421465873718,
+        "eval_code_hard_brier_score": 0.03736421465873718,
+        "eval_code_hard_average_probability": 0.9438884854316711,
+        "eval_code_hard_accuracy": 0.95,
+        "eval_code_hard_probabilities": [
+            1.0,
+            0.9725049734115601,
+            0.9244245886802673,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.07730857282876968,
+            0.9794886112213135,
+            0.999785840511322,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999511241912842,
+            1.0,
+            1.0,
+            0.9999926090240479,
+            1.0,
+            0.9999614953994751,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999998807907104,
+            1.0,
+            0.9999260902404785,
+            0.9998406171798706,
+            0.9999992847442627,
+            1.0,
+            1.0,
+            1.0,
+            0.9999581575393677,
+            0.6513886451721191,
+            0.7881560921669006,
+            1.0,
+            1.0,
+            1.0,
+            0.00015713961329311132,
+            1.0,
+            0.9999954700469971,
+            1.0,
+            1.0,
+            1.0,
+            0.4968324303627014,
+            0.40699660778045654,
+            0.9514529705047607,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9999997615814209,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9981179237365723,
+            0.999592125415802,
+            0.9999996423721313,
+            1.0,
+            1.0,
+            1.0,
+            0.9999996423721313,
+            0.9520946741104126,
+            0.9975154399871826,
+            0.5100582242012024,
+            0.9827112555503845,
+            0.9999972581863403,
+            0.9999854564666748,
+            1.0,
+            0.9896236062049866,
+            1.0,
+            1.0,
+            0.8571937680244446,
+            0.796758770942688,
+            0.9510358572006226,
+            0.9994876384735107,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            1.0,
+            0.9998961687088013,
+            1.0,
+            0.10666914284229279,
+            1.0
+        ],
+        "eval_code_hard_runtime": 140.0373,
+        "eval_code_hard_samples_per_second": 0.714,
+        "eval_code_hard_steps_per_second": 0.029,
+        "epoch": 1.75,
+        "step": 100
+    },
+    {
+        "train_runtime": 12026.9778,
+        "train_samples_per_second": 0.266,
+        "train_steps_per_second": 0.008,
+        "total_flos": 0.0,
+        "train_loss": 0.19655362625606357,
+        "epoch": 1.75,
+        "step": 100
+    }
+]