initial commit

Browse files

Files changed (9) hide show

.gitattributes +35 -0
README.md +31 -0
config.json +74 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +1093 -0
training_args.bin +3 -0

.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,31 @@

+---
+library_name: granite_tsfm
+base_model: ibm-granite/granite-timeseries-ttm-r2
+tags:
+- ttm4hvac
+- tsfm
+- digital twin
+- hvac
+- energy
+- experiment
+license: apache-2.0
+papers:
+- title: "Transfer learning of building dynamics digital twin for HVAC control with Time-series Foundation Model"
+  url: https://arxiv.org/abs/XXXX.XXXXX
+  authors: "Ferran Aran Domingo"
+datasets:
+- gft/ttm4hvac-target-chaotic-train
+- gft/ttm4hvac-target-heat-test
+- gft/ttm4hvac-target-cool-test
+pipeline_tag: time-series-forecasting
+---
+# TTM4HVAC – TinyTimeMixer for HVAC dynamics modeling
+This repository contains the **TTM4HVAC – Target-Chaotic** fine-tuned TinyTimeMixer model.
+It corresponds to the **“target-chaotic” experiment** described in the TTM4HVAC paper, where the model is fine-tuned using **chaotic exploratory control** data collected from the target building.
+This model is one of several experimental fine-tunes.
+For full documentation, the recommended digital-twin checkpoint, and complete project details, visit:
+👉 **Main model card:** https://huggingface.co/gft/ttm4hvac

config.json ADDED Viewed

	@@ -0,0 +1,74 @@

+{
+  "adaptive_patching_levels": 3,
+  "architectures": [
+    "TinyTimeMixerForPrediction"
+  ],
+  "categorical_vocab_size_list": null,
+  "context_length": 512,
+  "d_model": 192,
+  "d_model_scale": 3,
+  "decoder_adaptive_patching_levels": 0,
+  "decoder_d_model": 128,
+  "decoder_d_model_scale": 2,
+  "decoder_mode": "mix_channel",
+  "decoder_num_layers": 2,
+  "decoder_raw_residual": false,
+  "distribution_output": "student_t",
+  "dropout": 0.4,
+  "enable_forecast_channel_mixing": true,
+  "exogenous_channel_indices": [
+    2,
+    3,
+    4,
+    5,
+    6,
+    7
+  ],
+  "expansion_factor": 2,
+  "fcm_context_length": 2,
+  "fcm_gated_attn": true,
+  "fcm_mix_layers": 6,
+  "fcm_prepend_past": true,
+  "fcm_prepend_past_offset": null,
+  "fcm_use_mixer": true,
+  "frequency_token_vocab_size": 10,
+  "gated_attn": true,
+  "head_dropout": 0.4,
+  "huber_delta": 1,
+  "init_embed": "pytorch",
+  "init_linear": "pytorch",
+  "init_processing": true,
+  "init_std": 0.02,
+  "loss": "mae",
+  "mask_value": 0,
+  "masked_context_length": null,
+  "mode": "common_channel",
+  "model_type": "tinytimemixer",
+  "norm_eps": 1e-05,
+  "norm_mlp": "LayerNorm",
+  "num_input_channels": 8,
+  "num_layers": 2,
+  "num_parallel_samples": 100,
+  "num_patches": 9,
+  "patch_last": true,
+  "patch_length": 64,
+  "patch_stride": 64,
+  "positional_encoding_type": "sincos",
+  "post_init": false,
+  "prediction_channel_indices": [
+    0,
+    1
+  ],
+  "prediction_filter_length": null,
+  "prediction_length": 96,
+  "quantile": 0.5,
+  "resolution_prefix_tuning": true,
+  "scaling": "std",
+  "self_attn": false,
+  "self_attn_heads": 1,
+  "stride_ratio": 1,
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.0",
+  "use_decoder": true,
+  "use_positional_encoding": false
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ddc385ce516967e775e4eff53cdb8efe98d257368d012d25a9a497bb6f704057
+size 3509840

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2a34397b87eb70d16eae17e6d97e55490baedbfa4856b0b85eefe5b0b545ffe4
+size 2648267

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c94c3e4bbd4bf9549d5ac6d3fcff35f2a05a9cffed29354d9fd74af14213fed1
+size 14645

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:70e036baa2444b0488b9293020827db261373755d8142c6674cf7464a29ee98a
+size 1465

trainer_state.json ADDED Viewed

	@@ -0,0 +1,1093 @@

+{
+  "best_global_step": 490,
+  "best_metric": 0.39796411991119385,
+  "best_model_checkpoint": "tmp/out/512-96-ft-l1-r2.1_mix_channel_fcmCtx2_fcmLayers6_fcmChMixingTrue_stride24_bs128_lr0.001_dc16/checkpoint-490",
+  "epoch": 70.0,
+  "eval_steps": 500,
+  "global_step": 490,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 0.9707295298576355,
+      "learning_rate": 0.0009999981872166133,
+      "loss": 0.6927,
+      "step": 7
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 0.5702187418937683,
+      "eval_runtime": 2.4835,
+      "eval_samples_per_second": 119.59,
+      "eval_steps_per_second": 1.208,
+      "step": 7
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.6580050587654114,
+      "learning_rate": 0.0009999914900081,
+      "loss": 0.6177,
+      "step": 14
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 0.554060161113739,
+      "eval_runtime": 2.2578,
+      "eval_samples_per_second": 131.547,
+      "eval_steps_per_second": 1.329,
+      "step": 14
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 0.6094052791595459,
+      "learning_rate": 0.0009999798580854352,
+      "loss": 0.6095,
+      "step": 21
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 0.5410358905792236,
+      "eval_runtime": 2.4018,
+      "eval_samples_per_second": 123.657,
+      "eval_steps_per_second": 1.249,
+      "step": 21
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.4607536494731903,
+      "learning_rate": 0.000999963291563421,
+      "loss": 0.5808,
+      "step": 28
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.5294994115829468,
+      "eval_runtime": 2.2545,
+      "eval_samples_per_second": 131.736,
+      "eval_steps_per_second": 1.331,
+      "step": 28
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.6960058212280273,
+      "learning_rate": 0.0009999417906055624,
+      "loss": 0.5727,
+      "step": 35
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.5224635004997253,
+      "eval_runtime": 2.3899,
+      "eval_samples_per_second": 124.272,
+      "eval_steps_per_second": 1.255,
+      "step": 35
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 0.6005568504333496,
+      "learning_rate": 0.0009999153554240653,
+      "loss": 0.5601,
+      "step": 42
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.5173956751823425,
+      "eval_runtime": 2.4048,
+      "eval_samples_per_second": 123.503,
+      "eval_steps_per_second": 1.248,
+      "step": 42
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 0.4280312657356262,
+      "learning_rate": 0.0009998839862798343,
+      "loss": 0.5397,
+      "step": 49
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.5099408030509949,
+      "eval_runtime": 2.2119,
+      "eval_samples_per_second": 134.272,
+      "eval_steps_per_second": 1.356,
+      "step": 49
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 0.5937015414237976,
+      "learning_rate": 0.00099984768348247,
+      "loss": 0.5187,
+      "step": 56
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.49842968583106995,
+      "eval_runtime": 2.4138,
+      "eval_samples_per_second": 123.04,
+      "eval_steps_per_second": 1.243,
+      "step": 56
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 0.42377254366874695,
+      "learning_rate": 0.0009998064473902661,
+      "loss": 0.5,
+      "step": 63
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.4861130714416504,
+      "eval_runtime": 2.2139,
+      "eval_samples_per_second": 134.15,
+      "eval_steps_per_second": 1.355,
+      "step": 63
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.47256365418434143,
+      "learning_rate": 0.0009997602784102067,
+      "loss": 0.4896,
+      "step": 70
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.48270002007484436,
+      "eval_runtime": 2.3717,
+      "eval_samples_per_second": 125.227,
+      "eval_steps_per_second": 1.265,
+      "step": 70
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 0.552793025970459,
+      "learning_rate": 0.0009997091769979609,
+      "loss": 0.4862,
+      "step": 77
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.4836609661579132,
+      "eval_runtime": 2.3866,
+      "eval_samples_per_second": 124.447,
+      "eval_steps_per_second": 1.257,
+      "step": 77
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 0.3545859754085541,
+      "learning_rate": 0.0009996531436578786,
+      "loss": 0.4704,
+      "step": 84
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.47814875841140747,
+      "eval_runtime": 2.4679,
+      "eval_samples_per_second": 120.345,
+      "eval_steps_per_second": 1.216,
+      "step": 84
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 0.3072163462638855,
+      "learning_rate": 0.000999592178942987,
+      "loss": 0.4599,
+      "step": 91
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 0.4754813313484192,
+      "eval_runtime": 2.3715,
+      "eval_samples_per_second": 125.239,
+      "eval_steps_per_second": 1.265,
+      "step": 91
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 0.4181502163410187,
+      "learning_rate": 0.0009995262834549827,
+      "loss": 0.4619,
+      "step": 98
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 0.4749893546104431,
+      "eval_runtime": 2.2533,
+      "eval_samples_per_second": 131.806,
+      "eval_steps_per_second": 1.331,
+      "step": 98
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 0.5504868626594543,
+      "learning_rate": 0.0009994554578442274,
+      "loss": 0.4574,
+      "step": 105
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 0.47421860694885254,
+      "eval_runtime": 2.2532,
+      "eval_samples_per_second": 131.814,
+      "eval_steps_per_second": 1.331,
+      "step": 105
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 0.2607559859752655,
+      "learning_rate": 0.0009993797028097415,
+      "loss": 0.4417,
+      "step": 112
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 0.468032568693161,
+      "eval_runtime": 2.351,
+      "eval_samples_per_second": 126.331,
+      "eval_steps_per_second": 1.276,
+      "step": 112
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 0.40551233291625977,
+      "learning_rate": 0.0009992990190991968,
+      "loss": 0.4374,
+      "step": 119
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 0.4661838114261627,
+      "eval_runtime": 2.3438,
+      "eval_samples_per_second": 126.716,
+      "eval_steps_per_second": 1.28,
+      "step": 119
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 0.5112160444259644,
+      "learning_rate": 0.0009992134075089084,
+      "loss": 0.4422,
+      "step": 126
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 0.46199411153793335,
+      "eval_runtime": 2.4647,
+      "eval_samples_per_second": 120.5,
+      "eval_steps_per_second": 1.217,
+      "step": 126
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 0.28348761796951294,
+      "learning_rate": 0.000999122868883829,
+      "loss": 0.4329,
+      "step": 133
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 0.4561639130115509,
+      "eval_runtime": 2.38,
+      "eval_samples_per_second": 124.787,
+      "eval_steps_per_second": 1.26,
+      "step": 133
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 0.3042391538619995,
+      "learning_rate": 0.0009990274041175374,
+      "loss": 0.4266,
+      "step": 140
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 0.4623657763004303,
+      "eval_runtime": 2.3211,
+      "eval_samples_per_second": 127.956,
+      "eval_steps_per_second": 1.292,
+      "step": 140
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 0.4042205512523651,
+      "learning_rate": 0.0009989270141522327,
+      "loss": 0.4296,
+      "step": 147
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 0.4559677541255951,
+      "eval_runtime": 2.4059,
+      "eval_samples_per_second": 123.445,
+      "eval_steps_per_second": 1.247,
+      "step": 147
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 0.29939794540405273,
+      "learning_rate": 0.0009988216999787234,
+      "loss": 0.4196,
+      "step": 154
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 0.45894142985343933,
+      "eval_runtime": 2.2422,
+      "eval_samples_per_second": 132.462,
+      "eval_steps_per_second": 1.338,
+      "step": 154
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 0.48618200421333313,
+      "learning_rate": 0.0009987114626364177,
+      "loss": 0.4152,
+      "step": 161
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 0.45644503831863403,
+      "eval_runtime": 2.3714,
+      "eval_samples_per_second": 125.242,
+      "eval_steps_per_second": 1.265,
+      "step": 161
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 0.5725964307785034,
+      "learning_rate": 0.0009985963032133136,
+      "loss": 0.4124,
+      "step": 168
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 0.45737361907958984,
+      "eval_runtime": 2.3946,
+      "eval_samples_per_second": 124.031,
+      "eval_steps_per_second": 1.253,
+      "step": 168
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 0.27505043148994446,
+      "learning_rate": 0.0009984762228459885,
+      "loss": 0.4085,
+      "step": 175
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 0.4525308907032013,
+      "eval_runtime": 2.408,
+      "eval_samples_per_second": 123.34,
+      "eval_steps_per_second": 1.246,
+      "step": 175
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 0.45612260699272156,
+      "learning_rate": 0.0009983512227195864,
+      "loss": 0.411,
+      "step": 182
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 0.4512389600276947,
+      "eval_runtime": 2.3469,
+      "eval_samples_per_second": 126.549,
+      "eval_steps_per_second": 1.278,
+      "step": 182
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 0.338695228099823,
+      "learning_rate": 0.0009982213040678088,
+      "loss": 0.4075,
+      "step": 189
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 0.4529505670070648,
+      "eval_runtime": 2.215,
+      "eval_samples_per_second": 134.085,
+      "eval_steps_per_second": 1.354,
+      "step": 189
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 0.3414050340652466,
+      "learning_rate": 0.0009980864681729002,
+      "loss": 0.4093,
+      "step": 196
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 0.45026591420173645,
+      "eval_runtime": 2.1703,
+      "eval_samples_per_second": 136.846,
+      "eval_steps_per_second": 1.382,
+      "step": 196
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 0.4236336648464203,
+      "learning_rate": 0.000997946716365636,
+      "loss": 0.399,
+      "step": 203
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 0.4470757246017456,
+      "eval_runtime": 2.2948,
+      "eval_samples_per_second": 129.423,
+      "eval_steps_per_second": 1.307,
+      "step": 203
+    },
+    {
+      "epoch": 30.0,
+      "grad_norm": 0.41031497716903687,
+      "learning_rate": 0.0009978020500253108,
+      "loss": 0.4064,
+      "step": 210
+    },
+    {
+      "epoch": 30.0,
+      "eval_loss": 0.4470351040363312,
+      "eval_runtime": 2.406,
+      "eval_samples_per_second": 123.439,
+      "eval_steps_per_second": 1.247,
+      "step": 210
+    },
+    {
+      "epoch": 31.0,
+      "grad_norm": 0.7685738205909729,
+      "learning_rate": 0.0009976524705797227,
+      "loss": 0.4027,
+      "step": 217
+    },
+    {
+      "epoch": 31.0,
+      "eval_loss": 0.44953691959381104,
+      "eval_runtime": 2.2692,
+      "eval_samples_per_second": 130.88,
+      "eval_steps_per_second": 1.322,
+      "step": 217
+    },
+    {
+      "epoch": 32.0,
+      "grad_norm": 0.42403122782707214,
+      "learning_rate": 0.0009974979795051605,
+      "loss": 0.399,
+      "step": 224
+    },
+    {
+      "epoch": 32.0,
+      "eval_loss": 0.4475725591182709,
+      "eval_runtime": 2.403,
+      "eval_samples_per_second": 123.596,
+      "eval_steps_per_second": 1.248,
+      "step": 224
+    },
+    {
+      "epoch": 33.0,
+      "grad_norm": 0.746512234210968,
+      "learning_rate": 0.000997338578326388,
+      "loss": 0.3978,
+      "step": 231
+    },
+    {
+      "epoch": 33.0,
+      "eval_loss": 0.44351473450660706,
+      "eval_runtime": 2.2359,
+      "eval_samples_per_second": 132.835,
+      "eval_steps_per_second": 1.342,
+      "step": 231
+    },
+    {
+      "epoch": 34.0,
+      "grad_norm": 0.4285159111022949,
+      "learning_rate": 0.0009971742686166317,
+      "loss": 0.3926,
+      "step": 238
+    },
+    {
+      "epoch": 34.0,
+      "eval_loss": 0.4406629502773285,
+      "eval_runtime": 2.4012,
+      "eval_samples_per_second": 123.687,
+      "eval_steps_per_second": 1.249,
+      "step": 238
+    },
+    {
+      "epoch": 35.0,
+      "grad_norm": 0.27506399154663086,
+      "learning_rate": 0.0009970050519975614,
+      "loss": 0.3883,
+      "step": 245
+    },
+    {
+      "epoch": 35.0,
+      "eval_loss": 0.4400807321071625,
+      "eval_runtime": 2.3523,
+      "eval_samples_per_second": 126.258,
+      "eval_steps_per_second": 1.275,
+      "step": 245
+    },
+    {
+      "epoch": 36.0,
+      "grad_norm": 0.9984968304634094,
+      "learning_rate": 0.0009968309301392774,
+      "loss": 0.3895,
+      "step": 252
+    },
+    {
+      "epoch": 36.0,
+      "eval_loss": 0.4421454966068268,
+      "eval_runtime": 2.2021,
+      "eval_samples_per_second": 134.872,
+      "eval_steps_per_second": 1.362,
+      "step": 252
+    },
+    {
+      "epoch": 37.0,
+      "grad_norm": 0.40385881066322327,
+      "learning_rate": 0.0009966519047602915,
+      "loss": 0.3877,
+      "step": 259
+    },
+    {
+      "epoch": 37.0,
+      "eval_loss": 0.4395131468772888,
+      "eval_runtime": 2.0634,
+      "eval_samples_per_second": 143.937,
+      "eval_steps_per_second": 1.454,
+      "step": 259
+    },
+    {
+      "epoch": 38.0,
+      "grad_norm": 0.31554874777793884,
+      "learning_rate": 0.000996467977627512,
+      "loss": 0.3907,
+      "step": 266
+    },
+    {
+      "epoch": 38.0,
+      "eval_loss": 0.43525147438049316,
+      "eval_runtime": 2.2726,
+      "eval_samples_per_second": 130.688,
+      "eval_steps_per_second": 1.32,
+      "step": 266
+    },
+    {
+      "epoch": 39.0,
+      "grad_norm": 0.5739504098892212,
+      "learning_rate": 0.0009962791505562253,
+      "loss": 0.3862,
+      "step": 273
+    },
+    {
+      "epoch": 39.0,
+      "eval_loss": 0.43351083993911743,
+      "eval_runtime": 2.4489,
+      "eval_samples_per_second": 121.278,
+      "eval_steps_per_second": 1.225,
+      "step": 273
+    },
+    {
+      "epoch": 40.0,
+      "grad_norm": 0.3942245841026306,
+      "learning_rate": 0.000996085425410079,
+      "loss": 0.3755,
+      "step": 280
+    },
+    {
+      "epoch": 40.0,
+      "eval_loss": 0.4324055314064026,
+      "eval_runtime": 2.4919,
+      "eval_samples_per_second": 119.184,
+      "eval_steps_per_second": 1.204,
+      "step": 280
+    },
+    {
+      "epoch": 41.0,
+      "grad_norm": 1.0761022567749023,
+      "learning_rate": 0.0009958868041010612,
+      "loss": 0.3762,
+      "step": 287
+    },
+    {
+      "epoch": 41.0,
+      "eval_loss": 0.43323370814323425,
+      "eval_runtime": 2.3514,
+      "eval_samples_per_second": 126.309,
+      "eval_steps_per_second": 1.276,
+      "step": 287
+    },
+    {
+      "epoch": 42.0,
+      "grad_norm": 0.9540784358978271,
+      "learning_rate": 0.0009956832885894852,
+      "loss": 0.3815,
+      "step": 294
+    },
+    {
+      "epoch": 42.0,
+      "eval_loss": 0.43441545963287354,
+      "eval_runtime": 2.4956,
+      "eval_samples_per_second": 119.007,
+      "eval_steps_per_second": 1.202,
+      "step": 294
+    },
+    {
+      "epoch": 43.0,
+      "grad_norm": 0.379153311252594,
+      "learning_rate": 0.0009954748808839661,
+      "loss": 0.3742,
+      "step": 301
+    },
+    {
+      "epoch": 43.0,
+      "eval_loss": 0.42597338557243347,
+      "eval_runtime": 2.5583,
+      "eval_samples_per_second": 116.094,
+      "eval_steps_per_second": 1.173,
+      "step": 301
+    },
+    {
+      "epoch": 44.0,
+      "grad_norm": 0.3392243981361389,
+      "learning_rate": 0.0009952615830414037,
+      "loss": 0.3772,
+      "step": 308
+    },
+    {
+      "epoch": 44.0,
+      "eval_loss": 0.42798468470573425,
+      "eval_runtime": 2.5019,
+      "eval_samples_per_second": 118.708,
+      "eval_steps_per_second": 1.199,
+      "step": 308
+    },
+    {
+      "epoch": 45.0,
+      "grad_norm": 0.5284626483917236,
+      "learning_rate": 0.000995043397166962,
+      "loss": 0.3742,
+      "step": 315
+    },
+    {
+      "epoch": 45.0,
+      "eval_loss": 0.4221627116203308,
+      "eval_runtime": 2.4791,
+      "eval_samples_per_second": 119.801,
+      "eval_steps_per_second": 1.21,
+      "step": 315
+    },
+    {
+      "epoch": 46.0,
+      "grad_norm": 0.5330556035041809,
+      "learning_rate": 0.0009948203254140475,
+      "loss": 0.3745,
+      "step": 322
+    },
+    {
+      "epoch": 46.0,
+      "eval_loss": 0.421304851770401,
+      "eval_runtime": 2.4456,
+      "eval_samples_per_second": 121.443,
+      "eval_steps_per_second": 1.227,
+      "step": 322
+    },
+    {
+      "epoch": 47.0,
+      "grad_norm": 0.6839802265167236,
+      "learning_rate": 0.0009945923699842879,
+      "loss": 0.3759,
+      "step": 329
+    },
+    {
+      "epoch": 47.0,
+      "eval_loss": 0.4239172339439392,
+      "eval_runtime": 2.4731,
+      "eval_samples_per_second": 120.093,
+      "eval_steps_per_second": 1.213,
+      "step": 329
+    },
+    {
+      "epoch": 48.0,
+      "grad_norm": 0.6509687900543213,
+      "learning_rate": 0.0009943595331275118,
+      "loss": 0.3683,
+      "step": 336
+    },
+    {
+      "epoch": 48.0,
+      "eval_loss": 0.41996967792510986,
+      "eval_runtime": 2.494,
+      "eval_samples_per_second": 119.085,
+      "eval_steps_per_second": 1.203,
+      "step": 336
+    },
+    {
+      "epoch": 49.0,
+      "grad_norm": 1.2732141017913818,
+      "learning_rate": 0.0009941218171417247,
+      "loss": 0.3659,
+      "step": 343
+    },
+    {
+      "epoch": 49.0,
+      "eval_loss": 0.421897292137146,
+      "eval_runtime": 2.3215,
+      "eval_samples_per_second": 127.936,
+      "eval_steps_per_second": 1.292,
+      "step": 343
+    },
+    {
+      "epoch": 50.0,
+      "grad_norm": 0.6571445465087891,
+      "learning_rate": 0.0009938792243730874,
+      "loss": 0.3688,
+      "step": 350
+    },
+    {
+      "epoch": 50.0,
+      "eval_loss": 0.4203133285045624,
+      "eval_runtime": 2.4444,
+      "eval_samples_per_second": 121.504,
+      "eval_steps_per_second": 1.227,
+      "step": 350
+    },
+    {
+      "epoch": 51.0,
+      "grad_norm": 0.44088947772979736,
+      "learning_rate": 0.0009936317572158929,
+      "loss": 0.3629,
+      "step": 357
+    },
+    {
+      "epoch": 51.0,
+      "eval_loss": 0.4189170002937317,
+      "eval_runtime": 2.3551,
+      "eval_samples_per_second": 126.108,
+      "eval_steps_per_second": 1.274,
+      "step": 357
+    },
+    {
+      "epoch": 52.0,
+      "grad_norm": 0.46219438314437866,
+      "learning_rate": 0.0009933794181125415,
+      "loss": 0.3697,
+      "step": 364
+    },
+    {
+      "epoch": 52.0,
+      "eval_loss": 0.4134769141674042,
+      "eval_runtime": 2.4278,
+      "eval_samples_per_second": 122.335,
+      "eval_steps_per_second": 1.236,
+      "step": 364
+    },
+    {
+      "epoch": 53.0,
+      "grad_norm": 0.7540666460990906,
+      "learning_rate": 0.0009931222095535188,
+      "loss": 0.3626,
+      "step": 371
+    },
+    {
+      "epoch": 53.0,
+      "eval_loss": 0.4132164716720581,
+      "eval_runtime": 2.3091,
+      "eval_samples_per_second": 128.621,
+      "eval_steps_per_second": 1.299,
+      "step": 371
+    },
+    {
+      "epoch": 54.0,
+      "grad_norm": 0.31968799233436584,
+      "learning_rate": 0.0009928601340773694,
+      "loss": 0.3582,
+      "step": 378
+    },
+    {
+      "epoch": 54.0,
+      "eval_loss": 0.4156869351863861,
+      "eval_runtime": 2.2739,
+      "eval_samples_per_second": 130.615,
+      "eval_steps_per_second": 1.319,
+      "step": 378
+    },
+    {
+      "epoch": 55.0,
+      "grad_norm": 0.8034247756004333,
+      "learning_rate": 0.0009925931942706722,
+      "loss": 0.3546,
+      "step": 385
+    },
+    {
+      "epoch": 55.0,
+      "eval_loss": 0.4118202030658722,
+      "eval_runtime": 2.3852,
+      "eval_samples_per_second": 124.519,
+      "eval_steps_per_second": 1.258,
+      "step": 385
+    },
+    {
+      "epoch": 56.0,
+      "grad_norm": 0.44560346007347107,
+      "learning_rate": 0.0009923213927680156,
+      "loss": 0.362,
+      "step": 392
+    },
+    {
+      "epoch": 56.0,
+      "eval_loss": 0.4148723781108856,
+      "eval_runtime": 2.5533,
+      "eval_samples_per_second": 116.321,
+      "eval_steps_per_second": 1.175,
+      "step": 392
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 0.5804150104522705,
+      "learning_rate": 0.0009920447322519705,
+      "loss": 0.3509,
+      "step": 399
+    },
+    {
+      "epoch": 57.0,
+      "eval_loss": 0.4115283489227295,
+      "eval_runtime": 2.4511,
+      "eval_samples_per_second": 121.17,
+      "eval_steps_per_second": 1.224,
+      "step": 399
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 0.3488099277019501,
+      "learning_rate": 0.0009917632154530643,
+      "loss": 0.3529,
+      "step": 406
+    },
+    {
+      "epoch": 58.0,
+      "eval_loss": 0.40921735763549805,
+      "eval_runtime": 2.5025,
+      "eval_samples_per_second": 118.679,
+      "eval_steps_per_second": 1.199,
+      "step": 406
+    },
+    {
+      "epoch": 59.0,
+      "grad_norm": 0.468575119972229,
+      "learning_rate": 0.0009914768451497545,
+      "loss": 0.3506,
+      "step": 413
+    },
+    {
+      "epoch": 59.0,
+      "eval_loss": 0.4074428975582123,
+      "eval_runtime": 2.4991,
+      "eval_samples_per_second": 118.841,
+      "eval_steps_per_second": 1.2,
+      "step": 413
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 0.6521344780921936,
+      "learning_rate": 0.0009911856241684007,
+      "loss": 0.3515,
+      "step": 420
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.41115570068359375,
+      "eval_runtime": 2.5146,
+      "eval_samples_per_second": 118.112,
+      "eval_steps_per_second": 1.193,
+      "step": 420
+    },
+    {
+      "epoch": 61.0,
+      "grad_norm": 0.45990434288978577,
+      "learning_rate": 0.0009908895553832355,
+      "loss": 0.3508,
+      "step": 427
+    },
+    {
+      "epoch": 61.0,
+      "eval_loss": 0.40622928738594055,
+      "eval_runtime": 2.5109,
+      "eval_samples_per_second": 118.286,
+      "eval_steps_per_second": 1.195,
+      "step": 427
+    },
+    {
+      "epoch": 62.0,
+      "grad_norm": 0.5486015677452087,
+      "learning_rate": 0.0009905886417163388,
+      "loss": 0.3517,
+      "step": 434
+    },
+    {
+      "epoch": 62.0,
+      "eval_loss": 0.40620726346969604,
+      "eval_runtime": 2.5047,
+      "eval_samples_per_second": 118.578,
+      "eval_steps_per_second": 1.198,
+      "step": 434
+    },
+    {
+      "epoch": 63.0,
+      "grad_norm": 0.42910727858543396,
+      "learning_rate": 0.0009902828861376076,
+      "loss": 0.3501,
+      "step": 441
+    },
+    {
+      "epoch": 63.0,
+      "eval_loss": 0.4090978801250458,
+      "eval_runtime": 2.2927,
+      "eval_samples_per_second": 129.543,
+      "eval_steps_per_second": 1.309,
+      "step": 441
+    },
+    {
+      "epoch": 64.0,
+      "grad_norm": 0.587482750415802,
+      "learning_rate": 0.0009899722916647251,
+      "loss": 0.3516,
+      "step": 448
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 0.4070539176464081,
+      "eval_runtime": 2.4591,
+      "eval_samples_per_second": 120.775,
+      "eval_steps_per_second": 1.22,
+      "step": 448
+    },
+    {
+      "epoch": 65.0,
+      "grad_norm": 0.9669045209884644,
+      "learning_rate": 0.0009896568613631334,
+      "loss": 0.3436,
+      "step": 455
+    },
+    {
+      "epoch": 65.0,
+      "eval_loss": 0.4046097695827484,
+      "eval_runtime": 2.4019,
+      "eval_samples_per_second": 123.65,
+      "eval_steps_per_second": 1.249,
+      "step": 455
+    },
+    {
+      "epoch": 66.0,
+      "grad_norm": 0.8924834728240967,
+      "learning_rate": 0.000989336598346003,
+      "loss": 0.344,
+      "step": 462
+    },
+    {
+      "epoch": 66.0,
+      "eval_loss": 0.4073001444339752,
+      "eval_runtime": 2.5427,
+      "eval_samples_per_second": 116.804,
+      "eval_steps_per_second": 1.18,
+      "step": 462
+    },
+    {
+      "epoch": 67.0,
+      "grad_norm": 1.37130606174469,
+      "learning_rate": 0.0009890115057741998,
+      "loss": 0.3444,
+      "step": 469
+    },
+    {
+      "epoch": 67.0,
+      "eval_loss": 0.4038151204586029,
+      "eval_runtime": 2.3794,
+      "eval_samples_per_second": 124.821,
+      "eval_steps_per_second": 1.261,
+      "step": 469
+    },
+    {
+      "epoch": 68.0,
+      "grad_norm": 1.0076475143432617,
+      "learning_rate": 0.0009886815868562569,
+      "loss": 0.3504,
+      "step": 476
+    },
+    {
+      "epoch": 68.0,
+      "eval_loss": 0.40703633427619934,
+      "eval_runtime": 2.4038,
+      "eval_samples_per_second": 123.554,
+      "eval_steps_per_second": 1.248,
+      "step": 476
+    },
+    {
+      "epoch": 69.0,
+      "grad_norm": 0.7603111267089844,
+      "learning_rate": 0.0009883468448483401,
+      "loss": 0.3431,
+      "step": 483
+    },
+    {
+      "epoch": 69.0,
+      "eval_loss": 0.40851590037345886,
+      "eval_runtime": 2.4549,
+      "eval_samples_per_second": 120.985,
+      "eval_steps_per_second": 1.222,
+      "step": 483
+    },
+    {
+      "epoch": 70.0,
+      "grad_norm": 0.5784996151924133,
+      "learning_rate": 0.0009880072830542185,
+      "loss": 0.3356,
+      "step": 490
+    },
+    {
+      "epoch": 70.0,
+      "eval_loss": 0.39796411991119385,
+      "eval_runtime": 2.5011,
+      "eval_samples_per_second": 118.746,
+      "eval_steps_per_second": 1.199,
+      "step": 490
+    }
+  ],
+  "logging_steps": 500,
+  "max_steps": 7000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1000,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 10,
+        "early_stopping_threshold": 1e-05
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1193055734169600.0,
+  "train_batch_size": 128,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa9e82dd419f71e55fe35c51b10767de98d696fa12b34b7680ea469e98a1018f
+size 5969