Upload plato model files

Browse files

Files changed (8) hide show

config.json +25 -0
generation_config.json +5 -0
model.safetensors +3 -0
optimizer.pt +3 -0
rng_state.pth +3 -0
scheduler.pt +3 -0
trainer_state.json +468 -0
training_args.bin +3 -0

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "/scratch/gpfs/BG11/logion-resources/cache/LOGION-50k_wordpiece_model",
+  "architectures": [
+    "BertForMaskedLM"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.48.3",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 50000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,5 @@

+{
+  "_from_model_config": true,
+  "pad_token_id": 0,
+  "transformers_version": "4.48.3"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b23563782a0cb54a67d2a8b1eac79eae5f8aceaf189fb581ffe3e2caaa485a82
+size 497995232

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb4e4e063a7c75a711530077a7a0a8d35451a372d9b10d89f3a33a2bd8ac9783
+size 996111994

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f79f75d2ec77195528273b6bb84e6698cab949de9bcaa6d78c7f95a41fda801a
+size 14244

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c5f5767035b5956a68d4d20c523c3fd1fec730443fa1db2421ec3c4bedf3e7d
+size 1064

trainer_state.json ADDED Viewed

	@@ -0,0 +1,468 @@

+{
+  "best_metric": 1.8379791975021362,
+  "best_model_checkpoint": "/scratch/gpfs/BG11/plato/models-plato-lr/model_plato-phil_unaccented_text_10.txt/checkpoint-12586",
+  "epoch": 29.0,
+  "eval_steps": 108,
+  "global_step": 12586,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "grad_norm": 10.017090797424316,
+      "learning_rate": 9.950000000000001e-06,
+      "loss": 2.1548,
+      "step": 434
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 1.9816173315048218,
+      "eval_runtime": 2.9153,
+      "eval_samples_per_second": 264.807,
+      "eval_steps_per_second": 33.272,
+      "step": 434
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 10.668547630310059,
+      "learning_rate": 9.9e-06,
+      "loss": 2.0793,
+      "step": 868
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.9505406618118286,
+      "eval_runtime": 2.9294,
+      "eval_samples_per_second": 263.535,
+      "eval_steps_per_second": 33.113,
+      "step": 868
+    },
+    {
+      "epoch": 3.0,
+      "grad_norm": 11.247385025024414,
+      "learning_rate": 9.85e-06,
+      "loss": 2.0625,
+      "step": 1302
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.9273583889007568,
+      "eval_runtime": 2.9137,
+      "eval_samples_per_second": 264.954,
+      "eval_steps_per_second": 33.291,
+      "step": 1302
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 9.709423065185547,
+      "learning_rate": 9.800000000000001e-06,
+      "loss": 2.0344,
+      "step": 1736
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 1.9325604438781738,
+      "eval_runtime": 2.9068,
+      "eval_samples_per_second": 265.582,
+      "eval_steps_per_second": 33.37,
+      "step": 1736
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 10.718835830688477,
+      "learning_rate": 9.75e-06,
+      "loss": 2.009,
+      "step": 2170
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 1.9463964700698853,
+      "eval_runtime": 2.9049,
+      "eval_samples_per_second": 265.755,
+      "eval_steps_per_second": 33.391,
+      "step": 2170
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 9.384885787963867,
+      "learning_rate": 9.7e-06,
+      "loss": 1.9735,
+      "step": 2604
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 1.896444320678711,
+      "eval_runtime": 2.9325,
+      "eval_samples_per_second": 263.257,
+      "eval_steps_per_second": 33.078,
+      "step": 2604
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 10.999958038330078,
+      "learning_rate": 9.65e-06,
+      "loss": 1.9355,
+      "step": 3038
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 1.9304955005645752,
+      "eval_runtime": 2.9309,
+      "eval_samples_per_second": 263.399,
+      "eval_steps_per_second": 33.095,
+      "step": 3038
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 10.52430534362793,
+      "learning_rate": 9.600000000000001e-06,
+      "loss": 1.9248,
+      "step": 3472
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 1.9371752738952637,
+      "eval_runtime": 2.9216,
+      "eval_samples_per_second": 264.237,
+      "eval_steps_per_second": 33.201,
+      "step": 3472
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 9.388583183288574,
+      "learning_rate": 9.55e-06,
+      "loss": 1.9172,
+      "step": 3906
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 1.9058644771575928,
+      "eval_runtime": 2.9052,
+      "eval_samples_per_second": 265.727,
+      "eval_steps_per_second": 33.388,
+      "step": 3906
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 9.09006118774414,
+      "learning_rate": 9.5e-06,
+      "loss": 1.8741,
+      "step": 4340
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 1.8592596054077148,
+      "eval_runtime": 2.9141,
+      "eval_samples_per_second": 264.922,
+      "eval_steps_per_second": 33.287,
+      "step": 4340
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 9.535520553588867,
+      "learning_rate": 9.450000000000001e-06,
+      "loss": 1.8718,
+      "step": 4774
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 1.932305097579956,
+      "eval_runtime": 2.9127,
+      "eval_samples_per_second": 265.042,
+      "eval_steps_per_second": 33.302,
+      "step": 4774
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 9.936247825622559,
+      "learning_rate": 9.4e-06,
+      "loss": 1.8406,
+      "step": 5208
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 1.9319616556167603,
+      "eval_runtime": 2.9091,
+      "eval_samples_per_second": 265.374,
+      "eval_steps_per_second": 33.344,
+      "step": 5208
+    },
+    {
+      "epoch": 13.0,
+      "grad_norm": 9.894285202026367,
+      "learning_rate": 9.350000000000002e-06,
+      "loss": 1.8332,
+      "step": 5642
+    },
+    {
+      "epoch": 13.0,
+      "eval_loss": 1.9167243242263794,
+      "eval_runtime": 2.9034,
+      "eval_samples_per_second": 265.898,
+      "eval_steps_per_second": 33.41,
+      "step": 5642
+    },
+    {
+      "epoch": 14.0,
+      "grad_norm": 10.511141777038574,
+      "learning_rate": 9.3e-06,
+      "loss": 1.8258,
+      "step": 6076
+    },
+    {
+      "epoch": 14.0,
+      "eval_loss": 1.9056346416473389,
+      "eval_runtime": 2.9265,
+      "eval_samples_per_second": 263.8,
+      "eval_steps_per_second": 33.146,
+      "step": 6076
+    },
+    {
+      "epoch": 15.0,
+      "grad_norm": 11.17342758178711,
+      "learning_rate": 9.250000000000001e-06,
+      "loss": 1.8045,
+      "step": 6510
+    },
+    {
+      "epoch": 15.0,
+      "eval_loss": 1.8958162069320679,
+      "eval_runtime": 2.9122,
+      "eval_samples_per_second": 265.094,
+      "eval_steps_per_second": 33.308,
+      "step": 6510
+    },
+    {
+      "epoch": 16.0,
+      "grad_norm": 10.152159690856934,
+      "learning_rate": 9.200000000000002e-06,
+      "loss": 1.7862,
+      "step": 6944
+    },
+    {
+      "epoch": 16.0,
+      "eval_loss": 1.9146229028701782,
+      "eval_runtime": 2.9007,
+      "eval_samples_per_second": 266.146,
+      "eval_steps_per_second": 33.441,
+      "step": 6944
+    },
+    {
+      "epoch": 17.0,
+      "grad_norm": 9.818968772888184,
+      "learning_rate": 9.15e-06,
+      "loss": 1.7761,
+      "step": 7378
+    },
+    {
+      "epoch": 17.0,
+      "eval_loss": 1.9073622226715088,
+      "eval_runtime": 2.9044,
+      "eval_samples_per_second": 265.807,
+      "eval_steps_per_second": 33.398,
+      "step": 7378
+    },
+    {
+      "epoch": 18.0,
+      "grad_norm": 9.413209915161133,
+      "learning_rate": 9.100000000000001e-06,
+      "loss": 1.778,
+      "step": 7812
+    },
+    {
+      "epoch": 18.0,
+      "eval_loss": 1.9236599206924438,
+      "eval_runtime": 2.893,
+      "eval_samples_per_second": 266.85,
+      "eval_steps_per_second": 33.529,
+      "step": 7812
+    },
+    {
+      "epoch": 19.0,
+      "grad_norm": 9.5354642868042,
+      "learning_rate": 9.050000000000001e-06,
+      "loss": 1.7452,
+      "step": 8246
+    },
+    {
+      "epoch": 19.0,
+      "eval_loss": 1.899939775466919,
+      "eval_runtime": 2.91,
+      "eval_samples_per_second": 265.293,
+      "eval_steps_per_second": 33.334,
+      "step": 8246
+    },
+    {
+      "epoch": 20.0,
+      "grad_norm": 11.661208152770996,
+      "learning_rate": 9e-06,
+      "loss": 1.718,
+      "step": 8680
+    },
+    {
+      "epoch": 20.0,
+      "eval_loss": 1.9721119403839111,
+      "eval_runtime": 2.9167,
+      "eval_samples_per_second": 264.683,
+      "eval_steps_per_second": 33.257,
+      "step": 8680
+    },
+    {
+      "epoch": 21.0,
+      "grad_norm": 11.493612289428711,
+      "learning_rate": 8.95e-06,
+      "loss": 1.7184,
+      "step": 9114
+    },
+    {
+      "epoch": 21.0,
+      "eval_loss": 1.916871428489685,
+      "eval_runtime": 2.9076,
+      "eval_samples_per_second": 265.509,
+      "eval_steps_per_second": 33.361,
+      "step": 9114
+    },
+    {
+      "epoch": 22.0,
+      "grad_norm": 11.153796195983887,
+      "learning_rate": 8.900000000000001e-06,
+      "loss": 1.7141,
+      "step": 9548
+    },
+    {
+      "epoch": 22.0,
+      "eval_loss": 1.8576736450195312,
+      "eval_runtime": 2.9127,
+      "eval_samples_per_second": 265.049,
+      "eval_steps_per_second": 33.303,
+      "step": 9548
+    },
+    {
+      "epoch": 23.0,
+      "grad_norm": 10.186408042907715,
+      "learning_rate": 8.85e-06,
+      "loss": 1.7025,
+      "step": 9982
+    },
+    {
+      "epoch": 23.0,
+      "eval_loss": 1.9040586948394775,
+      "eval_runtime": 2.9122,
+      "eval_samples_per_second": 265.094,
+      "eval_steps_per_second": 33.308,
+      "step": 9982
+    },
+    {
+      "epoch": 24.0,
+      "grad_norm": 10.842204093933105,
+      "learning_rate": 8.8e-06,
+      "loss": 1.6861,
+      "step": 10416
+    },
+    {
+      "epoch": 24.0,
+      "eval_loss": 1.8773962259292603,
+      "eval_runtime": 2.9089,
+      "eval_samples_per_second": 265.391,
+      "eval_steps_per_second": 33.346,
+      "step": 10416
+    },
+    {
+      "epoch": 25.0,
+      "grad_norm": 10.846117973327637,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 1.6627,
+      "step": 10850
+    },
+    {
+      "epoch": 25.0,
+      "eval_loss": 1.8711638450622559,
+      "eval_runtime": 2.912,
+      "eval_samples_per_second": 265.113,
+      "eval_steps_per_second": 33.311,
+      "step": 10850
+    },
+    {
+      "epoch": 26.0,
+      "grad_norm": 11.196520805358887,
+      "learning_rate": 8.700000000000001e-06,
+      "loss": 1.6625,
+      "step": 11284
+    },
+    {
+      "epoch": 26.0,
+      "eval_loss": 1.946097731590271,
+      "eval_runtime": 2.9133,
+      "eval_samples_per_second": 264.989,
+      "eval_steps_per_second": 33.295,
+      "step": 11284
+    },
+    {
+      "epoch": 27.0,
+      "grad_norm": 9.261242866516113,
+      "learning_rate": 8.65e-06,
+      "loss": 1.6464,
+      "step": 11718
+    },
+    {
+      "epoch": 27.0,
+      "eval_loss": 1.888836145401001,
+      "eval_runtime": 2.9213,
+      "eval_samples_per_second": 264.264,
+      "eval_steps_per_second": 33.204,
+      "step": 11718
+    },
+    {
+      "epoch": 28.0,
+      "grad_norm": 8.242238998413086,
+      "learning_rate": 8.6e-06,
+      "loss": 1.625,
+      "step": 12152
+    },
+    {
+      "epoch": 28.0,
+      "eval_loss": 1.9059230089187622,
+      "eval_runtime": 2.9279,
+      "eval_samples_per_second": 263.673,
+      "eval_steps_per_second": 33.13,
+      "step": 12152
+    },
+    {
+      "epoch": 29.0,
+      "grad_norm": 10.768765449523926,
+      "learning_rate": 8.550000000000001e-06,
+      "loss": 1.6194,
+      "step": 12586
+    },
+    {
+      "epoch": 29.0,
+      "eval_loss": 1.8379791975021362,
+      "eval_runtime": 2.91,
+      "eval_samples_per_second": 265.295,
+      "eval_steps_per_second": 33.334,
+      "step": 12586
+    }
+  ],
+  "logging_steps": 108,
+  "max_steps": 86800,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 200,
+  "save_steps": 108,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.29846435273769e+16,
+  "train_batch_size": 16,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:69f375ae1f316f8dded0bd6962a67bed1da28c220664d46ed1fc1e4503897e07
+size 5368