Model save

Browse files

Files changed (5) hide show

README.md +216 -0
config.json +18 -0
generation_config.json +4 -0
model.safetensors +3 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,216 @@

+---
+library_name: transformers
+tags:
+- generated_from_trainer
+metrics:
+- accuracy
+model-index:
+- name: reverse_add_replicate_eval17_corruptedfull
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# reverse_add_replicate_eval17_corruptedfull
+This model is a fine-tuned version of [](https://huggingface.co/) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 0.5300
+- Accuracy: 0.0
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 0.001
+- train_batch_size: 128
+- eval_batch_size: 128
+- seed: 7658372
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 1
+### Training results
+| Training Loss | Epoch  | Step  | Validation Loss | Accuracy |
+|:-------------:|:------:|:-----:|:---------------:|:--------:|
+| No log        | 0      | 0     | 2.7197          | 0.0      |
+| 2.2508        | 0.0064 | 100   | 2.3854          | 0.0      |
+| 2.1734        | 0.0128 | 200   | 2.2516          | 0.0      |
+| 2.0           | 0.0192 | 300   | 2.2224          | 0.0      |
+| 2.042         | 0.0256 | 400   | 2.1754          | 0.0      |
+| 1.9312        | 0.032  | 500   | 2.1393          | 0.0      |
+| 1.6389        | 0.0384 | 600   | 1.9024          | 0.0      |
+| 1.6857        | 0.0448 | 700   | 1.7966          | 0.0      |
+| 1.3667        | 0.0512 | 800   | 1.6226          | 0.0      |
+| 1.5327        | 0.0576 | 900   | 1.5372          | 0.0      |
+| 1.4855        | 0.064  | 1000  | 1.5815          | 0.001    |
+| 1.5424        | 0.0704 | 1100  | 1.7777          | 0.0      |
+| 1.23          | 0.0768 | 1200  | 1.4737          | 0.001    |
+| 1.1634        | 0.0832 | 1300  | 1.4714          | 0.0      |
+| 1.2363        | 0.0896 | 1400  | 1.3542          | 0.0      |
+| 1.4037        | 0.096  | 1500  | 1.5225          | 0.0      |
+| 1.3053        | 0.1024 | 1600  | 1.6180          | 0.0      |
+| 1.1767        | 0.1088 | 1700  | 1.3083          | 0.0      |
+| 1.1297        | 0.1152 | 1800  | 1.2672          | 0.0      |
+| 1.1554        | 0.1216 | 1900  | 1.2852          | 0.0      |
+| 1.0743        | 0.128  | 2000  | 1.2583          | 0.0      |
+| 1.0619        | 0.1344 | 2100  | 1.2129          | 0.001    |
+| 1.1048        | 0.1408 | 2200  | 1.2669          | 0.001    |
+| 1.1799        | 0.1472 | 2300  | 1.2783          | 0.001    |
+| 1.195         | 0.1536 | 2400  | 1.3627          | 0.0      |
+| 1.1809        | 0.16   | 2500  | 1.2085          | 0.001    |
+| 1.1969        | 0.1664 | 2600  | 1.4069          | 0.0      |
+| 1.1118        | 0.1728 | 2700  | 1.2797          | 0.0      |
+| 1.171         | 0.1792 | 2800  | 1.2713          | 0.0      |
+| 1.1446        | 0.1856 | 2900  | 1.5193          | 0.0      |
+| 1.2357        | 0.192  | 3000  | 1.2437          | 0.0      |
+| 1.1157        | 0.1984 | 3100  | 1.2369          | 0.003    |
+| 1.0299        | 0.2048 | 3200  | 1.2956          | 0.0      |
+| 0.9853        | 0.2112 | 3300  | 1.2215          | 0.0      |
+| 1.013         | 0.2176 | 3400  | 1.1521          | 0.002    |
+| 1.0245        | 0.224  | 3500  | 1.2305          | 0.001    |
+| 1.0655        | 0.2304 | 3600  | 1.2626          | 0.0      |
+| 1.0799        | 0.2368 | 3700  | 1.2363          | 0.0      |
+| 1.0102        | 0.2432 | 3800  | 1.1814          | 0.003    |
+| 0.9486        | 0.2496 | 3900  | 1.1798          | 0.001    |
+| 0.9528        | 0.256  | 4000  | 1.1197          | 0.0      |
+| 0.9053        | 0.2624 | 4100  | 1.1351          | 0.001    |
+| 0.7067        | 0.2688 | 4200  | 0.8761          | 0.0      |
+| 0.6589        | 0.2752 | 4300  | 0.8723          | 0.007    |
+| 0.4399        | 0.2816 | 4400  | 0.5698          | 0.001    |
+| 0.3902        | 0.288  | 4500  | 0.4925          | 0.003    |
+| 0.8062        | 0.2944 | 4600  | 1.4631          | 0.021    |
+| 0.4406        | 0.3008 | 4700  | 0.6817          | 0.123    |
+| 0.2309        | 0.3072 | 4800  | 0.8043          | 0.151    |
+| 0.3159        | 0.3136 | 4900  | 0.7227          | 0.148    |
+| 0.1867        | 0.32   | 5000  | 0.3206          | 0.346    |
+| 0.6064        | 0.3264 | 5100  | 0.8217          | 0.088    |
+| 0.1587        | 0.3328 | 5200  | 0.2855          | 0.182    |
+| 0.4183        | 0.3392 | 5300  | 0.5310          | 0.133    |
+| 0.0808        | 0.3456 | 5400  | 0.7348          | 0.072    |
+| 0.2543        | 0.352  | 5500  | 1.0533          | 0.127    |
+| 0.1427        | 0.3584 | 5600  | 0.5136          | 0.418    |
+| 0.2765        | 0.3648 | 5700  | 0.4418          | 0.17     |
+| 0.1488        | 0.3712 | 5800  | 0.3970          | 0.315    |
+| 0.1357        | 0.3776 | 5900  | 0.6474          | 0.275    |
+| 0.1526        | 0.384  | 6000  | 0.5895          | 0.076    |
+| 0.206         | 0.3904 | 6100  | 1.2247          | 0.077    |
+| 0.1029        | 0.3968 | 6200  | 0.8231          | 0.097    |
+| 0.1207        | 0.4032 | 6300  | 0.3404          | 0.51     |
+| 0.0677        | 0.4096 | 6400  | 0.2952          | 0.247    |
+| 0.2954        | 0.416  | 6500  | 0.5292          | 0.052    |
+| 0.134         | 0.4224 | 6600  | 0.3610          | 0.224    |
+| 0.0762        | 0.4288 | 6700  | 0.3354          | 0.407    |
+| 0.1286        | 0.4352 | 6800  | 0.3923          | 0.293    |
+| 0.1515        | 0.4416 | 6900  | 0.1537          | 0.513    |
+| 0.0624        | 0.448  | 7000  | 0.1791          | 0.443    |
+| 0.0776        | 0.4544 | 7100  | 0.2687          | 0.413    |
+| 0.0677        | 0.4608 | 7200  | 0.2416          | 0.315    |
+| 0.0422        | 0.4672 | 7300  | 0.1709          | 0.433    |
+| 0.0441        | 0.4736 | 7400  | 0.1300          | 0.434    |
+| 0.0734        | 0.48   | 7500  | 0.1390          | 0.498    |
+| 0.0214        | 0.4864 | 7600  | 0.3181          | 0.353    |
+| 0.6083        | 0.4928 | 7700  | 1.0202          | 0.08     |
+| 0.0599        | 0.4992 | 7800  | 0.2724          | 0.342    |
+| 0.051         | 0.5056 | 7900  | 0.1759          | 0.362    |
+| 0.1857        | 0.512  | 8000  | 0.7223          | 0.21     |
+| 0.1543        | 0.5184 | 8100  | 0.7703          | 0.039    |
+| 0.0614        | 0.5248 | 8200  | 0.1059          | 0.513    |
+| 0.0342        | 0.5312 | 8300  | 0.1070          | 0.661    |
+| 0.054         | 0.5376 | 8400  | 0.2630          | 0.337    |
+| 0.0325        | 0.544  | 8500  | 0.2198          | 0.327    |
+| 0.0092        | 0.5504 | 8600  | 0.0922          | 0.698    |
+| 0.0156        | 0.5568 | 8700  | 0.1876          | 0.439    |
+| 0.0129        | 0.5632 | 8800  | 0.2162          | 0.29     |
+| 0.0169        | 0.5696 | 8900  | 0.1118          | 0.325    |
+| 0.0512        | 0.576  | 9000  | 0.0743          | 0.718    |
+| 0.1005        | 0.5824 | 9100  | 0.3120          | 0.161    |
+| 0.0101        | 0.5888 | 9200  | 0.0649          | 0.603    |
+| 0.0441        | 0.5952 | 9300  | 0.0737          | 0.745    |
+| 0.082         | 0.6016 | 9400  | 0.2053          | 0.376    |
+| 0.0219        | 0.608  | 9500  | 0.1205          | 0.619    |
+| 0.0243        | 0.6144 | 9600  | 0.0675          | 0.662    |
+| 0.0148        | 0.6208 | 9700  | 0.6656          | 0.272    |
+| 0.0082        | 0.6272 | 9800  | 0.0833          | 0.395    |
+| 0.005         | 0.6336 | 9900  | 0.0921          | 0.518    |
+| 0.0096        | 0.64   | 10000 | 0.6033          | 0.348    |
+| 0.0074        | 0.6464 | 10100 | 0.1524          | 0.097    |
+| 0.0022        | 0.6528 | 10200 | 0.1999          | 0.071    |
+| 0.0024        | 0.6592 | 10300 | 0.1307          | 0.292    |
+| 0.0003        | 0.6656 | 10400 | 0.1261          | 0.244    |
+| 0.0102        | 0.672  | 10500 | 0.1265          | 0.312    |
+| 0.0005        | 0.6784 | 10600 | 0.2220          | 0.036    |
+| 0.0113        | 0.6848 | 10700 | 0.1430          | 0.186    |
+| 0.0005        | 0.6912 | 10800 | 0.2842          | 0.007    |
+| 0.0095        | 0.6976 | 10900 | 0.1886          | 0.109    |
+| 0.0006        | 0.704  | 11000 | 0.2308          | 0.042    |
+| 0.0032        | 0.7104 | 11100 | 0.3134          | 0.105    |
+| 0.0028        | 0.7168 | 11200 | 0.1602          | 0.12     |
+| 0.0003        | 0.7232 | 11300 | 0.2925          | 0.001    |
+| 0.0138        | 0.7296 | 11400 | 0.2362          | 0.047    |
+| 0.0006        | 0.736  | 11500 | 0.3262          | 0.0      |
+| 0.002         | 0.7424 | 11600 | 0.1361          | 0.213    |
+| 0.0001        | 0.7488 | 11700 | 0.1560          | 0.37     |
+| 0.0005        | 0.7552 | 11800 | 0.3111          | 0.007    |
+| 0.0001        | 0.7616 | 11900 | 0.3441          | 0.002    |
+| 0.0004        | 0.768  | 12000 | 0.3842          | 0.0      |
+| 0.0001        | 0.7744 | 12100 | 0.4115          | 0.0      |
+| 0.0007        | 0.7808 | 12200 | 0.3541          | 0.02     |
+| 0.0           | 0.7872 | 12300 | 0.3537          | 0.002    |
+| 0.0046        | 0.7936 | 12400 | 0.3153          | 0.015    |
+| 0.0004        | 0.8    | 12500 | 0.4039          | 0.003    |
+| 0.0           | 0.8064 | 12600 | 0.4155          | 0.003    |
+| 0.0001        | 0.8128 | 12700 | 0.3909          | 0.001    |
+| 0.0004        | 0.8192 | 12800 | 0.4673          | 0.0      |
+| 0.0           | 0.8256 | 12900 | 0.3996          | 0.0      |
+| 0.0           | 0.832  | 13000 | 0.3360          | 0.004    |
+| 0.0           | 0.8384 | 13100 | 0.3118          | 0.011    |
+| 0.0           | 0.8448 | 13200 | 0.4214          | 0.0      |
+| 0.0           | 0.8512 | 13300 | 0.4547          | 0.0      |
+| 0.0           | 0.8576 | 13400 | 0.4271          | 0.0      |
+| 0.0004        | 0.864  | 13500 | 0.4966          | 0.0      |
+| 0.0           | 0.8704 | 13600 | 0.5133          | 0.0      |
+| 0.0           | 0.8768 | 13700 | 0.5046          | 0.0      |
+| 0.0           | 0.8832 | 13800 | 0.5605          | 0.0      |
+| 0.0           | 0.8896 | 13900 | 0.5063          | 0.0      |
+| 0.0           | 0.896  | 14000 | 0.5144          | 0.0      |
+| 0.0           | 0.9024 | 14100 | 0.5037          | 0.0      |
+| 0.0           | 0.9088 | 14200 | 0.5242          | 0.0      |
+| 0.0           | 0.9152 | 14300 | 0.5054          | 0.0      |
+| 0.0           | 0.9216 | 14400 | 0.5186          | 0.0      |
+| 0.0           | 0.928  | 14500 | 0.5487          | 0.0      |
+| 0.0           | 0.9344 | 14600 | 0.5526          | 0.0      |
+| 0.0           | 0.9408 | 14700 | 0.5597          | 0.0      |
+| 0.0           | 0.9472 | 14800 | 0.5461          | 0.0      |
+| 0.0           | 0.9536 | 14900 | 0.5410          | 0.0      |
+| 0.0           | 0.96   | 15000 | 0.5398          | 0.0      |
+| 0.0           | 0.9664 | 15100 | 0.5367          | 0.0      |
+| 0.0003        | 0.9728 | 15200 | 0.5336          | 0.0      |
+| 0.0           | 0.9792 | 15300 | 0.5342          | 0.0      |
+| 0.0           | 0.9856 | 15400 | 0.5308          | 0.0      |
+| 0.0           | 0.992  | 15500 | 0.5296          | 0.0      |
+| 0.0           | 0.9984 | 15600 | 0.5300          | 0.0      |
+### Framework versions
+- Transformers 4.46.0
+- Pytorch 2.5.1
+- Datasets 3.1.0
+- Tokenizers 0.20.1

config.json ADDED Viewed

	@@ -0,0 +1,18 @@

+{
+  "architectures": [
+    "NanoGPT"
+  ],
+  "bias": true,
+  "block_size": 256,
+  "dropout": 0.0,
+  "model_type": "nanogpt",
+  "n_embd": 384,
+  "n_head": 6,
+  "n_layer": 6,
+  "nonlinearity": "RELU",
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.0",
+  "use_NoPE": true,
+  "use_layernorm": true,
+  "vocab_size": 14
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.46.0"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a9e23db6246d5cc3d176c0a5173c485b03063846b585c879829de78623ddee0
+size 42640744

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acf613225c6f8597ae53536c21106cbd9ad7c1e6e6b61dbb320d314ee3119b3b
+size 5240