2ira commited on Jan 15

Commit

ba168f5

verified ·

1 Parent(s): a039190

Add files using upload-large-folder tool

Browse files

Files changed (20) hide show

Qwen2.5-Coder-32B-Instruct/model-00001-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00002-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00003-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00004-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00005-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00006-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00007-of-00014.safetensors +3 -0
Qwen2.5-Coder-32B-Instruct/model-00008-of-00014.safetensors +3 -0
evo-1-8k-base/evo-1-8k-base/.gitattributes +35 -0
evo-1-8k-base/evo-1-8k-base/README.md +101 -0
evo-1-8k-base/evo-1-8k-base/config.json +90 -0
evo-1-8k-base/evo-1-8k-base/generation_config.json +4 -0
evo-1-8k-base/evo-1-8k-base/model-00002-of-00003.safetensors +3 -0
evo-1-8k-base/evo-1-8k-base/model-00003-of-00003.safetensors +3 -0
evo-1-8k-base/evo-1-8k-base/model.safetensors.index.json +445 -0
evo-1-8k-base/evo-1-8k-base/special_tokens_map.json +1 -0
evo-1-8k-base/evo-1-8k-base/tokenizer_config.json +14 -0
evo-1-8k-base/pytorch_model.bin.index.json +446 -0
evo-1-8k-base/special_tokens_map.json +1 -0
evo-1-8k-base/tokenizer_config.json +14 -0

Qwen2.5-Coder-32B-Instruct/model-00001-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5746929d771eb06ba0105671a2018dca3c648d4664ca5a5ce2077df82fabad92
+size 4891730992

Qwen2.5-Coder-32B-Instruct/model-00002-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:12aaad653a85d7212a9cc7722937fff7b2bd060ab8522399b4a74d2bf736df8d
+size 4876059352

Qwen2.5-Coder-32B-Instruct/model-00003-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9bac433064b2c29f3e2a891539993b74b7a1da5b0a78c900b2e22fc20fe66059
+size 4876059384

Qwen2.5-Coder-32B-Instruct/model-00004-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e859e864a61c45dc2e38650359540e5f35f09d4a6993ef66d7274760e7d1905
+size 4876059416

Qwen2.5-Coder-32B-Instruct/model-00005-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:57000579cf2e87cd575333288c25588a45816fc406ace74a52efed1e7bc910d5
+size 4876059416

Qwen2.5-Coder-32B-Instruct/model-00006-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:72dd80465092fad2665c9705332efa99c20b9fb22ad1944e7fe7429a222ede42
+size 4876059416

Qwen2.5-Coder-32B-Instruct/model-00007-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b91130f8049d3446221000a1d44cdf7bd344f01a2b5843f9bb81ac8193beeae8
+size 4876059416

Qwen2.5-Coder-32B-Instruct/model-00008-of-00014.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:522db6c67390557f2964a4a0094a463a067c91992be164b6e141aa1267a225e5
+size 4876059416

evo-1-8k-base/evo-1-8k-base/.gitattributes ADDED Viewed

	@@ -0,0 +1,35 @@

+*.7z filter=lfs diff=lfs merge=lfs -text
+*.arrow filter=lfs diff=lfs merge=lfs -text
+*.bin filter=lfs diff=lfs merge=lfs -text
+*.bz2 filter=lfs diff=lfs merge=lfs -text
+*.ckpt filter=lfs diff=lfs merge=lfs -text
+*.ftz filter=lfs diff=lfs merge=lfs -text
+*.gz filter=lfs diff=lfs merge=lfs -text
+*.h5 filter=lfs diff=lfs merge=lfs -text
+*.joblib filter=lfs diff=lfs merge=lfs -text
+*.lfs.* filter=lfs diff=lfs merge=lfs -text
+*.mlmodel filter=lfs diff=lfs merge=lfs -text
+*.model filter=lfs diff=lfs merge=lfs -text
+*.msgpack filter=lfs diff=lfs merge=lfs -text
+*.npy filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*.onnx filter=lfs diff=lfs merge=lfs -text
+*.ot filter=lfs diff=lfs merge=lfs -text
+*.parquet filter=lfs diff=lfs merge=lfs -text
+*.pb filter=lfs diff=lfs merge=lfs -text
+*.pickle filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text
+*.pt filter=lfs diff=lfs merge=lfs -text
+*.pth filter=lfs diff=lfs merge=lfs -text
+*.rar filter=lfs diff=lfs merge=lfs -text
+*.safetensors filter=lfs diff=lfs merge=lfs -text
+saved_model/**/* filter=lfs diff=lfs merge=lfs -text
+*.tar.* filter=lfs diff=lfs merge=lfs -text
+*.tar filter=lfs diff=lfs merge=lfs -text
+*.tflite filter=lfs diff=lfs merge=lfs -text
+*.tgz filter=lfs diff=lfs merge=lfs -text
+*.wasm filter=lfs diff=lfs merge=lfs -text
+*.xz filter=lfs diff=lfs merge=lfs -text
+*.zip filter=lfs diff=lfs merge=lfs -text
+*.zst filter=lfs diff=lfs merge=lfs -text
+*tfevents* filter=lfs diff=lfs merge=lfs -text

evo-1-8k-base/evo-1-8k-base/README.md ADDED Viewed

	@@ -0,0 +1,101 @@

+---
+license: apache-2.0
+tags:
+- stripedhyena
+- long context
+- deep signal processing
+- hybrid
+- biology
+- genomics
+---
+## Evo-1 (Phase 1)
+<p align="center">
+<img src="https://cdn-uploads.huggingface.co/production/uploads/62a1306bbe7fa896d2c8de44/JoEHcvLTUlHoMcgh3mmAz.png" width="70%" />
+</p>
+### News
+We identified and fixed an issue related to a wrong permutation of some projections, which affects generation quality. To use the new model revision, please load as follows:
+```python
+config = AutoConfig.from_pretrained(model_name, trust_remote_code=True, revision="1.1_fix")
+model = AutoModelForCausalLM.from_pretrained(
+    model_name,
+    config=config,
+    trust_remote_code=True,
+    revision="1.1_fix"
+)
+```
+### About
+Evo is a biological foundation model capable of long-context modeling and design.
+Evo uses the [StripedHyena architecture](https://github.com/togethercomputer/stripedhyena) to enable modeling of sequences at a single-nucleotide, byte-level resolution with near-linear scaling of compute and memory relative to context length.
+Evo has 7 billion parameters and is trained on OpenGenome, a prokaryotic whole-genome dataset containing ~300 billion tokens.
+Technical details about Evo can be found in our preprint and our accompanying blog posts. Evo was collaboratively developed by the [Arc Institute](https://arcinstitute.org/) and TogetherAI.
+As part of our commitment to open science, we release **weights of 15 intermediate pretraining checkpoints** for phase 1 and phase 2 of pretraining. The checkpoints are available as branches of the corresponding HuggingFace repository.
+**Evo-1 (Phase 1)** is our first model in the Evo family, trained at a context length of 8k.
+| Checkpoint Name                        | Description |
+|----------------------------------------|-------------|
+| `evo-1-8k-base`     | A model pretrained with 8,192 context. We use this model as the base model for molecular-scale finetuning tasks. |
+| `evo-1-131k-base`   | A model pretrained with 131,072 context using `evo-1-8k-base` as the initialization. We use this model to reason about and generate sequences at the genome scale. |
+### Model Architecture
+StripedHyena is a deep signal processing, hybrid architecture composed of multi-head attention and gated convolutions arranged in [Hyena](https://arxiv.org/abs/2302.10866) blocks, improving over decoder-only Transformers.
+StripedHyena is designed to leverage the specialization of each of its layer classes, with Hyena layers implementing the bulk of the computation required for sequence processing and attention layers supplementing the ability to perform targeted pattern recall.
+Some highlights of the architecture:
+- **Efficient autoregressive generation** via a recurrent mode (>500k generation with a single 80GB GPU)
+- **Significantly faster training and finetuning** at long context (>3x at 131k)
+- **Improved scaling laws over state-of-the-art architectures** (e.g., Transformer++) on both natural language and biological sequences.
+-  **Robust to training beyond the compute-optimal frontier** e.g., training way beyond Chinchilla-optimal token amounts (see preprint for details -- more details to come)
+### How to use Evo
+Example usage is provided in the [standalone repo](https://github.com/evo-design/evo).
+#### Parametrization for Inference and Finetuning
+One of the advantages of deep signal processing models is their flexibility. Different parametrizations of convolutions can be used depending on the memory, expressivity and causality requirements of pretraining, finetuning or inference workloads.
+The main classes are:
+- Modal canonical: unconstrained poles ([reference](https://arxiv.org/pdf/2203.14343.pdf), [reference](https://arxiv.org/abs/2310.18780)), or constrained poles ([reference](https://arxiv.org/abs/2206.11893), [reference](https://arxiv.org/pdf/2303.06349.pdf)).
+- Companion canonical / rational: TBA.
+- Hypernetworks: hypernetwork ([reference](https://arxiv.org/abs/2102.02611)), modulated hypernetwork ([reference](https://arxiv.org/abs/2302.10866)).
+- Explicit: modulated explicit ([reference](https://arxiv.org/pdf/2210.09298.pdf)).
+StripedHyena is a mixed precision model. Make sure to keep your `poles` and `residues` in `float32` precision, especially for longer prompts or training.
+### Disclaimer
+To use StripedHyena outside of the playground, you will need to install custom kernels. Please follow the instructions from the [standalone repository](https://github.com/togethercomputer/stripedhyena).
+## Cite
+```
+@article{nguyen2024sequence,
+   author = {Eric Nguyen and Michael Poli and Matthew G. Durrant and Brian Kang and Dhruva Katrekar and David B. Li and Liam J. Bartie and Armin W. Thomas and Samuel H. King and Garyk Brixi and Jeremy Sullivan and Madelena Y. Ng and Ashley Lewis and Aaron Lou and Stefano Ermon and Stephen A. Baccus and Tina Hernandez-Boussard and Christopher Ré and Patrick D. Hsu and Brian L. Hie },
+   title = {Sequence modeling and design from molecular to genome scale with Evo},
+   journal = {Science},
+   volume = {386},
+   number = {6723},
+   pages = {eado9336},
+   year = {2024},
+   doi = {10.1126/science.ado9336},
+   URL = {https://www.science.org/doi/abs/10.1126/science.ado9336},
+```

evo-1-8k-base/evo-1-8k-base/config.json ADDED Viewed

	@@ -0,0 +1,90 @@

+{
+  "_commit_hash": "1cc23830f62c268082475776fb449af8428eb703",
+  "_name_or_path": "togethercomputer/evo-1-131k-base",
+  "architectures": [
+    "StripedHyenaModelForCausalLM"
+  ],
+  "attn_layer_idxs": [
+    8,
+    16,
+    24
+  ],
+  "auto_map": {
+    "AutoConfig": "togethercomputer/evo-1-131k-base--configuration_hyena.StripedHyenaConfig",
+    "AutoModelForCausalLM": "togethercomputer/evo-1-131k-base--modeling_hyena.StripedHyenaModelForCausalLM",
+    "AutoTokenizer": [
+      "togethercomputer/evo-1-131k-base--tokenizer.ByteTokenizer",
+      null
+    ]
+  },
+  "column_split": false,
+  "column_split_hyena": true,
+  "eps": 1e-06,
+  "final_norm": true,
+  "hidden_size": 4096,
+  "hyena_filter_groups": 1,
+  "hyena_layer_idxs": [
+    0,
+    1,
+    2,
+    3,
+    4,
+    5,
+    6,
+    7,
+    9,
+    10,
+    11,
+    12,
+    13,
+    14,
+    15,
+    17,
+    18,
+    19,
+    20,
+    21,
+    22,
+    23,
+    25,
+    26,
+    27,
+    28,
+    29,
+    30,
+    31
+  ],
+  "inference_mode": false,
+  "inner_mlp_size": 10928,
+  "log_intermediate_values": false,
+  "make_vocab_size_divisible_by": 8,
+  "max_seqlen": 8192,
+  "mha_out_proj_bias": true,
+  "mlp_activation": "gelu",
+  "model_parallel_size": 1,
+  "model_type": "stripedhyena",
+  "num_attention_heads": 32,
+  "num_filters": 4096,
+  "num_layers": 32,
+  "pipe_parallel_size": 1,
+  "prefill_style": "fft",
+  "proj_groups": 1,
+  "qkv_proj_bias": true,
+  "rotary_emb_base": 10000,
+  "rotary_emb_scaling_factor": 1,
+  "short_filter_bias": true,
+  "short_filter_length": 3,
+  "smeared_gqa": false,
+  "split_k0": true,
+  "state_size": 8,
+  "tie_embeddings": true,
+  "torch_dtype": "bfloat16",
+  "transformers_version": null,
+  "use_cache": true,
+  "use_flash_attn": true,
+  "use_flash_depthwise": false,
+  "use_flash_rmsnorm": false,
+  "use_flashfft": false,
+  "use_interpolated_rotary_pos_emb": false,
+  "vocab_size": 512
+}

evo-1-8k-base/evo-1-8k-base/generation_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "_from_model_config": true,
+  "transformers_version": "4.36.2"
+}

evo-1-8k-base/evo-1-8k-base/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf18e9010465bff1def520ef5f6124dffde1b36eb2a3359fb6a995afbae284c0
+size 4929849248

evo-1-8k-base/evo-1-8k-base/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c1d054d7f3ef4286da9e51045016de044738f4e66da332576f6d292c7965ecc4
+size 3003304856

evo-1-8k-base/evo-1-8k-base/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,445 @@

+{
+  "metadata": {
+    "total_size": 12913164672
+  },
+  "weight_map": {
+    "backbone.blocks.0.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.0.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.1.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.10.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.11.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.12.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.12.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.12.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.12.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.13.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.13.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.14.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.15.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.inner_mha_cls.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.inner_mha_cls.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.inner_mha_cls.out_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.inner_mha_cls.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.inner_mha_cls.rotary_emb.inv_freq": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.16.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.17.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.18.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.19.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.2.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.2.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.20.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.20.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.21.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.22.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.filter.D": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.filter.poles": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.filter.residues": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.filter.short_filter_bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.filter.short_filter_weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.mlp.l2.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.mlp.l3.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.out_filter_dense.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.out_filter_dense.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.projections.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.23.projections.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.inner_mha_cls.Wqkv.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.inner_mha_cls.Wqkv.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.inner_mha_cls.out_proj.bias": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.inner_mha_cls.out_proj.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.inner_mha_cls.rotary_emb.inv_freq": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.mlp.l1.weight": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.24.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.24.post_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.24.pre_norm.scale": "model-00002-of-00003.safetensors",
+    "backbone.blocks.25.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.25.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.26.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.27.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.28.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.29.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.3.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.3.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.30.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.30.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.filter.D": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.filter.poles": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.filter.residues": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.filter.short_filter_bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.filter.short_filter_weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.mlp.l1.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.mlp.l2.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.mlp.l3.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.out_filter_dense.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.out_filter_dense.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.post_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.pre_norm.scale": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.projections.bias": "model-00003-of-00003.safetensors",
+    "backbone.blocks.31.projections.weight": "model-00003-of-00003.safetensors",
+    "backbone.blocks.4.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.4.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.5.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.6.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.7.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.inner_mha_cls.Wqkv.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.inner_mha_cls.Wqkv.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.inner_mha_cls.out_proj.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.inner_mha_cls.out_proj.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.inner_mha_cls.rotary_emb.inv_freq": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.8.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.filter.D": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.filter.poles": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.filter.residues": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.filter.short_filter_bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.filter.short_filter_weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.mlp.l1.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.mlp.l2.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.mlp.l3.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.out_filter_dense.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.out_filter_dense.weight": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.post_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.pre_norm.scale": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.projections.bias": "model-00001-of-00003.safetensors",
+    "backbone.blocks.9.projections.weight": "model-00001-of-00003.safetensors",
+    "backbone.embedding_layer.weight": "model-00001-of-00003.safetensors",
+    "backbone.norm.scale": "model-00001-of-00003.safetensors"
+  }
+}

evo-1-8k-base/evo-1-8k-base/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

evo-1-8k-base/evo-1-8k-base/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "added_tokens_decoder": {},
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenizer.ByteTokenizer",
+      null
+    ]
+  },
+  "byte_level": true,
+  "clean_up_tokenization_spaces": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "padding_side": "left",
+  "truncation_side": "left"
+}

evo-1-8k-base/pytorch_model.bin.index.json ADDED Viewed

	@@ -0,0 +1,446 @@

+{
+  "metadata": {
+    "total_size": 12913164672
+  },
+  "weight_map": {
+    "backbone.blocks.0.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.0.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.1.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.10.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.11.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.12.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.12.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.12.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.12.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.13.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.13.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.14.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.15.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.inner_mha_cls.Wqkv.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.inner_mha_cls.Wqkv.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.inner_mha_cls.out_proj.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.inner_mha_cls.out_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.inner_mha_cls.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.16.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.17.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.18.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.19.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.2.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.2.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.20.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.20.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.21.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.22.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.filter.D": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.filter.poles": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.filter.residues": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.filter.short_filter_bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.filter.short_filter_weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.mlp.l2.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.mlp.l3.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.out_filter_dense.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.out_filter_dense.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.projections.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.23.projections.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.inner_mha_cls.Wqkv.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.inner_mha_cls.Wqkv.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.inner_mha_cls.out_proj.bias": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.inner_mha_cls.out_proj.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.inner_mha_cls.rotary_emb.inv_freq": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.mlp.l1.weight": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.24.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.24.post_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.24.pre_norm.scale": "pytorch_model-00002-of-00003.bin",
+    "backbone.blocks.25.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.25.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.26.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.27.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.28.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.29.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.3.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.3.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.30.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.30.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.filter.D": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.filter.poles": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.filter.residues": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.filter.short_filter_bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.filter.short_filter_weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.mlp.l1.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.mlp.l2.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.mlp.l3.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.out_filter_dense.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.out_filter_dense.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.post_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.pre_norm.scale": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.projections.bias": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.31.projections.weight": "pytorch_model-00003-of-00003.bin",
+    "backbone.blocks.4.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.4.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.5.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.6.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.7.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.inner_mha_cls.Wqkv.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.inner_mha_cls.Wqkv.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.inner_mha_cls.out_proj.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.inner_mha_cls.out_proj.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.inner_mha_cls.rotary_emb.inv_freq": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.8.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.filter.D": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.filter.poles": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.filter.residues": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.filter.short_filter_bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.filter.short_filter_weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.mlp.l1.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.mlp.l2.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.mlp.l3.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.out_filter_dense.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.out_filter_dense.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.post_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.pre_norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.projections.bias": "pytorch_model-00001-of-00003.bin",
+    "backbone.blocks.9.projections.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.embedding_layer.weight": "pytorch_model-00001-of-00003.bin",
+    "backbone.norm.scale": "pytorch_model-00001-of-00003.bin",
+    "backbone.unembed.weight": "pytorch_model-00001-of-00003.bin"
+  }
+}

evo-1-8k-base/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {}

evo-1-8k-base/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "added_tokens_decoder": {},
+  "auto_map": {
+    "AutoTokenizer": [
+      "tokenizer.ByteTokenizer",
+      null
+    ]
+  },
+  "byte_level": true,
+  "clean_up_tokenization_spaces": true,
+  "model_max_length": 1000000000000000019884624838656,
+  "padding_side": "left",
+  "truncation_side": "left"
+}