teilers
/

mamba-constrict-td

Text Generation

feature-extraction

text-generation-inference

Model card Files Files and versions

MambaConstrict TD

MambaConstrict Model trained using a temporal difference regularization with $\lambda = 0.0001$.

For inquiring, please contact teilers@student.ethz.ch

Downloads last month: 1

Safetensors

Model size

3B params

Tensor type

F32

·

Model tree for teilers/mamba-constrict-td

Base model

state-spaces/mamba-2.8b-hf

Finetuned

(7)

this model

Dataset used to train teilers/mamba-constrict-td