smithblack-0
/

SHRAM-dev

Text Generation

sparse-attention

mixture-of-experts

Model card Files Files and versions

SHRAM-dev / __init__.py

smithblack-0's picture

Update architecture and tokenizer

1670228 verified about 1 month ago

History Blame Contribute Delete

563 Bytes

	from .configuration import ShramConfig
	from .decoder_layer import DecoderLayer
	from .huggingface import ShramForCausalLM
	from .__attention__load_balance_loss import LoadBalanceLoss
	from .mlp import SwiGLUMLP
	from .model import ShramModel
	from .rope import RotaryEmbedding
	from .__attention__router import MoSRAHRouter
	from .__cache__mosrah_cache import MoSRAHCache

	__all__ = [
	"DecoderLayer",
	"LoadBalanceLoss",
	"MoSRAHCache",
	"MoSRAHRouter",
	"ShramConfig",
	"ShramForCausalLM",
	"ShramModel",
	"RotaryEmbedding",
	"SwiGLUMLP",
	]