CMBAWIKI / README.md

Model card updated after epoch 0

c26337c verified 3 months ago

650 Bytes

metadata

base_model: t5-small
tags:
  - act
  - wikitext
metrics:
  - loss
  - perplexity

HRM-Text1 (WikiText-103)

Architecture: CMBA
Training Data: wikitext/wikitext-103-raw-v1
Tokenizer: t5-small (slow T5 SentencePiece)
Vocab Size: 32100
Objective: Causal Language Modeling

This repository contains weights for an experimental trained on the WikiText-103 dataset.

Model Description