Generator Russian Jokes

Описание задания

В этом проекте разработан Byte-level BPE токенизатор и небольшой самописный Transformer. Для позиционного кодирования применяется ALiBi, а в качестве блока Feed-Forward используется SwiGLU. Модель обучалась на корпусе русских анекдотов.

Примеры генерации

'Заходит в бар лягушка в бар, открывает дверь - берет лягушка с пивом. - Девушка, у вас такие вкусные, что идут? - Нет, это я виноват.'

'Штирлиц пришел в бар. Его спрашивают:- Все, в каком смысле?- Скажешь - я съел, и даже боялся не могу, а дальше.'

'Штирлиц пришел в 5 часов. Вдруг вдруг у него спрашивают - Что-то я, дорогая.'

Оценка качества генерации (не метрики)

Модель генерирует тексты, стилистически приближенные к русскому языку, однако не особо осмысленные.

device = torch.device("cuda")
REPO_NAME = 'CMCenjoyer/llm-course-hw1'

tokenizer = ByteLevelBPETokenizer.from_pretrained(REPO_NAME)
check_model = TransformerForCausalLM.from_pretrained(REPO_NAME)
check_model = check_model.to(device)
check_model = check_model.eval()

text = "Штирлиц пришел домой"
input_ids = torch.tensor(tokenizer.encode(text)[:-1], device=device)
model_output = check_model.generate(
    input_ids[None, :], max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10
)
tokenizer.decode(model_output[0].tolist())

This model has been pushed to the Hub using the PytorchModelHubMixin integration:

  • Library: [More Information Needed]
  • Docs: [More Information Needed]
Downloads last month
1
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train CMCenjoyer/llm-course-hw1