Генератор околосмешных анекдотов, сделанный в рамках курса VK education.

Архитектура:

10.55M параметров, SwiGLU, GQA, ALiBi, byte-level BPE

Как использовать

device = torch.device("cuda")

tokenizer = ByteLevelBPETokenizer.from_pretrained(REPO_NAME) check_model = TransformerForCausalLM.from_pretrained(REPO_NAME) check_model = check_model.to(device) check_model = check_model.eval()

text = "Штирлиц пришел домой" input_ids = torch.tensor(tokenizer.encode(text), device=device) model_output = check_model.generate( input_ids[None, :], max_new_tokens=200, eos_token_id=tokenizer.eos_token_id, do_sample=True, top_k=10 ) tokenizer.decode(model_output[0].tolist()) Output: Штирлиц пришел домой к сын и пришел, куда-то угол, и он ему: - Мама, ну такая, дай маленькая, я сын - упал, а ты чего я тебя так сдивай! - А что ты делать? - Да ну, да. - О, мама! - Они мне, дорогой, сынишка, не знаю, что я быстрая, я тебя почистила, что ты мне не понял, что-то встает.

Downloads last month: 1

kimchi2003
/

llm-course-hw1

Архитектура:

Как использовать

Dataset used to train kimchi2003/llm-course-hw1