from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("./tinyllama")
tokenizer = AutoTokenizer.from_pretrained("./tinyllama")

prompt = "Привет, я студент! Как запустить ИИ?"
inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_length=50)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))