AlphaGPT-Photon

Сверхкомпактная русскоязычная языковая модель на архитектуре GPT2.

Технические характеристики

Параметр Значение
Архитектура GPT2-nano
Параметры 4,634
Размер модели ~18.1 KB
Словарь 500 токенов
Контекст 32 токена
Скрытый размер 8
Слои 1
Головы внимания 1
Активация gelu_new
Обучена на 53 диалогах
Эпох обучения 500

Использование

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# Загрузка модели
model_name = "prostochel097/alphagpt-ultramini"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

# Генерация текста
prompt = "Привет"
inputs = tokenizer(prompt, return_tensors="pt")

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=20,
        temperature=0.8,
        do_sample=True,
        pad_token_id=tokenizer.pad_token_id,
        eos_token_id=tokenizer.eos_token_id
    )

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(f"Сгенерировано: {generated_text}")
Downloads last month
29
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train prostochel097/alphagpt-photon