Model Architecture

О модели

112 gb data with llama 1.2b model

Что внутри

Фича Детали
Архитектура LlamaForCausalLM
Параметры ~1.22 Миллиарда
Контекст 2048 Токенов
Словарь 32,000 (Custom BPE)
Тренировка 182,000 шагов (где-то пол-эпохи прошло)
Параметр Значение
Слои 22
Скрытый размер 2048
GQA 16 (Q) / 8 (KV)
MLP 5504
Активация SiLU

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "home_run_llm"

tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name)

prompt = "The foggy streets of London in 1840 were" inputs = tokenizer(prompt, return_tensors="pt")

outputs = model.generate(**inputs, max_new_tokens=100) print(tokenizer.decode(outputs[0], skip_special_tokens=True))


## Заметки по тренировке

- **Железо**: H100 SXM 
- **Время**: ~118 часов.
- **Денег ушло**: ~350 долларов
- **Лосс**: Упал с 10.79 до 3.35.
Downloads last month
8
Safetensors
Model size
1B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support