О модели
112 gb data with llama 1.2b model
Что внутри
| Фича | Детали |
|---|---|
| Архитектура | LlamaForCausalLM |
| Параметры | ~1.22 Миллиарда |
| Контекст | 2048 Токенов |
| Словарь | 32,000 (Custom BPE) |
| Тренировка | 182,000 шагов (где-то пол-эпохи прошло) |
| Параметр | Значение |
|---|---|
| Слои | 22 |
| Скрытый размер | 2048 |
| GQA | 16 (Q) / 8 (KV) |
| MLP | 5504 |
| Активация | SiLU |
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "home_run_llm"
tokenizer = AutoTokenizer.from_pretrained(model_name) model = AutoModelForCausalLM.from_pretrained(model_name)
prompt = "The foggy streets of London in 1840 were" inputs = tokenizer(prompt, return_tensors="pt")
outputs = model.generate(**inputs, max_new_tokens=100) print(tokenizer.decode(outputs[0], skip_special_tokens=True))
## Заметки по тренировке
- **Железо**: H100 SXM
- **Время**: ~118 часов.
- **Денег ушло**: ~350 долларов
- **Лосс**: Упал с 10.79 до 3.35.
- Downloads last month
- 8