JARVIS v7.0 Continual Learning (94% Complete)
Продолжение обучения от v6.0 (8K примеров) на mega dataset (97K примеров).
Статистика тренировки
- Базовая модель: Qwen/Qwen2.5-7B-Instruct
- Предыдущая модель: jarvis-v6.0-ultra
- Dataset: jarvis-mega-dataset-complete (97,356 примеров)
- Прогресс: 94% (11200/11926 шагов, 2 эпохи)
- Время обучения: ~49 часов
- LoRA: r=64, alpha=128 (совместимо с v6.0)
Улучшения v7.0
✅ Qwen2.5 официальный chat template (apply_chat_template)
✅ Динамический padding (~30% быстрее)
✅ Validation split (2%)
✅ Cosine LR scheduler с warmup
✅ Увеличенный контекст: 1024 → 2048 токенов
✅ Memory optimization для 24GB GPU
Использование
from transformers import AutoModelForCausalLM, AutoTokenizer
from peft import PeftModel
# Загрузка базовой модели
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen2.5-7B-Instruct",
device_map="auto",
torch_dtype="auto"
)
# Загрузка LoRA адаптеров v7.0
model = PeftModel.from_pretrained(model, "Shaman286/jarvis-v7.0-continual")
# Токенизатор
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen2.5-7B-Instruct")
# Генерация
messages = [{"role": "user", "content": "Write a Python function to reverse a string"}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tokenizer(text, return_tensors="pt").to(model.device)
outputs = model.generate(**inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0]))
Тренировочные гиперпараметры
- Learning rate: 2e-4 (cosine decay)
- Batch size: 1 (effective: 16 with gradient accumulation)
- Max sequence length: 2048
- Warmup ratio: 3%
- Weight decay: 0.01
- Gradient clipping: 0.3
История версий
- v6.0: 8,015 примеров, 3 эпохи (100%)
- v7.0: 97,356 примеров, 2 эпохи (94% - остановлено из-за бюджета)
Общее количество обработанных примеров: ~195K (с учетом эпох)
- Downloads last month
- -
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support