πŸ’¨πŸ¦… QVikhr-2.5-1.5B-Instruct-SMPO

Π˜Π½ΡΡ‚Ρ€ΡƒΠΊΡ‚ΠΈΠ²Π½Π°Ρ модСль Π½Π° основС Qwen-2.5-1.5B-Instruct, обучСнная Π½Π° русскоязычном датасСтС GrandMaster-PRO-MAX с использованиСм SMPO (Simple Margin Preference Optimization).

Quatized variants:

ΠžΡΠΎΠ±Π΅Π½Π½ΠΎΡΡ‚ΠΈ:

  • πŸ“š Основа: Vikhr-Qwen-2.5-1.5B-Instruct
  • πŸ‡·πŸ‡Ί БпСциализация: RU
  • 🌍 ΠŸΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ°: Bilingual RU/EN

ОписаниС:

QVikhr-2.5-1.5B-Instruct-SMPO прСдставляСт собой ΡΠ·Ρ‹ΠΊΠΎΠ²ΡƒΡŽ модСль, ΠΏΡ€ΠΎΡˆΠ΅Π΄ΡˆΡƒΡŽ спСциализированноС ΠΎΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅ с использованиСм ΠΌΠ΅Ρ‚ΠΎΠ΄Π° SMPO. Π­Ρ‚Π° модСль дСмонстрируСт прогрСсс Π² ΠΌΠ΅Ρ‚ΠΎΠ΄Π°Ρ… выравнивания, особСнно Π² области ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ качСства ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² Ρ‡Π΅Ρ€Π΅Π· ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·Π°Ρ†ΠΈΡŽ ΠΏΡ€Π΅Π΄ΠΏΠΎΡ‡Ρ‚Π΅Π½ΠΈΠΉ.

ΠŸΠΎΠΏΡ€ΠΎΠ±ΠΎΠ²Π°Ρ‚ΡŒ / Try now:

Open In Colab

ΠžΠ±ΡƒΡ‡Π΅Π½ΠΈΠ΅:

Π­Ρ‚Π°ΠΏ Π°Π»Π°ΠΉΠ½ΠΌΠ΅Π½Ρ‚Π° с SMPO (Simple Margin Preference Optimization)

ΠšΠΎΠ½Ρ„ΠΈΠ³ обучСния

Для дальнСйшСго ΡƒΠ»ΡƒΡ‡ΡˆΠ΅Π½ΠΈΡ качСства ΠΎΡ‚Π²Π΅Ρ‚ΠΎΠ² ΠΌΡ‹ использовали слСдущий ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½:

  • Использовали Skywork/Skywork-Reward-Llama-3.1-8B-v0.2 Π² качСствС Reward модСль
  • Π”Π΅Π΄ΡƒΠΏΠ»ΠΈΡ†ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ ΠΈ ΠΎΡ‚Ρ„ΠΈΠ»Ρ‚Ρ€ΠΎΠ²Π°Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ RM модСль ΠΎΡ€ΠΈΠ³ΠΈΠ½Π°Π»ΡŒΠ½Ρ‹ΠΉ датасСт Vikhrmodels/GrandMaster-PRO-MAX, ΠΏΠΎΠ»ΡƒΡ‡ΠΈΠ² порядка 10ΠΊ самых высококачСствСнных ΠΈ Ρ€Π°Π·Π½ΠΎΠΎΠ±Ρ€Π°Π·Π½Ρ‹Ρ… Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ².
  • Π‘Π΄Π΅Π»Π°Π»ΠΈ Rejection Sampling с SFT Ρ‡Π΅ΠΊΠΏΠΎΠΈΠ½Ρ‚ΠΎΠΌ Vikhr-Qwen-2.5-1.5B-Instruct ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΉ датасСт ΠΈ Reward модСль. (Π“Π΅Π½Π΅Ρ€ΠΈΡ€ΠΎΠ²Π°Π»ΠΈ 7 Π³ΠΈΠΏΠΎΡ‚Π΅Π·)
  • Π”ΠΎΠΎΠ±ΡƒΡ‡ΠΈΠ»ΠΈ SFT Ρ‡Π΅ΠΊΠΏΠΎΠΈΠ½Ρ‚ с ΠΏΠΎΠΌΠΎΡ‰ΡŒΡŽ нашСго ΠΌΠ΅Ρ‚ΠΎΠ΄Π° SMPO ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΡ ΠΏΠΎΠ»ΡƒΡ‡Π΅Π½Π½Ρ‹ΠΉ датасСт ΠΈΠ· этапа 3. SMPO Π±Ρ‹Π» спроСктирован ΠΈ Π²Ρ‹Π±Ρ€Π°Π½ ΠΊΠ°ΠΊ ΠΌΠ΅Ρ‚ΠΎΠ΄ для ΠΏΠΎΠ²Ρ‹ΡˆΠ΅Π½ΠΈΡ ΡΡ‚Π°Π±ΠΈΠ»ΡŒΠ½ΠΎΡΡ‚ΠΈ Ρ‚Ρ€Π΅Π½ΠΈΡ€ΠΎΠ²ΠΊΠΈ прСфСрСнсов Π² условиях Rejection Sampling ΠΈ достиТСния Π½ΡƒΠΆΠ½ΠΎΠ³ΠΎ margin.

Π Π΅Π°Π»ΠΈΠ·Π°Ρ†ΠΈΡŽ SMPO, rejection sampling ΠΈ Ρ‚Π΄ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡ‚ΠΈ Π² нашСй Π±ΠΈΠ±Π»ΠΈΠΎΡ‚Π΅ΠΊΠ΅ effective_llm_alignment Π½Π° GitHub

ИдСя использования ΠΈΠΌΠ΅Π½Π½ΠΎ SMPO, Π° Π½Π΅ Π΄Ρ€ΡƒΠ³ΠΎΠ³ΠΎ PO ΠΌΠ΅Ρ‚ΠΎΠ΄Π°, Π²ΠΎΠ·Π½ΠΈΠΊΠ»Π° Π² Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π΅ провСдСния большого количСства экспСримСнтов с классичСскими ΠΌΠ΅Ρ‚ΠΎΠ΄Π°ΠΌΠΈ, ΠΏΡ€ΠΈ нСобходимости Π»ΡƒΡ‡ΡˆΠ΅Π³ΠΎ контроля процСсса сходимости. ΠŸΡ€ΠΈ Ρ‚Ρ‰Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΠΉ настройкС Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ² (Π½Π°ΠΏΡ€ΠΈΠΌΠ΅Ρ€ SimPO), ΠΌΠΎΠΆΠ½ΠΎ добится ΠΏΠΎΡ…ΠΎΠΆΠ΅Π³ΠΎ Ρ€Π΅Π·ΡƒΠ»ΡŒΡ‚Π°Ρ‚Π°, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΌΡ‹ ΠΏΠΎΡΡ‚Π°Ρ€Π°Π»ΠΈΡΡŒ ΡΡ‚Π°Π±Π»ΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Ρ‚ΡŒ этот процСсс ΠΈ ΠΎΠ±ΡŠΠ΅Π΄ΠΈΠ½ΠΈΡ‚ΡŒ Π»ΡƒΡ‡ΡˆΠΈΠ΅ ΠΏΡ€Π°ΠΊΡ‚ΠΈΠΊΠΈ ΠΈΠ· Π΄Ρ€ΡƒΠ³ΠΈΡ… ΠΌΠ΅Ρ‚ΠΎΠ΄ΠΎΠ².

ΠŸΡ€ΠΈΠΌΠ΅Ρ€ ΠΊΠΎΠ΄Π° для запуска:

РСкомСндуСмая Ρ‚Π΅ΠΌΠΏΠ΅Ρ€Π°Ρ‚ΡƒΡ€Π° для Π³Π΅Π½Π΅Ρ€Π°Ρ†ΠΈΠΈ: 0.4.

from transformers import AutoModelForCausalLM, AutoTokenizer

# Load the model and tokenizer
model_name = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Prepare the input text
input_text = "Напиши ΠΊΡ€Π°Ρ‚ΠΊΠΎΠ΅ описаниС ΠΊΠ½ΠΈΠ³ΠΈ Π“Π°Ρ€Ρ€ΠΈ ΠŸΠΎΡ‚Ρ‚Π΅Ρ€."

messages = [
    {"role": "system", "content": "Π’Ρ‹ β€” Vikhr, ИИ ΠΏΠΎΠΌΠΎΡ‰Π½ΠΈΠΊ, созданный ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠ΅ΠΉ Vikhr models для прСдоставлСния ΠΏΠΎΠ»Π΅Π·Π½ΠΎΠΉ, чСстной ΠΈ бСзопасной ΠΈΠ½Ρ„ΠΎΡ€ΠΌΠ°Ρ†ΠΈΠΈ."},
    {"role": "user", "content": input_text},
]

# Tokenize and generate text
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
    input_ids,
    max_length=1512,
    temperature=0.4,
)

# Decode and print result
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)

ΠžΡ‚Π²Π΅Ρ‚ ΠΌΠΎΠ΄Π΅Π»ΠΈ:

ΠšΡ€Π°Ρ‚ΠΊΠΎΠ΅ описаниС ΠΊΠ½ΠΈΠ³ΠΈ "Π“Π°Ρ€Ρ€ΠΈ ΠŸΠΎΡ‚Ρ‚Π΅Ρ€"

"Π“Π°Ρ€Ρ€ΠΈ ΠŸΠΎΡ‚Ρ‚Π΅Ρ€" – это сСрия ΠΊΠ½ΠΈΠ³ ΠΎ ΠΌΠ°Π»ΡŒΡ‡ΠΈΠΊΠ΅-волшСбникС, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΎΠ±Π½Π°Ρ€ΡƒΠΆΠΈΠ²Π°Π΅Ρ‚ Π² сСбС силу Π²ΠΎΠ»ΡˆΠ΅Π±ΡΡ‚Π²Π° послС Ρ‚ΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Π΅Π³ΠΎ сСмья ΡƒΠΌΠΈΡ€Π°Π΅Ρ‚ ΠΎΡ‚ Π·Π»ΠΎΠ³ΠΎ ΠΊΠΎΠ»Π΄ΡƒΠ½Π° Π”Ρ€Π°ΠΊΠΎ ΠœΠ°Π»Ρ„ΠΎΡ. Π“Π»Π°Π²Π½Ρ‹ΠΉ Π³Π΅Ρ€ΠΎΠΉ, Π“Π°Ρ€Ρ€ΠΈ ΠŸΠΎΡ‚Ρ‚Π΅Ρ€, ΠΆΠΈΠ²Ρ‘Ρ‚ с родитСлями Π½Π° ΠΎΠΊΡ€Π°ΠΈΠ½Π΅ Π₯огвартса, ΡˆΠΊΠΎΠ»Ρ‹ ΠΌΠ°Π³ΠΈΠΈ ΠΈ Π²ΠΎΠ»ΡˆΠ΅Π±ΡΡ‚Π²Π°. Π’ дСтствС Π“Π°Ρ€Ρ€ΠΈ встрСчаСт своСго Π»ΡƒΡ‡ΡˆΠ΅Π³ΠΎ Π΄Ρ€ΡƒΠ³Π° Π ΠΎΠ½Π° Π£ΠΈΠ·Π»ΠΈ ΠΈ Π΅Π³ΠΎ Ρ‚Ρ‘Ρ‚ΠΊΡƒ Π“Π΅Ρ€ΠΌΠΈΠΎΠ½Ρƒ Π“Ρ€Π΅ΠΉΠ½Π΄ΠΆΠ΅Ρ€. Они вмСстС ΠΎΡ‚ΠΏΡ€Π°Π²Π»ΡΡŽΡ‚ΡΡ Π² Π₯огвартс, Π³Π΄Π΅ Π½Π°Ρ‡ΠΈΠ½Π°ΡŽΡ‚ ΡƒΡ‡ΠΈΡ‚ΡŒΡΡ Π²ΠΎΠ»ΡˆΠ΅Π±ΡΡ‚Π²Ρƒ. Π’ Ρ…ΠΎΠ΄Π΅ ΡƒΡ‡Π΅Π±Ρ‹ Π“Π°Ρ€Ρ€ΠΈ знакомится с Π΄Ρ€ΡƒΠ³ΠΈΠΌΠΈ ΡƒΡ‡Π΅Π½ΠΈΠΊΠ°ΠΌΠΈ: Π‘Π»ΠΈΠ·Π΅Ρ€ΠΈΠ½Π°ΠΌΠΈ (Π³Π»Π°Π²Π½Ρ‹Π΅ антагонисты) ΠΈ Π₯огвартсом ΠΊΠ°ΠΊ мСсто обучСния ΠΌΠ°Π³ΠΈΠΈ. Π‘Π°ΠΌΡ‹ΠΌ Π²Π°ΠΆΠ½Ρ‹ΠΌ событиСм Π² ΠΆΠΈΠ·Π½ΠΈ Π“Π°Ρ€Ρ€ΠΈ становится Ρ‚ΠΎ, Ρ‡Ρ‚ΠΎ ΠΎΠ½ ΡƒΠ·Π½Π°Ρ‘Ρ‚ ΠΎ своСм происхоТдСнии – ΠΎΠ½ являСтся послСдним ΠΈΠ· сСмьи ΠŸΠΎΡ‚Ρ‚Π΅Ρ€ΠΎΠ², ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ ΠΊΠΎΠ³Π΄Π°-Ρ‚ΠΎ Π²Π»Π°Π΄Π΅Π»ΠΈ всСми знаниями ΠΎ Π²ΠΎΠ»ΡˆΠ΅Π±ΡΡ‚Π²Π΅. Π­Ρ‚ΠΎ Π·Π½Π°Π½ΠΈΠ΅ ΠΎΡ‚ΠΊΡ€Ρ‹Π²Π°Π΅Ρ‚ Π΅ΠΌΡƒ ΠΏΡƒΡ‚ΡŒ ΠΊ своСй миссии – Π±ΠΎΡ€ΡŒΠ±Π΅ ΠΏΡ€ΠΎΡ‚ΠΈΠ² Ρ‚Π΅ΠΌΠ½Ρ‹Ρ… сил, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹Π΅ стрСмятся ΡƒΠ½ΠΈΡ‡Ρ‚ΠΎΠΆΠΈΡ‚ΡŒ Π²ΠΎΠ»ΡˆΠ΅Π±ΡΡ‚Π²ΠΎ. По ΠΌΠ΅Ρ€Π΅ развития ΡΡŽΠΆΠ΅Ρ‚Π° Π“Π°Ρ€Ρ€ΠΈ сталкиваСтся с Ρ€Π°Π·Π»ΠΈΡ‡Π½Ρ‹ΠΌΠΈ прСпятствиями, Π²ΠΊΠ»ΡŽΡ‡Π°Ρ прСслСдованиС со стороны Π”Ρ€Π°ΠΊΠΎ ΠœΠ°Π»Ρ„ΠΎΡ ΠΈ Π΅Π³ΠΎ Π΄Ρ€ΡƒΠ·Π΅ΠΉ, Π° Ρ‚Π°ΠΊΠΆΠ΅ Π²Π½ΡƒΡ‚Ρ€Π΅Π½Π½ΠΈΠ΅ ΠΊΠΎΠ½Ρ„Π»ΠΈΠΊΡ‚Ρ‹ Π²Π½ΡƒΡ‚Ρ€ΠΈ самого Π₯огвартса. Однако благодаря ΠΏΠΎΠ΄Π΄Π΅Ρ€ΠΆΠΊΠ΅ своих Π΄Ρ€ΡƒΠ·Π΅ΠΉ ΠΈ Π½ΠΎΠ²Ρ‹Ρ… Π·Π½Π°ΠΊΠΎΠΌΡ‹Ρ…, Ρ‚Π°ΠΊΠΈΡ… ΠΊΠ°ΠΊ Ѐилософский камСнь, Π“Π°Ρ€Ρ€ΠΈ ΠΏΡ€ΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ‚ свой ΠΏΡƒΡ‚ΡŒ ΠΊ ΠΏΠΎΠ±Π΅Π΄Π΅ Π½Π°Π΄ Ρ‚Π΅ΠΌΠ½Ρ‹ΠΌΠΈ силами. Π’ ΠΊΠΎΠ½Ρ†Π΅ ΠΊΠΎΠ½Ρ†ΠΎΠ², Π“Π°Ρ€Ρ€ΠΈ ΠΈ Π΅Π³ΠΎ Π΄Ρ€ΡƒΠ·ΡŒΡ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ Π±ΠΎΡ€ΡŽΡ‚ΡΡ с Ρ‚Π΅ΠΌΠ½Ρ‹ΠΌΠΈ силами, Π²ΠΎΡΡΡ‚Π°Π½Π°Π²Π»ΠΈΠ²Π°ΡŽΡ‚ ΠΌΠΈΡ€ Π² Π₯огвартсС ΠΈ ΠΏΠΎΠ»ΡƒΡ‡Π°ΡŽΡ‚ ΠΏΡ€ΠΈΠ·Π½Π°Π½ΠΈΠ΅ Π·Π° свои поступки. Книги Π·Π°Π²Π΅Ρ€ΡˆΠ°ΡŽΡ‚ΡΡ Ρ‚Π΅ΠΌ, Ρ‡Ρ‚ΠΎ Π“Π°Ρ€Ρ€ΠΈ готовится ΡΡ‚Π°Ρ‚ΡŒ волшСбником, Π½ΠΎ Π΅Π³ΠΎ Π±ΡƒΠ΄ΡƒΡ‰Π΅Π΅ Π΅Ρ‰Ρ‘ Π½Π΅ ΠΎΠΏΡ€Π΅Π΄Π΅Π»Π΅Π½ΠΎ.

Авторы

@inproceedings{nikolich2024vikhr,
  title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
  author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
  booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
  year={2024},
  publisher={Association for Computational Linguistics},
  url={https://arxiv.org/pdf/2405.13929}
}
Downloads last month
7
Safetensors
Model size
2B params
Tensor type
BF16
Β·
Inference Providers NEW
This model isn't deployed by any Inference Provider. πŸ™‹ Ask for provider support

Model tree for Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO

Finetuned
(3)
this model
Quantizations
7 models

Spaces using Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO 14

Paper for Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO