π¨π¦ QVikhr-2.5-1.5B-Instruct-SMPO
ΠΠ½ΡΡΡΡΠΊΡΠΈΠ²Π½Π°Ρ ΠΌΠΎΠ΄Π΅Π»Ρ Π½Π° ΠΎΡΠ½ΠΎΠ²Π΅ Qwen-2.5-1.5B-Instruct, ΠΎΠ±ΡΡΠ΅Π½Π½Π°Ρ Π½Π° ΡΡΡΡΠΊΠΎΡΠ·ΡΡΠ½ΠΎΠΌ Π΄Π°ΡΠ°ΡΠ΅ΡΠ΅ GrandMaster-PRO-MAX Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ SMPO (Simple Margin Preference Optimization).
Quatized variants:
ΠΡΠΎΠ±Π΅Π½Π½ΠΎΡΡΠΈ:
- π ΠΡΠ½ΠΎΠ²Π°: Vikhr-Qwen-2.5-1.5B-Instruct
- π·πΊ Π‘ΠΏΠ΅ΡΠΈΠ°Π»ΠΈΠ·Π°ΡΠΈΡ: RU
- π ΠΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ°: Bilingual RU/EN
ΠΠΏΠΈΡΠ°Π½ΠΈΠ΅:
QVikhr-2.5-1.5B-Instruct-SMPO ΠΏΡΠ΅Π΄ΡΡΠ°Π²Π»ΡΠ΅Ρ ΡΠΎΠ±ΠΎΠΉ ΡΠ·ΡΠΊΠΎΠ²ΡΡ ΠΌΠΎΠ΄Π΅Π»Ρ, ΠΏΡΠΎΡΠ΅Π΄ΡΡΡ ΡΠΏΠ΅ΡΠΈΠ°Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°Π½Π½ΠΎΠ΅ ΠΎΠ±ΡΡΠ΅Π½ΠΈΠ΅ Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΠ΅ΠΌ ΠΌΠ΅ΡΠΎΠ΄Π° SMPO. ΠΡΠ° ΠΌΠΎΠ΄Π΅Π»Ρ Π΄Π΅ΠΌΠΎΠ½ΡΡΡΠΈΡΡΠ΅Ρ ΠΏΡΠΎΠ³ΡΠ΅ΡΡ Π² ΠΌΠ΅ΡΠΎΠ΄Π°Ρ Π²ΡΡΠ°Π²Π½ΠΈΠ²Π°Π½ΠΈΡ, ΠΎΡΠΎΠ±Π΅Π½Π½ΠΎ Π² ΠΎΠ±Π»Π°ΡΡΠΈ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΎΡΠ²Π΅ΡΠΎΠ² ΡΠ΅ΡΠ΅Π· ΠΎΠΏΡΠΈΠΌΠΈΠ·Π°ΡΠΈΡ ΠΏΡΠ΅Π΄ΠΏΠΎΡΡΠ΅Π½ΠΈΠΉ.
ΠΠΎΠΏΡΠΎΠ±ΠΎΠ²Π°ΡΡ / Try now:
ΠΠ±ΡΡΠ΅Π½ΠΈΠ΅:
ΠΡΠ°ΠΏ Π°Π»Π°ΠΉΠ½ΠΌΠ΅Π½ΡΠ° Ρ SMPO (Simple Margin Preference Optimization)
ΠΠ»Ρ Π΄Π°Π»ΡΠ½Π΅ΠΉΡΠ΅Π³ΠΎ ΡΠ»ΡΡΡΠ΅Π½ΠΈΡ ΠΊΠ°ΡΠ΅ΡΡΠ²Π° ΠΎΡΠ²Π΅ΡΠΎΠ² ΠΌΡ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ ΡΠ»Π΅Π΄ΡΡΠΈΠΉ ΠΏΠ°ΠΉΠΏΠ»Π°ΠΉΠ½:
- ΠΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π»ΠΈ Skywork/Skywork-Reward-Llama-3.1-8B-v0.2 Π² ΠΊΠ°ΡΠ΅ΡΡΠ²Π΅ Reward ΠΌΠΎΠ΄Π΅Π»Ρ
- ΠΠ΅Π΄ΡΠΏΠ»ΠΈΡΠΈΡΠΎΠ²Π°Π»ΠΈ ΠΈ ΠΎΡΡΠΈΠ»ΡΡΠΎΠ²Π°Π»ΠΈ ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ RM ΠΌΠΎΠ΄Π΅Π»Ρ ΠΎΡΠΈΠ³ΠΈΠ½Π°Π»ΡΠ½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ Vikhrmodels/GrandMaster-PRO-MAX, ΠΏΠΎΠ»ΡΡΠΈΠ² ΠΏΠΎΡΡΠ΄ΠΊΠ° 10ΠΊ ΡΠ°ΠΌΡΡ Π²ΡΡΠΎΠΊΠΎΠΊΠ°ΡΠ΅ΡΡΠ²Π΅Π½Π½ΡΡ ΠΈ ΡΠ°Π·Π½ΠΎΠΎΠ±ΡΠ°Π·Π½ΡΡ Π΄ΠΈΠ°Π»ΠΎΠ³ΠΎΠ².
- Π‘Π΄Π΅Π»Π°Π»ΠΈ Rejection Sampling Ρ SFT ΡΠ΅ΠΊΠΏΠΎΠΈΠ½ΡΠΎΠΌ Vikhr-Qwen-2.5-1.5B-Instruct ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΈ Reward ΠΌΠΎΠ΄Π΅Π»Ρ. (ΠΠ΅Π½Π΅ΡΠΈΡΠΎΠ²Π°Π»ΠΈ 7 Π³ΠΈΠΏΠΎΡΠ΅Π·)
- ΠΠΎΠΎΠ±ΡΡΠΈΠ»ΠΈ SFT ΡΠ΅ΠΊΠΏΠΎΠΈΠ½Ρ Ρ ΠΏΠΎΠΌΠΎΡΡΡ Π½Π°ΡΠ΅Π³ΠΎ ΠΌΠ΅ΡΠΎΠ΄Π° SMPO ΠΈΡΠΏΠΎΠ»ΡΠ·ΡΡ ΠΏΠΎΠ»ΡΡΠ΅Π½Π½ΡΠΉ Π΄Π°ΡΠ°ΡΠ΅Ρ ΠΈΠ· ΡΡΠ°ΠΏΠ° 3. SMPO Π±ΡΠ» ΡΠΏΡΠΎΠ΅ΠΊΡΠΈΡΠΎΠ²Π°Π½ ΠΈ Π²ΡΠ±ΡΠ°Π½ ΠΊΠ°ΠΊ ΠΌΠ΅ΡΠΎΠ΄ Π΄Π»Ρ ΠΏΠΎΠ²ΡΡΠ΅Π½ΠΈΡ ΡΡΠ°Π±ΠΈΠ»ΡΠ½ΠΎΡΡΠΈ ΡΡΠ΅Π½ΠΈΡΠΎΠ²ΠΊΠΈ ΠΏΡΠ΅ΡΠ΅ΡΠ΅Π½ΡΠΎΠ² Π² ΡΡΠ»ΠΎΠ²ΠΈΡΡ Rejection Sampling ΠΈ Π΄ΠΎΡΡΠΈΠΆΠ΅Π½ΠΈΡ Π½ΡΠΆΠ½ΠΎΠ³ΠΎ margin.
Π Π΅Π°Π»ΠΈΠ·Π°ΡΠΈΡ SMPO, rejection sampling ΠΈ ΡΠ΄ ΠΌΠΎΠΆΠ½ΠΎ Π½Π°ΠΉΡΠΈ Π² Π½Π°ΡΠ΅ΠΉ Π±ΠΈΠ±Π»ΠΈΠΎΡΠ΅ΠΊΠ΅ effective_llm_alignment Π½Π° GitHub
ΠΠ΄Π΅Ρ ΠΈΡΠΏΠΎΠ»ΡΠ·ΠΎΠ²Π°Π½ΠΈΡ ΠΈΠΌΠ΅Π½Π½ΠΎ SMPO, Π° Π½Π΅ Π΄ΡΡΠ³ΠΎΠ³ΠΎ PO ΠΌΠ΅ΡΠΎΠ΄Π°, Π²ΠΎΠ·Π½ΠΈΠΊΠ»Π° Π² ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ΅ ΠΏΡΠΎΠ²Π΅Π΄Π΅Π½ΠΈΡ Π±ΠΎΠ»ΡΡΠΎΠ³ΠΎ ΠΊΠΎΠ»ΠΈΡΠ΅ΡΡΠ²Π° ΡΠΊΡΠΏΠ΅ΡΠΈΠΌΠ΅Π½ΡΠΎΠ² Ρ ΠΊΠ»Π°ΡΡΠΈΡΠ΅ΡΠΊΠΈΠΌΠΈ ΠΌΠ΅ΡΠΎΠ΄Π°ΠΌΠΈ, ΠΏΡΠΈ Π½Π΅ΠΎΠ±Ρ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ Π»ΡΡΡΠ΅Π³ΠΎ ΠΊΠΎΠ½ΡΡΠΎΠ»Ρ ΠΏΡΠΎΡΠ΅ΡΡΠ° ΡΡ ΠΎΠ΄ΠΈΠΌΠΎΡΡΠΈ. ΠΡΠΈ ΡΡΠ°ΡΠ΅Π»ΡΠ½ΠΎΠΉ Π½Π°ΡΡΡΠΎΠΉΠΊΠ΅ Π΄ΡΡΠ³ΠΈΡ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ² (Π½Π°ΠΏΡΠΈΠΌΠ΅Ρ SimPO), ΠΌΠΎΠΆΠ½ΠΎ Π΄ΠΎΠ±ΠΈΡΡΡ ΠΏΠΎΡ ΠΎΠΆΠ΅Π³ΠΎ ΡΠ΅Π·ΡΠ»ΡΡΠ°ΡΠ°, ΠΎΠ΄Π½Π°ΠΊΠΎ ΠΌΡ ΠΏΠΎΡΡΠ°ΡΠ°Π»ΠΈΡΡ ΡΡΠ°Π±Π»ΠΈΠ·ΠΈΡΠΎΠ²Π°ΡΡ ΡΡΠΎΡ ΠΏΡΠΎΡΠ΅ΡΡ ΠΈ ΠΎΠ±ΡΠ΅Π΄ΠΈΠ½ΠΈΡΡ Π»ΡΡΡΠΈΠ΅ ΠΏΡΠ°ΠΊΡΠΈΠΊΠΈ ΠΈΠ· Π΄ΡΡΠ³ΠΈΡ ΠΌΠ΅ΡΠΎΠ΄ΠΎΠ².
ΠΡΠΈΠΌΠ΅Ρ ΠΊΠΎΠ΄Π° Π΄Π»Ρ Π·Π°ΠΏΡΡΠΊΠ°:
Π Π΅ΠΊΠΎΠΌΠ΅Π½Π΄ΡΠ΅ΠΌΠ°Ρ ΡΠ΅ΠΌΠΏΠ΅ΡΠ°ΡΡΡΠ° Π΄Π»Ρ Π³Π΅Π½Π΅ΡΠ°ΡΠΈΠΈ: 0.4.
from transformers import AutoModelForCausalLM, AutoTokenizer
# Load the model and tokenizer
model_name = "Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)
# Prepare the input text
input_text = "ΠΠ°ΠΏΠΈΡΠΈ ΠΊΡΠ°ΡΠΊΠΎΠ΅ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΊΠ½ΠΈΠ³ΠΈ ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ."
messages = [
{"role": "system", "content": "ΠΡ β Vikhr, ΠΠ ΠΏΠΎΠΌΠΎΡΠ½ΠΈΠΊ, ΡΠΎΠ·Π΄Π°Π½Π½ΡΠΉ ΠΊΠΎΠΌΠΏΠ°Π½ΠΈΠ΅ΠΉ Vikhr models Π΄Π»Ρ ΠΏΡΠ΅Π΄ΠΎΡΡΠ°Π²Π»Π΅Π½ΠΈΡ ΠΏΠΎΠ»Π΅Π·Π½ΠΎΠΉ, ΡΠ΅ΡΡΠ½ΠΎΠΉ ΠΈ Π±Π΅Π·ΠΎΠΏΠ°ΡΠ½ΠΎΠΉ ΠΈΠ½ΡΠΎΡΠΌΠ°ΡΠΈΠΈ."},
{"role": "user", "content": input_text},
]
# Tokenize and generate text
input_ids = tokenizer.apply_chat_template(messages, truncation=True, add_generation_prompt=True, return_tensors="pt")
output = model.generate(
input_ids,
max_length=1512,
temperature=0.4,
)
# Decode and print result
generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
print(generated_text)
ΠΡΠ²Π΅Ρ ΠΌΠΎΠ΄Π΅Π»ΠΈ:
ΠΡΠ°ΡΠΊΠΎΠ΅ ΠΎΠΏΠΈΡΠ°Π½ΠΈΠ΅ ΠΊΠ½ΠΈΠ³ΠΈ "ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ"
"ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ" β ΡΡΠΎ ΡΠ΅ΡΠΈΡ ΠΊΠ½ΠΈΠ³ ΠΎ ΠΌΠ°Π»ΡΡΠΈΠΊΠ΅-Π²ΠΎΠ»ΡΠ΅Π±Π½ΠΈΠΊΠ΅, ΠΊΠΎΡΠΎΡΡΠΉ ΠΎΠ±Π½Π°ΡΡΠΆΠΈΠ²Π°Π΅Ρ Π² ΡΠ΅Π±Π΅ ΡΠΈΠ»Ρ Π²ΠΎΠ»ΡΠ΅Π±ΡΡΠ²Π° ΠΏΠΎΡΠ»Π΅ ΡΠΎΠ³ΠΎ, ΠΊΠ°ΠΊ Π΅Π³ΠΎ ΡΠ΅ΠΌΡΡ ΡΠΌΠΈΡΠ°Π΅Ρ ΠΎΡ Π·Π»ΠΎΠ³ΠΎ ΠΊΠΎΠ»Π΄ΡΠ½Π° ΠΡΠ°ΠΊΠΎ ΠΠ°Π»ΡΠΎΡ. ΠΠ»Π°Π²Π½ΡΠΉ Π³Π΅ΡΠΎΠΉ, ΠΠ°ΡΡΠΈ ΠΠΎΡΡΠ΅Ρ, ΠΆΠΈΠ²ΡΡ Ρ ΡΠΎΠ΄ΠΈΡΠ΅Π»ΡΠΌΠΈ Π½Π° ΠΎΠΊΡΠ°ΠΈΠ½Π΅ Π₯ΠΎΠ³Π²Π°ΡΡΡΠ°, ΡΠΊΠΎΠ»Ρ ΠΌΠ°Π³ΠΈΠΈ ΠΈ Π²ΠΎΠ»ΡΠ΅Π±ΡΡΠ²Π°. Π Π΄Π΅ΡΡΡΠ²Π΅ ΠΠ°ΡΡΠΈ Π²ΡΡΡΠ΅ΡΠ°Π΅Ρ ΡΠ²ΠΎΠ΅Π³ΠΎ Π»ΡΡΡΠ΅Π³ΠΎ Π΄ΡΡΠ³Π° Π ΠΎΠ½Π° Π£ΠΈΠ·Π»ΠΈ ΠΈ Π΅Π³ΠΎ ΡΡΡΠΊΡ ΠΠ΅ΡΠΌΠΈΠΎΠ½Ρ ΠΡΠ΅ΠΉΠ½Π΄ΠΆΠ΅Ρ. ΠΠ½ΠΈ Π²ΠΌΠ΅ΡΡΠ΅ ΠΎΡΠΏΡΠ°Π²Π»ΡΡΡΡΡ Π² Π₯ΠΎΠ³Π²Π°ΡΡΡ, Π³Π΄Π΅ Π½Π°ΡΠΈΠ½Π°ΡΡ ΡΡΠΈΡΡΡΡ Π²ΠΎΠ»ΡΠ΅Π±ΡΡΠ²Ρ. Π Ρ ΠΎΠ΄Π΅ ΡΡΠ΅Π±Ρ ΠΠ°ΡΡΠΈ Π·Π½Π°ΠΊΠΎΠΌΠΈΡΡΡ Ρ Π΄ΡΡΠ³ΠΈΠΌΠΈ ΡΡΠ΅Π½ΠΈΠΊΠ°ΠΌΠΈ: Π‘Π»ΠΈΠ·Π΅ΡΠΈΠ½Π°ΠΌΠΈ (Π³Π»Π°Π²Π½ΡΠ΅ Π°Π½ΡΠ°Π³ΠΎΠ½ΠΈΡΡΡ) ΠΈ Π₯ΠΎΠ³Π²Π°ΡΡΡΠΎΠΌ ΠΊΠ°ΠΊ ΠΌΠ΅ΡΡΠΎ ΠΎΠ±ΡΡΠ΅Π½ΠΈΡ ΠΌΠ°Π³ΠΈΠΈ. Π‘Π°ΠΌΡΠΌ Π²Π°ΠΆΠ½ΡΠΌ ΡΠΎΠ±ΡΡΠΈΠ΅ΠΌ Π² ΠΆΠΈΠ·Π½ΠΈ ΠΠ°ΡΡΠΈ ΡΡΠ°Π½ΠΎΠ²ΠΈΡΡΡ ΡΠΎ, ΡΡΠΎ ΠΎΠ½ ΡΠ·Π½Π°ΡΡ ΠΎ ΡΠ²ΠΎΠ΅ΠΌ ΠΏΡΠΎΠΈΡΡ ΠΎΠΆΠ΄Π΅Π½ΠΈΠΈ β ΠΎΠ½ ΡΠ²Π»ΡΠ΅ΡΡΡ ΠΏΠΎΡΠ»Π΅Π΄Π½ΠΈΠΌ ΠΈΠ· ΡΠ΅ΠΌΡΠΈ ΠΠΎΡΡΠ΅ΡΠΎΠ², ΠΊΠΎΡΠΎΡΡΠ΅ ΠΊΠΎΠ³Π΄Π°-ΡΠΎ Π²Π»Π°Π΄Π΅Π»ΠΈ Π²ΡΠ΅ΠΌΠΈ Π·Π½Π°Π½ΠΈΡΠΌΠΈ ΠΎ Π²ΠΎΠ»ΡΠ΅Π±ΡΡΠ²Π΅. ΠΡΠΎ Π·Π½Π°Π½ΠΈΠ΅ ΠΎΡΠΊΡΡΠ²Π°Π΅Ρ Π΅ΠΌΡ ΠΏΡΡΡ ΠΊ ΡΠ²ΠΎΠ΅ΠΉ ΠΌΠΈΡΡΠΈΠΈ β Π±ΠΎΡΡΠ±Π΅ ΠΏΡΠΎΡΠΈΠ² ΡΠ΅ΠΌΠ½ΡΡ ΡΠΈΠ», ΠΊΠΎΡΠΎΡΡΠ΅ ΡΡΡΠ΅ΠΌΡΡΡΡ ΡΠ½ΠΈΡΡΠΎΠΆΠΈΡΡ Π²ΠΎΠ»ΡΠ΅Π±ΡΡΠ²ΠΎ. ΠΠΎ ΠΌΠ΅ΡΠ΅ ΡΠ°Π·Π²ΠΈΡΠΈΡ ΡΡΠΆΠ΅ΡΠ° ΠΠ°ΡΡΠΈ ΡΡΠ°Π»ΠΊΠΈΠ²Π°Π΅ΡΡΡ Ρ ΡΠ°Π·Π»ΠΈΡΠ½ΡΠΌΠΈ ΠΏΡΠ΅ΠΏΡΡΡΡΠ²ΠΈΡΠΌΠΈ, Π²ΠΊΠ»ΡΡΠ°Ρ ΠΏΡΠ΅ΡΠ»Π΅Π΄ΠΎΠ²Π°Π½ΠΈΠ΅ ΡΠΎ ΡΡΠΎΡΠΎΠ½Ρ ΠΡΠ°ΠΊΠΎ ΠΠ°Π»ΡΠΎΡ ΠΈ Π΅Π³ΠΎ Π΄ΡΡΠ·Π΅ΠΉ, Π° ΡΠ°ΠΊΠΆΠ΅ Π²Π½ΡΡΡΠ΅Π½Π½ΠΈΠ΅ ΠΊΠΎΠ½ΡΠ»ΠΈΠΊΡΡ Π²Π½ΡΡΡΠΈ ΡΠ°ΠΌΠΎΠ³ΠΎ Π₯ΠΎΠ³Π²Π°ΡΡΡΠ°. ΠΠ΄Π½Π°ΠΊΠΎ Π±Π»Π°Π³ΠΎΠ΄Π°ΡΡ ΠΏΠΎΠ΄Π΄Π΅ΡΠΆΠΊΠ΅ ΡΠ²ΠΎΠΈΡ Π΄ΡΡΠ·Π΅ΠΉ ΠΈ Π½ΠΎΠ²ΡΡ Π·Π½Π°ΠΊΠΎΠΌΡΡ , ΡΠ°ΠΊΠΈΡ ΠΊΠ°ΠΊ Π€ΠΈΠ»ΠΎΡΠΎΡΡΠΊΠΈΠΉ ΠΊΠ°ΠΌΠ΅Π½Ρ, ΠΠ°ΡΡΠΈ ΠΏΡΠΎΠ΄ΠΎΠ»ΠΆΠ°Π΅Ρ ΡΠ²ΠΎΠΉ ΠΏΡΡΡ ΠΊ ΠΏΠΎΠ±Π΅Π΄Π΅ Π½Π°Π΄ ΡΠ΅ΠΌΠ½ΡΠΌΠΈ ΡΠΈΠ»Π°ΠΌΠΈ. Π ΠΊΠΎΠ½ΡΠ΅ ΠΊΠΎΠ½ΡΠΎΠ², ΠΠ°ΡΡΠΈ ΠΈ Π΅Π³ΠΎ Π΄ΡΡΠ·ΡΡ ΡΡΠΏΠ΅ΡΠ½ΠΎ Π±ΠΎΡΡΡΡΡ Ρ ΡΠ΅ΠΌΠ½ΡΠΌΠΈ ΡΠΈΠ»Π°ΠΌΠΈ, Π²ΠΎΡΡΡΠ°Π½Π°Π²Π»ΠΈΠ²Π°ΡΡ ΠΌΠΈΡ Π² Π₯ΠΎΠ³Π²Π°ΡΡΡΠ΅ ΠΈ ΠΏΠΎΠ»ΡΡΠ°ΡΡ ΠΏΡΠΈΠ·Π½Π°Π½ΠΈΠ΅ Π·Π° ΡΠ²ΠΎΠΈ ΠΏΠΎΡΡΡΠΏΠΊΠΈ. ΠΠ½ΠΈΠ³ΠΈ Π·Π°Π²Π΅ΡΡΠ°ΡΡΡΡ ΡΠ΅ΠΌ, ΡΡΠΎ ΠΠ°ΡΡΠΈ Π³ΠΎΡΠΎΠ²ΠΈΡΡΡ ΡΡΠ°ΡΡ Π²ΠΎΠ»ΡΠ΅Π±Π½ΠΈΠΊΠΎΠΌ, Π½ΠΎ Π΅Π³ΠΎ Π±ΡΠ΄ΡΡΠ΅Π΅ Π΅ΡΡ Π½Π΅ ΠΎΠΏΡΠ΅Π΄Π΅Π»Π΅Π½ΠΎ.
ΠΠ²ΡΠΎΡΡ
- Sergei Bratchikov, NLP Wanderer, Vikhr Team
- Nikolay Kompanets, LakoMoor, Vikhr Team
- Konstantin Korolev, Vikhr Team
- Aleksandr Nikolich, Vikhr Team
@inproceedings{nikolich2024vikhr,
title={Vikhr: Advancing Open-Source Bilingual Instruction-Following Large Language Models for Russian and English},
author={Aleksandr Nikolich and Konstantin Korolev and Sergei Bratchikov and Nikolay Kompanets and Igor Kiselev and Artem Shelmanov},
booktitle={Proceedings of the 4th Workshop on Multilingual Representation Learning (MRL) @ EMNLP-2024},
year={2024},
publisher={Association for Computational Linguistics},
url={https://arxiv.org/pdf/2405.13929}
}
- Downloads last month
- 7
Model tree for Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
Base model
Qwen/Qwen2.5-1.5B