Instructions to use Vikhrmodels/Vikhr-7B-instruct_0.4 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Vikhrmodels/Vikhr-7B-instruct_0.4 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Vikhrmodels/Vikhr-7B-instruct_0.4")
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Vikhrmodels/Vikhr-7B-instruct_0.4")
model = AutoModelForCausalLM.from_pretrained("Vikhrmodels/Vikhr-7B-instruct_0.4")
messages = [
    {"role": "user", "content": "Who are you?"},
]
inputs = tokenizer.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps Settings

vLLM

How to use Vikhrmodels/Vikhr-7B-instruct_0.4 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Vikhrmodels/Vikhr-7B-instruct_0.4"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/Vikhr-7B-instruct_0.4",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Vikhrmodels/Vikhr-7B-instruct_0.4

SGLang

How to use Vikhrmodels/Vikhr-7B-instruct_0.4 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Vikhrmodels/Vikhr-7B-instruct_0.4" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/Vikhr-7B-instruct_0.4",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Vikhrmodels/Vikhr-7B-instruct_0.4" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Vikhrmodels/Vikhr-7B-instruct_0.4",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Vikhrmodels/Vikhr-7B-instruct_0.4 with Docker Model Runner:
```
docker model run hf.co/Vikhrmodels/Vikhr-7B-instruct_0.4
```

Чёрти что и с боку бантик))))

by JorgyM - opened May 13, 2024

Discussion

JorgyM

May 13, 2024

•

edited May 13, 2024

Авторы, слежу за вихрем, с самой первой модели... Вторая (0.2) самая топчик, и поболтать и посмеяться можно, рассуждает на 5+, и промпт есть.... ни придраться ни к чему... молодцы, кто её переделывал, не знаю, но спасибо огромное, храню, люблю)))) но всё остальное (начиная с 0.3) жуть адовая)))) особенно после того как вы перешли на flash-attention 2, вы или в своём мире там живёте или что, не понятно, что подточили, что улучшили? модель начиная с 0.3 и выше, такую чушь адовую несёт, что просто туши свет и суши вёсла. и зачем всё время в коде писать про Колмогорова или жирафа, е****ть ну сделайте вы нормальный ввод хоспидя. Ну кто по вашему ради одного промпта будет сидеть и грузить шардсы постоянно? ппц

AlexWortega

Vikhr models org May 14, 2024

•

edited May 14, 2024

Здравствуйте! Нам очень важно ваше мнение. К сожалению мы не поняли что вы хотели сказать. Если есть вопросы по существу: пишите.

Upd: в следующий раз будут загадки про два стула.

JorgyM

May 14, 2024

Да, здравствуйте, про стул не надо, это лишнее... лучше просто инпут с клавиатуры, так удобней. А про то что не поняли, ну в нашем случае всё предельно ясно, это же не химия в таблицах, тут модель или удовлетворительный собеседник (как версия 0.2) или "что хочу то и мычу" тут надо ширше к вопросу подходить, или переобучение, или флэш аттеншин второй, не могу знать други, не могу знать... но и 0.3 и 0.4 городят такой огород, что мама не балуйся, какие то рулады в ответах несущие сознание модели в неведомую даль. Нет, может быть вы общаетесь с ней каждый раз подкидывая какие то статические промты... тут не знаю, может усё и упорядке.... но при динамическом общении через инпут не могу ни как уловить что модель пытается до меня донести, даже на простые вопросы)))

AlexWortega changed discussion status to closed May 16, 2024

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment