Instructions to use Azrail/smallm_70_instruct with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Azrail/smallm_70_instruct with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Azrail/smallm_70_instruct", trust_remote_code=True)
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Azrail/smallm_70_instruct", trust_remote_code=True, dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Azrail/smallm_70_instruct with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Azrail/smallm_70_instruct"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Azrail/smallm_70_instruct",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Azrail/smallm_70_instruct

SGLang

How to use Azrail/smallm_70_instruct with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Azrail/smallm_70_instruct" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Azrail/smallm_70_instruct",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Azrail/smallm_70_instruct" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Azrail/smallm_70_instruct",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Azrail/smallm_70_instruct with Docker Model Runner:
```
docker model run hf.co/Azrail/smallm_70_instruct
```

Azrail commited on Apr 16, 2025

Commit

cd2e3d5

verified ·

1 Parent(s): 9f9b8f0

Training in progress, step 10000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +222 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af73c4ec485cd7fa414342b390a5c634c47a31d116a73e322cc418d51a330596
 size 150625560

 version https://git-lfs.github.com/spec/v1
+oid sha256:593df4add94d8349a8e2c27dd6a4c8e410dc62c59535de38e2c844bae1bf9105
 size 150625560

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f8057071e9c871132fbac5baaaef5c6aca4c49e2663c7a32995eef4dffca1eb9
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ca220deb73713912b17a381232ea629f59c26aebf972823900e92efe4bee200
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1674983d22ea028f37f625821f1fca77be67adb3636d14701707c06c0fbac379
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5148f4a0429b56039088b4393cfcab680c3af25b037593fe69f3727d64615009
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb36ce4646595e0955071e0d49fcfefa2b2d576fde195d65fd821c4d2bebc721
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d15ebff9b6275f35ed91d179fc6aa0df6144af185e5ca68cd213907d032111d8
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.172367487967168,
   "eval_steps": 500,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1970,11 +1970,229 @@
       "eval_steps_per_second": 20.582,
       "num_input_tokens_seen": 4347894913,
       "step": 9000
     }
   ],
   "logging_steps": 50,
   "max_steps": 16568,
-  "num_input_tokens_seen": 4347894913,
   "num_train_epochs": 4,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -1989,7 +2207,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.163104324681851e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.413778535540233,
   "eval_steps": 500,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 20.582,
       "num_input_tokens_seen": 4347894913,
       "step": 9000
+    },
+    {
+      "epoch": 2.1844380403458215,
+      "grad_norm": 0.2734375,
+      "learning_rate": 2.8361249434133093e-05,
+      "loss": 2.0951,
+      "mean_token_accuracy": 0.5561914920061827,
+      "num_input_tokens_seen": 4372093409,
+      "num_tokens": 1842403609.0,
+      "step": 9050
+    },
+    {
+      "epoch": 2.1965085927244745,
+      "grad_norm": 0.275390625,
+      "learning_rate": 2.817262713143202e-05,
+      "loss": 2.0915,
+      "mean_token_accuracy": 0.5557398213073611,
+      "num_input_tokens_seen": 4396072241,
+      "num_tokens": 1852448709.0,
+      "step": 9100
+    },
+    {
+      "epoch": 2.2085791451031276,
+      "grad_norm": 0.2392578125,
+      "learning_rate": 2.7984004828730953e-05,
+      "loss": 2.0965,
+      "mean_token_accuracy": 0.5542204293608666,
+      "num_input_tokens_seen": 4420308385,
+      "num_tokens": 1862702843.0,
+      "step": 9150
+    },
+    {
+      "epoch": 2.220649697481781,
+      "grad_norm": 0.2578125,
+      "learning_rate": 2.779538252602988e-05,
+      "loss": 2.0873,
+      "mean_token_accuracy": 0.555770318582654,
+      "num_input_tokens_seen": 4444408305,
+      "num_tokens": 1872813360.0,
+      "step": 9200
+    },
+    {
+      "epoch": 2.232720249860434,
+      "grad_norm": 0.248046875,
+      "learning_rate": 2.760676022332881e-05,
+      "loss": 2.0984,
+      "mean_token_accuracy": 0.5543450859189033,
+      "num_input_tokens_seen": 4468586049,
+      "num_tokens": 1883034727.0,
+      "step": 9250
+    },
+    {
+      "epoch": 2.2447908022390877,
+      "grad_norm": 0.26171875,
+      "learning_rate": 2.7418137920627736e-05,
+      "loss": 2.0913,
+      "mean_token_accuracy": 0.5554680547490716,
+      "num_input_tokens_seen": 4492717489,
+      "num_tokens": 1893259660.0,
+      "step": 9300
+    },
+    {
+      "epoch": 2.2568613546177407,
+      "grad_norm": 0.3046875,
+      "learning_rate": 2.7229515617926664e-05,
+      "loss": 2.0976,
+      "mean_token_accuracy": 0.5547211924567819,
+      "num_input_tokens_seen": 4516832449,
+      "num_tokens": 1903351453.0,
+      "step": 9350
+    },
+    {
+      "epoch": 2.268931906996394,
+      "grad_norm": 0.240234375,
+      "learning_rate": 2.7040893315225596e-05,
+      "loss": 2.095,
+      "mean_token_accuracy": 0.5545766900852322,
+      "num_input_tokens_seen": 4540881473,
+      "num_tokens": 1913462038.0,
+      "step": 9400
+    },
+    {
+      "epoch": 2.2810024593750473,
+      "grad_norm": 0.2412109375,
+      "learning_rate": 2.685227101252452e-05,
+      "loss": 2.1047,
+      "mean_token_accuracy": 0.5530835852399468,
+      "num_input_tokens_seen": 4565196353,
+      "num_tokens": 1923836730.0,
+      "step": 9450
+    },
+    {
+      "epoch": 2.2930730117537004,
+      "grad_norm": 0.25390625,
+      "learning_rate": 2.6663648709823454e-05,
+      "loss": 2.1036,
+      "num_input_tokens_seen": 4589393665,
+      "step": 9500
+    },
+    {
+      "epoch": 2.2930730117537004,
+      "eval_loss": 1.9684821367263794,
+      "eval_mean_token_accuracy": 0.5784456487953707,
+      "eval_num_tokens": 1933999749.0,
+      "eval_runtime": 130.3401,
+      "eval_samples_per_second": 82.185,
+      "eval_steps_per_second": 20.546,
+      "num_input_tokens_seen": 4589393665,
+      "step": 9500
+    },
+    {
+      "epoch": 2.3051435641323534,
+      "grad_norm": 0.2373046875,
+      "learning_rate": 2.647502640712238e-05,
+      "loss": 2.1091,
+      "mean_token_accuracy": 0.5529859235696495,
+      "num_input_tokens_seen": 4613609921,
+      "num_tokens": 1944210855.0,
+      "step": 9550
+    },
+    {
+      "epoch": 2.317214116511007,
+      "grad_norm": 0.2490234375,
+      "learning_rate": 2.6286404104421307e-05,
+      "loss": 2.0976,
+      "mean_token_accuracy": 0.554888856895268,
+      "num_input_tokens_seen": 4637474321,
+      "num_tokens": 1954258079.0,
+      "step": 9600
+    },
+    {
+      "epoch": 2.32928466888966,
+      "grad_norm": 0.25,
+      "learning_rate": 2.609778180172024e-05,
+      "loss": 2.1061,
+      "mean_token_accuracy": 0.5531089297309518,
+      "num_input_tokens_seen": 4661687841,
+      "num_tokens": 1964447306.0,
+      "step": 9650
+    },
+    {
+      "epoch": 2.341355221268313,
+      "grad_norm": 0.283203125,
+      "learning_rate": 2.5909159499019165e-05,
+      "loss": 2.0972,
+      "mean_token_accuracy": 0.5547297456115484,
+      "num_input_tokens_seen": 4685886657,
+      "num_tokens": 1974672380.0,
+      "step": 9700
+    },
+    {
+      "epoch": 2.3534257736469666,
+      "grad_norm": 0.275390625,
+      "learning_rate": 2.5720537196318097e-05,
+      "loss": 2.0874,
+      "mean_token_accuracy": 0.556226581223309,
+      "num_input_tokens_seen": 4710004273,
+      "num_tokens": 1984832310.0,
+      "step": 9750
+    },
+    {
+      "epoch": 2.3654963260256197,
+      "grad_norm": 0.2392578125,
+      "learning_rate": 2.5531914893617022e-05,
+      "loss": 2.096,
+      "mean_token_accuracy": 0.5547980547696352,
+      "num_input_tokens_seen": 4734271009,
+      "num_tokens": 1995090784.0,
+      "step": 9800
+    },
+    {
+      "epoch": 2.377566878404273,
+      "grad_norm": 0.28515625,
+      "learning_rate": 2.534329259091595e-05,
+      "loss": 2.0871,
+      "mean_token_accuracy": 0.5552258058264852,
+      "num_input_tokens_seen": 4758291265,
+      "num_tokens": 2005240317.0,
+      "step": 9850
+    },
+    {
+      "epoch": 2.3896374307829262,
+      "grad_norm": 0.2470703125,
+      "learning_rate": 2.5154670288214883e-05,
+      "loss": 2.0865,
+      "mean_token_accuracy": 0.5557247434183955,
+      "num_input_tokens_seen": 4782472097,
+      "num_tokens": 2015507708.0,
+      "step": 9900
+    },
+    {
+      "epoch": 2.4017079831615793,
+      "grad_norm": 0.2421875,
+      "learning_rate": 2.4966047985513808e-05,
+      "loss": 2.1074,
+      "mean_token_accuracy": 0.5527091028168798,
+      "num_input_tokens_seen": 4806608113,
+      "num_tokens": 2025820931.0,
+      "step": 9950
+    },
+    {
+      "epoch": 2.413778535540233,
+      "grad_norm": 0.2421875,
+      "learning_rate": 2.477742568281274e-05,
+      "loss": 2.1001,
+      "num_input_tokens_seen": 4830743425,
+      "step": 10000
+    },
+    {
+      "epoch": 2.413778535540233,
+      "eval_loss": 1.9683291912078857,
+      "eval_mean_token_accuracy": 0.5784874623550952,
+      "eval_num_tokens": 2035904188.0,
+      "eval_runtime": 130.7093,
+      "eval_samples_per_second": 81.953,
+      "eval_steps_per_second": 20.488,
+      "num_input_tokens_seen": 4830743425,
+      "step": 10000
     }
   ],
   "logging_steps": 50,
   "max_steps": 16568,
+  "num_input_tokens_seen": 4830743425,
   "num_train_epochs": 4,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.292271014243328e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null