Instructions to use Azrail/smallm_70_instruct with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Azrail/smallm_70_instruct with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Azrail/smallm_70_instruct", trust_remote_code=True)
messages = [
    {"role": "user", "content": "Who are you?"},
]
pipe(messages)

# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("Azrail/smallm_70_instruct", trust_remote_code=True, dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Azrail/smallm_70_instruct with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Azrail/smallm_70_instruct"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Azrail/smallm_70_instruct",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker

docker model run hf.co/Azrail/smallm_70_instruct

SGLang

How to use Azrail/smallm_70_instruct with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Azrail/smallm_70_instruct" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Azrail/smallm_70_instruct",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Azrail/smallm_70_instruct" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Azrail/smallm_70_instruct",
		"messages": [
			{
				"role": "user",
				"content": "What is the capital of France?"
			}
		]
	}'

Docker Model Runner
How to use Azrail/smallm_70_instruct with Docker Model Runner:
```
docker model run hf.co/Azrail/smallm_70_instruct
```

Azrail commited on Apr 16, 2025

Commit

2ff638e

verified ·

1 Parent(s): a9d468f

Training in progress, step 14000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +222 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:23be2c11c244c72601ea6f47dd507781736231ff1da2289fe5f8ba433277cb99
 size 150625560

 version https://git-lfs.github.com/spec/v1
+oid sha256:0579f8b01bd92a4b6d4d9542187f9f6be5d525493ee4cacf89313462b0d4fc29
 size 150625560

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04943bdcad0923c88796f61e80a911b94cde9c121a1bb27006e82c8a584a0c44
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:d1ac4e5f1a091d05231fad9fd4f9941afbf6737a4f9256414d7439dd21637791
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ff84b2998c9ce4e6e3eaf03e775fc93a7c11be8195c0bb3abb7a8b9a1cec86e5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dac96a69b6625532fa7a1849a782b63a79e8d1b28e764bc8297e354d748f16c9
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71a524f67e79e2b512d6d818f94e2b528e5b7f4447259f3966ae44cdba439db5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:081dc59c3c452b8ce89bfce5eae0952bf765aeed7903bbba40be0fb195d20006
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 3.1378457081642197,
   "eval_steps": 500,
-  "global_step": 13000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2842,11 +2842,229 @@
       "eval_steps_per_second": 20.539,
       "num_input_tokens_seen": 6280158129,
       "step": 13000
     }
   ],
   "logging_steps": 50,
   "max_steps": 16568,
-  "num_input_tokens_seen": 6280158129,
   "num_train_epochs": 4,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -2861,7 +3079,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.680003593850839e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.3792567557372846,
   "eval_steps": 500,
+  "global_step": 14000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 20.539,
       "num_input_tokens_seen": 6280158129,
       "step": 13000
+    },
+    {
+      "epoch": 3.149916260542873,
+      "grad_norm": 0.25390625,
+      "learning_rate": 1.3271465218047383e-05,
+      "loss": 2.0974,
+      "mean_token_accuracy": 0.5548031070828437,
+      "num_input_tokens_seen": 6304365713,
+      "num_tokens": 2656912031.0,
+      "step": 13050
+    },
+    {
+      "epoch": 3.1619868129215263,
+      "grad_norm": 0.24609375,
+      "learning_rate": 1.3082842915346311e-05,
+      "loss": 2.0981,
+      "mean_token_accuracy": 0.5543636172637343,
+      "num_input_tokens_seen": 6328561217,
+      "num_tokens": 2667181848.0,
+      "step": 13100
+    },
+    {
+      "epoch": 3.1740573653001793,
+      "grad_norm": 0.236328125,
+      "learning_rate": 1.2894220612645238e-05,
+      "loss": 2.093,
+      "mean_token_accuracy": 0.5551713344082236,
+      "num_input_tokens_seen": 6352657569,
+      "num_tokens": 2677374089.0,
+      "step": 13150
+    },
+    {
+      "epoch": 3.186127917678833,
+      "grad_norm": 0.267578125,
+      "learning_rate": 1.2705598309944169e-05,
+      "loss": 2.084,
+      "mean_token_accuracy": 0.5568741805478931,
+      "num_input_tokens_seen": 6376750801,
+      "num_tokens": 2687517529.0,
+      "step": 13200
+    },
+    {
+      "epoch": 3.198198470057486,
+      "grad_norm": 0.2578125,
+      "learning_rate": 1.2516976007243097e-05,
+      "loss": 2.0985,
+      "mean_token_accuracy": 0.5545465455949307,
+      "num_input_tokens_seen": 6400738145,
+      "num_tokens": 2697615714.0,
+      "step": 13250
+    },
+    {
+      "epoch": 3.2102690224361394,
+      "grad_norm": 0.2451171875,
+      "learning_rate": 1.2328353704542026e-05,
+      "loss": 2.0969,
+      "mean_token_accuracy": 0.5544571406021714,
+      "num_input_tokens_seen": 6424909057,
+      "num_tokens": 2707784293.0,
+      "step": 13300
+    },
+    {
+      "epoch": 3.2223395748147925,
+      "grad_norm": 0.302734375,
+      "learning_rate": 1.2139731401840953e-05,
+      "loss": 2.0932,
+      "mean_token_accuracy": 0.5548350306227803,
+      "num_input_tokens_seen": 6449111825,
+      "num_tokens": 2717984302.0,
+      "step": 13350
+    },
+    {
+      "epoch": 3.2344101271934456,
+      "grad_norm": 0.228515625,
+      "learning_rate": 1.1951109099139883e-05,
+      "loss": 2.1012,
+      "mean_token_accuracy": 0.5535725425183773,
+      "num_input_tokens_seen": 6473257953,
+      "num_tokens": 2728233467.0,
+      "step": 13400
+    },
+    {
+      "epoch": 3.246480679572099,
+      "grad_norm": 0.2578125,
+      "learning_rate": 1.1762486796438812e-05,
+      "loss": 2.0985,
+      "mean_token_accuracy": 0.5541856496781111,
+      "num_input_tokens_seen": 6497464865,
+      "num_tokens": 2738326366.0,
+      "step": 13450
+    },
+    {
+      "epoch": 3.258551231950752,
+      "grad_norm": 0.2412109375,
+      "learning_rate": 1.157386449373774e-05,
+      "loss": 2.0911,
+      "num_input_tokens_seen": 6521634753,
+      "step": 13500
+    },
+    {
+      "epoch": 3.258551231950752,
+      "eval_loss": 1.9680596590042114,
+      "eval_mean_token_accuracy": 0.5785238554199033,
+      "eval_num_tokens": 2748403907.0,
+      "eval_runtime": 130.2372,
+      "eval_samples_per_second": 82.25,
+      "eval_steps_per_second": 20.562,
+      "num_input_tokens_seen": 6521634753,
+      "step": 13500
+    },
+    {
+      "epoch": 3.270621784329405,
+      "grad_norm": 0.251953125,
+      "learning_rate": 1.1385242191036669e-05,
+      "loss": 2.0844,
+      "mean_token_accuracy": 0.5562084444984794,
+      "num_input_tokens_seen": 6545823777,
+      "num_tokens": 2758638062.0,
+      "step": 13550
+    },
+    {
+      "epoch": 3.2826923367080587,
+      "grad_norm": 0.24609375,
+      "learning_rate": 1.1196619888335598e-05,
+      "loss": 2.089,
+      "mean_token_accuracy": 0.5565486250445246,
+      "num_input_tokens_seen": 6569949777,
+      "num_tokens": 2768698376.0,
+      "step": 13600
+    },
+    {
+      "epoch": 3.2947628890867118,
+      "grad_norm": 0.2431640625,
+      "learning_rate": 1.1007997585634526e-05,
+      "loss": 2.0915,
+      "mean_token_accuracy": 0.5548499751463533,
+      "num_input_tokens_seen": 6593997425,
+      "num_tokens": 2778806953.0,
+      "step": 13650
+    },
+    {
+      "epoch": 3.306833441465365,
+      "grad_norm": 0.330078125,
+      "learning_rate": 1.0819375282933455e-05,
+      "loss": 2.0875,
+      "mean_token_accuracy": 0.5560770154371858,
+      "num_input_tokens_seen": 6618153121,
+      "num_tokens": 2789046249.0,
+      "step": 13700
+    },
+    {
+      "epoch": 3.3189039938440184,
+      "grad_norm": 0.26171875,
+      "learning_rate": 1.0630752980232384e-05,
+      "loss": 2.0974,
+      "mean_token_accuracy": 0.5540758088976144,
+      "num_input_tokens_seen": 6642228561,
+      "num_tokens": 2799134100.0,
+      "step": 13750
+    },
+    {
+      "epoch": 3.3309745462226714,
+      "grad_norm": 0.2578125,
+      "learning_rate": 1.0442130677531312e-05,
+      "loss": 2.0837,
+      "mean_token_accuracy": 0.5564264697581529,
+      "num_input_tokens_seen": 6666487089,
+      "num_tokens": 2809333203.0,
+      "step": 13800
+    },
+    {
+      "epoch": 3.343045098601325,
+      "grad_norm": 0.271484375,
+      "learning_rate": 1.025350837483024e-05,
+      "loss": 2.0804,
+      "mean_token_accuracy": 0.5564664682373405,
+      "num_input_tokens_seen": 6690592209,
+      "num_tokens": 2819507621.0,
+      "step": 13850
+    },
+    {
+      "epoch": 3.355115650979978,
+      "grad_norm": 0.2578125,
+      "learning_rate": 1.006488607212917e-05,
+      "loss": 2.0875,
+      "mean_token_accuracy": 0.5563617146387696,
+      "num_input_tokens_seen": 6714782033,
+      "num_tokens": 2829715451.0,
+      "step": 13900
+    },
+    {
+      "epoch": 3.367186203358631,
+      "grad_norm": 0.26171875,
+      "learning_rate": 9.876263769428096e-06,
+      "loss": 2.1015,
+      "mean_token_accuracy": 0.5533242063969374,
+      "num_input_tokens_seen": 6738954721,
+      "num_tokens": 2839876349.0,
+      "step": 13950
+    },
+    {
+      "epoch": 3.3792567557372846,
+      "grad_norm": 0.2578125,
+      "learning_rate": 9.687641466727027e-06,
+      "loss": 2.1018,
+      "num_input_tokens_seen": 6763271617,
+      "step": 14000
+    },
+    {
+      "epoch": 3.3792567557372846,
+      "eval_loss": 1.9681081771850586,
+      "eval_mean_token_accuracy": 0.5785279828634967,
+      "eval_num_tokens": 2850147053.0,
+      "eval_runtime": 131.6179,
+      "eval_samples_per_second": 81.387,
+      "eval_steps_per_second": 20.347,
+      "num_input_tokens_seen": 6763271617,
+      "step": 14000
     }
   ],
   "logging_steps": 50,
   "max_steps": 16568,
+  "num_input_tokens_seen": 6763271617,
   "num_train_epochs": 4,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.809241167078482e+18,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null