GLM-OCR ONNX (int8) for Browser WebGPU

Browser-ready ONNX export of zai-org/GLM-OCR (0.9B params). Runs entirely client-side via onnxruntime-web with WebGPU. No server needed.

Components

File	Size	Description
`vision_encoder_int8.onnx`	~394 MB	CogViT vision encoder (int8)
`language_model_int8.onnx`	~471 MB	GLM-0.5B decoder with 3D spatial RoPE (int8)
`text_embeddings.onnx`	~348 MB	Token embedding layer
`tokenizer.json`	~7 MB	Tokenizer

File	Size	Description
`kv/prefill_int8.onnx`	~471 MB	Full sequence prefill -> logits + KV cache
`kv/decode_int8.onnx`	~471 MB	Single token + KV cache -> logits + updated cache

Mode	Speed	100 tokens
Without KV cache	~0.3 tok/s	~5 min
With KV cache	~20 tok/s	~7 sec

The language model accepts 3D position_ids [4, batch, seq_len] for full spatial awareness:

Apache 2.0 (same as base model)

Base model

Quantized

(26)

this model