tokenlabsdotrun
/

Llama-3.1-8B-ModelOpt-FP8

nvidia-modeloptimizer

Model card Files Files and versions

Llama-3.1-8B-ModelOpt-FP8 / NVFP4 /hf_quant_config.json

genai2eliza's picture

Upload Llama-3.1-8B quantized with ModelOpt FP8

33d5dec verified 9 days ago

history blame contribute delete

267 Bytes

	{
	"producer": {
	"name": "modelopt",
	"version": "0.40.0"
	},
	"quantization": {
	"quant_algo": "NVFP4",
	"kv_cache_quant_algo": null,
	"group_size": 16,
	"exclude_modules": [
	"lm_head"
	]
	}
	}