webbigdata
/

C3TR-Adapter_hqq

text-generation-inference

Model card Files Files and versions

dahara1 commited on May 24, 2024

Commit

17f243a

·

verified ·

1 Parent(s): 261988f

Update README.md

Files changed (1) hide show

README.md +0 -1

README.md CHANGED Viewed

@@ -135,7 +135,6 @@ tokenizer = AutoTokenizer.from_pretrained(model_id)
 patch_linearlayers(model, patch_add_quant_config,
                           BaseQuantizeConfig(nbits=4, group_size=64, quant_scale=False, quant_zero=False, axis=1))
 HQQLinear.set_backend(HQQBackend.PYTORCH)
-model.eval();
 from hqq.utils.patching import prepare_for_inference
 prepare_for_inference(model, backend="torchao_int4")

 patch_linearlayers(model, patch_add_quant_config,
                           BaseQuantizeConfig(nbits=4, group_size=64, quant_scale=False, quant_zero=False, axis=1))
 HQQLinear.set_backend(HQQBackend.PYTORCH)
 from hqq.utils.patching import prepare_for_inference
 prepare_for_inference(model, backend="torchao_int4")