Duplicated from zai-org/chatglm-6b-int4

NewBreaker
/

chatglm-6b-int4

Text Generation

text2text-generation

Model card Files Files and versions

chatglm-6b-int4 / demo_call_cpu_model.py

NewBreaker

auto git

3f712ba almost 3 years ago

478 Bytes

	from transformers import AutoTokenizer, AutoModel

	kernel_file = ".\\models\\quantization_kernels.so"
	tokenizer = AutoTokenizer.from_pretrained(".\\", trust_remote_code=True)
	model = AutoModel.from_pretrained(".\\", trust_remote_code=True).float()

	# model = model.quantize(bits=4, kernel_file=kernel_file)

	# response, history = model.chat(tokenizer, "你好", history=[])
	# print("response:", response)


	tokenizer.save_pretrained("models")
	model.save_pretrained("models")