google
/

gemma-7b-AWQ

Text Generation

text-generation-inference

4-bit precision

Model card Files Files and versions

Brandon Royal commited on Jul 23, 2024

Commit

98d63bb

·

1 Parent(s): 044a024

cleanup readme

Files changed (1) hide show

README.md +0 -16

README.md CHANGED Viewed

@@ -95,22 +95,6 @@ outputs = model.generate(**input_ids)
 print(tokenizer.decode(outputs[0]))
 ```
-* _Using `torch.bfloat16`_
-```python
-# pip install accelerate
-from transformers import AutoTokenizer, AutoModelForCausalLM
-tokenizer = AutoTokenizer.from_pretrained("google/gemma-7b-AWQ")
-model = AutoModelForCausalLM.from_pretrained("google/gemma-7b-AWQ", device_map="auto", torch_dtype=torch.bfloat16)
-input_text = "Write me a poem about Machine Learning."
-input_ids = tokenizer(input_text, return_tensors="pt").to("cuda")
-outputs = model.generate(**input_ids)
-print(tokenizer.decode(outputs[0]))
-```
 #### Other optimizations

 print(tokenizer.decode(outputs[0]))
 ```
 #### Other optimizations