HuggingFaceTB
/

SmolLM-1.7B

Text Generation

text-generation-inference

Model card Files Files and versions

eliebak HF Staff commited on Jul 16, 2024

Commit

846dddf

·

verified ·

1 Parent(s): a46c9d3

Update README.md

Files changed (1) hide show

README.md +3 -3

README.md CHANGED Viewed

@@ -38,7 +38,7 @@ pip install transformers
 ```python
 # pip install git+https://github.com/huggingface/transformers.git # TODO: merge PR to main
 from transformers import AutoModelForCausalLM, AutoTokenizer
-checkpoint = "HuggingFaceTB/SmolLM-135M"
 device = "cuda" # for GPU usage or "cpu" for CPU usage
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
@@ -53,7 +53,7 @@ print(tokenizer.decode(outputs[0]))
 # pip install accelerate
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
-checkpoint = "HuggingFaceTB/SmolLM-135M"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # for fp16 use `torch_dtype=torch.float16` instead
 model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)
@@ -74,7 +74,7 @@ Memory footprint: 3422.76 MB
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 # to use 4bit use `load_in_4bit=True` instead
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
-checkpoint = "HuggingFaceTB/SmolLM-135M"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForCausalLM.from_pretrained(checkpoint, quantization_config=quantization_config)
 inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to("cuda")

 ```python
 # pip install git+https://github.com/huggingface/transformers.git # TODO: merge PR to main
 from transformers import AutoModelForCausalLM, AutoTokenizer
+checkpoint = "HuggingFaceTB/SmolLM-1.7B"
 device = "cuda" # for GPU usage or "cpu" for CPU usage
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # for multiple GPUs install accelerate and do `model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto")`
 # pip install accelerate
 import torch
 from transformers import AutoTokenizer, AutoModelForCausalLM
+checkpoint = "HuggingFaceTB/SmolLM-1.7B"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 # for fp16 use `torch_dtype=torch.float16` instead
 model = AutoModelForCausalLM.from_pretrained(checkpoint, device_map="auto", torch_dtype=torch.bfloat16)
 from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 # to use 4bit use `load_in_4bit=True` instead
 quantization_config = BitsAndBytesConfig(load_in_8bit=True)
+checkpoint = "HuggingFaceTB/SmolLM-1.7B"
 tokenizer = AutoTokenizer.from_pretrained(checkpoint)
 model = AutoModelForCausalLM.from_pretrained(checkpoint, quantization_config=quantization_config)
 inputs = tokenizer.encode("def print_hello_world():", return_tensors="pt").to("cuda")