Instructions to use Salesforce/xgen-7b-8k-base with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Salesforce/xgen-7b-8k-base with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="Salesforce/xgen-7b-8k-base")

# Load model directly
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("Salesforce/xgen-7b-8k-base")
model = AutoModelForCausalLM.from_pretrained("Salesforce/xgen-7b-8k-base")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use Salesforce/xgen-7b-8k-base with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "Salesforce/xgen-7b-8k-base"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Salesforce/xgen-7b-8k-base",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/Salesforce/xgen-7b-8k-base

SGLang

How to use Salesforce/xgen-7b-8k-base with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "Salesforce/xgen-7b-8k-base" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Salesforce/xgen-7b-8k-base",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "Salesforce/xgen-7b-8k-base" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "Salesforce/xgen-7b-8k-base",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Docker Model Runner
How to use Salesforce/xgen-7b-8k-base with Docker Model Runner:
```
docker model run hf.co/Salesforce/xgen-7b-8k-base
```

tianxie-sf commited on Jun 29, 2023

Commit

6c7419a

1 Parent(s): 9921aee

add pad token and default eos token

Browse files

Files changed (1) hide show

tokenization_xgen.py +14 -5

tokenization_xgen.py CHANGED Viewed

@@ -25,7 +25,7 @@ MAX_MODEL_INPUT_SIZES = {
 }
-def tiktoken_tokenizer(base="gpt2", add_special=True):
     if not add_special:
         return tiktoken.get_encoding(base)
@@ -83,6 +83,9 @@ def tiktoken_tokenizer(base="gpt2", add_special=True):
         special_tokens[sp] = idx
         idx += 1
     # In production, load the arguments directly instead of accessing private attributes
     # See openai_public.py for examples of arguments for specific encodings
     enc = tiktoken.Encoding(
@@ -112,19 +115,22 @@ class XgenTokenizer(PreTrainedTokenizer):
     def __init__(
             self,
             pad_token=None,
             add_eos_token=False,
             add_special_tokens=True,
             **kwargs,
     ):
-        pad_token = AddedToken(pad_token, lstrip=False, rstrip=False) if isinstance(pad_token, str) else pad_token
         super().__init__(
-            pad_token=pad_token,
             add_eos_token=add_eos_token,
             add_special_tokens=add_special_tokens,
             **kwargs,
         )
         self.add_eos_token = add_eos_token
-        self.encoder = tiktoken_tokenizer(base="gpt2", add_special=add_special_tokens)
     @property
     def vocab_size(self):
@@ -142,6 +148,9 @@ class XgenTokenizer(PreTrainedTokenizer):
     def _convert_token_to_id(self, token):
         """Converts a token (str) in an id using the vocab."""
         return token
     def _convert_id_to_token(self, index):
@@ -216,4 +225,4 @@ class XgenTokenizer(PreTrainedTokenizer):
         if token_ids_1 is not None:
             output += [1] * len(token_ids_1 + eos_token_id)
-        return output

 }
+def tiktoken_tokenizer(base="gpt2", pad_token=None, add_special=True):
     if not add_special:
         return tiktoken.get_encoding(base)
         special_tokens[sp] = idx
         idx += 1
+    if pad_token and pad_token not in tokenizer._special_tokens and pad_token not in special_tokens:
+        special_tokens[pad_token] = idx
+        idx += 1
     # In production, load the arguments directly instead of accessing private attributes
     # See openai_public.py for examples of arguments for specific encodings
     enc = tiktoken.Encoding(
     def __init__(
             self,
             pad_token=None,
+            eos_token="<|endoftext|>",
             add_eos_token=False,
             add_special_tokens=True,
             **kwargs,
     ):
+        pad_token_added = AddedToken(pad_token, lstrip=False, rstrip=False) if isinstance(pad_token, str) else pad_token
+        eos_token_added = AddedToken(eos_token, lstrip=False, rstrip=False) if isinstance(eos_token, str) else eos_token
         super().__init__(
+            pad_token=pad_token_added,
+            eos_token=eos_token_added,
             add_eos_token=add_eos_token,
             add_special_tokens=add_special_tokens,
             **kwargs,
         )
         self.add_eos_token = add_eos_token
+        self.encoder = tiktoken_tokenizer(base="gpt2", pad_token=pad_token, add_special=add_special_tokens)
     @property
     def vocab_size(self):
     def _convert_token_to_id(self, token):
         """Converts a token (str) in an id using the vocab."""
+        if isinstance(token, str):
+            ids = self._tokenize(token)
+            return ids[0]
         return token
     def _convert_id_to_token(self, index):
         if token_ids_1 is not None:
             output += [1] * len(token_ids_1 + eos_token_id)
+        return output