Instructions to use fletch1300/homen_testing_merged6 with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use fletch1300/homen_testing_merged6 with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-generation", model="fletch1300/homen_testing_merged6", trust_remote_code=True)

# Load model directly
from transformers import AutoModelForCausalLM
model = AutoModelForCausalLM.from_pretrained("fletch1300/homen_testing_merged6", trust_remote_code=True, dtype="auto")

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use fletch1300/homen_testing_merged6 with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "fletch1300/homen_testing_merged6"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "fletch1300/homen_testing_merged6",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker

docker model run hf.co/fletch1300/homen_testing_merged6

SGLang

How to use fletch1300/homen_testing_merged6 with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "fletch1300/homen_testing_merged6" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "fletch1300/homen_testing_merged6",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "fletch1300/homen_testing_merged6" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "fletch1300/homen_testing_merged6",
		"prompt": "Once upon a time,",
		"max_tokens": 512,
		"temperature": 0.5
	}'

Docker Model Runner
How to use fletch1300/homen_testing_merged6 with Docker Model Runner:
```
docker model run hf.co/fletch1300/homen_testing_merged6
```

fletch1300 commited on Oct 12, 2023

Commit

be62e65

1 Parent(s): 9c3fdba

Update handler.py

Browse files

Files changed (1) hide show

handler.py +7 -26

handler.py CHANGED Viewed

@@ -4,7 +4,6 @@ import torch
 import transformers
 from transformers import AutoModelForCausalLM, AutoTokenizer
 dtype = torch.bfloat16 if torch.cuda.get_device_capability()[0] == 8 else torch.float16
 class EndpointHandler:
@@ -18,45 +17,27 @@ class EndpointHandler:
             torch_dtype=dtype,
             trust_remote_code=True,
         )
         generation_config = self.model.generation_config
         generation_config.max_new_tokens = 200
-        generation_config.temperature = 0.8
         generation_config.top_p = 0.8
         generation_config.num_return_sequences = 1
         generation_config.pad_token_id = self.tokenizer.eos_token_id
         generation_config.eos_token_id = self.tokenizer.eos_token_id
-        generation_config.early_stopping = True
         self.generate_config = generation_config
         self.pipeline = transformers.pipeline(
             "text-generation", model=self.model, tokenizer=self.tokenizer
         )
-    def _ensure_token_limit(self, text):
-        """Ensure text is within the model's token limit."""
-        tokens = self.tokenizer.tokenize(text)
-        if len(tokens) > 2048:
-            # Remove tokens from the beginning until the text fits
-            tokens = tokens[-2048:]
-            return self.tokenizer.decode(tokens)
-        return text
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
         user_prompt = data.pop("inputs", data)
-        # Permanent context
-        permanent_context = "<context>: You are a life coaching bot..."
-        structured_prompt = f"{permanent_context}\<bot> response:"
-        result = self.pipeline(structured_prompt, generation_config=self.generate_config)
-        # Ensure _extract_response is defined and works as intended
-        response_text = self._extract_response(result[0]['generated_text'])
-        # Trimming response
-        response_text = response_text.rsplit("[END", 1)[0].strip()
-        return {"response": response_text}

 import transformers
 from transformers import AutoModelForCausalLM, AutoTokenizer
 dtype = torch.bfloat16 if torch.cuda.get_device_capability()[0] == 8 else torch.float16
 class EndpointHandler:
             torch_dtype=dtype,
             trust_remote_code=True,
         )
         generation_config = self.model.generation_config
         generation_config.max_new_tokens = 200
+        generation_config.temperature = 0.4
         generation_config.top_p = 0.8
         generation_config.num_return_sequences = 1
         generation_config.pad_token_id = self.tokenizer.eos_token_id
         generation_config.eos_token_id = self.tokenizer.eos_token_id
         self.generate_config = generation_config
         self.pipeline = transformers.pipeline(
             "text-generation", model=self.model, tokenizer=self.tokenizer
         )
     def __call__(self, data: Dict[str, Any]) -> Dict[str, Any]:
         user_prompt = data.pop("inputs", data)
+        # Add the permanent context to the user's prompt
+        permanent_context = "<context>: You are a life coaching bot with the goal of improving understanding, reducing suffering and improving life. Learn about the user in order to provide guidance without making assumptions or adding information not provided by the user."
+        combined_prompt = f"{permanent_context}\n<human>: {user_prompt}"
+        result = self.pipeline(combined_prompt, generation_config=self.generate_config)
+        return result