text-generation-inference error
Hi
I'm using the latest version of text-generation-inference, but I'm getting this error:
โญโโโโโโโโโโโโโโโโโโโโโ Traceback (most recent call last) โโโโโโโโโโโโโโโโโโโโโโโฎ
โ /usr/src/server/text_generation_server/cli.py:119 in serve โ
โ โ
โ 116 โ โ raise RuntimeError( โ
โ 117 โ โ โ "Only 1 can be set between dtype and quantize, as they โ
โ 118 โ โ ) โ
โ โฑ 119 โ server.serve( โ
โ 120 โ โ model_id, โ
โ 121 โ โ lora_adapters, โ
โ 122 โ โ revision, โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ dtype = None โ โ
โ โ json_output = True โ โ
โ โ kv_cache_dtype = None โ โ
โ โ logger_level = 'INFO' โ โ
โ โ lora_adapters = [] โ โ
โ โ max_input_tokens = None โ โ
โ โ model_id = 'microsoft/Phi-4-mini-instruct' โ โ
โ โ otlp_endpoint = None โ โ
โ โ otlp_service_name = 'text-generation-inference.router' โ โ
โ โ quantize = None โ โ
โ โ revision = None โ โ
โ โ server = <module 'text_generation_server.server' from โ โ
โ โ '/usr/src/server/text_generation_server/server.py'> โ โ
โ โ sharded = False โ โ
โ โ speculate = None โ โ
โ โ trust_remote_code = False โ โ
โ โ uds_path = PosixPath('/tmp/text-generation-server') โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /usr/src/server/text_generation_server/server.py:315 in serve โ
โ โ
โ 312 โ โ while signal_handler.KEEP_PROCESSING: โ
โ 313 โ โ โ await asyncio.sleep(0.5) โ
โ 314 โ โ
โ โฑ 315 โ asyncio.run( โ
โ 316 โ โ serve_inner( โ
โ 317 โ โ โ model_id, โ
โ 318 โ โ โ lora_adapters, โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ dtype = None โ โ
โ โ kv_cache_dtype = None โ โ
โ โ lora_adapters = [] โ โ
โ โ max_input_tokens = None โ โ
โ โ model_id = 'microsoft/Phi-4-mini-instruct' โ โ
โ โ quantize = None โ โ
โ โ revision = None โ โ
โ โ sharded = False โ โ
โ โ speculate = None โ โ
โ โ trust_remote_code = False โ โ
โ โ uds_path = PosixPath('/tmp/text-generation-server') โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /root/.local/share/uv/python/cpython-3.11.11-linux-x86_64-gnu/lib/python3.11 โ
โ /asyncio/runners.py:190 in run โ
โ โ
โ 187 โ โ โ "asyncio.run() cannot be called from a running event loop" โ
โ 188 โ โ
โ 189 โ with Runner(debug=debug) as runner: โ
โ โฑ 190 โ โ return runner.run(main) โ
โ 191 โ
โ 192 โ
โ 193 def _cancel_all_tasks(loop): โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ debug = None โ โ
โ โ main = <coroutine object serve..serve_inner at 0x75c34d6c81f0> โ โ
โ โ runner = <asyncio.runners.Runner object at 0x75c3c84b9ed0> โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /root/.local/share/uv/python/cpython-3.11.11-linux-x86_64-gnu/lib/python3.11 โ
โ /asyncio/runners.py:118 in run โ
โ โ
โ 115 โ โ โ
โ 116 โ โ self._interrupt_count = 0 โ
โ 117 โ โ try: โ
โ โฑ 118 โ โ โ return self._loop.run_until_complete(task) โ
โ 119 โ โ except exceptions.CancelledError: โ
โ 120 โ โ โ if self._interrupt_count > 0: โ
โ 121 โ โ โ โ uncancel = getattr(task, "uncancel", None) โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ context = <_contextvars.Context object at 0x75c35ff50a80> โ โ
โ โ coro = <coroutine object serve..serve_inner at โ โ
โ โ 0x75c34d6c81f0> โ โ
โ โ self = <asyncio.runners.Runner object at 0x75c3c84b9ed0> โ โ
โ โ sigint_handler = functools.partial(<bound method Runner._on_sigint of โ โ
โ โ <asyncio.runners.Runner object at 0x75c3c84b9ed0>>, โ โ
โ โ main_task=<Task finished name='Task-1' โ โ
โ โ coro=<serve..serve_inner() done, defined at โ โ
โ โ /usr/src/server/text_generation_server/server.py:244> โ โ
โ โ exception=RuntimeError('The size of tensor a (48) must โ โ
โ โ match the size of tensor b (64) at non-singleton โ โ
โ โ dimension 0')>) โ โ
โ โ task = <Task finished name='Task-1' โ โ
โ โ coro=<serve..serve_inner() done, defined at โ โ
โ โ /usr/src/server/text_generation_server/server.py:244> โ โ
โ โ exception=RuntimeError('The size of tensor a (48) must โ โ
โ โ match the size of tensor b (64) at non-singleton โ โ
โ โ dimension 0')> โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /root/.local/share/uv/python/cpython-3.11.11-linux-x86_64-gnu/lib/python3.11 โ
โ /asyncio/base_events.py:654 in run_until_complete โ
โ โ
โ 651 โ โ if not future.done(): โ
โ 652 โ โ โ raise RuntimeError('Event loop stopped before Future comp โ
โ 653 โ โ โ
โ โฑ 654 โ โ return future.result() โ
โ 655 โ โ
โ 656 โ def stop(self): โ
โ 657 โ โ """Stop running the event loop. โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ future = <Task finished name='Task-1' โ โ
โ โ coro=<serve..serve_inner() done, defined at โ โ
โ โ /usr/src/server/text_generation_server/server.py:244> โ โ
โ โ exception=RuntimeError('The size of tensor a (48) must match โ โ
โ โ the size of tensor b (64) at non-singleton dimension 0')> โ โ
โ โ new_task = False โ โ
โ โ self = <_UnixSelectorEventLoop running=False closed=True โ โ
โ โ debug=False> โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /usr/src/server/text_generation_server/server.py:268 in serve_inner โ
โ โ
โ 265 โ โ โ server_urls = [local_url] โ
โ 266 โ โ โ
โ 267 โ โ try: โ
โ โฑ 268 โ โ โ model = get_model_with_lora_adapters( โ
โ 269 โ โ โ โ model_id, โ
โ 270 โ โ โ โ lora_adapters, โ
โ 271 โ โ โ โ revision, โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ adapter_to_index = {} โ โ
โ โ dtype = None โ โ
โ โ kv_cache_dtype = None โ โ
โ โ local_url = 'unix:///tmp/text-generation-server-0' โ โ
โ โ lora_adapters = [] โ โ
โ โ max_input_tokens = None โ โ
โ โ model_id = 'microsoft/Phi-4-mini-instruct' โ โ
โ โ quantize = None โ โ
โ โ revision = None โ โ
โ โ server_urls = ['unix:///tmp/text-generation-server-0'] โ โ
โ โ sharded = False โ โ
โ โ speculate = None โ โ
โ โ trust_remote_code = False โ โ
โ โ uds_path = PosixPath('/tmp/text-generation-server') โ โ
โ โ unix_socket_template = 'unix://{}-{}' โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /usr/src/server/text_generation_server/models/init.py:1814 in โ
โ get_model_with_lora_adapters โ
โ โ
โ 1811 โ adapter_to_index: Dict[str, int], โ
โ 1812 ): โ
โ 1813 โ lora_adapter_ids = [adapter.id for adapter in lora_adapters] โ
โ โฑ 1814 โ model = get_model( โ
โ 1815 โ โ model_id, โ
โ 1816 โ โ lora_adapter_ids, โ
โ 1817 โ โ revision, โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ adapter_to_index = {} โ โ
โ โ dtype = None โ โ
โ โ kv_cache_dtype = None โ โ
โ โ lora_adapter_ids = [] โ โ
โ โ lora_adapters = [] โ โ
โ โ max_input_tokens = None โ โ
โ โ model_id = 'microsoft/Phi-4-mini-instruct' โ โ
โ โ quantize = None โ โ
โ โ revision = None โ โ
โ โ sharded = False โ โ
โ โ speculate = None โ โ
โ โ trust_remote_code = False โ โ
โ โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ โ
โ โ
โ /usr/src/server/text_generation_server/models/init.py:998 in get_model โ
โ โ
โ 995 โ โ
โ 996 โ elif model_type == LLAMA or model_type == PHI3 or model_type == G โ
โ 997 โ โ if FLASH_ATTENTION: โ
โ โฑ 998 โ โ โ return FlashCausalLM( โ
โ 999 โ โ โ โ model_id=model_id, โ
โ 1000 โ โ โ โ model_class=FlashLlamaForCausalLM, โ
โ 1001 โ โ โ โ revision=revision, โ
โ โ
โ โญโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ locals โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฎ โ
โ โ _ = {} โ โ
โ โ compressed_tensors_config = None โ โ
โ โ config_dict = { โ โ
โ โ โ '_name_or_path': 'Phi-4-mini-instruct', โ โ
โ โ โ 'architectures': ['Phi3ForCausalLM'], โ โ
โ โ โ 'attention_bias': False, โ โ
โ โ โ 'attention_dropout': 0.0, โ โ
โ โ โ 'auto_map': { โ โ
โ โ โ โ 'AutoConfig': โ โ
โ โ 'microsoft/Phi-4-mini-instruct--configuratiโฆ โ โ
โ โ โ โ 'AutoModelForCausalLM': โ โ
โ โ 'microsoft/Phi-4-mini-instruct--modeling_phโฆ โ โ
โ โ โ โ 'AutoTokenizer': โ โ
โ โ 'microsoft/Phi-4-mini-instruct--Xenova/gpt-โฆ โ โ
โ โ โ }, โ โ
โ โ โ 'bos_token_id': 199999, โ โ
โ โ โ 'embd_pdrop': 0.0, โ โ
โ โ โ 'eos_token_id': 199999, โ โ
โ โ โ 'full_attn_mod': 1, โ โ
โ โ โ 'hidden_act': 'silu', โ โ
โ โ โ ... +25 โ โ
โ โ } โ โ
โ โ dtype = None โ โ
โ โ kv_cache_dtype = None โ โ
โ โ kv_cache_scheme = None โ โ
โ โ lora_adapter_ids = [] โ โ
โ โ max_input_tokens = None โ โ
โ โ method = 'n-gram' โ โ
โ โ model_id = 'microsoft/Phi-4-mini-instruct' โ โ
โ โ model_type = 'phi3' โ โ
โ โ needs_sliding_window = False โ โ
โ โ quantization_config = None โ โ
โ โ quantize = None โ โ
โ โ revision = None โ โ
โ โ sharded = False โ โ
โ โ sliding_window = 262144 โ โ
โ โ speculate = 0 โ โ
โ โ speculator = None โ โ
โ โ trust_remote_code = False โ โ
โ โ use_sliding_window = True โ โ
โฐโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโฏ
RuntimeError: The size of tensor a (48) must match the size of tensor b (64) at
non-singleton dimension 0 rank=0
Error: ShardCannotStart
2025-04-17T08:38:24.705756Z ERROR text_generation_launcher: Shard 0 failed to start
2025-04-17T08:38:24.705774Z INFO text_generation_launcher: Shutting down shards