text-generation-inference error

#25
by BenjaminAslamy - opened

Hi

I'm using the latest version of text-generation-inference, but I'm getting this error:

โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ Traceback (most recent call last) โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ
โ”‚ /usr/src/server/text_generation_server/cli.py:119 in serve โ”‚
โ”‚ โ”‚
โ”‚ 116 โ”‚ โ”‚ raise RuntimeError( โ”‚
โ”‚ 117 โ”‚ โ”‚ โ”‚ "Only 1 can be set between dtype and quantize, as they โ”‚
โ”‚ 118 โ”‚ โ”‚ ) โ”‚
โ”‚ โฑ 119 โ”‚ server.serve( โ”‚
โ”‚ 120 โ”‚ โ”‚ model_id, โ”‚
โ”‚ 121 โ”‚ โ”‚ lora_adapters, โ”‚
โ”‚ 122 โ”‚ โ”‚ revision, โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ dtype = None โ”‚ โ”‚
โ”‚ โ”‚ json_output = True โ”‚ โ”‚
โ”‚ โ”‚ kv_cache_dtype = None โ”‚ โ”‚
โ”‚ โ”‚ logger_level = 'INFO' โ”‚ โ”‚
โ”‚ โ”‚ lora_adapters = [] โ”‚ โ”‚
โ”‚ โ”‚ max_input_tokens = None โ”‚ โ”‚
โ”‚ โ”‚ model_id = 'microsoft/Phi-4-mini-instruct' โ”‚ โ”‚
โ”‚ โ”‚ otlp_endpoint = None โ”‚ โ”‚
โ”‚ โ”‚ otlp_service_name = 'text-generation-inference.router' โ”‚ โ”‚
โ”‚ โ”‚ quantize = None โ”‚ โ”‚
โ”‚ โ”‚ revision = None โ”‚ โ”‚
โ”‚ โ”‚ server = <module 'text_generation_server.server' from โ”‚ โ”‚
โ”‚ โ”‚ '/usr/src/server/text_generation_server/server.py'> โ”‚ โ”‚
โ”‚ โ”‚ sharded = False โ”‚ โ”‚
โ”‚ โ”‚ speculate = None โ”‚ โ”‚
โ”‚ โ”‚ trust_remote_code = False โ”‚ โ”‚
โ”‚ โ”‚ uds_path = PosixPath('/tmp/text-generation-server') โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /usr/src/server/text_generation_server/server.py:315 in serve โ”‚
โ”‚ โ”‚
โ”‚ 312 โ”‚ โ”‚ while signal_handler.KEEP_PROCESSING: โ”‚
โ”‚ 313 โ”‚ โ”‚ โ”‚ await asyncio.sleep(0.5) โ”‚
โ”‚ 314 โ”‚ โ”‚
โ”‚ โฑ 315 โ”‚ asyncio.run( โ”‚
โ”‚ 316 โ”‚ โ”‚ serve_inner( โ”‚
โ”‚ 317 โ”‚ โ”‚ โ”‚ model_id, โ”‚
โ”‚ 318 โ”‚ โ”‚ โ”‚ lora_adapters, โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ dtype = None โ”‚ โ”‚
โ”‚ โ”‚ kv_cache_dtype = None โ”‚ โ”‚
โ”‚ โ”‚ lora_adapters = [] โ”‚ โ”‚
โ”‚ โ”‚ max_input_tokens = None โ”‚ โ”‚
โ”‚ โ”‚ model_id = 'microsoft/Phi-4-mini-instruct' โ”‚ โ”‚
โ”‚ โ”‚ quantize = None โ”‚ โ”‚
โ”‚ โ”‚ revision = None โ”‚ โ”‚
โ”‚ โ”‚ sharded = False โ”‚ โ”‚
โ”‚ โ”‚ speculate = None โ”‚ โ”‚
โ”‚ โ”‚ trust_remote_code = False โ”‚ โ”‚
โ”‚ โ”‚ uds_path = PosixPath('/tmp/text-generation-server') โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /root/.local/share/uv/python/cpython-3.11.11-linux-x86_64-gnu/lib/python3.11 โ”‚
โ”‚ /asyncio/runners.py:190 in run โ”‚
โ”‚ โ”‚
โ”‚ 187 โ”‚ โ”‚ โ”‚ "asyncio.run() cannot be called from a running event loop" โ”‚
โ”‚ 188 โ”‚ โ”‚
โ”‚ 189 โ”‚ with Runner(debug=debug) as runner: โ”‚
โ”‚ โฑ 190 โ”‚ โ”‚ return runner.run(main) โ”‚
โ”‚ 191 โ”‚
โ”‚ 192 โ”‚
โ”‚ 193 def _cancel_all_tasks(loop): โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ debug = None โ”‚ โ”‚
โ”‚ โ”‚ main = <coroutine object serve..serve_inner at 0x75c34d6c81f0> โ”‚ โ”‚
โ”‚ โ”‚ runner = <asyncio.runners.Runner object at 0x75c3c84b9ed0> โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /root/.local/share/uv/python/cpython-3.11.11-linux-x86_64-gnu/lib/python3.11 โ”‚
โ”‚ /asyncio/runners.py:118 in run โ”‚
โ”‚ โ”‚
โ”‚ 115 โ”‚ โ”‚ โ”‚
โ”‚ 116 โ”‚ โ”‚ self._interrupt_count = 0 โ”‚
โ”‚ 117 โ”‚ โ”‚ try: โ”‚
โ”‚ โฑ 118 โ”‚ โ”‚ โ”‚ return self._loop.run_until_complete(task) โ”‚
โ”‚ 119 โ”‚ โ”‚ except exceptions.CancelledError: โ”‚
โ”‚ 120 โ”‚ โ”‚ โ”‚ if self._interrupt_count > 0: โ”‚
โ”‚ 121 โ”‚ โ”‚ โ”‚ โ”‚ uncancel = getattr(task, "uncancel", None) โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ context = <_contextvars.Context object at 0x75c35ff50a80> โ”‚ โ”‚
โ”‚ โ”‚ coro = <coroutine object serve..serve_inner at โ”‚ โ”‚
โ”‚ โ”‚ 0x75c34d6c81f0> โ”‚ โ”‚
โ”‚ โ”‚ self = <asyncio.runners.Runner object at 0x75c3c84b9ed0> โ”‚ โ”‚
โ”‚ โ”‚ sigint_handler = functools.partial(<bound method Runner._on_sigint of โ”‚ โ”‚
โ”‚ โ”‚ <asyncio.runners.Runner object at 0x75c3c84b9ed0>>, โ”‚ โ”‚
โ”‚ โ”‚ main_task=<Task finished name='Task-1' โ”‚ โ”‚
โ”‚ โ”‚ coro=<serve..serve_inner() done, defined at โ”‚ โ”‚
โ”‚ โ”‚ /usr/src/server/text_generation_server/server.py:244> โ”‚ โ”‚
โ”‚ โ”‚ exception=RuntimeError('The size of tensor a (48) must โ”‚ โ”‚
โ”‚ โ”‚ match the size of tensor b (64) at non-singleton โ”‚ โ”‚
โ”‚ โ”‚ dimension 0')>) โ”‚ โ”‚
โ”‚ โ”‚ task = <Task finished name='Task-1' โ”‚ โ”‚
โ”‚ โ”‚ coro=<serve..serve_inner() done, defined at โ”‚ โ”‚
โ”‚ โ”‚ /usr/src/server/text_generation_server/server.py:244> โ”‚ โ”‚
โ”‚ โ”‚ exception=RuntimeError('The size of tensor a (48) must โ”‚ โ”‚
โ”‚ โ”‚ match the size of tensor b (64) at non-singleton โ”‚ โ”‚
โ”‚ โ”‚ dimension 0')> โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /root/.local/share/uv/python/cpython-3.11.11-linux-x86_64-gnu/lib/python3.11 โ”‚
โ”‚ /asyncio/base_events.py:654 in run_until_complete โ”‚
โ”‚ โ”‚
โ”‚ 651 โ”‚ โ”‚ if not future.done(): โ”‚
โ”‚ 652 โ”‚ โ”‚ โ”‚ raise RuntimeError('Event loop stopped before Future comp โ”‚
โ”‚ 653 โ”‚ โ”‚ โ”‚
โ”‚ โฑ 654 โ”‚ โ”‚ return future.result() โ”‚
โ”‚ 655 โ”‚ โ”‚
โ”‚ 656 โ”‚ def stop(self): โ”‚
โ”‚ 657 โ”‚ โ”‚ """Stop running the event loop. โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ future = <Task finished name='Task-1' โ”‚ โ”‚
โ”‚ โ”‚ coro=<serve..serve_inner() done, defined at โ”‚ โ”‚
โ”‚ โ”‚ /usr/src/server/text_generation_server/server.py:244> โ”‚ โ”‚
โ”‚ โ”‚ exception=RuntimeError('The size of tensor a (48) must match โ”‚ โ”‚
โ”‚ โ”‚ the size of tensor b (64) at non-singleton dimension 0')> โ”‚ โ”‚
โ”‚ โ”‚ new_task = False โ”‚ โ”‚
โ”‚ โ”‚ self = <_UnixSelectorEventLoop running=False closed=True โ”‚ โ”‚
โ”‚ โ”‚ debug=False> โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /usr/src/server/text_generation_server/server.py:268 in serve_inner โ”‚
โ”‚ โ”‚
โ”‚ 265 โ”‚ โ”‚ โ”‚ server_urls = [local_url] โ”‚
โ”‚ 266 โ”‚ โ”‚ โ”‚
โ”‚ 267 โ”‚ โ”‚ try: โ”‚
โ”‚ โฑ 268 โ”‚ โ”‚ โ”‚ model = get_model_with_lora_adapters( โ”‚
โ”‚ 269 โ”‚ โ”‚ โ”‚ โ”‚ model_id, โ”‚
โ”‚ 270 โ”‚ โ”‚ โ”‚ โ”‚ lora_adapters, โ”‚
โ”‚ 271 โ”‚ โ”‚ โ”‚ โ”‚ revision, โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ adapter_to_index = {} โ”‚ โ”‚
โ”‚ โ”‚ dtype = None โ”‚ โ”‚
โ”‚ โ”‚ kv_cache_dtype = None โ”‚ โ”‚
โ”‚ โ”‚ local_url = 'unix:///tmp/text-generation-server-0' โ”‚ โ”‚
โ”‚ โ”‚ lora_adapters = [] โ”‚ โ”‚
โ”‚ โ”‚ max_input_tokens = None โ”‚ โ”‚
โ”‚ โ”‚ model_id = 'microsoft/Phi-4-mini-instruct' โ”‚ โ”‚
โ”‚ โ”‚ quantize = None โ”‚ โ”‚
โ”‚ โ”‚ revision = None โ”‚ โ”‚
โ”‚ โ”‚ server_urls = ['unix:///tmp/text-generation-server-0'] โ”‚ โ”‚
โ”‚ โ”‚ sharded = False โ”‚ โ”‚
โ”‚ โ”‚ speculate = None โ”‚ โ”‚
โ”‚ โ”‚ trust_remote_code = False โ”‚ โ”‚
โ”‚ โ”‚ uds_path = PosixPath('/tmp/text-generation-server') โ”‚ โ”‚
โ”‚ โ”‚ unix_socket_template = 'unix://{}-{}' โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /usr/src/server/text_generation_server/models/init.py:1814 in โ”‚
โ”‚ get_model_with_lora_adapters โ”‚
โ”‚ โ”‚
โ”‚ 1811 โ”‚ adapter_to_index: Dict[str, int], โ”‚
โ”‚ 1812 ): โ”‚
โ”‚ 1813 โ”‚ lora_adapter_ids = [adapter.id for adapter in lora_adapters] โ”‚
โ”‚ โฑ 1814 โ”‚ model = get_model( โ”‚
โ”‚ 1815 โ”‚ โ”‚ model_id, โ”‚
โ”‚ 1816 โ”‚ โ”‚ lora_adapter_ids, โ”‚
โ”‚ 1817 โ”‚ โ”‚ revision, โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ adapter_to_index = {} โ”‚ โ”‚
โ”‚ โ”‚ dtype = None โ”‚ โ”‚
โ”‚ โ”‚ kv_cache_dtype = None โ”‚ โ”‚
โ”‚ โ”‚ lora_adapter_ids = [] โ”‚ โ”‚
โ”‚ โ”‚ lora_adapters = [] โ”‚ โ”‚
โ”‚ โ”‚ max_input_tokens = None โ”‚ โ”‚
โ”‚ โ”‚ model_id = 'microsoft/Phi-4-mini-instruct' โ”‚ โ”‚
โ”‚ โ”‚ quantize = None โ”‚ โ”‚
โ”‚ โ”‚ revision = None โ”‚ โ”‚
โ”‚ โ”‚ sharded = False โ”‚ โ”‚
โ”‚ โ”‚ speculate = None โ”‚ โ”‚
โ”‚ โ”‚ trust_remote_code = False โ”‚ โ”‚
โ”‚ โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ โ”‚
โ”‚ โ”‚
โ”‚ /usr/src/server/text_generation_server/models/init.py:998 in get_model โ”‚
โ”‚ โ”‚
โ”‚ 995 โ”‚ โ”‚
โ”‚ 996 โ”‚ elif model_type == LLAMA or model_type == PHI3 or model_type == G โ”‚
โ”‚ 997 โ”‚ โ”‚ if FLASH_ATTENTION: โ”‚
โ”‚ โฑ 998 โ”‚ โ”‚ โ”‚ return FlashCausalLM( โ”‚
โ”‚ 999 โ”‚ โ”‚ โ”‚ โ”‚ model_id=model_id, โ”‚
โ”‚ 1000 โ”‚ โ”‚ โ”‚ โ”‚ model_class=FlashLlamaForCausalLM, โ”‚
โ”‚ 1001 โ”‚ โ”‚ โ”‚ โ”‚ revision=revision, โ”‚
โ”‚ โ”‚
โ”‚ โ•ญโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€ locals โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฎ โ”‚
โ”‚ โ”‚ _ = {} โ”‚ โ”‚
โ”‚ โ”‚ compressed_tensors_config = None โ”‚ โ”‚
โ”‚ โ”‚ config_dict = { โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ '_name_or_path': 'Phi-4-mini-instruct', โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'architectures': ['Phi3ForCausalLM'], โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'attention_bias': False, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'attention_dropout': 0.0, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'auto_map': { โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ โ”‚ 'AutoConfig': โ”‚ โ”‚
โ”‚ โ”‚ 'microsoft/Phi-4-mini-instruct--configuratiโ€ฆ โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ โ”‚ 'AutoModelForCausalLM': โ”‚ โ”‚
โ”‚ โ”‚ 'microsoft/Phi-4-mini-instruct--modeling_phโ€ฆ โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ โ”‚ 'AutoTokenizer': โ”‚ โ”‚
โ”‚ โ”‚ 'microsoft/Phi-4-mini-instruct--Xenova/gpt-โ€ฆ โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ }, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'bos_token_id': 199999, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'embd_pdrop': 0.0, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'eos_token_id': 199999, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'full_attn_mod': 1, โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ 'hidden_act': 'silu', โ”‚ โ”‚
โ”‚ โ”‚ โ”‚ ... +25 โ”‚ โ”‚
โ”‚ โ”‚ } โ”‚ โ”‚
โ”‚ โ”‚ dtype = None โ”‚ โ”‚
โ”‚ โ”‚ kv_cache_dtype = None โ”‚ โ”‚
โ”‚ โ”‚ kv_cache_scheme = None โ”‚ โ”‚
โ”‚ โ”‚ lora_adapter_ids = [] โ”‚ โ”‚
โ”‚ โ”‚ max_input_tokens = None โ”‚ โ”‚
โ”‚ โ”‚ method = 'n-gram' โ”‚ โ”‚
โ”‚ โ”‚ model_id = 'microsoft/Phi-4-mini-instruct' โ”‚ โ”‚
โ”‚ โ”‚ model_type = 'phi3' โ”‚ โ”‚
โ”‚ โ”‚ needs_sliding_window = False โ”‚ โ”‚
โ”‚ โ”‚ quantization_config = None โ”‚ โ”‚
โ”‚ โ”‚ quantize = None โ”‚ โ”‚
โ”‚ โ”‚ revision = None โ”‚ โ”‚
โ”‚ โ”‚ sharded = False โ”‚ โ”‚
โ”‚ โ”‚ sliding_window = 262144 โ”‚ โ”‚
โ”‚ โ”‚ speculate = 0 โ”‚ โ”‚
โ”‚ โ”‚ speculator = None โ”‚ โ”‚
โ”‚ โ”‚ trust_remote_code = False โ”‚ โ”‚
โ”‚ โ”‚ use_sliding_window = True โ”‚ โ”‚
โ•ฐโ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ”€โ•ฏ
RuntimeError: The size of tensor a (48) must match the size of tensor b (64) at
non-singleton dimension 0 rank=0
Error: ShardCannotStart
2025-04-17T08:38:24.705756Z ERROR text_generation_launcher: Shard 0 failed to start
2025-04-17T08:38:24.705774Z INFO text_generation_launcher: Shutting down shards

BenjaminAslamy changed discussion status to closed

Sign up or log in to comment