Spaces:

sofianhw
/

test-docker

Paused

sofianhw commited on Aug 19, 2024

Commit

24a7944

1 Parent(s): 5184fa9

lock vllm v0.4.3

Files changed (2) hide show

Dockerfile CHANGED Viewed

@@ -14,7 +14,7 @@ RUN pip3 install "torch==2.1.1"
 # This build is slow but NVIDIA does not provide binaries. Increase MAX_JOBS as needed.
 # RUN pip3 install "git+https://github.com/stanford-futuredata/megablocks.git"
 RUN pip3 install -U openai
-RUN pip3 install -U vllm
 RUN pip3 install -U pydantic
 RUN pip3 install -U aioprometheus

 # This build is slow but NVIDIA does not provide binaries. Increase MAX_JOBS as needed.
 # RUN pip3 install "git+https://github.com/stanford-futuredata/megablocks.git"
 RUN pip3 install -U openai
+RUN pip3 install vllm==0.4.3
 RUN pip3 install -U pydantic
 RUN pip3 install -U aioprometheus

api_server.py CHANGED Viewed

@@ -29,7 +29,6 @@ from vllm.entrypoints.openai.serving_completion import OpenAIServingCompletion
 from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
 from vllm.logger import init_logger
 from vllm.usage.usage_lib import UsageContext
-from vllm.utils import FlexibleArgumentParser
 TIMEOUT_KEEP_ALIVE = 5  # seconds
@@ -60,11 +59,8 @@ async def lifespan(app: fastapi.FastAPI):
 app = fastapi.FastAPI(lifespan=lifespan)
 def parse_args():
-    parser_text = FlexibleArgumentParser(
-        description="vLLM OpenAI-Compatible RESTful API server.")
-    parser = make_arg_parser(parser_text)
     return parser.parse_args()

 from vllm.entrypoints.openai.serving_embedding import OpenAIServingEmbedding
 from vllm.logger import init_logger
 from vllm.usage.usage_lib import UsageContext
 TIMEOUT_KEEP_ALIVE = 5  # seconds
 app = fastapi.FastAPI(lifespan=lifespan)
 def parse_args():
+    parser = make_arg_parser()
     return parser.parse_args()