Spaces:

TeamGenKI
/

LLMServer

Paused

AurelioAguirre commited on Nov 18, 2024

Commit

6485751

1 Parent(s): 9fb6014

Fixing LLM init v6

Files changed (1) hide show

main/routes.py CHANGED Viewed

@@ -263,12 +263,15 @@ async def initialize_model(request: InitializeRequest):
         logger.info(f"Using model path: {model_path}")
         # Load the model
         llm_instance = LLM.load(
             model=model_path,
             distribute=None if request.precision or request.quantize else "auto"
         )
         # If manual distribution is needed
         if request.precision or request.quantize:
             llm_instance.distribute(
                 accelerator="cuda" if request.mode == "gpu" else "cpu",
@@ -276,6 +279,7 @@ async def initialize_model(request: InitializeRequest):
                 precision=request.precision,
                 quantize=request.quantize
             )
         logger.info(
             f"Model initialized successfully with config:\n"

         logger.info(f"Using model path: {model_path}")
         # Load the model
+        print("Loading model")
         llm_instance = LLM.load(
             model=model_path,
             distribute=None if request.precision or request.quantize else "auto"
         )
+        print("Done loading model")
         # If manual distribution is needed
+        print("Distributing model")
         if request.precision or request.quantize:
             llm_instance.distribute(
                 accelerator="cuda" if request.mode == "gpu" else "cpu",
                 precision=request.precision,
                 quantize=request.quantize
             )
+        print("Done distributing model")
         logger.info(
             f"Model initialized successfully with config:\n"