Spaces:

arubenruben
/

Quantization-Attempts

Runtime error

Rúben Almeida commited on Apr 16, 2025

Commit

4d163d0

1 Parent(s): 1a1e448

Add GPU support

Files changed (4) hide show

.dockerignore ADDED Viewed

+**.venv
+**.pytest_cache
+**__pycache__
+**.env

Dockerfile CHANGED Viewed

@@ -18,7 +18,7 @@ RUN pip install --upgrade pip
 RUN pip install -U setuptools wheel
 # Install torch cpu version
-RUN pip install -U torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cpu
 # Copy the requirements file into the container
 COPY --chown=user requirements.txt .

 RUN pip install -U setuptools wheel
 # Install torch cpu version
+RUN pip install -U torch torchvision torchaudio
 # Copy the requirements file into the container
 COPY --chown=user requirements.txt .

main.py CHANGED Viewed

@@ -1,3 +1,4 @@
 import zipfile
 from typing import Union
 from awq import AutoAWQForCausalLM
@@ -6,13 +7,20 @@ from tempfile import NamedTemporaryFile
 from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse, FileResponse
-from dto import AWQConvertionRequest, GGUFConvertionRequest, GPTQConvertionRequest
 ### FastAPI Initialization
 @asynccontextmanager
 async def lifespan(app:FastAPI):
     yield
 app = FastAPI(title="Huggingface Safetensor Model Converter to AWQ", version="0.1.0", lifespan=lifespan)
 ### -------
@@ -26,7 +34,7 @@ def redirect_to_docs():
 def convert(request: AWQConvertionRequest)->Union[FileResponse, dict]:
     try:
-        model = AutoAWQForCausalLM.from_pretrained(request.hf_model_name, device_map="cpu", trust_remote_code=True)
     except TypeError as e:
         raise HTTPException(status_code=400, detail=f"Is this model supported by AWQ Quantization? Check:https://github.com/mit-han-lab/llm-awq?tab=readme-ov-file {e}")

+import torch
 import zipfile
 from typing import Union
 from awq import AutoAWQForCausalLM
 from contextlib import asynccontextmanager
 from fastapi import FastAPI, HTTPException
 from fastapi.responses import RedirectResponse, FileResponse
+from .dto import AWQConvertionRequest, GGUFConvertionRequest, GPTQConvertionRequest
 ### FastAPI Initialization
 @asynccontextmanager
 async def lifespan(app:FastAPI):
+    torch.cuda.empty_cache()
+    print("Starting FastAPI server...")
+    print(f"Running on {"cuda" if torch.cuda.is_available() else "cpu"}")
     yield
+    torch.cuda.empty_cache()
 app = FastAPI(title="Huggingface Safetensor Model Converter to AWQ", version="0.1.0", lifespan=lifespan)
 ### -------
 def convert(request: AWQConvertionRequest)->Union[FileResponse, dict]:
     try:
+        model = AutoAWQForCausalLM.from_pretrained(request.hf_model_name, trust_remote_code=True)
     except TypeError as e:
         raise HTTPException(status_code=400, detail=f"Is this model supported by AWQ Quantization? Check:https://github.com/mit-han-lab/llm-awq?tab=readme-ov-file {e}")

requirements.txt CHANGED Viewed

@@ -8,7 +8,7 @@ pydantic
 fastapi[standard]
 transformers
 huggingface_hub[hf_xet]
-autoawq[cpu]>=0.2.8
 pytest
 requests
 environs

 fastapi[standard]
 transformers
 huggingface_hub[hf_xet]
+autoawq>=0.2.8
 pytest
 requests
 environs