Spaces:

devops-bda
/

abap-api

Runtime error

Amish Kushwaha commited on Feb 14, 2025

Commit

27c4f25

1 Parent(s): ae29859

Fix bitsandbytes issue - attempt 2

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,29 +1,39 @@
 from fastapi import FastAPI
 from pydantic import BaseModel
-from transformers import pipeline
-# Load your Hugging Face model
-# model = pipeline("text-generation", model="devops-bda/Abap")
-model = pipeline(
-    "text-generation",
-    model="devops-bda/Abap",
-    model_kwargs={"load_in_4bit": False}  # Disable 4-bit quantization
 )
-# Initialize FastAPI app
 app = FastAPI()
-# Define input format
 class InputData(BaseModel):
     input_text: str
-# Health check endpoint
 @app.get("/health")
 async def health_check():
     return {"status": "ok", "message": "Model is ready"}
-# Define prediction endpoint
 @app.post("/predict")
 async def predict(data: InputData):
-    result = model(data.input_text, max_length=500)
-    return {"output": result}

+import os
 from fastapi import FastAPI
 from pydantic import BaseModel
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    pipeline,
+    AutoConfig
+)
+# Load the configuration and remove any quantization config if present
+config = AutoConfig.from_pretrained("devops-bda/Abap")
+if hasattr(config, "quantization_config"):
+    config.quantization_config = None
+# Load the model and tokenizer without 4-bit quantization
+model = AutoModelForCausalLM.from_pretrained(
+    "devops-bda/Abap",
+    config=config,
+    load_in_4bit=False  # explicitly disable 4-bit quantization
 )
+tokenizer = AutoTokenizer.from_pretrained("devops-bda/Abap")
+# Create a text-generation pipeline with the loaded model and tokenizer
+text_gen_pipeline = pipeline("text-generation", model=model, tokenizer=tokenizer)
 app = FastAPI()
 class InputData(BaseModel):
     input_text: str
 @app.get("/health")
 async def health_check():
     return {"status": "ok", "message": "Model is ready"}
 @app.post("/predict")
 async def predict(data: InputData):
+    output = text_gen_pipeline(data.input_text, max_length=500)
+    return {"output": output}