Spaces:

Abineshkumar
/

demodeploy

Runtime error

App Files Files Community

Abineshkumar77 commited on Aug 23, 2024

Commit

4fcd4f9

1 Parent(s): 06f2360

Add application file

Browse files

Files changed (1) hide show

app.py +7 -26

app.py CHANGED Viewed

@@ -1,33 +1,12 @@
 from fastapi import FastAPI
 from transformers import AutoTokenizer
-from optimum.onnxruntime import ORTModelForSequenceClassification, ORTOptimizer, ORTQuantizer
-from optimum.onnxruntime.configuration import OptimizationConfig, AutoQuantizationConfig
 import torch
 import time
-# Load the tokenizer
 tokenizer = AutoTokenizer.from_pretrained("cardiffnlp/twitter-roberta-base-sentiment")
-# Convert the model to ONNX and optimize it
-model_id = "cardiffnlp/twitter-roberta-base-sentiment"
-# Load and convert the model to ONNX
-onnx_model = ORTModelForSequenceClassification.from_pretrained(model_id, from_transformers=True)
-onnx_model.save_pretrained("./model_onnx")
-# Optimize the ONNX model
-optimizer = ORTOptimizer.from_pretrained(onnx_model)
-optimizer.optimize(
-    OptimizationConfig(optimization_level=99),  # Adjust optimization level as needed
-    save_dir="./model_onnx_optimized"
-)
-optimized_model = ORTModelForSequenceClassification.from_pretrained("./model_onnx_optimized", file_name="model_optimized.onnx")
-# Quantize the optimized ONNX model
-quantizer = ORTQuantizer.from_pretrained(optimized_model)
-quantization_config = AutoQuantizationConfig.avx512_vnni(is_static=False, per_channel=True)
-quantizer.quantize(save_dir="./model_onnx_quantized", quantization_config=quantization_config)
-quantized_model = ORTModelForSequenceClassification.from_pretrained("./model_onnx_quantized", file_name="model_quantized.onnx")
 app = FastAPI()
@@ -56,9 +35,9 @@ def analyze_sentiment(tweet: str):
     # Tokenize the input tweet
     inputs = tokenizer(tweet_proc, return_tensors="pt")
-    # Perform the inference with the quantized ONNX model
     with torch.no_grad():
-        outputs = quantized_model(**inputs)
     # Calculate the inference time
     inference_time = time.time() - start_time
@@ -87,3 +66,5 @@ def analyze_sentiment(tweet: str):
         "score": highest_score,
         "inference_time": round(inference_time, 4)  # In seconds
     }

 from fastapi import FastAPI
 from transformers import AutoTokenizer
+from optimum.onnxruntime import ORTModelForSequenceClassification
 import torch
 import time
+# Load the tokenizer and optimized model
 tokenizer = AutoTokenizer.from_pretrained("cardiffnlp/twitter-roberta-base-sentiment")
+model = ORTModelForSequenceClassification.from_pretrained("cardiffnlp/twitter-roberta-base-sentiment", from_transformers=True)
 app = FastAPI()
     # Tokenize the input tweet
     inputs = tokenizer(tweet_proc, return_tensors="pt")
+    # Perform the inference
     with torch.no_grad():
+        outputs = model(**inputs)
     # Calculate the inference time
     inference_time = time.time() - start_time
         "score": highest_score,
         "inference_time": round(inference_time, 4)  # In seconds
     }