mohitsha
/

whisper-tiny-static-shape-quantized-SL-448

+import os
+from pathlib import Path
+from typing import Optional, Tuple
+import numpy as np
+import onnxruntime as onnxrt
+import torch
+from datasets import load_dataset
+from transformers import (
+    AutoConfig,
+    AutoProcessor,
+    GenerationConfig,
+    WhisperForConditionalGeneration,
+)
+from transformers.modeling_outputs import BaseModelOutput, Seq2SeqLMOutput
+os.environ["TF_CPP_MIN_LOG_LEVEL"] = "3"
+model_name = "openai/whisper-tiny.en"
+config = AutoConfig.from_pretrained(model_name)
+processor = AutoProcessor.from_pretrained(model_name)
+batch_size = 1
+encoder_num_attention_heads = 6
+decoder_num_attention_heads = 6
+hidden_size = 384
+encoder_sequence_length = 1500
+decoder_max_length = 448
+num_hidden_layers = 4
+encoder_shape = (
+    batch_size,
+    encoder_num_attention_heads,
+    encoder_sequence_length,
+    hidden_size // encoder_num_attention_heads,
+)
+decoder_shape = (
+    batch_size,
+    decoder_num_attention_heads,
+    decoder_max_length,
+    hidden_size // decoder_num_attention_heads,
+)
+# load dataset
+ds = load_dataset(
+    "hf-internal-testing/librispeech_asr_dummy", "clean", split="validation"
+)
+idx = 4
+inputs = processor.feature_extractor(ds[idx]["audio"]["array"], return_tensors="pt")
+input_features = inputs.input_features
+# onnx_model_path = "/home/ubuntu/optimum/output_whisper_smooth_quant_4_oct_static_testing"
+onnx_model_path = ".\\whisper-tiny-static-shape-quantized-SL-448"
+config_file = ".\\other_libs_qdq\\vaip_config_gemm_asr_decoder.json"
+encoder_model_path = ".\\whisper-tiny-static-shape-quantized-SL-448\\encoder_model.onnx"
+decoder_model_path = ".\\whisper-tiny-static-shape-quantized-SL-448\\decoder_model_quantized.onnx"
+print(decoder_model_path)
+class ORTEncoder(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+        self.main_input_name = "input_features"
+        self.session = onnxrt.InferenceSession(
+            encoder_model_path, providers=["CPUExecutionProvider"]
+        )
+        self.output_names = {
+            output_key.name: idx
+            for idx, output_key in enumerate(self.session.get_outputs())
+        }
+    def forward(
+        self,
+        input_features: torch.FloatTensor,
+        **kwargs,
+    ) -> BaseModelOutput:
+        onnx_inputs = {"input_features": input_features.cpu().detach().numpy()}
+        # Run inference
+        outputs = self.session.run(None, onnx_inputs)
+        last_hidden_state = torch.from_numpy(
+            outputs[self.output_names["last_hidden_state"]]
+        )
+        return BaseModelOutput(last_hidden_state=last_hidden_state)
+class ORTDecoder(torch.nn.Module):
+    def __init__(self):
+        super().__init__()
+        sess_options = onnxrt.SessionOptions()
+        self.provider = "VitisAIExecutionProvider"
+        self.provider_options = {"config_file": config_file}
+        sess_options.graph_optimization_level = (
+            onnxrt.GraphOptimizationLevel.ORT_DISABLE_ALL
+        )
+        sess_options.add_session_config_entry("session.disable_quant_qdq", "1")
+        self.session = onnxrt.InferenceSession(
+            decoder_model_path,
+            providers=[self.provider],
+            sess_options=sess_options,
+            provider_options=[self.provider_options],
+        )
+        self.generation_config = GenerationConfig.from_model_config(config)
+        self.max_length = decoder_max_length
+        self.input_names = {
+            input_key.name: idx
+            for idx, input_key in enumerate(self.session.get_inputs())
+        }
+        self.output_names = {
+            output_key.name: idx
+            for idx, output_key in enumerate(self.session.get_outputs())
+        }
+        self.key_value_input_names = [
+            key for key in self.input_names if (".key" in key) or (".value" in key)
+        ]
+        self.key_value_output_names = [
+            key for key in self.output_names if (".key" in key) or (".value" in key)
+        ]
+        self.reset()
+    def reset(self):
+        # Set the start model inputs
+        self.decoder_attention_mask = np.zeros((batch_size, self.max_length)).astype(
+            np.int64
+        )
+        self.decoder_attention_mask[0, 0] = 1
+        self.position_ids = np.array([[0]]).astype(np.int64)
+        # Set the input / output names
+        self.num_pkv = 4
+    def prepare_pkv(self):
+        decoder_key_value = torch.rand(*decoder_shape).to(torch.float32)
+        encoder_key_value = torch.rand(*encoder_shape).to(torch.float32)
+        past_key_values = []
+        repeat_count = len(self.key_value_input_names) // 4
+        past_key_values = tuple(
+            (decoder_key_value, decoder_key_value, encoder_key_value, encoder_key_value)
+            for _ in range(repeat_count)
+        )
+        return tuple(past_key_values)
+    def forward(
+        self,
+        input_ids: torch.LongTensor,
+        encoder_hidden_states: torch.FloatTensor,
+        past_key_values: Optional[Tuple[Tuple[torch.FloatTensor]]] = None,
+    ) -> Seq2SeqLMOutput:
+        if past_key_values is None:
+            self.reset()
+        if self.position_ids[0][0] == self.max_length:
+            logits = torch.zeros((len(input_ids), 1, config.vocab_size))
+            logits[:, :, config.eos_token_id] = 1
+            return Seq2SeqLMOutput(logits=logits, past_key_values=past_key_values)
+        onnx_inputs = {"input_ids": input_ids.cpu().detach().numpy()}
+        onnx_inputs["position_ids"] = self.position_ids
+        onnx_inputs["decoder_attention_mask"] = self.decoder_attention_mask
+        onnx_inputs["encoder_hidden_states"] = (
+            encoder_hidden_states.cpu().detach().numpy()
+        )
+        if self.position_ids[0][0] == 0:
+            past_key_values = self.prepare_pkv()
+        past_key_values = tuple(
+            past_key_value
+            for pkv_per_layer in past_key_values
+            for past_key_value in pkv_per_layer
+        )
+        for input_name, past_key_value in zip(
+            self.key_value_input_names, past_key_values
+        ):
+            onnx_inputs[input_name] = past_key_value.cpu().detach().numpy()
+        # Run inference
+        outputs = self.session.run(None, onnx_inputs)
+        logits = torch.from_numpy(outputs[self.output_names["logits"]])
+        out_past_key_values = tuple(
+            torch.from_numpy(outputs[self.output_names[key]])
+            for key in self.key_value_output_names
+        )
+        if self.position_ids[0][0] == 0:
+            out_past_key_values = tuple(
+                out_past_key_values[i : i + self.num_pkv]
+                for i in range(0, len(out_past_key_values), self.num_pkv)
+            )
+        else:
+            out_past_key_values = tuple(
+                out_past_key_values[i : i + 2] + past_key_values[i + 2 : i + 4]
+                for i in range(0, len(out_past_key_values), self.num_pkv)
+            )
+        if self.position_ids[0][0] < self.max_length - 1:
+            self.decoder_attention_mask[:, self.position_ids[0][0] + 1] = 1
+        self.position_ids += 1
+        return Seq2SeqLMOutput(logits=logits, past_key_values=out_past_key_values)
+class ORTModelForWhisper(WhisperForConditionalGeneration):
+    def __init__(self, *args, **kwargs):
+        config = AutoConfig.from_pretrained(model_name)
+        super().__init__(config)
+        self.encoder = ORTEncoder()
+        self.decoder = ORTDecoder()
+    def get_encoder(self):
+        return self.encoder
+    def forward(
+        self,
+        input_features: Optional[torch.FloatTensor] = None,
+        decoder_input_ids: Optional[torch.LongTensor] = None,
+        encoder_outputs: Optional[Tuple[Tuple[torch.Tensor]]] = None,
+        past_key_values: Optional[Tuple[Tuple[torch.Tensor]]] = None,
+        **kwargs,
+    ) -> Seq2SeqLMOutput:
+        if encoder_outputs is None:
+            encoder_outputs = self.encoder(input_features=input_features)
+        # Decode
+        decoder_outputs = self.decoder(
+            input_ids=decoder_input_ids[:, -1:],
+            encoder_hidden_states=encoder_outputs.last_hidden_state,
+            past_key_values=past_key_values,
+        )
+        return Seq2SeqLMOutput(
+            logits=decoder_outputs.logits,
+            past_key_values=decoder_outputs.past_key_values,
+        )
+    def can_generate(self):
+        return True
+    def reset(self):
+        self.decoder.reset()
+model_ort = ORTModelForWhisper()
+model = WhisperForConditionalGeneration.from_pretrained(model_name)
+def test_ort():
+    model = ORTModelForWhisper()
+    generated_ids = model.generate(input_features)
+    model_output = processor.tokenizer.batch_decode(
+        generated_ids, skip_special_tokens=True
+    )[0]
+    print("ORT: ", model_output, generated_ids)
+def test_original():
+    model = WhisperForConditionalGeneration.from_pretrained(model_name)
+    generated_ids = model.generate(input_features)
+    model_output = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
+    print("Torch: ", model_output, generated_ids)
+test_ort()