Spaces:

malvika2003
/

INTEL

Runtime error

App Files Files Community

malvika2003 commited on Jul 2, 2024

Commit

2ecd7b6

verified ·

1 Parent(s): 620a079

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -11

app.py CHANGED Viewed

@@ -1,6 +1,5 @@
 import os
-from transformers import AutoTokenizer
-from optimum.intel.openvino import OVModelForCausalLM
 import gradio as gr
 from threading import Thread
 from time import perf_counter
@@ -9,7 +8,7 @@ from transformers import TextIteratorStreamer
 import numpy as np
 # Model configuration and loading
-model_dir = "C:/Users/KIIT/OneDrive/Desktop/INTEL/phi-2/INT8_compressed_weights"
 model_name = "susnato/phi-2"
 model_configuration = {
     "prompt_template": "{instruction}",
@@ -17,15 +16,10 @@ model_configuration = {
     "response_key": "### Response",
     "end_key": "### End"
 }
-ov_config = {"PERFORMANCE_HINT": "LATENCY", "NUM_STREAMS": "1", "CACHE_DIR": ""}
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-ov_model = OVModelForCausalLM.from_pretrained(
-    model_dir,
-    device="CPU",
-    ov_config=ov_config,
-)
 tokenizer_kwargs = model_configuration.get("toeknizer_kwargs", {})
 response_key = model_configuration.get("response_key")
 tokenizer_response_key = None
@@ -95,7 +89,7 @@ def run_generation(
         eos_token_id=end_key_token_id,
         pad_token_id=pad_token_id,
     )
-    t = Thread(target=ov_model.generate, kwargs=generate_kwargs)
     t.start()
     model_output = ""
     per_token_time = []
@@ -128,7 +122,7 @@ examples = [
 def main():
     with gr.Blocks() as demo:
         gr.Markdown(
-            "# Question Answering with Model and OpenVINO.\n"
             "Provide instruction which describes a task below or select among predefined examples and model writes response that performs requested task."
         )
@@ -202,3 +196,4 @@ def main():
 if __name__ == "__main__":
     main()

 import os
+from transformers import AutoTokenizer, AutoModelForCausalLM
 import gradio as gr
 from threading import Thread
 from time import perf_counter
 import numpy as np
 # Model configuration and loading
+model_dir = "phi-2/INT8_compressed_weights"
 model_name = "susnato/phi-2"
 model_configuration = {
     "prompt_template": "{instruction}",
     "response_key": "### Response",
     "end_key": "### End"
 }
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+model = AutoModelForCausalLM.from_pretrained(model_dir)
 tokenizer_kwargs = model_configuration.get("toeknizer_kwargs", {})
 response_key = model_configuration.get("response_key")
 tokenizer_response_key = None
         eos_token_id=end_key_token_id,
         pad_token_id=pad_token_id,
     )
+    t = Thread(target=model.generate, kwargs=generate_kwargs)
     t.start()
     model_output = ""
     per_token_time = []
 def main():
     with gr.Blocks() as demo:
         gr.Markdown(
+            "# Question Answering with Model.\n"
             "Provide instruction which describes a task below or select among predefined examples and model writes response that performs requested task."
         )
 if __name__ == "__main__":
     main()