Spaces:

jdesiree
/

Mimir

Sleeping

App Files Files Community

jdesiree commited on Sep 5, 2025

Commit

ad35ef3

verified ·

1 Parent(s): 836e5f7

Replaced Quantumization

Browse files

Removed:

AutoModelForCausalLM (PyTorch model)
BitsAndBytesConfig (bitsandbytes quantization)
DynamicCache (PyTorch caching)

Added:

ORTModelForCausalLM (ONNX Runtime model)
ORTQuantizer (ONNX quantization)
AutoQuantizationConfig (ONNX quantization config)

Files changed (1) hide show

app.py +4 -2

app.py CHANGED Viewed

@@ -29,7 +29,9 @@ from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
 from langchain_core.runnables import Runnable
 from langchain_core.runnables.utils import Input, Output
-from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TextIteratorStreamer, DynamicCache
 import torch
 load_dotenv(".env")
@@ -537,7 +539,7 @@ class Educational_Agent:
         start_init_and_langgraph_time = time.perf_counter()
         current_time = datetime.now()
-        self.llm = Phi3MiniEducationalLLM(model_path="microsoft/Phi-3-mini-4k-instruct", use_4bit=True)
         self.tool_decision_engine = Tool_Decision_Engine(self.llm)
         # Create LangGraph workflow

 from langchain_core.runnables import Runnable
 from langchain_core.runnables.utils import Input, Output
+from transformers import AutoTokenizer, TextIteratorStreamer
+from optimum.onnxruntime import ORTModelForCausalLM, ORTQuantizer
+from optimum.onnxruntime.configuration import AutoQuantizationConfig
 import torch
 load_dotenv(".env")
         start_init_and_langgraph_time = time.perf_counter()
         current_time = datetime.now()
+        self.llm = Phi3MiniEducationalLLM(model_path="microsoft/Phi-3-mini-4k-instruct", use_quantization=True)
         self.tool_decision_engine = Tool_Decision_Engine(self.llm)
         # Create LangGraph workflow