# For 8-bit loading (requires bitsandbytes and accelerate)
model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME, load_in_8bit=True, device_map="auto")
# For 4-bit loading
# model = AutoModelForSeq2SeqLM.from_pretrained(MODEL_NAME, load_in_4bit=True, device_map="auto")