Spaces:

PitterTMYT
/

LLM

Runtime error

PitterTMYT commited on Aug 7, 2024

Commit

168745b

verified ·

1 Parent(s): 13a4d5b

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import gradio as gr
 import torch, os
-from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
 from huggingface_hub import login
 def init_model():
@@ -12,23 +12,15 @@ def init_model():
     login(hf_token, add_to_git_credential=True)
-    tokenizer = AutoTokenizer.from_pretrained("IlyaGusev/saiga_gemma2_10b", token=hf_token)
-    # Настройка квантования
-    quant_config = BitsAndBytesConfig(
-        load_in_8bit=True,  # Использование 8-битного квантования
-        llm_int8_threshold=6.0,  # Порог активации для 8-битных весов
-    )
     model = AutoModelForCausalLM.from_pretrained(
         "IlyaGusev/saiga_gemma2_10b",
-        token=hf_token,
         torch_dtype=torch.float16,  # Использование float16 для уменьшения потребления памяти
-        device_map="auto",  # Автоматическое распределение модели на GPU
-        quantization_config=quant_config,  # Применение конфигурации квантования
     )
-    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
     model.to(device)
 def generate_response(prompt, max_length=100, temperature=0.7, top_p=0.85, repetition_penalty=1.1):

 import gradio as gr
 import torch, os
+from transformers import AutoTokenizer, AutoModelForCausalLM
 from huggingface_hub import login
 def init_model():
     login(hf_token, add_to_git_credential=True)
+    tokenizer = AutoTokenizer.from_pretrained("IlyaGusev/saiga_gemma2_10b", use_auth_token=hf_token)
     model = AutoModelForCausalLM.from_pretrained(
         "IlyaGusev/saiga_gemma2_10b",
+        use_auth_token=hf_token,
         torch_dtype=torch.float16,  # Использование float16 для уменьшения потребления памяти
+        low_cpu_mem_usage=True  # Настройка для уменьшения использования памяти на CPU
     )
+    device = torch.device("cpu")  # Использование CPU
     model.to(device)
 def generate_response(prompt, max_length=100, temperature=0.7, top_p=0.85, repetition_penalty=1.1):