Spaces:

Rulga
/

status-law-gbot

Running

App Files Files Community

Rulga commited on Mar 27

Commit

a37f980

1 Parent(s): 2762e86

Update model path and enhance tokenizer handling in FineTuner

Browse files

Files changed (2) hide show

config/settings.py +1 -1
src/training/fine_tuner.py +12 -8

config/settings.py CHANGED Viewed

@@ -29,7 +29,7 @@ MODELS = {
             "repetition_penalty": 1.1,
         },
         "training": {
-            "base_model_path": os.path.join(MODEL_PATH, "zephyr-7b-beta"),
             "fine_tuned_path": os.path.join(TRAINING_OUTPUT_DIR, "zephyr-7b-beta-tuned"),
             "lora_config": {
                 "r": 16,

             "repetition_penalty": 1.1,
         },
         "training": {
+            "base_model_path": "HuggingFaceH4/zephyr-7b-beta",  # Используем прямой путь к модели
             "fine_tuned_path": os.path.join(TRAINING_OUTPUT_DIR, "zephyr-7b-beta-tuned"),
             "lora_config": {
                 "r": 16,

src/training/fine_tuner.py CHANGED Viewed

@@ -84,31 +84,35 @@ class FineTuner:
         try:
             logger.info(f"Загрузка модели {self.base_model_id}...")
-            # Загрузка токенизатора
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.base_model_id,
-                trust_remote_code=True
             )
             # Специальные токены для диалогов
             special_tokens = {
                 "pad_token": "<PAD>",
                 "eos_token": "</s>",
-                "bos_token": "<s>"
             }
             # Добавляем специальные токены, если их нет
-            for token_name, token_value in special_tokens.items():
-                if getattr(self.tokenizer, token_name) is None:
-                    setattr(self.tokenizer, token_name, token_value)
             # Загрузка модели
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.base_model_id,
                 trust_remote_code=True,
-                device_map="auto" if self.device == "cuda" else None
             )
             logger.info("Модель и токенизатор успешно загружены")
         except Exception as e:
             logger.error(f"Ошибка при загрузке модели: {str(e)}")
@@ -364,4 +368,4 @@ def finetune_from_chat_history(epochs: int = 3) -> Tuple[bool, str]:
 if __name__ == "__main__":
     # Пример использования
     success, message = finetune_from_chat_history()
-    print(message)

         try:
             logger.info(f"Загрузка модели {self.base_model_id}...")
+            # Загрузка токенизатора с использованием slow tokenizer
             self.tokenizer = AutoTokenizer.from_pretrained(
                 self.base_model_id,
+                trust_remote_code=True,
+                use_fast=False  # Используем slow tokenizer
             )
             # Специальные токены для диалогов
             special_tokens = {
                 "pad_token": "<PAD>",
                 "eos_token": "</s>",
+                "bos_token": "<s>",
+                "unk_token": "<unk>"  # Добавляем unknown token
             }
             # Добавляем специальные токены, если их нет
+            self.tokenizer.add_special_tokens({"additional_special_tokens": list(special_tokens.values())})
             # Загрузка модели
             self.model = AutoModelForCausalLM.from_pretrained(
                 self.base_model_id,
                 trust_remote_code=True,
+                device_map="auto" if self.device == "cuda" else None,
+                torch_dtype="auto"  # Автоматически выбираем оптимальный тип данных
             )
+            # Изменяем размер эмбеддингов для новых токенов
+            self.model.resize_token_embeddings(len(self.tokenizer))
             logger.info("Модель и токенизатор успешно загружены")
         except Exception as e:
             logger.error(f"Ошибка при загрузке модели: {str(e)}")
 if __name__ == "__main__":
     # Пример использования
     success, message = finetune_from_chat_history()
+    print(message)