Update finetuning.py
Browse files- finetuning.py +7 -7
finetuning.py
CHANGED
|
@@ -21,23 +21,23 @@ from peft import LoraConfig, PeftModel, get_peft_model
|
|
| 21 |
from trl import SFTTrainer
|
| 22 |
|
| 23 |
# Le modèle que nous allons utiliser dans le Hugging Face hub
|
| 24 |
-
model_name = "mistral-hermes"
|
| 25 |
|
| 26 |
torch.cuda.empty_cache()
|
| 27 |
|
| 28 |
#project_directory = "~/finetuning/sigmund-spplus"
|
| 29 |
|
| 30 |
# Le nom du nouveau modèle
|
| 31 |
-
new_model_name = "mistral-mfs-reference"
|
| 32 |
|
| 33 |
# The output directory where the model predictions and checkpoints will be written
|
| 34 |
-
output_dir = "./mistral-mfs-reference"
|
| 35 |
|
| 36 |
# Tensorboard logs
|
| 37 |
-
tb_log_dir = "./mistral-mfs-reference/logs"
|
| 38 |
|
| 39 |
# Nombre de steps : à ajuster selon la taille du corpus et le nombre d'epochs à faire tourner.
|
| 40 |
-
max_steps =
|
| 41 |
|
| 42 |
# Les paramètres importants !!
|
| 43 |
per_device_train_batch_size = 4 #Nombre d'exemples envoyés par batch. En mettre plus pour aller plus vite.
|
|
@@ -117,7 +117,7 @@ tokenizer = AutoTokenizer.from_pretrained(model_name)
|
|
| 117 |
|
| 118 |
# This is the fix for fp16 training
|
| 119 |
#tokenizer.padding_side = "right"
|
| 120 |
-
|
| 121 |
|
| 122 |
#3. Préparation de la base de données
|
| 123 |
|
|
@@ -134,7 +134,7 @@ def template_dataset(sample):
|
|
| 134 |
|
| 135 |
# Chargement du dataset.
|
| 136 |
#dataset = load_dataset("databricks/databricks-dolly-15k", split="train")
|
| 137 |
-
data_files = {"train": "
|
| 138 |
dataset = load_dataset("json", data_files=data_files, split="train")
|
| 139 |
|
| 140 |
# Shuffle the dataset
|
|
|
|
| 21 |
from trl import SFTTrainer
|
| 22 |
|
| 23 |
# Le modèle que nous allons utiliser dans le Hugging Face hub
|
| 24 |
+
model_name = "mistral-hermes-2.5"
|
| 25 |
|
| 26 |
torch.cuda.empty_cache()
|
| 27 |
|
| 28 |
#project_directory = "~/finetuning/sigmund-spplus"
|
| 29 |
|
| 30 |
# Le nom du nouveau modèle
|
| 31 |
+
new_model_name = "mistral-mfs-reference-2"
|
| 32 |
|
| 33 |
# The output directory where the model predictions and checkpoints will be written
|
| 34 |
+
output_dir = "./mistral-mfs-reference-2"
|
| 35 |
|
| 36 |
# Tensorboard logs
|
| 37 |
+
tb_log_dir = "./mistral-mfs-reference-2/logs"
|
| 38 |
|
| 39 |
# Nombre de steps : à ajuster selon la taille du corpus et le nombre d'epochs à faire tourner.
|
| 40 |
+
max_steps = 2000
|
| 41 |
|
| 42 |
# Les paramètres importants !!
|
| 43 |
per_device_train_batch_size = 4 #Nombre d'exemples envoyés par batch. En mettre plus pour aller plus vite.
|
|
|
|
| 117 |
|
| 118 |
# This is the fix for fp16 training
|
| 119 |
#tokenizer.padding_side = "right"
|
| 120 |
+
tokenizer.pad_token = tokenizer.eos_token
|
| 121 |
|
| 122 |
#3. Préparation de la base de données
|
| 123 |
|
|
|
|
| 134 |
|
| 135 |
# Chargement du dataset.
|
| 136 |
#dataset = load_dataset("databricks/databricks-dolly-15k", split="train")
|
| 137 |
+
data_files = {"train": "corpus_guillaume_tell_2.json"}
|
| 138 |
dataset = load_dataset("json", data_files=data_files, split="train")
|
| 139 |
|
| 140 |
# Shuffle the dataset
|