Spaces:

CreatorIQ-org
/

ls_be_T5_base

Paused

b2u commited on Dec 17, 2024

Commit

92ec7e6

1 Parent(s): 520dac2

improving tokenizer

Files changed (1) hide show

model.py CHANGED Viewed

@@ -210,17 +210,18 @@ class T5Model(LabelStudioMLBase):
             model = get_peft_model(self.model, lora_config)
             model.print_trainable_parameters()
             # Training loop
             logger.info("Starting training loop...")
             optimizer = torch.optim.AdamW(model.parameters(), lr=float(os.getenv('LEARNING_RATE', '1e-4')))
-            # Single training step for this annotation
             model.train()
             optimizer.zero_grad()
-            inputs = self.tokenizer(text, return_tensors="pt", max_length=self.max_length, truncation=True).to(self.device)
-            labels = self.tokenizer(label, return_tensors="pt", max_length=self.generation_max_length, truncation=True).to(self.device)
             outputs = model(**inputs, labels=labels["input_ids"])
             loss = outputs.loss
             loss.backward()

             model = get_peft_model(self.model, lora_config)
             model.print_trainable_parameters()
+            # Tokenize inputs first
+            inputs = self.tokenizer(text, return_tensors="pt", max_length=self.max_length, truncation=True).to(self.device)
+            labels = self.tokenizer(label, return_tensors="pt", max_length=self.generation_max_length, truncation=True).to(self.device)
             # Training loop
             logger.info("Starting training loop...")
             optimizer = torch.optim.AdamW(model.parameters(), lr=float(os.getenv('LEARNING_RATE', '1e-4')))
+            # Set model to training mode
             model.train()
             optimizer.zero_grad()
             outputs = model(**inputs, labels=labels["input_ids"])
             loss = outputs.loss
             loss.backward()