katuni4ka
/

tiny-random-chatglm2

Feature Extraction

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

katuni4ka commited on Mar 5, 2025

Commit

44385a0

·

verified ·

1 Parent(s): 1578ff5

Update modeling_chatglm.py

Files changed (1) hide show

modeling_chatglm.py +13 -3

modeling_chatglm.py CHANGED Viewed

@@ -455,7 +455,7 @@ class SelfAttention(torch.nn.Module):
 def _config_to_kwargs(args):
     common_kwargs = {
-        "dtype": args.torch_dtype,
     }
     return common_kwargs
@@ -746,7 +746,7 @@ class ChatGLMModel(ChatGLMPreTrainedModel):
             init_method = default_init
         init_kwargs = {}
         if device is not None:
-            init_kwargs["device"] = device
         self.embedding = init_method(Embedding, config, **init_kwargs)
         self.num_layers = config.num_layers
         self.multi_query_group_num = config.multi_query_group_num
@@ -868,6 +868,16 @@ class ChatGLMForConditionalGeneration(ChatGLMPreTrainedModel):
         if self.config.quantization_bit:
             self.quantize(self.config.quantization_bit, empty_init=True)
     def _update_model_kwargs_for_generation(
             self,
             outputs: ModelOutput,
@@ -1300,4 +1310,4 @@ class ChatGLMForSequenceClassification(ChatGLMPreTrainedModel):
             past_key_values=transformer_outputs.past_key_values,
             hidden_states=transformer_outputs.hidden_states,
             attentions=transformer_outputs.attentions,
-        )

 def _config_to_kwargs(args):
     common_kwargs = {
+        "dtype": args.torch_dtype if not isinstance(args.torch_dtype, str) else getattr(torch, args.torch_dtype)
     }
     return common_kwargs
             init_method = default_init
         init_kwargs = {}
         if device is not None:
+            init_kwargs["device"] = device if not isinstance(device, str) else torch.device(device)
         self.embedding = init_method(Embedding, config, **init_kwargs)
         self.num_layers = config.num_layers
         self.multi_query_group_num = config.multi_query_group_num
         if self.config.quantization_bit:
             self.quantize(self.config.quantization_bit, empty_init=True)
+    @staticmethod
+    def _extract_past_from_model_output(outputs: ModelOutput, *args, **kwargs):
+        past_key_values = None
+        if "past_key_values" in outputs:
+            past_key_values = outputs.past_key_values
+        if is_transformers_4_42_or_higher:
+            return None, past_key_values
+        return past_key_values
     def _update_model_kwargs_for_generation(
             self,
             outputs: ModelOutput,
             past_key_values=transformer_outputs.past_key_values,
             hidden_states=transformer_outputs.hidden_states,
             attentions=transformer_outputs.attentions,
+        )