zai-org
/

glm-4-9b-chat

@@ -624,7 +624,7 @@ class GLMTransformer(torch.nn.Module):
                     if len(presents) == 0:
                         presents = kv_cache
                     else:
-                        presents = torch.cat((presents, kv_cache), dim=0)
         if output_hidden_states:
             all_hidden_states = all_hidden_states + (hidden_states,)

                     if len(presents) == 0:
                         presents = kv_cache
                     else:
+                        presents = torch.cat((presents, kv_cache.to(presents.device)), dim=0)
         if output_hidden_states:
             all_hidden_states = all_hidden_states + (hidden_states,)