flax-community
/

vit-gpt2

ydshieh commited on Aug 4, 2021

Commit

06bcf58

1 Parent(s): 3b81fb5

update check against pytorch's version

Files changed (1) hide show

tests/test_model.py CHANGED Viewed

@@ -193,20 +193,39 @@ from transformers import ViTModel, GPT2Config, GPT2LMHeadModel
 vision_model_pt = ViTModel.from_pretrained(vision_model_name)
 config = GPT2Config.from_pretrained(text_model_name)
-config.is_encoder_decoder = True
 config.add_cross_attention = True
 text_model_pt = GPT2LMHeadModel.from_pretrained(text_model_name, config=config)
-encoder_inputs_pt = feature_extractor(images=image, return_tensors="pt")
-vision_model_pt_outputs = vision_model_pt(**encoder_inputs)
-generated = text_model_pt.generate(encoder_outputs=vision_model_pt_outputs, **gen_kwargs)
-token_ids = np.array(generated.sequences)[0]
 print('=' * 60)
-print(f'Pytorch\'s GPT2 LM generated token ids: {token_ids}')
-caption = tokenizer.decode(token_ids)
-print('=' * 60)
-print(f'Pytorch\'s GPT2 LM generated caption: {caption}')

 vision_model_pt = ViTModel.from_pretrained(vision_model_name)
 config = GPT2Config.from_pretrained(text_model_name)
+# config.is_encoder_decoder = True
 config.add_cross_attention = True
 text_model_pt = GPT2LMHeadModel.from_pretrained(text_model_name, config=config)
+encoder_pt_inputs = feature_extractor(images=image, return_tensors="pt")
+encoder_pt_outputs = vision_model_pt(**encoder_pt_inputs)
+encoder_hidden_states = encoder_pt_outputs.last_hidden_state
+# model data
+text_model_pt_inputs = {
+    'input_ids': torch.tensor(decoder_input_ids, dtype=torch.int32),
+    'attention_mask': torch.tensor(decoder_attention_mask, dtype=torch.int32),
+    'position_ids': None,
+    'encoder_hidden_states': encoder_hidden_states
+}
+# Model call
+text_model_pt_outputs = text_model_pt(**text_model_pt_inputs)
+logits = text_model_pt_outputs[0]
+preds = np.argmax(logits.detach().numpy(), axis=-1)
 print('=' * 60)
+print('PyTroch: Vit --> GPT2-LM')
+print('predicted token ids:')
+print(preds)
+#generated = text_model_pt.generate(encoder_outputs=vision_model_pt_outputs, **gen_kwargs)
+#token_ids = np.array(generated.sequences)[0]
+#print('=' * 60)
+#print(f'Pytorch\'s GPT2 LM generated token ids: {token_ids}')
+#caption = tokenizer.decode(token_ids)
+#print('=' * 60)
+#print(f'Pytorch\'s GPT2 LM generated caption: {caption}')