nlpconnect
/

vit-gpt2-image-captioning

vision-encoder-decoder

image-text-to-text

image-captioning

Model card Files Files and versions

vit-gpt2-image-captioning

File size: 228 Bytes

b309c4b

{
  "do_normalize": true,
  "do_resize": true,
  "feature_extractor_type": "ViTFeatureExtractor",
  "image_mean": [
    0.5,
    0.5,
    0.5
  ],
  "image_std": [
    0.5,
    0.5,
    0.5
  ],
  "resample": 2,
  "size": 224
}