{ "summary": { "total": 10957, "correct": 10494, "incorrect": 463, "accuracy": 95.77, "error_categories": { "near_miss": 450, "complete_miss": 1, "medium_hard": 12 }, "confidence_analysis": { "mean_confidence_on_errors": 0.6366, "high_confidence_errors": 370, "low_confidence_errors": 93 }, "gate_analysis": { "mean_gate_on_wrong_top1": 0.8447, "high_gate_wrong": 463, "low_gate_wrong": 0 } }, "errors": [ { "question_id": "10082211", "image_id": 575441, "question": "những gì chứa đầy các mặt hàng câu cá khi đậu ở bến tàu", "ground_truth": "con thuyền", "ground_truth_normalized": "con thuyền", "predicted_top1": "bến du thuyền", "predicted_topk": [ "bến du thuyền", "con thuyền", "thuyền buồm", "bến tàu", "ca nô", "hàng hoá", "áo choàng", "chậu", "dòng sông", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.626144, "confidences": [ 0.626144, 0.362384, 0.002084, 0.000708, 0.000595, 0.000293, 0.000287, 0.000188, 0.000185, 0.000175 ], "gate_score_top1": 0.828125, "gate_scores": [ 0.828125, 0.812012, 0.506348, 0.501953, 0.46875, 0.473389, 0.360107, 0.529297, 0.420654, 0.371826 ] }, { "question_id": "10041051", "image_id": 24877, "question": "một số quả táo xanh đang ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái rổ", "đĩa ăn", "chậu", "cái mâm", "thùng chứa", "lọ cắm hoa", "cái nồi", "tách", "bốn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.555788, "confidences": [ 0.555788, 0.401886, 0.004535, 0.002816, 0.002362, 0.002325, 0.001958, 0.001662, 0.001435, 0.001419 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.774902, 0.643066, 0.65332, 0.589844, 0.494141, 0.68457, 0.578125, 0.603027, 0.581055 ] }, { "question_id": "10118571", "image_id": 36563, "question": "có bao nhiêu người mặc cùng một chiếc áo phông đang đứng trong một căn phòng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "tám", "một", "mười", "chín", "ba", "bức ảnh" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.862802, "confidences": [ 0.862802, 0.078394, 0.050025, 0.005012, 0.000539, 0.000297, 0.00025, 0.000148, 0.000104, 8.1e-05 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.869629, 0.833984, 0.788574, 0.4729, 0.534668, 0.545898, 0.530273, 0.513672, 0.434326 ] }, { "question_id": "10059751", "image_id": 553912, "question": "người đàn ông mặc những gì đi bộ trên một con đường tại một cuộc đi bộ chéo", "ground_truth": "áo khoác", "ground_truth_normalized": "áo khoác", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "áo khoác", "ván trượt", "con ngựa", "mũ", "đầm", "nón", "đường đi bộ", "áo sơ mi", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.395262, "confidences": [ 0.395262, 0.249288, 0.07059, 0.028633, 0.023278, 0.019756, 0.013792, 0.009572, 0.009259, 0.008316 ], "gate_score_top1": 0.817383, "gate_scores": [ 0.817383, 0.726562, 0.767578, 0.586426, 0.655273, 0.646484, 0.661621, 0.589355, 0.628418, 0.571777 ] }, { "question_id": "10102891", "image_id": 8300, "question": "có bao nhiêu con hươu cao cổ đều quan tâm đến hoạt động ở tòa nhà sở thú", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "một", "hai", "chuồng", "sáu", "mười", "lồng", "bảy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.796093, "confidences": [ 0.796093, 0.169498, 0.028216, 0.001335, 0.000725, 0.000491, 0.000223, 0.000175, 0.000122, 0.000121 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.885254, 0.803711, 0.581055, 0.638184, 0.580566, 0.57666, 0.386963, 0.375244, 0.359131 ] }, { "question_id": "10027051", "image_id": 283615, "question": "người phụ nữ làm việc bên cạnh cô ấy ở đâu", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "nhà ở", "predicted_topk": [ "nhà ở", "phòng bếp", "phòng", "chung cư", "cửa sổ", "buồng", "lò vi sóng", "cái ghế", "bếp", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.509665, "confidences": [ 0.509665, 0.41274, 0.064544, 0.001371, 0.001119, 0.000978, 0.000817, 0.000552, 0.000509, 0.000376 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.887695, 0.838379, 0.650879, 0.580566, 0.625, 0.577637, 0.717773, 0.466797, 0.536621 ] }, { "question_id": "10040231", "image_id": 175798, "question": "hai người đàn ông và hai người phụ nữ đang uống ở đâu", "ground_truth": "quán bar", "ground_truth_normalized": "quán bar", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "quán bar", "ô cửa", "gian hàng", "nhà ở", "ảnh chụp", "tòa nhà", "hành lang", "áo vest", "cà vạt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.710764, "confidences": [ 0.710764, 0.195836, 0.015459, 0.007942, 0.005364, 0.003826, 0.003766, 0.003122, 0.003003, 0.002432 ], "gate_score_top1": 0.805664, "gate_scores": [ 0.805664, 0.754883, 0.684082, 0.628418, 0.631836, 0.48999, 0.546875, 0.526367, 0.526367, 0.626465 ] }, { "question_id": "10055341", "image_id": 538976, "question": "những gì được đăng trên đường sắt mỏng", "ground_truth": "chim ưng", "ground_truth_normalized": "chim ưng", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "chim ưng", "hải âu", "cây", "máy bay", "con vẹt", "cửa sổ", "chai", "găng tay", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.371873, "confidences": [ 0.371873, 0.343926, 0.02173, 0.021227, 0.017257, 0.012626, 0.011746, 0.00861, 0.007893, 0.007279 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.664551, 0.625, 0.530273, 0.59668, 0.612305, 0.5625, 0.532715, 0.472412, 0.463379 ] }, { "question_id": "10054621", "image_id": 549300, "question": "những gì đang ngồi dưới cỗ xe bên ngoài", "ground_truth": "lọ cắm hoa", "ground_truth_normalized": "lọ cắm hoa", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "lọ cắm hoa", "cây", "bát", "lá", "cái lọ", "sân vườn", "gầu múc", "tường", "bông hoa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.568262, "confidences": [ 0.568262, 0.409304, 0.014115, 0.001774, 0.001726, 0.000578, 0.000493, 0.000302, 0.000173, 0.000167 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.893555, 0.776855, 0.784668, 0.628418, 0.607422, 0.601562, 0.597168, 0.678711, 0.523926 ] }, { "question_id": "10028671", "image_id": 381470, "question": "thợ sửa ống nước ở đâu", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "phòng tắm", "phòng", "vòi hoa sen", "bồn tắm", "nhà ở", "chuồng", "bát", "buồng", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.72626, "confidences": [ 0.72626, 0.263034, 0.003994, 0.001343, 0.000824, 0.000796, 0.000367, 0.000336, 0.00011, 0.000106 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.859863, 0.67627, 0.65625, 0.644043, 0.606934, 0.58252, 0.633301, 0.392578, 0.51709 ] }, { "question_id": "10014621", "image_id": 114204, "question": "màu của xe buýt là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu đen", "màu tía", "màu nâu", "màu xanh lá", "màu xanh dương", "màu vàng", "màu trắng", "màu cam", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.811762, "confidences": [ 0.811762, 0.122558, 0.023118, 0.022583, 0.007134, 0.004145, 0.002666, 0.002584, 0.000445, 0.000423 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.832031, 0.741699, 0.750488, 0.706055, 0.679688, 0.658203, 0.669922, 0.630859, 0.548828 ] }, { "question_id": "10078421", "image_id": 557552, "question": "những gì đỗ trên đường phố gần các tòa nhà", "ground_truth": "xe máy", "ground_truth_normalized": "xe máy", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe máy", "xe tay ga", "bến tàu", "mũ", "cây", "giá đỡ", "xe cộ", "đường", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.561978, "confidences": [ 0.561978, 0.327799, 0.100364, 0.000624, 0.000574, 0.000557, 0.000557, 0.00046, 0.000379, 0.000318 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.90918, 0.787109, 0.400635, 0.603516, 0.513672, 0.508789, 0.52832, 0.53125, 0.458984 ] }, { "question_id": "10025791", "image_id": 336735, "question": "người đàn ông nằm ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "phòng", "gương", "đèn để bàn", "vali", "phương tiện giao thông", "chung cư", "cửa", "cà vạt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.577797, "confidences": [ 0.577797, 0.412933, 0.001124, 0.000653, 0.000414, 0.000255, 0.000182, 0.000166, 0.000135, 0.00013 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.843262, 0.653809, 0.583984, 0.412109, 0.558594, 0.411377, 0.307617, 0.363525, 0.527832 ] }, { "question_id": "10086131", "image_id": 500952, "question": "những gì gắn liền với tàu", "ground_truth": "xe", "ground_truth_normalized": "xe", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "tàu hỏa", "xe", "động cơ", "hàng hoá", "các tòa nhà", "mũ", "màu đỏ", "xe đạp", "băng ghế" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.675983, "confidences": [ 0.675983, 0.125534, 0.050326, 0.024913, 0.006837, 0.005591, 0.005441, 0.004839, 0.004663, 0.002631 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.799316, 0.623047, 0.651855, 0.588379, 0.577637, 0.444092, 0.585938, 0.546875, 0.552734 ] }, { "question_id": "10030671", "image_id": 39434, "question": "người đàn ông đang đẩy một cái tủ lạnh đang được xây dựng ở đâu", "ground_truth": "nhà", "ground_truth_normalized": "nhà", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "nhà", "nhà ở", "tủ đá", "phòng", "cửa", "ga-ra", "cỗ máy", "tủ lạnh", "phòng tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.262947, "confidences": [ 0.262947, 0.205585, 0.146925, 0.057312, 0.044201, 0.029044, 0.028762, 0.022488, 0.016134, 0.01435 ], "gate_score_top1": 0.757812, "gate_scores": [ 0.757812, 0.694336, 0.783691, 0.665527, 0.69873, 0.666504, 0.69043, 0.661621, 0.607422, 0.710449 ] }, { "question_id": "10029501", "image_id": 534687, "question": "người đàn ông đang chống tay ở đâu khi cầm ván trượt", "ground_truth": "đường bộ", "ground_truth_normalized": "đường", "predicted_top1": "đường phố", "predicted_topk": [ "đường phố", "đường", "ván trượt", "lối đi", "áo vest", "vạch kẻ đường", "sân", "ảnh chụp", "đường đi bộ", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.506665, "confidences": [ 0.506665, 0.472264, 0.002248, 0.001477, 0.000976, 0.000858, 0.000711, 0.000664, 0.000532, 0.000492 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.857422, 0.696289, 0.614258, 0.664551, 0.701172, 0.643555, 0.505371, 0.515137, 0.522461 ] }, { "question_id": "10093021", "image_id": 335045, "question": "cái gì được phun bằng sơn kim loại màu xanh", "ground_truth": "điêu khắc", "ground_truth_normalized": "điêu khắc", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "điêu khắc", "bức tượng", "thân cây", "màu xám", "bờ biển", "máy bay", "hoa quả", "xe tải", "hươu cao cổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.598959, "confidences": [ 0.598959, 0.29535, 0.0439, 0.004849, 0.003249, 0.00246, 0.002198, 0.001882, 0.001768, 0.001727 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.749512, 0.754883, 0.62793, 0.548828, 0.566406, 0.588867, 0.463623, 0.496338, 0.539062 ] }, { "question_id": "10052671", "image_id": 513280, "question": "điêu khắc băng của một chiếc bình lớn đang giữ gì", "ground_truth": "ngoài trời", "ground_truth_normalized": "ngoài trời", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "ngoài trời", "bánh", "lọ cắm hoa", "màu trắng", "hoa hồng", "bình hoa", "đồng hồ", "bảy", "nến" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.356168, "confidences": [ 0.356168, 0.254542, 0.065117, 0.063113, 0.01305, 0.011294, 0.010283, 0.008864, 0.007494, 0.007494 ], "gate_score_top1": 0.759277, "gate_scores": [ 0.759277, 0.687012, 0.63916, 0.543457, 0.51709, 0.688477, 0.559082, 0.49585, 0.553223, 0.56543 ] }, { "question_id": "10099541", "image_id": 466939, "question": "người đàn ông đang cưỡi trên đường là gì", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "mũ", "hộp số", "đường", "mũ bảo hiểm", "xe tay ga", "cây", "con khỉ", "bến tàu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.503949, "confidences": [ 0.503949, 0.484643, 0.001455, 0.00067, 0.000527, 0.000515, 0.00048, 0.000418, 0.00032, 0.000304 ], "gate_score_top1": 0.916504, "gate_scores": [ 0.916504, 0.879883, 0.609863, 0.469971, 0.540039, 0.483887, 0.547363, 0.551758, 0.370605, 0.468262 ] }, { "question_id": "10051181", "image_id": 154068, "question": "máy bay đậu ở đâu mà nó được trưng bày", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "bảo tàng", "predicted_topk": [ "bảo tàng", "tòa nhà", "phòng", "ga-ra", "kho", "cửa tiệm", "trạm", "nhà ở", "sân vận động", "cửa hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.455946, "confidences": [ 0.455946, 0.455946, 0.018098, 0.014714, 0.013138, 0.010232, 0.003564, 0.001258, 0.001126, 0.000994 ], "gate_score_top1": 0.775879, "gate_scores": [ 0.775879, 0.84668, 0.729492, 0.690918, 0.719238, 0.665039, 0.648926, 0.566406, 0.481689, 0.520508 ] }, { "question_id": "10055971", "image_id": 443065, "question": "những gì lên dốc trên đường mòn phủ tuyết", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "trượt tuyết", "trang thiết bị", "ba lan", "đồi", "nón", "áo khoác", "áo sơ mi", "cây sào", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.687242, "confidences": [ 0.687242, 0.217097, 0.017272, 0.008017, 0.0078, 0.006685, 0.003685, 0.003455, 0.003348, 0.002426 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.789551, 0.650879, 0.583008, 0.648926, 0.736328, 0.646973, 0.644043, 0.558594, 0.57666 ] }, { "question_id": "10033991", "image_id": 22478, "question": "những thứ thiết yếu cần thiết ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "chung cư", "phòng ngủ", "nhà ở", "cửa sổ", "phòng bếp", "cửa", "tòa nhà", "cỗ máy", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.744845, "confidences": [ 0.744845, 0.223643, 0.01176, 0.010792, 0.001981, 0.00054, 0.000467, 0.000405, 0.000392, 0.000366 ], "gate_score_top1": 0.924805, "gate_scores": [ 0.924805, 0.856445, 0.741699, 0.790039, 0.634766, 0.666504, 0.643555, 0.63623, 0.54541, 0.549316 ] }, { "question_id": "10066541", "image_id": 397327, "question": "nhà vệ sinh là một bồn rửa và một chiếc khăn và giấy vệ sinh", "ground_truth": "buồng", "ground_truth_normalized": "buồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "buồng", "bồn tắm", "tường", "chậu", "khăn", "quầy tính tiền", "sân khấu", "bồn tiểu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.366364, "confidences": [ 0.366364, 0.160053, 0.125137, 0.063169, 0.045322, 0.039996, 0.02393, 0.018967, 0.009408, 0.00865 ], "gate_score_top1": 0.716797, "gate_scores": [ 0.716797, 0.699219, 0.549805, 0.722656, 0.562012, 0.541992, 0.577148, 0.641602, 0.48584, 0.575195 ] }, { "question_id": "10086881", "image_id": 521357, "question": "những gì được bao phủ bởi các loại rượu vang", "ground_truth": "cái kệ", "ground_truth_normalized": "cái kệ", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cái kệ", "chai", "tủ lạnh", "hộp", "cửa", "tủ đông", "sàn nhà", "năm", "cỗ máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.715834, "confidences": [ 0.715834, 0.224369, 0.01128, 0.010976, 0.003264, 0.002208, 0.002079, 0.002058, 0.0011, 0.000911 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.846191, 0.633789, 0.68457, 0.512695, 0.637695, 0.522949, 0.527344, 0.490479, 0.553223 ] }, { "question_id": "10021301", "image_id": 403424, "question": "màu của chiếc bình là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu nâu", "màu cam", "màu xanh lá", "màu vàng", "màu xám", "màu đen", "màu đỏ", "cái lọ", "màu xanh dương" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.582284, "confidences": [ 0.582284, 0.128914, 0.120631, 0.066101, 0.016844, 0.016648, 0.010644, 0.007652, 0.005844, 0.005188 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.708008, 0.692871, 0.719727, 0.626953, 0.629395, 0.525879, 0.637207, 0.51416, 0.554688 ] }, { "question_id": "10006021", "image_id": 101675, "question": "màu của đồng hồ là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu đen", "màu trắng", "màu xanh lá", "màu đỏ", "màu vàng", "màu nâu", "màu xanh dương", "đồng hồ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.663889, "confidences": [ 0.663889, 0.262022, 0.056006, 0.003298, 0.002016, 0.001876, 0.001759, 0.001668, 0.001351, 0.000865 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.843262, 0.786621, 0.631836, 0.634766, 0.630859, 0.723633, 0.662598, 0.517578, 0.612305 ] }, { "question_id": "10074771", "image_id": 565996, "question": "những gì đang di chuyển trên đường ray", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe điện ngầm", "xe điện", "trạm", "xe ô tô", "cửa ra vào", "động cơ", "tường", "phương tiện giao thông", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.801544, "confidences": [ 0.801544, 0.14038, 0.021867, 0.015266, 0.003225, 0.002502, 0.000838, 0.000734, 0.000608, 0.000582 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.813477, 0.764648, 0.635254, 0.708984, 0.536133, 0.609863, 0.445557, 0.47876, 0.452393 ] }, { "question_id": "10042051", "image_id": 64423, "question": "con mèo đang nằm ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "hộp", "sàn nhà", "xe đẩy", "toa xe", "cái ví", "bao bì", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.936243, "confidences": [ 0.936243, 0.038795, 0.007148, 0.005744, 0.001636, 0.001388, 0.000671, 0.000504, 0.000341, 0.000302 ], "gate_score_top1": 0.919434, "gate_scores": [ 0.919434, 0.817871, 0.741699, 0.682129, 0.547363, 0.645996, 0.595215, 0.607422, 0.42627, 0.534668 ] }, { "question_id": "10017801", "image_id": 222122, "question": "màu của gấu là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu nâu", "màu xám", "màu trắng", "màu đỏ", "màu cam", "màu xanh dương", "màu vàng", "gấu", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.913306, "confidences": [ 0.913306, 0.067729, 0.015112, 0.002053, 0.000265, 0.00021, 0.000199, 0.000127, 0.000123, 8.1e-05 ], "gate_score_top1": 0.916992, "gate_scores": [ 0.916992, 0.866699, 0.808594, 0.682129, 0.61084, 0.631348, 0.603027, 0.486816, 0.570312, 0.488525 ] }, { "question_id": "10087701", "image_id": 512330, "question": "mở thứ gì có trưng bày nhiều lựa chọn thực phẩm bên trong", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "cái kệ", "cửa ra vào", "tủ lạnh", "tủ đông", "cửa sổ", "chai", "tường", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.698954, "confidences": [ 0.698954, 0.253144, 0.013105, 0.010287, 0.007097, 0.003262, 0.001009, 0.000927, 0.000803, 0.000602 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.895508, 0.750488, 0.703125, 0.702148, 0.61377, 0.49707, 0.606934, 0.609375, 0.584961 ] }, { "question_id": "10034971", "image_id": 42690, "question": "hai chiếc xe máy đang ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "đường", "predicted_topk": [ "đường", "chuồng", "đường phố", "ảnh chụp", "cửa sổ", "ga-ra", "cửa tiệm", "xe máy", "phòng", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.385253, "confidences": [ 0.385253, 0.328239, 0.156877, 0.018195, 0.012384, 0.007366, 0.006264, 0.00541, 0.004888, 0.003399 ], "gate_score_top1": 0.813477, "gate_scores": [ 0.813477, 0.742188, 0.812988, 0.633301, 0.550781, 0.657227, 0.594238, 0.513672, 0.644531, 0.56543 ] }, { "question_id": "10078591", "image_id": 557552, "question": "những gì đỗ thành hàng bên đường", "ground_truth": "xe tay ga", "ground_truth_normalized": "xe tay ga", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe máy", "xe tay ga", "cây", "bến tàu", "giá đỡ", "mũ", "đường", "xe cộ", "chim bồ câu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.689201, "confidences": [ 0.689201, 0.181199, 0.122605, 0.000516, 0.000442, 0.000431, 0.000374, 0.000242, 0.000233, 0.000202 ], "gate_score_top1": 0.910645, "gate_scores": [ 0.910645, 0.910645, 0.817871, 0.539062, 0.420654, 0.536621, 0.571777, 0.532227, 0.510254, 0.493652 ] }, { "question_id": "10092571", "image_id": 355756, "question": "cái gì ở phía trước của một vòi chữa cháy", "ground_truth": "cửa hàng", "ground_truth_normalized": "cửa hàng", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "cửa hàng", "tòa nhà", "tường", "vẽ tranh lên tường", "bức ảnh", "lá cờ", "quán ăn", "đường đi bộ", "ký tên" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.552754, "confidences": [ 0.552754, 0.13388, 0.065503, 0.028449, 0.011859, 0.009418, 0.007985, 0.007328, 0.005156, 0.005096 ], "gate_score_top1": 0.80957, "gate_scores": [ 0.80957, 0.730957, 0.693848, 0.652344, 0.67334, 0.591309, 0.558105, 0.482422, 0.600586, 0.557129 ] }, { "question_id": "10090981", "image_id": 581402, "question": "con gì nằm bên trong nôi", "ground_truth": "mèo con", "ground_truth_normalized": "mèo con", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "mèo con", "bát", "cún yêu", "chậu", "tách", "giường", "đĩa ăn", "thùng chứa", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.8325, "confidences": [ 0.8325, 0.088779, 0.02289, 0.004234, 0.003962, 0.003227, 0.002713, 0.002543, 0.000965, 0.000948 ], "gate_score_top1": 0.76416, "gate_scores": [ 0.76416, 0.705566, 0.674805, 0.57959, 0.536133, 0.595215, 0.462646, 0.515137, 0.414307, 0.59082 ] }, { "question_id": "10100611", "image_id": 547583, "question": "những gì được mở cho hành khách", "ground_truth": "cửa ra vào", "ground_truth_normalized": "cửa ra vào", "predicted_top1": "cửa", "predicted_topk": [ "cửa", "cửa ra vào", "tường", "tàu hỏa", "tủ đá", "xe ô tô", "xe điện ngầm", "máy sấy khô", "ô cửa", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.448193, "confidences": [ 0.448193, 0.412895, 0.013721, 0.010939, 0.00829, 0.005544, 0.004411, 0.004072, 0.003058, 0.002831 ], "gate_score_top1": 0.797363, "gate_scores": [ 0.797363, 0.753418, 0.5625, 0.634766, 0.601562, 0.609375, 0.556641, 0.47168, 0.42627, 0.452393 ] }, { "question_id": "10064631", "image_id": 453093, "question": "những gì đang làm sạch trên sàn trong một phòng tắm lát gạch", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "trang thiết bị", "bồn tắm", "sàn nhà", "tường", "khăn", "gầu múc", "nhà ở", "chậu", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.341356, "confidences": [ 0.341356, 0.109104, 0.070443, 0.043229, 0.035908, 0.020986, 0.02034, 0.019561, 0.01834, 0.016764 ], "gate_score_top1": 0.656738, "gate_scores": [ 0.656738, 0.551758, 0.625, 0.653809, 0.523926, 0.554199, 0.469482, 0.526367, 0.477051, 0.564941 ] }, { "question_id": "10067681", "image_id": 478553, "question": "những gì hôn nhau trong một cánh đồng đất", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "rào chắn", "hươu cao cổ", "chuồng", "con chim", "bãi cỏ", "cây", "máy bay", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.972888, "confidences": [ 0.972888, 0.025129, 0.000837, 0.00012, 6.8e-05, 5.7e-05, 3.1e-05, 2.8e-05, 1.9e-05, 1.9e-05 ], "gate_score_top1": 0.918457, "gate_scores": [ 0.918457, 0.824219, 0.521973, 0.619141, 0.407715, 0.499268, 0.35498, 0.327637, 0.293457, 0.458252 ] }, { "question_id": "10087261", "image_id": 437720, "question": "bức tranh cho thấy một người phụ nữ khỏa thân sử dụng những gì", "ground_truth": "laptop", "ground_truth_normalized": "laptop", "predicted_top1": "bức tranh", "predicted_topk": [ "bức tranh", "laptop", "cái ghế", "cái bàn", "mũ", "máy tính", "trang thiết bị", "bức ảnh", "phòng tắm", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.717016, "confidences": [ 0.717016, 0.201455, 0.021907, 0.008364, 0.006351, 0.005379, 0.003661, 0.001823, 0.001495, 0.000976 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.787598, 0.676758, 0.639648, 0.581543, 0.717773, 0.714355, 0.675781, 0.413574, 0.632324 ] }, { "question_id": "10013361", "image_id": 42705, "question": "màu của xe buýt là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu xám", "màu đen", "màu đỏ", "màu nâu", "màu cam", "màu xanh dương", "màu xanh lá", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.582505, "confidences": [ 0.582505, 0.353307, 0.0517, 0.006008, 0.002381, 0.000969, 0.000414, 0.00039, 0.00032, 0.000184 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.848145, 0.746094, 0.669434, 0.659668, 0.696777, 0.543457, 0.629883, 0.573242, 0.490967 ] }, { "question_id": "10102391", "image_id": 40065, "question": "có bao nhiêu vali được xếp chồng lên nhau", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bảy", "tám", "chín", "bốn", "một", "vali", "mười", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.798547, "confidences": [ 0.798547, 0.175417, 0.010617, 0.003018, 0.002195, 0.002128, 0.000627, 0.000553, 0.000504, 0.000461 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.82666, 0.765137, 0.632812, 0.63623, 0.624512, 0.661133, 0.636719, 0.609863, 0.547363 ] }, { "question_id": "10115751", "image_id": 566042, "question": "có bao nhiêu hươu cao cổ đang đứng nhìn cùng một hướng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "tám", "mười", "chín", "đồi", "một", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.853784, "confidences": [ 0.853784, 0.098064, 0.037513, 0.007474, 0.000935, 0.000374, 0.000245, 9.3e-05, 6.9e-05, 6.3e-05 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.843262, 0.846191, 0.789062, 0.606445, 0.61084, 0.541016, 0.383301, 0.520508, 0.415527 ] }, { "question_id": "10082941", "image_id": 471737, "question": "những gì đang đi xuống một số đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "hàng hoá", "máy bay", "xe điện ngầm", "xe tải", "màu đen", "các tòa nhà", "cây", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.539328, "confidences": [ 0.539328, 0.450625, 0.000723, 0.000459, 0.000406, 0.000358, 0.000321, 0.000236, 0.000218, 0.000199 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.837891, 0.549805, 0.614746, 0.561523, 0.649414, 0.666504, 0.4104, 0.465332, 0.40918 ] }, { "question_id": "10069911", "image_id": 539419, "question": "những gì được trình bày trên sàn bên cạnh một chiếc vali mở", "ground_truth": "túi", "ground_truth_normalized": "túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "túi", "cái túi", "hành lý", "sàn nhà", "thùng", "đường ray", "cái ghế", "áo khoác", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.847193, "confidences": [ 0.847193, 0.067402, 0.047982, 0.015578, 0.00365, 0.000905, 0.000903, 0.000881, 0.000703, 0.000649 ], "gate_score_top1": 0.904297, "gate_scores": [ 0.904297, 0.826172, 0.876953, 0.736328, 0.662109, 0.578125, 0.532227, 0.553711, 0.581055, 0.621582 ] }, { "question_id": "10062421", "image_id": 434279, "question": "những gì đang ngồi trên đường ray tàu và gắn vào xe trước nó", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "màu xanh dương", "xe điện ngầm", "hàng hoá", "xe tải", "xe đẩy", "phương tiện giao thông", "xe điện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.76004, "confidences": [ 0.76004, 0.135736, 0.06852, 0.004221, 0.001819, 0.001676, 0.0012, 0.000995, 0.000834, 0.000834 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.808105, 0.731445, 0.658203, 0.566895, 0.553223, 0.623535, 0.432617, 0.522949, 0.550293 ] }, { "question_id": "10095731", "image_id": 373789, "question": "cầm một lát bánh mì với sốt mayonnaise và thịt gà và một miếng bánh mì khác mà không có gì", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "sandwich", "predicted_topk": [ "sandwich", "đĩa ăn", "bữa ăn", "bữa trưa", "thịt", "điểm tâm", "bánh hamburger", "dĩa", "bức ảnh", "búi tóc" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.41743, "confidences": [ 0.41743, 0.313864, 0.070033, 0.0554, 0.0205, 0.009534, 0.008186, 0.008028, 0.005153, 0.005014 ], "gate_score_top1": 0.776367, "gate_scores": [ 0.776367, 0.799805, 0.748047, 0.713379, 0.720215, 0.526367, 0.497314, 0.599121, 0.595215, 0.569824 ] }, { "question_id": "10119161", "image_id": 201, "question": "có bao nhiêu ván trượt tuyết được dựa trên tuyết trên một đường ray", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "mười", "tám", "núi", "chín", "một", "băng ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.781737, "confidences": [ 0.781737, 0.185679, 0.016098, 0.009281, 0.002055, 0.00072, 0.00029, 0.000253, 0.000251, 0.000232 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.838867, 0.82666, 0.743652, 0.625488, 0.514648, 0.47583, 0.466309, 0.560547, 0.428955 ] }, { "question_id": "10038201", "image_id": 233970, "question": "con mèo nằm ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "giường", "cái ghế", "nhà ở", "phòng ngủ", "hành lang", "cửa", "sàn nhà", "chung cư", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.672635, "confidences": [ 0.672635, 0.272833, 0.01369, 0.009263, 0.009155, 0.001782, 0.001775, 0.001638, 0.000863, 0.000852 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.811523, 0.791016, 0.696289, 0.680664, 0.537109, 0.446045, 0.474121, 0.562988, 0.487793 ] }, { "question_id": "10069401", "image_id": 516871, "question": "những gì chứa đầy sushi, trái cây và rau trên bàn", "ground_truth": "chén đĩa", "ground_truth_normalized": "chén đĩa", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "thùng chứa", "chén đĩa", "vali", "món ăn", "chảo", "giường", "đồ chơi", "bát", "bữa trưa" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.809522, "confidences": [ 0.809522, 0.081098, 0.078911, 0.002314, 0.001726, 0.000999, 0.000887, 0.000861, 0.000634, 0.000531 ], "gate_score_top1": 0.849121, "gate_scores": [ 0.849121, 0.854004, 0.795898, 0.688965, 0.632812, 0.557617, 0.499512, 0.56543, 0.550293, 0.600098 ] }, { "question_id": "10094881", "image_id": 505240, "question": "cái gì ở trên với cái chảo đầy thức ăn", "ground_truth": "quầy tính tiền", "ground_truth_normalized": "quầy tính tiền", "predicted_top1": "chén đĩa", "predicted_topk": [ "chén đĩa", "quầy tính tiền", "tách", "cái thìa", "dĩa", "cái nồi", "bữa ăn", "chảo", "đĩa ăn", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.348651, "confidences": [ 0.348651, 0.178074, 0.10186, 0.055165, 0.023131, 0.019102, 0.017632, 0.016023, 0.013893, 0.009373 ], "gate_score_top1": 0.76416, "gate_scores": [ 0.76416, 0.741211, 0.771484, 0.601562, 0.72168, 0.671387, 0.602051, 0.645996, 0.60498, 0.664062 ] }, { "question_id": "10070991", "image_id": 412019, "question": "những gì du lịch không bị cản trở trong bầu trời rất xanh", "ground_truth": "máy bay", "ground_truth_normalized": "máy bay", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "máy bay", "hải âu", "diều", "con vịt", "mặt trời", "rào chắn", "con vẹt", "máy bay trực thăng", "chai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.711261, "confidences": [ 0.711261, 0.267863, 0.008953, 0.000962, 0.000655, 0.000438, 0.000418, 0.000396, 0.000289, 0.000284 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.828613, 0.688477, 0.492676, 0.508789, 0.403809, 0.27124, 0.606445, 0.455322, 0.461182 ] }, { "question_id": "10105411", "image_id": 51156, "question": "có bao nhiêu chiếc ô nằm trên bãi biển trong ngày", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "mười", "tám", "một", "chín", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.886353, "confidences": [ 0.886353, 0.095636, 0.014897, 0.00096, 0.000453, 0.00032, 0.000253, 0.000158, 6.4e-05, 4.1e-05 ], "gate_score_top1": 0.919434, "gate_scores": [ 0.919434, 0.877441, 0.827148, 0.708008, 0.666016, 0.65625, 0.534668, 0.526855, 0.473877, 0.449707 ] }, { "question_id": "10075021", "image_id": 561335, "question": "những gì lật lộn ngược trên một bãi biển", "ground_truth": "áo choàng", "ground_truth_normalized": "áo choàng", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "áo choàng", "thuyền buồm", "ca nô", "cây sào", "bến du thuyền", "trượt tuyết", "máy bay", "bến tàu", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.607922, "confidences": [ 0.607922, 0.221901, 0.015249, 0.010877, 0.008537, 0.00652, 0.005896, 0.003741, 0.003615, 0.003327 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.740723, 0.630859, 0.582031, 0.540527, 0.500977, 0.676758, 0.57666, 0.461426, 0.59375 ] }, { "question_id": "10065811", "image_id": 376284, "question": "bắn cái gì trên đường thành phố với vài chiếc ô tô đang đậu", "ground_truth": "vòi", "ground_truth_normalized": "vòi", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "vòi", "xe cộ", "cây", "con ngựa", "đường đi bộ", "xe đạp", "bức tượng", "tường", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.778132, "confidences": [ 0.778132, 0.179136, 0.002229, 0.002224, 0.002029, 0.00188, 0.001436, 0.001231, 0.001222, 0.001209 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.847168, 0.57666, 0.494629, 0.461182, 0.583984, 0.49292, 0.533691, 0.458008, 0.402588 ] }, { "question_id": "10076731", "image_id": 577077, "question": "những gì nằm trên giường trong một ngôi nhà đồ chơi", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "chuột", "predicted_topk": [ "chuột", "đồ chơi", "gấu", "nón", "giường", "phòng ngủ", "bức tượng", "bông cải xanh", "màn", "đèn để bàn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.464001, "confidences": [ 0.464001, 0.420831, 0.03945, 0.004207, 0.003983, 0.002369, 0.002068, 0.001737, 0.001722, 0.001451 ], "gate_score_top1": 0.748535, "gate_scores": [ 0.748535, 0.812988, 0.698242, 0.501465, 0.576172, 0.567383, 0.535156, 0.494873, 0.53418, 0.370117 ] }, { "question_id": "10065141", "image_id": 561938, "question": "hai con voi trưởng thành đang vây quanh cái gì", "ground_truth": "con voi", "ground_truth_normalized": "con voi", "predicted_top1": "hoa quả", "predicted_topk": [ "hoa quả", "con voi", "thân cây", "những quả cam", "quả bóng", "nước", "cà rốt", "màu cam", "xe tải", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.599614, "confidences": [ 0.599614, 0.204008, 0.020518, 0.018791, 0.013641, 0.009375, 0.009176, 0.008161, 0.007077, 0.00495 ], "gate_score_top1": 0.747559, "gate_scores": [ 0.747559, 0.713379, 0.651855, 0.678711, 0.571777, 0.563477, 0.586426, 0.544922, 0.627441, 0.583496 ] }, { "question_id": "10030451", "image_id": 333157, "question": "cô gái đang giữ một mote wii ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "nhà ở", "cái ghế", "chung cư", "gian hàng", "cửa sổ", "cái nồi", "cỗ máy", "giường", "thư viện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.522228, "confidences": [ 0.522228, 0.413116, 0.016081, 0.014191, 0.004847, 0.002883, 0.001507, 0.001416, 0.00131, 0.000736 ], "gate_score_top1": 0.841797, "gate_scores": [ 0.841797, 0.808105, 0.746094, 0.694336, 0.630371, 0.623047, 0.555664, 0.456055, 0.433594, 0.466797 ] }, { "question_id": "10105651", "image_id": 225087, "question": "có bao nhiêu phụ nữ đang đứng trên lối đi của tòa nhà trong khi một phụ nữ đang bế một đứa trẻ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "một", "mười", "tám", "bức ảnh", "ba", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.504268, "confidences": [ 0.504268, 0.421332, 0.042209, 0.015896, 0.005201, 0.002151, 0.001439, 0.000804, 0.0006, 0.000504 ], "gate_score_top1": 0.861328, "gate_scores": [ 0.861328, 0.875, 0.769531, 0.756836, 0.688965, 0.618164, 0.557617, 0.451172, 0.594238, 0.539551 ] }, { "question_id": "10114891", "image_id": 509415, "question": "có bao nhiêu người lướt sóng đang lướt trong sóng biển", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "mười", "năm", "bờ biển", "diều", "sáu", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.913827, "confidences": [ 0.913827, 0.08303, 0.001717, 0.000492, 0.000198, 4.3e-05, 3.1e-05, 1.6e-05, 1.3e-05, 1.2e-05 ], "gate_score_top1": 0.911621, "gate_scores": [ 0.911621, 0.849121, 0.632812, 0.612305, 0.462402, 0.524414, 0.298096, 0.29834, 0.441406, 0.422363 ] }, { "question_id": "10104901", "image_id": 229067, "question": "có bao nhiêu người trên cánh đồng tuyết với thiết bị trượt tuyết", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "mười", "tám", "ba", "chín", "một", "núi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.42227, "confidences": [ 0.42227, 0.299434, 0.266322, 0.008561, 0.000566, 0.000484, 0.000196, 0.000167, 0.000141, 0.000133 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.892578, 0.864258, 0.787598, 0.558105, 0.527344, 0.559082, 0.499512, 0.520508, 0.470459 ] }, { "question_id": "10086831", "image_id": 427865, "question": "những gì nằm cạnh đồi verdant", "ground_truth": "bờ biển", "ground_truth_normalized": "bờ biển", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "bờ biển", "gia súc", "bò đực", "đường", "bức ảnh", "ngân hàng", "ba", "bãi cỏ", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.736217, "confidences": [ 0.736217, 0.149572, 0.071765, 0.014868, 0.001402, 0.001333, 0.00089, 0.000685, 0.000644, 0.000631 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.76709, 0.759766, 0.663086, 0.515625, 0.45459, 0.415283, 0.522949, 0.493896, 0.536133 ] }, { "question_id": "10052721", "image_id": 415015, "question": "bình thủy tinh có chứa chất làm khô là gì trước cửa sổ", "ground_truth": "bông hoa", "ground_truth_normalized": "bông hoa", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "tường", "hoa hồng", "cửa sổ", "mặt", "tách", "bình hoa", "cái nồi", "cái kệ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.52782, "confidences": [ 0.52782, 0.375745, 0.025173, 0.008173, 0.008077, 0.005287, 0.003898, 0.0032, 0.002925, 0.002679 ], "gate_score_top1": 0.742676, "gate_scores": [ 0.742676, 0.863281, 0.795898, 0.690918, 0.647949, 0.547363, 0.550781, 0.562988, 0.592285, 0.615723 ] }, { "question_id": "10106401", "image_id": 410097, "question": "có bao nhiêu con cừu nằm xuống khi bốn con khác đứng gần", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "năm", "predicted_topk": [ "năm", "một", "bốn", "bảy", "đồi", "sáu", "ba", "con cừu", "tám", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.808978, "confidences": [ 0.808978, 0.150232, 0.025702, 0.001174, 0.001099, 0.000983, 0.000955, 0.000876, 0.000796, 0.000733 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.815918, 0.710938, 0.553223, 0.499512, 0.575195, 0.654297, 0.467529, 0.480469, 0.51416 ] }, { "question_id": "10045501", "image_id": 191156, "question": "con mèo đang ngồi ở đâu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "tủ đông", "cái kệ", "cửa ra vào", "sàn nhà", "phòng bếp", "cỗ máy", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.656802, "confidences": [ 0.656802, 0.327691, 0.004239, 0.002132, 0.001634, 0.001141, 0.000418, 0.000367, 0.000345, 0.00034 ], "gate_score_top1": 0.828125, "gate_scores": [ 0.828125, 0.842773, 0.773926, 0.586426, 0.638672, 0.495361, 0.450928, 0.59668, 0.583496, 0.428223 ] }, { "question_id": "10112441", "image_id": 377421, "question": "có bao nhiêu con ngựa đứng ở bên ngoài, kim loại, cầm bút", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "hai", "chuồng", "sáu", "mười", "tám", "bảy", "một" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.849234, "confidences": [ 0.849234, 0.122344, 0.00981, 0.008759, 0.001705, 0.001601, 0.00077, 0.000616, 0.000581, 0.000569 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.78125, 0.750977, 0.762207, 0.633789, 0.602051, 0.481445, 0.386963, 0.490479, 0.526855 ] }, { "question_id": "10057841", "image_id": 547962, "question": "hai người phụ nữ đang giữ những chiếc ô hướng dương trong khi đi trên một cơn mưa ướt sũng", "ground_truth": "đường đi bộ", "ground_truth_normalized": "đường đi bộ", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "đường đi bộ", "xe tay ga", "mũ", "bức ảnh", "áo khoác", "vạch kẻ đường", "ảnh chụp", "cửa sổ", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.513729, "confidences": [ 0.513729, 0.348967, 0.012011, 0.010154, 0.008095, 0.005696, 0.005056, 0.004667, 0.003152, 0.002935 ], "gate_score_top1": 0.79248, "gate_scores": [ 0.79248, 0.783203, 0.590332, 0.611328, 0.720703, 0.617676, 0.610352, 0.47583, 0.553223, 0.615723 ] }, { "question_id": "10079281", "image_id": 343706, "question": "người phụ nữ cầm cái bọc len có gì", "ground_truth": "điện thoại", "ground_truth_normalized": "điện thoại", "predicted_top1": "áo choàng", "predicted_topk": [ "áo choàng", "điện thoại", "nón", "trường hợp", "thiết bị", "mặt nạ", "tường", "đồ chơi", "hai", "màu vàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.466608, "confidences": [ 0.466608, 0.413392, 0.013981, 0.013237, 0.01217, 0.005931, 0.003071, 0.001896, 0.00168, 0.001221 ], "gate_score_top1": 0.727051, "gate_scores": [ 0.727051, 0.761719, 0.721191, 0.50293, 0.610352, 0.620605, 0.564941, 0.562988, 0.509277, 0.544434 ] }, { "question_id": "10070961", "image_id": 537506, "question": "người giữ gì với hai quả táo đỏ gần người đi bộ giữ ô", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "quả táo", "predicted_topk": [ "quả táo", "đĩa ăn", "táo", "cái mâm", "bát", "dao", "chiếc ô", "bữa ăn", "bánh", "hoa quả" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.739644, "confidences": [ 0.739644, 0.170276, 0.056151, 0.006525, 0.001794, 0.001224, 0.00083, 0.000656, 0.000623, 0.000553 ], "gate_score_top1": 0.84082, "gate_scores": [ 0.84082, 0.822754, 0.779785, 0.756348, 0.522461, 0.630371, 0.506836, 0.527832, 0.506348, 0.587891 ] }, { "question_id": "10059841", "image_id": 350794, "question": "những gì đang thư giãn trên những tảng đá mát mẻ", "ground_truth": "gấu", "ground_truth_normalized": "gấu", "predicted_top1": "gấu trúc", "predicted_topk": [ "gấu trúc", "gấu", "con chim", "con cừu", "rào chắn", "cây", "đồ chơi", "chuồng", "bãi cỏ", "bò đực" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.519175, "confidences": [ 0.519175, 0.465385, 0.002259, 0.000846, 0.000594, 0.000544, 0.000426, 0.000368, 0.000334, 0.00031 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.885254, 0.624023, 0.60791, 0.491211, 0.578125, 0.570312, 0.478271, 0.554688, 0.479248 ] }, { "question_id": "10117531", "image_id": 203388, "question": "có bao nhiêu chiếc bánh rán trong chảo đang được nấu chín", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "tám", "predicted_topk": [ "tám", "bảy", "sáu", "chảo", "chín", "năm", "hai", "mười", "một", "bốn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.425406, "confidences": [ 0.425406, 0.286722, 0.211415, 0.036169, 0.006068, 0.004763, 0.003539, 0.002367, 0.002138, 0.00179 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.797852, 0.78125, 0.73584, 0.625488, 0.662598, 0.619141, 0.438721, 0.543457, 0.586426 ] }, { "question_id": "10099141", "image_id": 393277, "question": "những gì bao quanh bởi giao thông và đường phố thành phố", "ground_truth": "bức tượng", "ground_truth_normalized": "bức tượng", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "bức tượng", "tòa tháp", "đồng hồ", "tòa nhà", "đường", "bức ảnh", "các tòa nhà", "cầu", "bốn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.68438, "confidences": [ 0.68438, 0.189304, 0.013188, 0.012078, 0.010092, 0.009994, 0.006631, 0.00342, 0.002397, 0.002109 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.666016, 0.661621, 0.615234, 0.665527, 0.632324, 0.555176, 0.506348, 0.452393, 0.490479 ] }, { "question_id": "10082441", "image_id": 337815, "question": "những gì được hình ảnh ở chế độ xem bên", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "quầy tính tiền", "phòng bếp", "buồng", "tủ đá", "bếp", "nhà ở", "công cụ", "sân khấu", "cửa sổ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.368789, "confidences": [ 0.368789, 0.181143, 0.176947, 0.112036, 0.051294, 0.030629, 0.009036, 0.008148, 0.006383, 0.006078 ], "gate_score_top1": 0.830078, "gate_scores": [ 0.830078, 0.787598, 0.834961, 0.675293, 0.752441, 0.702637, 0.566406, 0.646973, 0.443604, 0.60498 ] }, { "question_id": "10115831", "image_id": 567640, "question": "có bao nhiêu đội bóng đá đang diễn ra sau trận bóng đá", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "năm", "predicted_topk": [ "năm", "hai", "bốn", "một", "ba", "sáu", "mười", "bảy", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.461303, "confidences": [ 0.461303, 0.429982, 0.033027, 0.024258, 0.022087, 0.010934, 0.004248, 0.003691, 0.002886, 0.00085 ], "gate_score_top1": 0.864746, "gate_scores": [ 0.864746, 0.867188, 0.727051, 0.680664, 0.801758, 0.722656, 0.615723, 0.606445, 0.563965, 0.432861 ] }, { "question_id": "10075211", "image_id": 560646, "question": "có một người đàn ông giữ những gì và điều khiển một ván lướt sóng", "ground_truth": "cây sào", "ground_truth_normalized": "cây sào", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "cây sào", "bảng", "bờ biển", "ca nô", "con thuyền", "những bức ảnh", "dĩa nhựa", "áo khoác", "áo sơ mi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.703225, "confidences": [ 0.703225, 0.207873, 0.015236, 0.00935, 0.004077, 0.003837, 0.003605, 0.003301, 0.003083, 0.002896 ], "gate_score_top1": 0.827637, "gate_scores": [ 0.827637, 0.787109, 0.659668, 0.685547, 0.71582, 0.587891, 0.589844, 0.742676, 0.665039, 0.672852 ] }, { "question_id": "10091331", "image_id": 368038, "question": "những gì trên đường đua bên cạnh một số cỏ", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "hàng hoá", "xe tải", "máy bay", "xe", "đầu máy", "mũ", "vali" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.865245, "confidences": [ 0.865245, 0.088046, 0.038016, 0.000976, 0.000824, 0.000313, 0.000259, 0.000199, 0.000184, 0.000165 ], "gate_score_top1": 0.909668, "gate_scores": [ 0.909668, 0.840332, 0.772461, 0.600586, 0.708008, 0.575195, 0.437988, 0.30127, 0.380371, 0.430664 ] }, { "question_id": "10076811", "image_id": 547102, "question": "những gì giữ một bình hoa dại", "ground_truth": "mặt", "ground_truth_normalized": "mặt", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "mặt", "bông hoa", "tường", "hoa hồng", "cây", "tách", "hộp", "bình hoa", "màu vàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.512841, "confidences": [ 0.512841, 0.14522, 0.113097, 0.034493, 0.02718, 0.010058, 0.007879, 0.007636, 0.005776, 0.003923 ], "gate_score_top1": 0.677246, "gate_scores": [ 0.677246, 0.572754, 0.753418, 0.647949, 0.717285, 0.609375, 0.532715, 0.501465, 0.440186, 0.51123 ] }, { "question_id": "10098271", "image_id": 575356, "question": "những gì bị chặn một phần bởi cửa gấp", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "tủ đông", "cái kệ", "cửa ra vào", "phòng bếp", "cỗ máy", "sàn nhà", "chai" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.68608, "confidences": [ 0.68608, 0.137225, 0.094682, 0.034426, 0.011991, 0.00495, 0.003766, 0.003067, 0.001984, 0.001527 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.817871, 0.790039, 0.698242, 0.708984, 0.647461, 0.657715, 0.73291, 0.537109, 0.547852 ] }, { "question_id": "10079501", "image_id": 337446, "question": "những gì đang chạy trên một cánh đồng trong một khu vực cỏ", "ground_truth": "con bò", "ground_truth_normalized": "con bò", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "con bò", "gia súc", "con chó", "xe đạp", "bãi cỏ", "mũ bảo hiểm", "ngựa vằn", "hươu cao cổ", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.92325, "confidences": [ 0.92325, 0.059717, 0.002826, 0.00276, 0.001032, 0.001027, 0.000667, 0.000563, 0.000467, 0.000296 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.816895, 0.556641, 0.678223, 0.566406, 0.543945, 0.466797, 0.578613, 0.562012, 0.470459 ] }, { "question_id": "10077431", "image_id": 555356, "question": "cái gì được bọc trong lá thiếc trên đầu quầy", "ground_truth": "cái mâm", "ground_truth_normalized": "cái mâm", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "cái mâm", "món ăn", "giấy bạc", "bánh ngọt", "gà", "lò vi sóng", "đĩa ăn", "bữa ăn", "thịt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.612097, "confidences": [ 0.612097, 0.243476, 0.108042, 0.012803, 0.002002, 0.001634, 0.001572, 0.001172, 0.001063, 0.001007 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.820312, 0.824219, 0.682617, 0.607422, 0.588379, 0.630371, 0.672852, 0.547363, 0.630859 ] }, { "question_id": "10061041", "image_id": 540093, "question": "những gì được bảo vệ để bảo vệ chúng khỏi thời tiết", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "xe đẩy", "predicted_topk": [ "xe đẩy", "cây", "toa xe", "rau", "xe tay ga", "cửa hàng", "cái lều", "xe cộ", "xe đạp", "bồn tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.526527, "confidences": [ 0.526527, 0.224694, 0.044331, 0.028903, 0.025112, 0.014086, 0.006825, 0.006166, 0.005305, 0.0039 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.762695, 0.67041, 0.651855, 0.645508, 0.650879, 0.585449, 0.513672, 0.599609, 0.479248 ] }, { "question_id": "10037141", "image_id": 165766, "question": "vòi chữa cháy màu vàng và xanh đang ngồi ở đâu", "ground_truth": "đường đi bộ", "ground_truth_normalized": "đường đi bộ", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "đường đi bộ", "đường phố", "vòi", "ảnh chụp", "xe ô tô", "cửa hàng", "cửa tiệm", "cây", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.324575, "confidences": [ 0.324575, 0.200748, 0.138512, 0.070469, 0.030486, 0.019115, 0.014742, 0.013449, 0.008351, 0.006783 ], "gate_score_top1": 0.779785, "gate_scores": [ 0.779785, 0.697754, 0.71582, 0.755371, 0.686523, 0.710938, 0.60498, 0.602051, 0.491699, 0.639648 ] }, { "question_id": "10085361", "image_id": 430762, "question": "những gì đang nằm trên đỉnh của một chiếc kéo màu đỏ", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "cây kéo", "predicted_topk": [ "cây kéo", "chuồng", "mặt", "tường", "con voi", "giường", "cái ghế", "máy tính", "phòng", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.60986, "confidences": [ 0.60986, 0.113698, 0.061096, 0.005513, 0.005333, 0.004832, 0.004162, 0.003691, 0.003646, 0.003556 ], "gate_score_top1": 0.763672, "gate_scores": [ 0.763672, 0.424072, 0.509277, 0.502441, 0.399902, 0.425293, 0.404053, 0.410645, 0.47168, 0.544434 ] }, { "question_id": "10086851", "image_id": 515716, "question": "hai người phụ nữ và một người đàn ông đang cầm gì khi uống rượu", "ground_truth": "kính đeo", "ground_truth_normalized": "kính đeo", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "kính đeo", "chai", "nước", "quán bar", "ly", "đồ uống", "nến", "đĩa", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.435967, "confidences": [ 0.435967, 0.420906, 0.0563, 0.023839, 0.022658, 0.00675, 0.003482, 0.00144, 0.00139, 0.000973 ], "gate_score_top1": 0.791504, "gate_scores": [ 0.791504, 0.788574, 0.759766, 0.717773, 0.697754, 0.554199, 0.70166, 0.695312, 0.663574, 0.54248 ] }, { "question_id": "10064331", "image_id": 476119, "question": "người đàn ông cưỡi những gì xuống một con đường trước một chiếc xe màu đỏ", "ground_truth": "ván trượt", "ground_truth_normalized": "ván trượt", "predicted_top1": "mũ", "predicted_topk": [ "mũ", "ván trượt", "nón", "máy ảnh", "áo sơ mi", "gậy", "áo khoác", "mũ bảo hiểm", "mặt nạ", "quần short" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.615209, "confidences": [ 0.615209, 0.297496, 0.013645, 0.013046, 0.006458, 0.003796, 0.002713, 0.002159, 0.001772, 0.001413 ], "gate_score_top1": 0.84375, "gate_scores": [ 0.84375, 0.789062, 0.744141, 0.71875, 0.661621, 0.708984, 0.578125, 0.588379, 0.651367, 0.600098 ] }, { "question_id": "10074951", "image_id": 369998, "question": "những thứ màu tím nối trên một tấm vải màu tím đã làm gì", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "nón", "khung", "con chó", "chuột", "móng vuốt", "cái kệ", "màu xám", "gấu trúc" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.61407, "confidences": [ 0.61407, 0.348523, 0.002703, 0.002036, 0.001695, 0.001668, 0.00158, 0.001341, 0.001149, 0.000891 ], "gate_score_top1": 0.791016, "gate_scores": [ 0.791016, 0.848633, 0.678223, 0.588379, 0.497803, 0.516113, 0.567871, 0.624023, 0.50293, 0.547852 ] }, { "question_id": "10046721", "image_id": 217769, "question": "hai xe đang đỗ ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "kho", "trạm", "tòa nhà", "phòng", "cửa tiệm", "đường phố", "động cơ", "chuồng trại", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.398963, "confidences": [ 0.398963, 0.36326, 0.115652, 0.088674, 0.007222, 0.001978, 0.001517, 0.001422, 0.001138, 0.000795 ], "gate_score_top1": 0.818359, "gate_scores": [ 0.818359, 0.810059, 0.786621, 0.778809, 0.712891, 0.626953, 0.603516, 0.513184, 0.52002, 0.490479 ] }, { "question_id": "10101251", "image_id": 358024, "question": "người đàn ông và một cậu bé kéo nhau làm gì", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "xe đẩy", "cái túi", "áo khoác", "túi", "sàn nhà", "balo", "bao bì", "đường ray" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.466311, "confidences": [ 0.466311, 0.427911, 0.020171, 0.012972, 0.008086, 0.004707, 0.003872, 0.003581, 0.003299, 0.003173 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.811523, 0.675781, 0.764648, 0.654297, 0.663086, 0.59082, 0.61377, 0.553223, 0.54248 ] }, { "question_id": "10036851", "image_id": 465734, "question": "người phụ nữ đang ngồi ở đâu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "tủ đông", "phòng bếp", "cửa ra vào", "cái kệ", "ngăn kéo", "cỗ máy", "chai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.581515, "confidences": [ 0.581515, 0.393473, 0.005461, 0.004138, 0.003918, 0.001715, 0.001392, 0.0005, 0.000439, 0.00038 ], "gate_score_top1": 0.841309, "gate_scores": [ 0.841309, 0.852051, 0.759766, 0.645996, 0.70166, 0.504883, 0.617188, 0.514648, 0.554199, 0.473877 ] }, { "question_id": "10058121", "image_id": 563926, "question": "cái gì đang được chuyển vào phía sau của một sơ mi rơ moóc", "ground_truth": "hàng hóa", "ground_truth_normalized": "hàng hóa", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "hàng hóa", "xe cộ", "phương tiện giao thông", "cây", "đoạn phim giới thiệu", "xe máy", "dao", "những quả cam", "xa lộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.723091, "confidences": [ 0.723091, 0.149218, 0.037435, 0.023063, 0.004695, 0.004685, 0.002071, 0.001963, 0.001709, 0.001408 ], "gate_score_top1": 0.836914, "gate_scores": [ 0.836914, 0.706543, 0.734375, 0.690918, 0.578125, 0.577148, 0.531738, 0.488281, 0.466553, 0.424805 ] }, { "question_id": "10030511", "image_id": 475304, "question": "hai con ngựa vằn và một con hươu cao cổ đứng ở đâu", "ground_truth": "máy bay", "ground_truth_normalized": "máy bay", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "bảo tàng", "lá", "rào chắn", "bãi cỏ", "đường sắt", "cỏ khô", "tòa nhà" ], "gt_rank": -1, "error_category": "complete_miss", "question_type": 3, "confidence_top1": 0.729658, "confidences": [ 0.729658, 0.254141, 0.003101, 0.001784, 0.000745, 0.000693, 0.000503, 0.000483, 0.000436, 0.000375 ], "gate_score_top1": 0.905762, "gate_scores": [ 0.905762, 0.835449, 0.643066, 0.602051, 0.526855, 0.53418, 0.510254, 0.482178, 0.381836, 0.570312 ] }, { "question_id": "10058351", "image_id": 500018, "question": "người đàn ông cầm nhạc cụ cầm cái gì", "ground_truth": "thân cây", "ground_truth_normalized": "thân cây", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "thân cây", "bãi cỏ", "quả bóng", "hoa quả", "xe tải", "điêu khắc", "lá", "bức ảnh", "vườn bách thú" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.670364, "confidences": [ 0.670364, 0.263546, 0.011378, 0.005632, 0.002871, 0.002371, 0.001894, 0.001701, 0.001636, 0.001598 ], "gate_score_top1": 0.791504, "gate_scores": [ 0.791504, 0.860352, 0.68457, 0.61377, 0.446777, 0.599121, 0.519043, 0.47583, 0.558105, 0.420898 ] }, { "question_id": "10091231", "image_id": 387833, "question": "những gì đang tỏa sáng từ một trong hai đồng hồ trên tháp", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "cờ", "mặt trời", "cây", "bức tượng", "tòa nhà", "bức ảnh", "bầu trời", "đại dương" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.694052, "confidences": [ 0.694052, 0.25733, 0.016973, 0.011175, 0.003671, 0.002978, 0.002518, 0.001509, 0.000932, 0.000528 ], "gate_score_top1": 0.83252, "gate_scores": [ 0.83252, 0.813477, 0.65332, 0.715332, 0.712891, 0.626465, 0.685547, 0.657227, 0.609863, 0.478271 ] }, { "question_id": "10055521", "image_id": 497791, "question": "cái gì đã xô ngã nó trên một ngọn núi tuyết bao phủ", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "đoạn phim giới thiệu", "predicted_topk": [ "đoạn phim giới thiệu", "xe buýt", "xe tải", "xe cộ", "đường", "phương tiện giao thông", "đường đi bộ", "giường", "thân cây", "xa lộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.330665, "confidences": [ 0.330665, 0.194388, 0.115171, 0.093633, 0.051307, 0.047082, 0.027895, 0.00815, 0.006783, 0.006255 ], "gate_score_top1": 0.774414, "gate_scores": [ 0.774414, 0.684082, 0.6875, 0.738281, 0.639648, 0.629395, 0.533691, 0.489502, 0.448486, 0.421631 ] }, { "question_id": "10072661", "image_id": 444390, "question": "nhà bếp là một cái bồn rửa và một bộ đếm", "ground_truth": "bếp", "ground_truth_normalized": "bếp", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "bếp", "quầy tính tiền", "sân khấu", "phòng bếp", "công cụ", "buồng", "tủ đá", "lò vi sóng", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.442386, "confidences": [ 0.442386, 0.257035, 0.090581, 0.028726, 0.02565, 0.021099, 0.017355, 0.017153, 0.008882, 0.006422 ], "gate_score_top1": 0.824219, "gate_scores": [ 0.824219, 0.774414, 0.722168, 0.541992, 0.726562, 0.625488, 0.530762, 0.705566, 0.560547, 0.470947 ] }, { "question_id": "10059861", "image_id": 454642, "question": "xe máy đỗ và hai người cưỡi những gì", "ground_truth": "xe máy", "ground_truth_normalized": "xe máy", "predicted_top1": "xe tay ga", "predicted_topk": [ "xe tay ga", "xe máy", "xe đạp", "xe cộ", "đường", "mũ", "cây", "đường đi bộ", "đường phố", "con khỉ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.500008, "confidences": [ 0.500008, 0.437822, 0.03074, 0.004714, 0.003664, 0.00153, 0.001261, 0.001102, 0.001019, 0.000808 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.885742, 0.787109, 0.674805, 0.63916, 0.653809, 0.484863, 0.619629, 0.680664, 0.544922 ] }, { "question_id": "10058481", "image_id": 575624, "question": "những gì đang nằm trên đồng cỏ xanh", "ground_truth": "gia súc", "ground_truth_normalized": "gia súc", "predicted_top1": "con ngựa", "predicted_topk": [ "con ngựa", "gia súc", "con bò", "bò đực", "cây", "chuồng trại", "con chim", "xe đạp", "con chó", "ngân hàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.421788, "confidences": [ 0.421788, 0.400904, 0.103768, 0.002356, 0.002168, 0.002087, 0.001984, 0.001971, 0.001613, 0.001553 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.751953, 0.790527, 0.38623, 0.429443, 0.373047, 0.416016, 0.539551, 0.437012, 0.345459 ] }, { "question_id": "10056441", "image_id": 435359, "question": "những gì còn lại ở phía trước một giá sách", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "cái bàn", "trang thiết bị", "bàn phím", "bức tranh", "màn", "cái ghế", "mũ", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.628478, "confidences": [ 0.628478, 0.341698, 0.013723, 0.0069, 0.000909, 0.000542, 0.000405, 0.000294, 0.000235, 0.000214 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.860352, 0.723633, 0.629395, 0.62207, 0.600098, 0.559082, 0.504395, 0.385742, 0.402588 ] }, { "question_id": "10031251", "image_id": 155519, "question": "cặp trẻ em cạnh một cặp bồn rửa mặt ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "chậu", "quầy tính tiền", "vòi hoa sen", "nhà ở", "phòng", "buồng", "máy ảnh", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.712986, "confidences": [ 0.712986, 0.274881, 0.005551, 0.001488, 0.000695, 0.000389, 0.000351, 0.000347, 0.000177, 0.000156 ], "gate_score_top1": 0.904785, "gate_scores": [ 0.904785, 0.880859, 0.702637, 0.598633, 0.585938, 0.513184, 0.547852, 0.460205, 0.306152, 0.491211 ] }, { "question_id": "10032081", "image_id": 309087, "question": "một số chai đồ uống châu á được đánh dấu ở đâu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cái kệ", "cửa", "tủ đông", "phòng bếp", "sàn nhà", "chai", "cỗ máy", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.50459, "confidences": [ 0.50459, 0.47033, 0.005694, 0.00472, 0.001809, 0.0017, 0.000793, 0.000738, 0.000497, 0.00049 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.834961, 0.678223, 0.717773, 0.549316, 0.689453, 0.537598, 0.430908, 0.556641, 0.348877 ] }, { "question_id": "10007691", "image_id": 110250, "question": "màu của túi là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu trắng", "màu cam", "màu xanh dương", "màu nâu", "màu xanh lá", "màu đỏ", "màu vàng", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.916185, "confidences": [ 0.916185, 0.081316, 0.000565, 0.000463, 0.00042, 0.000206, 0.000169, 0.000134, 0.000133, 1.3e-05 ], "gate_score_top1": 0.930176, "gate_scores": [ 0.930176, 0.88916, 0.688965, 0.709473, 0.704102, 0.692383, 0.630859, 0.649902, 0.520996, 0.469482 ] }, { "question_id": "10085471", "image_id": 367900, "question": "cái gì ngồi ở nhà ga", "ground_truth": "xe điện ngầm", "ground_truth_normalized": "xe điện ngầm", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe điện ngầm", "xe ô tô", "hàng hoá", "trạm", "xe điện", "máy bay", "cửa ra vào", "xe tải" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.899202, "confidences": [ 0.899202, 0.07182, 0.01248, 0.003661, 0.001726, 0.001121, 0.000454, 0.000361, 0.000309, 0.000291 ], "gate_score_top1": 0.919434, "gate_scores": [ 0.919434, 0.782715, 0.72168, 0.736816, 0.626465, 0.488281, 0.530762, 0.612305, 0.38208, 0.630859 ] }, { "question_id": "10039401", "image_id": 198486, "question": "người đó chụp selfie ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "gương", "xe buýt", "xe ô tô", "tàu hỏa", "xe cộ", "động cơ", "đường", "đoạn phim giới thiệu" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.65847, "confidences": [ 0.65847, 0.144647, 0.138023, 0.02092, 0.005447, 0.002403, 0.002205, 0.0018, 0.001211, 0.000929 ], "gate_score_top1": 0.880371, "gate_scores": [ 0.880371, 0.782227, 0.751465, 0.746094, 0.803711, 0.621582, 0.521973, 0.628906, 0.511719, 0.474854 ] }, { "question_id": "10094911", "image_id": 547839, "question": "những gì đang lái qua đường hầm trên đường cao tốc", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "xe điện ngầm", "phương tiện giao thông", "xe cộ", "xe đạp", "xe buýt", "xe tải", "hàng hoá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.820459, "confidences": [ 0.820459, 0.164102, 0.003041, 0.000933, 0.000663, 0.000546, 0.000528, 0.000522, 0.000518, 0.000453 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.872559, 0.680664, 0.552246, 0.584473, 0.527832, 0.528809, 0.574219, 0.674316, 0.491455 ] }, { "question_id": "10061571", "image_id": 540187, "question": "cái gì đang đỗ gần lề đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "xe cộ", "mũ", "hộp số", "con khỉ", "cây", "máy bay", "bến tàu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.504673, "confidences": [ 0.504673, 0.489146, 0.00118, 0.000467, 0.000379, 0.00028, 0.000251, 0.000217, 0.000156, 0.000155 ], "gate_score_top1": 0.928711, "gate_scores": [ 0.928711, 0.888672, 0.637207, 0.578613, 0.550293, 0.444092, 0.447754, 0.508301, 0.563965, 0.439453 ] }, { "question_id": "10071201", "image_id": 513280, "question": "chiếc bình rất lớn giữ những gì bên ngoài", "ground_truth": "bông hoa", "ground_truth_normalized": "bông hoa", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "ngoài trời", "bánh", "hoa hồng", "bình hoa", "tường", "nến", "mặt", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.536633, "confidences": [ 0.536633, 0.376097, 0.023763, 0.007093, 0.006808, 0.006321, 0.003775, 0.002579, 0.002064, 0.001566 ], "gate_score_top1": 0.720215, "gate_scores": [ 0.720215, 0.833984, 0.683105, 0.684082, 0.77002, 0.647461, 0.711426, 0.677246, 0.520996, 0.674316 ] }, { "question_id": "10092961", "image_id": 426700, "question": "chàng trai trẻ giữ những gì và về sẵn sàng để đi thử nghiệm nó", "ground_truth": "máy bay", "ground_truth_normalized": "máy bay", "predicted_top1": "diều", "predicted_topk": [ "diều", "máy bay", "áo sơ mi", "con chim", "bảng", "mũ", "máy bay trực thăng", "mặt trời", "bờ biển", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.535486, "confidences": [ 0.535486, 0.454461, 0.001375, 0.000682, 0.000371, 0.000351, 0.000245, 0.000206, 0.00016, 0.000136 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.878418, 0.648926, 0.65332, 0.611816, 0.505371, 0.479736, 0.494385, 0.440674, 0.494385 ] }, { "question_id": "10086241", "image_id": 402855, "question": "những gì ngồi trên lưu trữ đứng trên một bãi đá", "ground_truth": "thuyền buồm", "ground_truth_normalized": "thuyền buồm", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "thuyền buồm", "bến du thuyền", "bến tàu", "áo choàng", "ca nô", "cái lều", "xe đạp", "hàng hoá", "diều" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.759534, "confidences": [ 0.759534, 0.143271, 0.060193, 0.004999, 0.003932, 0.001549, 0.001388, 0.001047, 0.000837, 0.000813 ], "gate_score_top1": 0.839355, "gate_scores": [ 0.839355, 0.70752, 0.705078, 0.553223, 0.547852, 0.478271, 0.595703, 0.654785, 0.437988, 0.537598 ] }, { "question_id": "10056901", "image_id": 396274, "question": "những gì đang nhận được những tia nắng cuối cùng", "ground_truth": "sân vườn", "ground_truth_normalized": "sân vườn", "predicted_top1": "cây", "predicted_topk": [ "cây", "sân vườn", "lá", "cái nồi", "rào chắn", "bông cải xanh", "bãi cỏ", "nhà ở", "rau", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.860447, "confidences": [ 0.860447, 0.068457, 0.037953, 0.009015, 0.002573, 0.001751, 0.000769, 0.000726, 0.000597, 0.000581 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.837402, 0.790527, 0.69043, 0.650391, 0.543457, 0.685547, 0.562012, 0.570801, 0.570312 ] }, { "question_id": "10013051", "image_id": 53975, "question": "màu sắc của vali là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu nâu", "màu xám", "màu xanh dương", "màu xanh lá", "màu đỏ", "màu vàng", "màu trắng", "vali", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.709381, "confidences": [ 0.709381, 0.271363, 0.005833, 0.003147, 0.002777, 0.001064, 0.000603, 0.00041, 0.000346, 0.00034 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.816406, 0.675293, 0.641602, 0.589355, 0.617676, 0.487305, 0.56543, 0.568848, 0.534668 ] }, { "question_id": "10098901", "image_id": 570810, "question": "người phụ nữ lấy cái gì của băng chuyền", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "túi", "đường ray", "balo", "thân cây", "cái túi", "sàn nhà", "màu cam", "bộ đồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.470549, "confidences": [ 0.470549, 0.260879, 0.108751, 0.017927, 0.013322, 0.011826, 0.011285, 0.008033, 0.006355, 0.005652 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.80127, 0.791504, 0.553711, 0.651367, 0.586426, 0.729492, 0.671875, 0.509277, 0.619629 ] }, { "question_id": "10036501", "image_id": 37477, "question": "con mèo sử dụng nhà vệ sinh ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "nhà ở", "bồn tắm", "phòng", "chậu", "vòi hoa sen", "chuồng", "sàn nhà", "ô cửa", "hành lang" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.841259, "confidences": [ 0.841259, 0.088668, 0.014531, 0.012094, 0.009309, 0.008848, 0.005263, 0.002438, 0.0012, 0.001118 ], "gate_score_top1": 0.828125, "gate_scores": [ 0.828125, 0.794434, 0.714355, 0.699707, 0.591797, 0.75, 0.702637, 0.535645, 0.499512, 0.602539 ] }, { "question_id": "10113081", "image_id": 505455, "question": "có bao nhiêu người đi bộ trong tuyết với cột trượt tuyết và ba lô", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "mười", "tám", "chín", "một", "đồi", "núi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.815287, "confidences": [ 0.815287, 0.102045, 0.0586, 0.017664, 0.001467, 0.00063, 0.000509, 0.000479, 0.000451, 0.000302 ], "gate_score_top1": 0.90625, "gate_scores": [ 0.90625, 0.827637, 0.836914, 0.814941, 0.644531, 0.549805, 0.550293, 0.575684, 0.510742, 0.502441 ] }, { "question_id": "10085051", "image_id": 498381, "question": "những gì đang bay qua một khu rừng đầy cây", "ground_truth": "con vẹt", "ground_truth_normalized": "con vẹt", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "con vẹt", "hải âu", "diều", "máy bay", "cây", "rào chắn", "chim ưng", "chai", "hươu cao cổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.845482, "confidences": [ 0.845482, 0.131701, 0.006792, 0.001196, 0.001171, 0.000959, 0.000766, 0.000561, 0.000552, 0.000507 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.82373, 0.683594, 0.558105, 0.605957, 0.524414, 0.425293, 0.474854, 0.519043, 0.470703 ] }, { "question_id": "10080211", "image_id": 377814, "question": "cái gì mà chục chiếc bánh rán ngồi trong hộp bánh rán", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "donut", "predicted_topk": [ "donut", "sô cô la", "hộp", "bánh ngọt", "cỗ máy", "đĩa ăn", "cupcake", "bức ảnh", "màu trắng", "cái mâm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.770096, "confidences": [ 0.770096, 0.204055, 0.003337, 0.001731, 0.001731, 0.001294, 0.001111, 0.000774, 0.000462, 0.00038 ], "gate_score_top1": 0.835449, "gate_scores": [ 0.835449, 0.785645, 0.568848, 0.485107, 0.416016, 0.599609, 0.576172, 0.487793, 0.504883, 0.541992 ] }, { "question_id": "10107751", "image_id": 17954, "question": "có bao nhiêu người đàn ông đứng trên bậc thang của một tòa nhà", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bảy", "bốn", "chín", "tám", "mười", "bức ảnh", "quả bóng", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.570812, "confidences": [ 0.570812, 0.355812, 0.029783, 0.015756, 0.00329, 0.002587, 0.001622, 0.001203, 0.001031, 0.000625 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.830566, 0.785645, 0.720215, 0.671387, 0.509277, 0.601074, 0.521973, 0.600586, 0.431152 ] }, { "question_id": "10112151", "image_id": 510564, "question": "có bao nhiêu đĩa bánh pizza xếp thành một hàng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "tám", "mười", "chín", "màu nâu", "đồng hồ", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.945684, "confidences": [ 0.945684, 0.043886, 0.004483, 0.003505, 0.000595, 0.000103, 4.3e-05, 4e-05, 4e-05, 3.6e-05 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.834961, 0.747559, 0.766602, 0.563965, 0.503906, 0.431152, 0.484619, 0.403076, 0.377686 ] }, { "question_id": "10104771", "image_id": 80974, "question": "có bao nhiêu con hươu cao cổ đứng trong vườn bách thú với cây cối", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "một", "hai", "chuồng", "sáu", "mười", "bảy", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.922708, "confidences": [ 0.922708, 0.060859, 0.014914, 0.000322, 0.000245, 0.000182, 8.1e-05, 3.2e-05, 3e-05, 2.6e-05 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.872559, 0.8125, 0.564941, 0.668457, 0.59375, 0.613281, 0.380371, 0.387695, 0.355225 ] }, { "question_id": "10048731", "image_id": 535651, "question": "hươu cao cổ ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "bát", "cỏ khô", "chậu", "hươu cao cổ", "hồ bơi", "phòng tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.649683, "confidences": [ 0.649683, 0.31663, 0.019466, 0.00397, 0.000415, 0.000395, 0.000374, 0.000322, 0.00032, 0.000286 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.815918, 0.736328, 0.609863, 0.496094, 0.354736, 0.507324, 0.358887, 0.443359, 0.541992 ] }, { "question_id": "10077451", "image_id": 409331, "question": "người đàn ông với chiếc mũ ngụy trang đang lấy cái gì", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "chiếc ô", "predicted_topk": [ "chiếc ô", "bức ảnh", "mũ", "máy ảnh", "những bức ảnh", "nón", "kính đeo", "tường", "mặt trời", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.517767, "confidences": [ 0.517767, 0.370032, 0.030493, 0.027227, 0.012886, 0.003362, 0.002183, 0.001476, 0.001403, 0.001374 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.882324, 0.733398, 0.818848, 0.732422, 0.705078, 0.578125, 0.606445, 0.55127, 0.609375 ] }, { "question_id": "10056871", "image_id": 439658, "question": "người đàn ông đang giữ một ván trượt tuyết và đứng", "ground_truth": "ván trượt", "ground_truth_normalized": "ván trượt", "predicted_top1": "trượt tuyết", "predicted_topk": [ "trượt tuyết", "ván trượt", "trang thiết bị", "núi", "đồi", "mắt", "cây sào", "ba lan", "áo sơ mi", "giá đỡ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.477463, "confidences": [ 0.477463, 0.462773, 0.015712, 0.004973, 0.003124, 0.002143, 0.001725, 0.001608, 0.001526, 0.001315 ], "gate_score_top1": 0.830078, "gate_scores": [ 0.830078, 0.835449, 0.75293, 0.672363, 0.656738, 0.578125, 0.53125, 0.587402, 0.625977, 0.600098 ] }, { "question_id": "10037351", "image_id": 1958, "question": "hai cô gái chơi một trò chơi điện tử sôi động ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "chung cư", "nhà ở", "cửa sổ", "phòng bếp", "cỗ máy", "hai", "sàn nhà", "hành lang", "phòng ngủ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.525994, "confidences": [ 0.525994, 0.334342, 0.124447, 0.002686, 0.001768, 0.000761, 0.000469, 0.000412, 0.00041, 0.000391 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.847168, 0.82373, 0.635254, 0.644531, 0.539062, 0.669434, 0.540039, 0.476318, 0.608887 ] }, { "question_id": "10044681", "image_id": 325310, "question": "nhà vệ sinh ngồi ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "nhà ở", "chậu", "vòi hoa sen", "phòng", "bồn tắm", "chuồng", "ô cửa", "hành lang", "gương" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.950075, "confidences": [ 0.950075, 0.023692, 0.009424, 0.004611, 0.001859, 0.001448, 0.000989, 0.000566, 0.000463, 0.00046 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.73584, 0.652832, 0.702148, 0.651367, 0.652832, 0.621582, 0.474121, 0.490234, 0.577637 ] }, { "question_id": "10079821", "image_id": 446603, "question": "hai chiếc vali màu đen mở và là gì", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "sàn nhà", "màu đen", "túi", "hành lý", "đường ray", "thân cây", "tường", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.785093, "confidences": [ 0.785093, 0.094133, 0.030561, 0.019162, 0.010603, 0.004835, 0.003044, 0.001536, 0.001327, 0.00131 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.812988, 0.717773, 0.672363, 0.679199, 0.663086, 0.509277, 0.482666, 0.488281, 0.495361 ] }, { "question_id": "10063791", "image_id": 357385, "question": "người đàn ông đeo kính ngồi trên ghế với một viên sô cô la bị mờ trên tay là gì", "ground_truth": "donut", "ground_truth_normalized": "donut", "predicted_top1": "bánh ngọt", "predicted_topk": [ "bánh ngọt", "donut", "văn phòng", "sô cô la", "cupcake", "bức ảnh", "cỗ máy", "bánh", "cửa tiệm", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.576466, "confidences": [ 0.576466, 0.366424, 0.018896, 0.010936, 0.002733, 0.001758, 0.001301, 0.001032, 0.000867, 0.000685 ], "gate_score_top1": 0.83252, "gate_scores": [ 0.83252, 0.843262, 0.751953, 0.645996, 0.655273, 0.626953, 0.419678, 0.577148, 0.676758, 0.55127 ] }, { "question_id": "10060271", "image_id": 335119, "question": "cái gì đang đậu bên cạnh chiếc xe buýt sơn màu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "vẽ tranh lên tường", "predicted_topk": [ "vẽ tranh lên tường", "xe ô tô", "tường", "băng ghế", "tàu hỏa", "rào chắn", "vòi", "bức ảnh", "cây", "bức tượng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.369524, "confidences": [ 0.369524, 0.343091, 0.031234, 0.021175, 0.015675, 0.014469, 0.011809, 0.010442, 0.008423, 0.005513 ], "gate_score_top1": 0.696777, "gate_scores": [ 0.696777, 0.758301, 0.519043, 0.565918, 0.648926, 0.565918, 0.630859, 0.504395, 0.439697, 0.487793 ] }, { "question_id": "10059511", "image_id": 526706, "question": "những gì đang cho một con bò trên đồng cỏ", "ground_truth": "bắp chân", "ground_truth_normalized": "bắp chân", "predicted_top1": "gia súc", "predicted_topk": [ "gia súc", "con bò", "bắp chân", "con ngựa", "gấu", "con cừu", "bãi cỏ", "con chó", "hươu cao cổ", "bò đực" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.17352, "confidences": [ 0.17352, 0.152534, 0.064967, 0.060202, 0.042689, 0.040339, 0.027724, 0.025243, 0.02254, 0.015628 ], "gate_score_top1": 0.653809, "gate_scores": [ 0.653809, 0.685059, 0.300049, 0.62207, 0.589355, 0.525391, 0.54834, 0.578613, 0.526855, 0.439453 ] }, { "question_id": "10048431", "image_id": 162801, "question": "mèo cam đang xem ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "ô cửa", "predicted_topk": [ "ô cửa", "phòng", "sàn nhà", "nhà ở", "hành lang", "cửa", "phòng tắm", "tòa nhà", "phòng bếp", "chuồng trại" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.437339, "confidences": [ 0.437339, 0.313776, 0.082174, 0.075407, 0.033593, 0.020138, 0.004636, 0.002073, 0.001749, 0.001553 ], "gate_score_top1": 0.809082, "gate_scores": [ 0.809082, 0.836914, 0.766113, 0.836426, 0.806152, 0.664062, 0.693848, 0.608398, 0.572754, 0.562012 ] }, { "question_id": "10113171", "image_id": 304614, "question": "có bao nhiêu người đứng trên ván trượt tuyết trên tuyết", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "mười", "năm", "diều", "mũ", "bảy", "chim bồ câu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.829083, "confidences": [ 0.829083, 0.169759, 0.000466, 0.00045, 2.6e-05, 1.5e-05, 4e-06, 4e-06, 4e-06, 4e-06 ], "gate_score_top1": 0.905762, "gate_scores": [ 0.905762, 0.903809, 0.603027, 0.592773, 0.398926, 0.500977, 0.252686, 0.322754, 0.279297, 0.190308 ] }, { "question_id": "10023721", "image_id": 35573, "question": "màu của gối là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu cam", "màu trắng", "màu nâu", "màu xám", "màu vàng", "màu đen", "màu xanh lá", "màu xanh dương", "phòng ngủ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.542945, "confidences": [ 0.542945, 0.239056, 0.209324, 0.003518, 0.001383, 0.000311, 0.00022, 0.0002, 0.000191, 0.000135 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.861816, 0.816406, 0.764648, 0.67627, 0.501465, 0.518555, 0.480713, 0.442627, 0.370117 ] }, { "question_id": "10047831", "image_id": 496752, "question": "nhiều voi đang đứng ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "thân cây", "con voi", "hươu cao cổ", "lá", "quả bóng", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.803893, "confidences": [ 0.803893, 0.186518, 0.001397, 0.001282, 0.000622, 0.000615, 0.000483, 0.000242, 0.000145, 0.00014 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.824707, 0.622559, 0.560059, 0.626953, 0.585938, 0.371826, 0.460693, 0.399902, 0.558105 ] }, { "question_id": "10066391", "image_id": 389206, "question": "chàng trai trẻ với một chiếc mũ nhỏ đang mặc gì", "ground_truth": "cà vạt", "ground_truth_normalized": "cà vạt", "predicted_top1": "nón", "predicted_topk": [ "nón", "mũ", "cà vạt", "bánh", "mũ lưỡi trai", "quả bóng", "dao", "mặt trời", "áo sơ mi", "đồng hồ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.885952, "confidences": [ 0.885952, 0.051167, 0.033688, 0.002124, 0.0021, 0.001094, 0.000775, 0.000768, 0.000763, 0.000726 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.779785, 0.772461, 0.618164, 0.578613, 0.556641, 0.486328, 0.538086, 0.615723, 0.579102 ] }, { "question_id": "10041111", "image_id": 252925, "question": "người phụ nữ mặc một chiếc áo sơ mi ở đâu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "tủ lạnh", "tủ đá", "cửa", "chậu", "buồng", "phòng", "phòng tắm", "tủ đông", "ngăn kéo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.44613, "confidences": [ 0.44613, 0.381595, 0.112799, 0.006502, 0.005885, 0.004451, 0.004182, 0.004149, 0.002107, 0.00207 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.780273, 0.74707, 0.605957, 0.633301, 0.64209, 0.572754, 0.713867, 0.51709, 0.509277 ] }, { "question_id": "10049101", "image_id": 462057, "question": "xe buýt đỏ hai tầng ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "tòa nhà", "kho", "trạm", "cửa tiệm", "đường phố", "phòng", "ô cửa", "chuồng trại", "nhà ở" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.447, "confidences": [ 0.447, 0.376411, 0.14287, 0.011456, 0.004021, 0.001952, 0.001866, 0.001644, 0.00142, 0.000624 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.859375, 0.838867, 0.755859, 0.76709, 0.65625, 0.66748, 0.65918, 0.562988, 0.59668 ] }, { "question_id": "10029651", "image_id": 429038, "question": "một số người đàn ông chơi game ở đâu", "ground_truth": "chung cư", "ground_truth_normalized": "chung cư", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "chung cư", "nhà ở", "cửa sổ", "đi văng", "phòng bếp", "phòng ngủ", "cái ghế", "thư viện", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.770321, "confidences": [ 0.770321, 0.204115, 0.015078, 0.002693, 0.000582, 0.000501, 0.000451, 0.000308, 0.000292, 0.000269 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.835449, 0.755371, 0.614746, 0.51123, 0.603027, 0.614746, 0.582031, 0.496094, 0.625488 ] }, { "question_id": "10087631", "image_id": 383389, "question": "những gì đỗ ở trạm xe buýt trong một thành phố với các tòa nhà cao tầng", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe buýt", "xe cộ", "phương tiện giao thông", "đường đi bộ", "sân vận động", "tường", "đường", "xa lộ", "thư viện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.221514, "confidences": [ 0.221514, 0.199341, 0.074926, 0.070112, 0.054817, 0.036303, 0.014454, 0.011995, 0.011558, 0.011468 ], "gate_score_top1": 0.708008, "gate_scores": [ 0.708008, 0.589355, 0.713379, 0.650391, 0.600586, 0.471436, 0.556641, 0.480713, 0.387207, 0.412109 ] }, { "question_id": "10087721", "image_id": 499266, "question": "những gì có một số văn bản và một hình ảnh", "ground_truth": "điện thoại", "ground_truth_normalized": "điện thoại", "predicted_top1": "thiết bị", "predicted_topk": [ "thiết bị", "điện thoại", "trường hợp", "mặt nạ", "áo choàng", "máy ảnh", "máy tính", "tường", "bàn chải", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.748838, "confidences": [ 0.748838, 0.144039, 0.022349, 0.016936, 0.008351, 0.006658, 0.00231, 0.00227, 0.001651, 0.001644 ], "gate_score_top1": 0.810547, "gate_scores": [ 0.810547, 0.810059, 0.655273, 0.691406, 0.60498, 0.641602, 0.588867, 0.546387, 0.576172, 0.600098 ] }, { "question_id": "10077801", "image_id": 549390, "question": "người phụ nữ mặc những gì đang đi xe đạp", "ground_truth": "đầm", "ground_truth_normalized": "đầm", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "đầm", "mũ", "chim bồ câu", "mũ bảo hiểm", "xe tay ga", "xe máy", "giá đỡ", "cái lều", "áo khoác" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.537714, "confidences": [ 0.537714, 0.375385, 0.009144, 0.009073, 0.007478, 0.006599, 0.004138, 0.003216, 0.002751, 0.001742 ], "gate_score_top1": 0.848633, "gate_scores": [ 0.848633, 0.799316, 0.60498, 0.69043, 0.646973, 0.579102, 0.709473, 0.635254, 0.636719, 0.577148 ] }, { "question_id": "10010261", "image_id": 171585, "question": "màu của áo là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu trắng", "màu xám", "màu tía", "màu nâu", "màu đen", "màu xanh lá", "màu vàng", "màu đỏ", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.691071, "confidences": [ 0.691071, 0.160341, 0.1404, 0.001651, 0.001166, 0.000696, 0.000259, 0.000238, 0.000234, 0.000197 ], "gate_score_top1": 0.85498, "gate_scores": [ 0.85498, 0.840332, 0.8125, 0.557617, 0.605957, 0.608398, 0.501953, 0.407715, 0.42749, 0.364746 ] }, { "question_id": "10027431", "image_id": 248132, "question": "bếp và tủ lạnh ở đâu", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "nhà ở", "predicted_topk": [ "nhà ở", "phòng bếp", "phòng", "buồng", "cửa", "cửa sổ", "chậu", "ô cửa", "tủ đá", "phòng tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.523959, "confidences": [ 0.523959, 0.386343, 0.031344, 0.009863, 0.00716, 0.006544, 0.005218, 0.003671, 0.003544, 0.002133 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.870117, 0.798828, 0.682129, 0.64209, 0.659668, 0.682129, 0.588867, 0.608398, 0.726074 ] }, { "question_id": "10077611", "image_id": 450577, "question": "những gì đứng trong xe ngựa hạn chế nhỏ", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "toa xe", "predicted_topk": [ "toa xe", "chuồng", "nhà ở", "xe đẩy", "rào chắn", "xe", "hay", "con ngựa", "con bò", "lồng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.103478, "confidences": [ 0.103478, 0.097399, 0.075854, 0.066032, 0.054423, 0.03943, 0.037551, 0.034257, 0.031497, 0.030232 ], "gate_score_top1": 0.697754, "gate_scores": [ 0.697754, 0.615234, 0.468994, 0.550293, 0.564453, 0.626953, 0.536621, 0.63623, 0.610352, 0.554688 ] }, { "question_id": "10053831", "image_id": 570810, "question": "những gì đang đến xung quanh nơi nhận hành lý", "ground_truth": "túi", "ground_truth_normalized": "túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "túi", "hành lý", "cái túi", "đường ray", "balo", "sàn nhà", "xe đẩy", "thân cây", "áo khoác" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.579717, "confidences": [ 0.579717, 0.186742, 0.122468, 0.015846, 0.012126, 0.010191, 0.004418, 0.00415, 0.003914, 0.003232 ], "gate_score_top1": 0.849121, "gate_scores": [ 0.849121, 0.825684, 0.787598, 0.754395, 0.579102, 0.636719, 0.635254, 0.564941, 0.557617, 0.665039 ] }, { "question_id": "10003541", "image_id": 566016, "question": "màu của con mèo là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đen", "màu nâu", "màu cam", "màu xanh dương", "màu trắng", "màu vàng", "cái ghế", "màu tía", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.817612, "confidences": [ 0.817612, 0.179606, 0.000529, 0.000468, 0.000245, 0.000199, 0.000113, 5.6e-05, 4.5e-05, 4.2e-05 ], "gate_score_top1": 0.890625, "gate_scores": [ 0.890625, 0.875, 0.685059, 0.665527, 0.606934, 0.63916, 0.429199, 0.461182, 0.490234, 0.560059 ] }, { "question_id": "10053041", "image_id": 392818, "question": "con chó nhỏ đang mặc hoa là gì", "ground_truth": "áo vest", "ground_truth_normalized": "áo vest", "predicted_top1": "áo khoác", "predicted_topk": [ "áo khoác", "áo vest", "cái túi", "nón", "con thuyền", "cà vạt", "cái ghế", "balo", "ván lướt sóng", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.564186, "confidences": [ 0.564186, 0.347585, 0.007969, 0.007501, 0.005056, 0.003055, 0.002557, 0.001936, 0.001836, 0.001712 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.803711, 0.700195, 0.699219, 0.635742, 0.628418, 0.462891, 0.663574, 0.593262, 0.520996 ] }, { "question_id": "10063001", "image_id": 577091, "question": "những gì được hiển thị bên cạnh tường", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "màn", "bàn phím", "chuột", "bức tranh", "điện thoại", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.82005, "confidences": [ 0.82005, 0.16402, 0.007762, 0.001884, 0.000307, 0.000241, 0.000211, 0.000159, 0.000147, 0.000139 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.828613, 0.6875, 0.645508, 0.427002, 0.59375, 0.637207, 0.582031, 0.638184, 0.506836 ] }, { "question_id": "10067431", "image_id": 368648, "question": "lề đường là gì", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe buýt", "xe ô tô", "xe điện", "xe điện ngầm", "xe cộ", "phương tiện giao thông", "động cơ", "trạm", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.559183, "confidences": [ 0.559183, 0.137034, 0.103035, 0.074213, 0.02237, 0.010796, 0.007493, 0.005525, 0.005251, 0.003457 ], "gate_score_top1": 0.839355, "gate_scores": [ 0.839355, 0.702637, 0.802246, 0.667969, 0.641113, 0.563477, 0.553711, 0.616699, 0.59375, 0.48877 ] }, { "question_id": "10035721", "image_id": 286033, "question": "hai người đàn ông trong khi một người chơi một trò chơi wii mote ở đâu", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "lò vi sóng", "nhà ở", "phòng", "lớp học", "chung cư", "cái bàn", "máy tính", "ảnh chụp", "thư viện" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.872892, "confidences": [ 0.872892, 0.018116, 0.013384, 0.010505, 0.010064, 0.008008, 0.005824, 0.004203, 0.003567, 0.00229 ], "gate_score_top1": 0.818359, "gate_scores": [ 0.818359, 0.581055, 0.675293, 0.671875, 0.70752, 0.566895, 0.694336, 0.599121, 0.633789, 0.590332 ] }, { "question_id": "10105761", "image_id": 551575, "question": "có bao nhiêu người đàn ông châu á cầm ván lướt sóng trên bãi biển", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bảy", "mười", "bốn", "chín", "tám", "bảng", "hai", "một" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.484696, "confidences": [ 0.484696, 0.458901, 0.030865, 0.007133, 0.006419, 0.003304, 0.002962, 0.000392, 0.000255, 0.000213 ], "gate_score_top1": 0.86084, "gate_scores": [ 0.86084, 0.862305, 0.763672, 0.680176, 0.763672, 0.643555, 0.624512, 0.483398, 0.534668, 0.455322 ] }, { "question_id": "10103581", "image_id": 563827, "question": "có bao nhiêu tivi bên ngoài một dấu hiệu đồ uống quảng cáo để bán", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "một", "bảy", "sáu", "hai", "mười", "chín", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.508917, "confidences": [ 0.508917, 0.378195, 0.033176, 0.026657, 0.026244, 0.014437, 0.004104, 0.002723, 0.000905, 0.000712 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.841797, 0.79834, 0.749512, 0.75, 0.702148, 0.627441, 0.669922, 0.47168, 0.471924 ] }, { "question_id": "10081481", "image_id": 502671, "question": "có một người đàn ông mang cái gì và cầm một cái chai than vãn", "ground_truth": "kính đeo", "ground_truth_normalized": "kính đeo", "predicted_top1": "chai", "predicted_topk": [ "chai", "kính đeo", "rượu", "nước", "quán bar", "ly", "máy ảnh", "bức ảnh", "cái kệ", "cà vạt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.680185, "confidences": [ 0.680185, 0.210711, 0.051839, 0.008869, 0.002694, 0.002123, 0.002018, 0.001604, 0.001534, 0.001112 ], "gate_score_top1": 0.817383, "gate_scores": [ 0.817383, 0.762207, 0.744141, 0.722656, 0.608887, 0.498779, 0.700684, 0.535645, 0.692383, 0.567871 ] }, { "question_id": "10004691", "image_id": 416936, "question": "màu của vòi nước là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu đỏ", "màu tía", "màu xanh dương", "màu cam", "màu nâu", "vòi", "màu trắng", "màu xanh lá", "màu xám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.633974, "confidences": [ 0.633974, 0.31384, 0.041979, 0.001736, 0.000938, 0.000684, 0.000599, 0.00049, 0.00032, 0.000316 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.841309, 0.808594, 0.62207, 0.614746, 0.526367, 0.509277, 0.547852, 0.568359, 0.44165 ] }, { "question_id": "10102821", "image_id": 432410, "question": "có bao nhiêu người trên bãi biển đang cưỡi ngựa", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "ba", "mười", "bảy", "hai", "tám", "chín", "nhà ở" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.781806, "confidences": [ 0.781806, 0.202359, 0.010154, 0.002701, 0.000707, 0.000536, 0.000256, 0.00015, 4.3e-05, 3.6e-05 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.888184, 0.782227, 0.746582, 0.5625, 0.641113, 0.607422, 0.428711, 0.401611, 0.335693 ] }, { "question_id": "10087301", "image_id": 434915, "question": "những gì dành riêng cho vải trắng với vali ra phía trước", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "vali", "predicted_topk": [ "vali", "tường", "thân cây", "phòng tắm", "túi", "sàn nhà", "bức ảnh", "hộp", "mặt trời", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.771998, "confidences": [ 0.771998, 0.156229, 0.005635, 0.004287, 0.003405, 0.002834, 0.002277, 0.002228, 0.001727, 0.001461 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.801758, 0.612793, 0.569824, 0.668945, 0.606445, 0.661133, 0.546875, 0.458984, 0.552734 ] }, { "question_id": "10078901", "image_id": 418533, "question": "cái gì đang đỗ tại ga tàu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "hàng hoá", "xe điện ngầm", "xe", "cửa ra vào", "vali", "đường ray", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.618553, "confidences": [ 0.618553, 0.346977, 0.005372, 0.004359, 0.00266, 0.001635, 0.000992, 0.000976, 0.000783, 0.000714 ], "gate_score_top1": 0.879883, "gate_scores": [ 0.879883, 0.855469, 0.603516, 0.588379, 0.527344, 0.462891, 0.44165, 0.482422, 0.412354, 0.485352 ] }, { "question_id": "10101061", "image_id": 505933, "question": "những gì đang đứng đằng sau cây cầu", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "các tòa nhà", "xe ô tô", "xe điện ngầm", "xe điện", "cửa ra vào", "trạm", "cầu", "tường", "động cơ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.85571, "confidences": [ 0.85571, 0.038489, 0.032793, 0.030092, 0.01073, 0.005523, 0.004352, 0.002624, 0.001528, 0.001421 ], "gate_score_top1": 0.884766, "gate_scores": [ 0.884766, 0.771973, 0.837402, 0.803711, 0.68457, 0.589355, 0.627441, 0.697754, 0.418213, 0.641602 ] }, { "question_id": "10114481", "image_id": 518245, "question": "có bao nhiêu con voi đang dùng mũi đẩy khúc gỗ", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "một", "bốn", "năm", "chuồng", "thân cây", "vườn bách thú", "mười", "lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.767433, "confidences": [ 0.767433, 0.228632, 0.001873, 0.001059, 9.8e-05, 7.4e-05, 6e-05, 4.9e-05, 2.6e-05, 1.9e-05 ], "gate_score_top1": 0.910645, "gate_scores": [ 0.910645, 0.879395, 0.630371, 0.571777, 0.527344, 0.533203, 0.371338, 0.449951, 0.328369, 0.30835 ] }, { "question_id": "10073981", "image_id": 576576, "question": "cái gì được chiếu sáng lờ mờ bởi bóng đèn trên cao", "ground_truth": "phòng tắm", "ground_truth_normalized": "phòng tắm", "predicted_top1": "bức ảnh", "predicted_topk": [ "bức ảnh", "phòng tắm", "tường", "cửa", "quầy tính tiền", "nhà ở", "cây", "ô cửa", "chậu", "mặt trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.42916, "confidences": [ 0.42916, 0.395361, 0.051457, 0.007457, 0.005728, 0.005402, 0.00468, 0.003768, 0.003229, 0.002312 ], "gate_score_top1": 0.814453, "gate_scores": [ 0.814453, 0.727539, 0.640137, 0.641602, 0.597168, 0.55127, 0.53418, 0.508301, 0.490967, 0.4375 ] }, { "question_id": "10039521", "image_id": 490118, "question": "bông cải xanh và xúc xích ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "món ăn", "cái nồi", "bát", "bữa ăn", "đĩa ăn", "thịt", "thùng chứa", "quầy tính tiền", "rau xà lách" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.422328, "confidences": [ 0.422328, 0.378572, 0.127302, 0.050637, 0.002247, 0.001628, 0.0015, 0.0014, 0.000888, 0.000815 ], "gate_score_top1": 0.82959, "gate_scores": [ 0.82959, 0.862793, 0.854492, 0.830078, 0.516113, 0.636719, 0.546387, 0.685547, 0.552246, 0.49707 ] }, { "question_id": "10087291", "image_id": 343603, "question": "cái gì đang mở trong phòng tối", "ground_truth": "cửa ra vào", "ground_truth_normalized": "cửa ra vào", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa ra vào", "cửa", "tủ đông", "cái kệ", "tủ lạnh", "chai", "con chó", "mặt trời", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.701839, "confidences": [ 0.701839, 0.151192, 0.057386, 0.01991, 0.014623, 0.012386, 0.003654, 0.001686, 0.001209, 0.001118 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.754395, 0.81543, 0.685547, 0.702148, 0.659668, 0.577148, 0.567871, 0.432617, 0.544434 ] }, { "question_id": "10016761", "image_id": 294620, "question": "màu của xe là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu đen", "màu xám", "màu tía", "màu trắng", "màu nâu", "màu xanh lá", "màu vàng", "màu cam", "bầu trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.955083, "confidences": [ 0.955083, 0.027954, 0.008559, 0.005998, 0.000673, 0.000461, 0.000159, 0.000108, 9.7e-05, 3.5e-05 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.851074, 0.810547, 0.756836, 0.729004, 0.696777, 0.591797, 0.505371, 0.500488, 0.287598 ] }, { "question_id": "10116831", "image_id": 286482, "question": "có bao nhiêu túi du lịch đặt trên sàn nhà của nhau", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "một", "chín", "vali", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.774793, "confidences": [ 0.774793, 0.162405, 0.057907, 0.001346, 0.000904, 0.000267, 0.000169, 0.000136, 9.8e-05, 9.8e-05 ], "gate_score_top1": 0.891602, "gate_scores": [ 0.891602, 0.842285, 0.821777, 0.722656, 0.625488, 0.482666, 0.626465, 0.467773, 0.513672, 0.446045 ] }, { "question_id": "10062971", "image_id": 579192, "question": "người đàn ông cưỡi những gì xuống sườn đồi phủ đầy", "ground_truth": "trượt tuyết", "ground_truth_normalized": "trượt tuyết", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "máy ảnh", "áo sơ mi", "trượt tuyết", "những bức ảnh", "mũ", "đồi", "đường sắt", "bức tranh", "trang thiết bị" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.953349, "confidences": [ 0.953349, 0.005803, 0.005357, 0.003359, 0.002964, 0.002958, 0.001502, 0.001467, 0.001357, 0.000985 ], "gate_score_top1": 0.87793, "gate_scores": [ 0.87793, 0.736328, 0.724609, 0.682129, 0.668457, 0.617188, 0.643555, 0.64502, 0.568359, 0.553711 ] }, { "question_id": "10055481", "image_id": 381709, "question": "cái gì đang chiếu sáng trên máy bay ở phía xa", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "mặt trời", "bầu trời", "bến tàu", "sân bay", "con dốc", "rào chắn", "thân cây", "xe cộ", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.238912, "confidences": [ 0.238912, 0.170742, 0.127133, 0.038247, 0.037288, 0.034892, 0.017494, 0.012369, 0.009765, 0.006025 ], "gate_score_top1": 0.671387, "gate_scores": [ 0.671387, 0.606934, 0.678711, 0.565918, 0.55127, 0.513672, 0.369385, 0.449463, 0.550293, 0.448242 ] }, { "question_id": "10051981", "image_id": 517603, "question": "con ngựa nhỏ kéo hành khách ở đâu", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "đường", "predicted_topk": [ "đường", "xe đẩy", "toa xe", "xe", "đường phố", "xe tay ga", "xe ô tô", "xe cộ", "xe tải", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.442183, "confidences": [ 0.442183, 0.341693, 0.065468, 0.041777, 0.041129, 0.010318, 0.009487, 0.004464, 0.004395, 0.003811 ], "gate_score_top1": 0.848145, "gate_scores": [ 0.848145, 0.850098, 0.699707, 0.751465, 0.785156, 0.667969, 0.729492, 0.612305, 0.666992, 0.67334 ] }, { "question_id": "10099571", "image_id": 538064, "question": "những gì được thể hiện với sự phá sản của một người đàn ông", "ground_truth": "điêu khắc", "ground_truth_normalized": "điêu khắc", "predicted_top1": "bức tượng", "predicted_topk": [ "bức tượng", "điêu khắc", "tượng đài", "gấu", "nón", "bức tranh", "bánh", "con ngựa", "bức ảnh", "máy bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.839599, "confidences": [ 0.839599, 0.14086, 0.001624, 0.00127, 0.000716, 0.000666, 0.000538, 0.000467, 0.00035, 0.000323 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.762695, 0.666504, 0.608887, 0.651855, 0.505371, 0.521484, 0.399414, 0.597656, 0.487305 ] }, { "question_id": "10091771", "image_id": 518197, "question": "những gì với một số người trên và ngoài tàu một tàu điện ngầm", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "xe điện ngầm", "predicted_topk": [ "xe điện ngầm", "trạm", "cửa ra vào", "cửa", "bộ đồ", "đường ray", "xe ô tô", "tàu hoả", "ô cửa", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.457319, "confidences": [ 0.457319, 0.281746, 0.033781, 0.028895, 0.017629, 0.015771, 0.012697, 0.010588, 0.010084, 0.008198 ], "gate_score_top1": 0.791504, "gate_scores": [ 0.791504, 0.699707, 0.630859, 0.601562, 0.517578, 0.499023, 0.606934, 0.413574, 0.568359, 0.620117 ] }, { "question_id": "10085911", "image_id": 512330, "question": "những gì phơi bày tất cả thức ăn bên trong", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "cửa ra vào", "cái kệ", "tủ lạnh", "tủ đông", "chai", "con chó", "tường", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.725375, "confidences": [ 0.725375, 0.198306, 0.029707, 0.010387, 0.0076, 0.007195, 0.002291, 0.00086, 0.000744, 0.000678 ], "gate_score_top1": 0.836914, "gate_scores": [ 0.836914, 0.87793, 0.73584, 0.725098, 0.689453, 0.651855, 0.614746, 0.577637, 0.574219, 0.528809 ] }, { "question_id": "10067551", "image_id": 579970, "question": "cái gì nằm trên mặt tối của ngôi nhà", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "đi văng", "predicted_topk": [ "đi văng", "phòng", "nhà ở", "cửa sổ", "nhiều cái ghế", "bức ảnh", "cửa", "cây", "lò sưởi", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.398217, "confidences": [ 0.398217, 0.382961, 0.045382, 0.043304, 0.022466, 0.014031, 0.011655, 0.010366, 0.005305, 0.003791 ], "gate_score_top1": 0.785645, "gate_scores": [ 0.785645, 0.84082, 0.675293, 0.715332, 0.708496, 0.682129, 0.674805, 0.655273, 0.574707, 0.563477 ] }, { "question_id": "10061491", "image_id": 422280, "question": "những gì lấy túi tại sân bay", "ground_truth": "đường ray", "ground_truth_normalized": "đường ray", "predicted_top1": "vali", "predicted_topk": [ "vali", "đường ray", "hành lý", "sân bay", "cái túi", "màu đen", "túi", "bộ đồ", "bánh xe", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.686834, "confidences": [ 0.686834, 0.16506, 0.017061, 0.016439, 0.012098, 0.00624, 0.006179, 0.003955, 0.002729, 0.002663 ], "gate_score_top1": 0.843262, "gate_scores": [ 0.843262, 0.653809, 0.722656, 0.479248, 0.665527, 0.673828, 0.66748, 0.581543, 0.336914, 0.470459 ] }, { "question_id": "10107841", "image_id": 235522, "question": "có bao nhiêu con hươu cao cổ ăn rau xanh trên cánh đồng bên cạnh rất nhiều cây", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "một", "hai", "bảy", "mười", "tám", "đồi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.826832, "confidences": [ 0.826832, 0.10349, 0.065782, 0.000987, 0.000825, 0.000576, 0.000188, 0.000173, 6.5e-05, 6.3e-05 ], "gate_score_top1": 0.883789, "gate_scores": [ 0.883789, 0.865234, 0.872559, 0.667969, 0.62793, 0.683594, 0.461426, 0.505859, 0.375, 0.418457 ] }, { "question_id": "10076451", "image_id": 425848, "question": "ăn tối những gì với bít tết chuẩn bị, bông cải xanh và nấm xào", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "thịt", "predicted_topk": [ "thịt", "đĩa ăn", "bữa ăn", "món ăn", "bữa ăn tối", "rau", "bữa trưa", "chảo", "dĩa", "cái nĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.44254, "confidences": [ 0.44254, 0.311365, 0.124824, 0.040209, 0.017361, 0.015202, 0.008042, 0.003353, 0.003041, 0.002074 ], "gate_score_top1": 0.852539, "gate_scores": [ 0.852539, 0.808105, 0.772461, 0.76709, 0.739746, 0.727051, 0.740723, 0.59375, 0.635742, 0.584473 ] }, { "question_id": "10080691", "image_id": 524742, "question": "những gì được bao phủ trong graffiti đầy màu sắc", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "tường", "predicted_topk": [ "tường", "xe buýt", "phương tiện giao thông", "vẽ tranh lên tường", "xe tải", "xe cộ", "tàu hỏa", "xe ô tô", "xe đẩy", "đường đi bộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.463427, "confidences": [ 0.463427, 0.324791, 0.019505, 0.014049, 0.008723, 0.007743, 0.007211, 0.006508, 0.00394, 0.003466 ], "gate_score_top1": 0.731445, "gate_scores": [ 0.731445, 0.730469, 0.647949, 0.541016, 0.648926, 0.65625, 0.592285, 0.650879, 0.463135, 0.371826 ] }, { "question_id": "10006851", "image_id": 230109, "question": "màu của phòng ngủ là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu trắng", "màu xanh dương", "màu nâu", "màu vàng", "màu cam", "màu đỏ", "màu xám", "giường", "phòng ngủ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.507706, "confidences": [ 0.507706, 0.455105, 0.007074, 0.005531, 0.003322, 0.002587, 0.001545, 0.001327, 0.001281, 0.001155 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.838379, 0.689453, 0.693848, 0.602051, 0.566895, 0.56543, 0.571777, 0.508301, 0.554199 ] }, { "question_id": "10055111", "image_id": 561750, "question": "những gì cực kỳ quá tải do tải của nó", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "vali", "predicted_topk": [ "vali", "xe đẩy", "toa xe", "hành lý", "cái túi", "xe", "xe ô tô", "xe tải", "tàu hỏa", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.625912, "confidences": [ 0.625912, 0.342971, 0.006687, 0.003544, 0.001002, 0.000756, 0.000724, 0.000721, 0.000577, 0.000558 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.858398, 0.658203, 0.625977, 0.648438, 0.577148, 0.597168, 0.539551, 0.560059, 0.493896 ] }, { "question_id": "10109691", "image_id": 369512, "question": "có bao nhiêu người đàn ông trên sông với ba con voi", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "hai", "một", "sáu", "mười", "tám", "bảy", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.502233, "confidences": [ 0.502233, 0.311844, 0.156805, 0.011448, 0.008376, 0.002353, 0.001069, 0.000913, 0.000516, 0.00025 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.848145, 0.829102, 0.73584, 0.6875, 0.672363, 0.538574, 0.498779, 0.536621, 0.380127 ] }, { "question_id": "10027451", "image_id": 317153, "question": "công nhân đẩy một giỏ hàng với hàng hóa ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "kho", "ga-ra", "sân bay", "phòng", "trạm", "bảo tàng", "ô cửa", "nhà ở", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.511154, "confidences": [ 0.511154, 0.404356, 0.038203, 0.008933, 0.007234, 0.00391, 0.003478, 0.003384, 0.00258, 0.001255 ], "gate_score_top1": 0.862793, "gate_scores": [ 0.862793, 0.848633, 0.796875, 0.782715, 0.663086, 0.723633, 0.682129, 0.681152, 0.645508, 0.532227 ] }, { "question_id": "10061671", "image_id": 340701, "question": "cái gì đậu ở trạm xe buýt trên đường thành phố", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe buýt", "xe cộ", "đường", "tường", "tòa nhà", "phương tiện giao thông", "cây", "đường đi bộ", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.404913, "confidences": [ 0.404913, 0.227136, 0.094684, 0.017176, 0.013455, 0.012347, 0.01077, 0.009999, 0.009284, 0.008998 ], "gate_score_top1": 0.777832, "gate_scores": [ 0.777832, 0.710938, 0.660645, 0.553711, 0.391357, 0.644043, 0.600586, 0.431641, 0.427246, 0.5625 ] }, { "question_id": "10046321", "image_id": 529860, "question": "con chó nhỏ đang được mang đến đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "balo", "predicted_topk": [ "balo", "cái túi", "hành lý", "vali", "cái ví", "áo khoác", "áo vest", "túi", "ô cửa", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.530847, "confidences": [ 0.530847, 0.433264, 0.009387, 0.007086, 0.005412, 0.001303, 0.001196, 0.000754, 0.000747, 0.000516 ], "gate_score_top1": 0.89209, "gate_scores": [ 0.89209, 0.871582, 0.797363, 0.796875, 0.776855, 0.663086, 0.699219, 0.584473, 0.592285, 0.583008 ] }, { "question_id": "10014761", "image_id": 198788, "question": "màu sắc của chiếc váy là gì", "ground_truth": "màu trắng", "ground_truth_normalized": "màu trắng", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu trắng", "màu xanh dương", "bánh", "màu cam", "màu xám", "màu nâu", "màu vàng", "màu xanh lá", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.936542, "confidences": [ 0.936542, 0.056244, 0.002017, 0.00041, 0.000393, 0.000353, 0.000312, 0.000297, 0.00023, 0.000199 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.832031, 0.705566, 0.470215, 0.456055, 0.534668, 0.587402, 0.54541, 0.544922, 0.485596 ] }, { "question_id": "10111371", "image_id": 272117, "question": "có bao nhiêu người đang ngồi quanh bàn với một cái bánh", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "năm", "một", "sáu", "mười", "bảy", "tám", "quán bar" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.760468, "confidences": [ 0.760468, 0.226557, 0.010432, 0.001849, 0.000128, 5.8e-05, 5e-05, 2.4e-05, 1.2e-05, 9e-06 ], "gate_score_top1": 0.912598, "gate_scores": [ 0.912598, 0.836914, 0.777344, 0.733887, 0.506836, 0.578125, 0.411133, 0.371826, 0.323975, 0.216797 ] }, { "question_id": "10043101", "image_id": 340419, "question": "thức ăn gần như đã sẵn sàng ở đâu", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "món ăn", "chảo", "lò vi sóng", "phòng bếp", "bát", "bữa ăn", "giấy bạc", "cà rốt", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.573307, "confidences": [ 0.573307, 0.210086, 0.18324, 0.005229, 0.00195, 0.001857, 0.001325, 0.000819, 0.000753, 0.000651 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.832031, 0.803711, 0.613281, 0.686523, 0.713379, 0.513184, 0.493408, 0.491455, 0.688477 ] }, { "question_id": "10059561", "image_id": 414340, "question": "những gì bên cạnh một nhà thờ nhỏ màu trắng", "ground_truth": "đồng hồ", "ground_truth_normalized": "đồng hồ", "predicted_top1": "tòa tháp", "predicted_topk": [ "tòa tháp", "đồng hồ", "cờ", "tòa nhà", "bức tượng", "cây", "mặt trời", "bức ảnh", "bầu trời", "các tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.864361, "confidences": [ 0.864361, 0.116068, 0.004982, 0.003659, 0.001531, 0.001507, 0.0013, 0.000886, 0.000411, 0.00031 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.805176, 0.631836, 0.733887, 0.591797, 0.702637, 0.640625, 0.689941, 0.555664, 0.585938 ] }, { "question_id": "10080821", "image_id": 449981, "question": "hình ảnh của một động vật vườn thú là gì", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "con voi", "predicted_topk": [ "con voi", "bức ảnh", "thân cây", "quả bóng", "nước", "bờ biển", "bãi cỏ", "màu cam", "đồi", "hoa quả" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.551813, "confidences": [ 0.551813, 0.09294, 0.048123, 0.02818, 0.018919, 0.009691, 0.009211, 0.008594, 0.008436, 0.008362 ], "gate_score_top1": 0.67041, "gate_scores": [ 0.67041, 0.567383, 0.61377, 0.522461, 0.449951, 0.483398, 0.568848, 0.463135, 0.560059, 0.414062 ] }, { "question_id": "10066651", "image_id": 411943, "question": "những gì chỉ có nhà vệ sinh và bể chứa cho nhà vệ sinh bị treo trên tường phía trên nhà vệ sinh", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "tường", "sàn nhà", "nhà ở", "chuồng", "ô cửa", "buồng", "trang thiết bị", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.649039, "confidences": [ 0.649039, 0.242528, 0.013133, 0.011726, 0.010089, 0.00461, 0.0041, 0.004068, 0.003943, 0.003053 ], "gate_score_top1": 0.802734, "gate_scores": [ 0.802734, 0.755859, 0.612793, 0.624023, 0.591797, 0.609863, 0.492432, 0.514648, 0.438721, 0.601562 ] }, { "question_id": "10076771", "image_id": 392476, "question": "những gì được sắp xếp rất gọn gàng với thiết bị điện tử", "ground_truth": "cái bàn", "ground_truth_normalized": "cái bàn", "predicted_top1": "máy tính", "predicted_topk": [ "máy tính", "cái bàn", "trang thiết bị", "laptop", "bàn phím", "văn phòng", "quầy tính tiền", "con ngựa", "màn", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.61021, "confidences": [ 0.61021, 0.316573, 0.025986, 0.025483, 0.006494, 0.001545, 0.001148, 0.000869, 0.000526, 0.000469 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.847168, 0.740234, 0.762207, 0.759766, 0.589355, 0.616699, 0.554199, 0.505859, 0.561035 ] }, { "question_id": "10101551", "image_id": 477906, "question": "người đàn ông mặc những gì đang nhảy trên ván trượt của mình", "ground_truth": "áo sơ mi", "ground_truth_normalized": "áo sơ mi", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "áo sơ mi", "trượt tuyết", "mũ", "đồi", "mặt nạ", "bức tranh", "máy ảnh", "nón", "núi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.381908, "confidences": [ 0.381908, 0.367277, 0.089654, 0.010158, 0.009692, 0.007417, 0.005833, 0.005555, 0.005143, 0.005048 ], "gate_score_top1": 0.769531, "gate_scores": [ 0.769531, 0.790039, 0.663086, 0.544922, 0.5625, 0.678223, 0.547363, 0.705078, 0.687012, 0.578125 ] }, { "question_id": "10054011", "image_id": 534827, "question": "năm người cưỡi những gì trên đường", "ground_truth": "xe máy", "ground_truth_normalized": "xe máy", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe máy", "xe tay ga", "mũ", "cây", "con khỉ", "bến tàu", "đầm", "đường", "chim bồ câu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.544297, "confidences": [ 0.544297, 0.437355, 0.003046, 0.001944, 0.000892, 0.000747, 0.000718, 0.000682, 0.000615, 0.000609 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.896973, 0.643555, 0.672852, 0.588867, 0.513672, 0.489014, 0.565918, 0.587402, 0.55957 ] }, { "question_id": "10038051", "image_id": 442793, "question": "những con ngựa vằn nằm ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "bãi cỏ", "ngựa rằn", "cỏ khô", "chuồng trại", "đường sắt", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.934177, "confidences": [ 0.934177, 0.048933, 0.009749, 0.002573, 0.000258, 0.000249, 0.000227, 0.000212, 0.000192, 0.000186 ], "gate_score_top1": 0.916016, "gate_scores": [ 0.916016, 0.809082, 0.759766, 0.666016, 0.583984, 0.555176, 0.428711, 0.683105, 0.508789, 0.586426 ] }, { "question_id": "10105311", "image_id": 106567, "question": "có bao nhiêu người lớn ngồi quanh bàn dùng bữa với ba đứa trẻ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "năm", "bảy", "mười", "tám", "hai", "ba", "chín", "một" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.318417, "confidences": [ 0.318417, 0.285427, 0.266047, 0.057762, 0.014777, 0.013827, 0.010356, 0.00622, 0.004463, 0.002887 ], "gate_score_top1": 0.793457, "gate_scores": [ 0.793457, 0.820801, 0.827148, 0.707031, 0.631348, 0.61377, 0.613281, 0.702148, 0.505371, 0.578125 ] }, { "question_id": "10095501", "image_id": 497096, "question": "những gì trong quá trình hạ cánh", "ground_truth": "máy bay trực thăng", "ground_truth_normalized": "máy bay trực thăng", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "máy bay trực thăng", "màu đỏ", "diều", "động cơ", "bến tàu", "ga-ra", "con chim", "sân bay", "bảo tàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.956575, "confidences": [ 0.956575, 0.027136, 0.001691, 0.001464, 0.000622, 0.00055, 0.000527, 0.000325, 0.000292, 0.000278 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.640625, 0.503418, 0.559082, 0.545898, 0.3396, 0.439941, 0.557129, 0.388184, 0.384033 ] }, { "question_id": "10035931", "image_id": 557239, "question": "mèo trắng cuộn tròn ở đâu", "ground_truth": "bát", "ground_truth_normalized": "bát", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "bát", "tách", "bồn tắm", "thùng chứa", "phòng tắm", "con mèo", "gầu múc", "giường", "lọ cắm hoa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.488163, "confidences": [ 0.488163, 0.447963, 0.007456, 0.006882, 0.006097, 0.004721, 0.00407, 0.002754, 0.002128, 0.001949 ], "gate_score_top1": 0.833008, "gate_scores": [ 0.833008, 0.823242, 0.649414, 0.682617, 0.543457, 0.563477, 0.645508, 0.539551, 0.52002, 0.618652 ] }, { "question_id": "10035291", "image_id": 302481, "question": "đâu là bến trực thăng", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "kho", "tòa nhà", "trạm", "bảo tàng", "sân bay", "phòng", "máy bay", "chuồng trại", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.555688, "confidences": [ 0.555688, 0.368725, 0.030864, 0.007653, 0.005523, 0.003715, 0.002375, 0.002271, 0.00189, 0.001779 ], "gate_score_top1": 0.812012, "gate_scores": [ 0.812012, 0.819336, 0.763672, 0.699219, 0.601562, 0.668945, 0.636719, 0.585938, 0.53125, 0.562012 ] }, { "question_id": "10039851", "image_id": 238887, "question": "phòng tắm có hai bồn rửa mặt ở đâu?", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "chuồng", "nhà ở", "ô cửa", "gương", "bồn tắm", "chậu", "buồng", "ảnh chụp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.423316, "confidences": [ 0.423316, 0.223945, 0.155122, 0.104552, 0.042078, 0.009687, 0.002711, 0.002527, 0.002498, 0.001871 ], "gate_score_top1": 0.80127, "gate_scores": [ 0.80127, 0.84082, 0.810547, 0.789551, 0.681641, 0.709473, 0.624512, 0.407715, 0.505859, 0.469971 ] }, { "question_id": "10020151", "image_id": 441058, "question": "màu của căn phòng là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu xanh lá", "màu xám", "màu cam", "màu đen", "màu trắng", "màu đỏ", "màu tía", "màu vàng", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.476877, "confidences": [ 0.476877, 0.444499, 0.048716, 0.009407, 0.003207, 0.002587, 0.002278, 0.000798, 0.00078, 0.00076 ], "gate_score_top1": 0.811035, "gate_scores": [ 0.811035, 0.847168, 0.725586, 0.641602, 0.540039, 0.644043, 0.614258, 0.493652, 0.552246, 0.51416 ] }, { "question_id": "10034151", "image_id": 474279, "question": "đâu là nhà vệ sinh cũ đã phá hủy", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "phòng", "nhà ở", "tòa nhà", "chuồng", "ô cửa", "hành lang", "hai", "sàn nhà", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.525781, "confidences": [ 0.525781, 0.435888, 0.011661, 0.004478, 0.003691, 0.00106, 0.000946, 0.000835, 0.000792, 0.00072 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.814941, 0.711914, 0.695801, 0.631836, 0.533203, 0.519043, 0.629883, 0.476074, 0.491943 ] }, { "question_id": "10067011", "image_id": 542234, "question": "những gì đang bay trên mặt nước vào lúc hoàng hôn", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vịt", "máy bay", "con vẹt", "diều", "con ngựa", "chim ưng", "chai", "chim bồ câu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.641371, "confidences": [ 0.641371, 0.345993, 0.00177, 0.001352, 0.000755, 0.000699, 0.000367, 0.000305, 0.000227, 0.000225 ], "gate_score_top1": 0.866699, "gate_scores": [ 0.866699, 0.827637, 0.561523, 0.578613, 0.598633, 0.549316, 0.465576, 0.449707, 0.504883, 0.518066 ] }, { "question_id": "10065951", "image_id": 342060, "question": "cái gì đang ngồi trên băng ghế công viên bên cạnh một hành lý nhỏ với một chiếc ô trên đầu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "vali", "cái túi", "băng ghế", "túi", "hành lý", "thùng", "balo", "sàn nhà", "chiếc ô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.631666, "confidences": [ 0.631666, 0.143724, 0.088546, 0.0193, 0.016932, 0.013901, 0.00389, 0.003712, 0.003241, 0.002951 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.838379, 0.803711, 0.584473, 0.723633, 0.665527, 0.622559, 0.620117, 0.514648, 0.547852 ] }, { "question_id": "10089401", "image_id": 473754, "question": "người đàn ông và một người phụ nữ đứng bên cạnh nhau ở bãi biển", "ground_truth": "bảng", "ground_truth_normalized": "bảng", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "bảng", "bờ biển", "áo ba lỗ", "cái lều", "lối đi", "cây sào", "diều", "ca nô", "mười" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.548144, "confidences": [ 0.548144, 0.391741, 0.029624, 0.007758, 0.002113, 0.001338, 0.000939, 0.000854, 0.00068, 0.000635 ], "gate_score_top1": 0.802734, "gate_scores": [ 0.802734, 0.8125, 0.727539, 0.577637, 0.606934, 0.443604, 0.474365, 0.552246, 0.567871, 0.492676 ] }, { "question_id": "10110601", "image_id": 488243, "question": "có bao nhiêu người trên ván trượt trên một con dốc lạnh lẽo", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "mười", "một", "chín", "hai" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.655912, "confidences": [ 0.655912, 0.239419, 0.095234, 0.006136, 0.000615, 0.000377, 0.000372, 0.000295, 0.000169, 0.000162 ], "gate_score_top1": 0.908203, "gate_scores": [ 0.908203, 0.891602, 0.850586, 0.760742, 0.647461, 0.548828, 0.564941, 0.625488, 0.456543, 0.543945 ] }, { "question_id": "10103281", "image_id": 212838, "question": "có bao nhiêu cách cho thấy người đàn ông làm mặt", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bốn", "năm", "bảy", "tám", "chín", "bức ảnh", "mười", "một", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.720828, "confidences": [ 0.720828, 0.140835, 0.06731, 0.041631, 0.012846, 0.001552, 0.001528, 0.001433, 0.001099, 0.00055 ], "gate_score_top1": 0.860352, "gate_scores": [ 0.860352, 0.800781, 0.772949, 0.789551, 0.70166, 0.537598, 0.527832, 0.496582, 0.527344, 0.592773 ] }, { "question_id": "10049471", "image_id": 224155, "question": "người đàn ông đang chụp ảnh tự sướng ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "máy ảnh", "vòi hoa sen", "chậu", "ô cửa", "nhà ở", "quầy tính tiền", "phòng", "buồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.684929, "confidences": [ 0.684929, 0.311143, 0.00137, 0.000304, 0.000147, 0.000109, 9.3e-05, 8.6e-05, 7.9e-05, 6.4e-05 ], "gate_score_top1": 0.916504, "gate_scores": [ 0.916504, 0.920898, 0.566406, 0.585449, 0.532715, 0.457275, 0.541992, 0.53125, 0.455078, 0.388428 ] }, { "question_id": "10037021", "image_id": 28690, "question": "nhiều ngựa vằn đang cùng nhau ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "chuồng trại", "bảo tàng", "cửa tiệm", "ảnh chụp", "nhà ở", "phòng tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.825546, "confidences": [ 0.825546, 0.163835, 0.002852, 0.001155, 0.00041, 0.000382, 0.000283, 0.00028, 0.000227, 0.00022 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.830566, 0.658691, 0.556152, 0.61377, 0.527832, 0.568848, 0.510742, 0.530273, 0.593262 ] }, { "question_id": "10048751", "image_id": 189278, "question": "hai lò nướng ở đâu, và một trong số chúng đang được sử dụng", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "lò vi sóng", "chảo", "phòng", "nhà ở", "cửa tiệm", "cửa hàng", "cái thìa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.60932, "confidences": [ 0.60932, 0.355413, 0.026772, 0.001024, 0.000943, 0.000501, 0.000425, 0.000407, 0.000308, 0.000303 ], "gate_score_top1": 0.918457, "gate_scores": [ 0.918457, 0.885254, 0.850098, 0.643555, 0.699707, 0.662109, 0.653809, 0.658691, 0.620605, 0.572266 ] }, { "question_id": "10075121", "image_id": 531563, "question": "cái gì gắn lò nướng màu đen bên cạnh mặt quầy", "ground_truth": "tường", "ground_truth_normalized": "tường", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "tường", "bếp", "buồng", "quầy tính tiền", "tủ đá", "chậu", "phòng bếp", "màu đen", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.54151, "confidences": [ 0.54151, 0.152144, 0.049976, 0.049394, 0.039535, 0.015603, 0.014179, 0.00939, 0.007861, 0.00777 ], "gate_score_top1": 0.798828, "gate_scores": [ 0.798828, 0.71582, 0.784668, 0.558105, 0.775391, 0.700195, 0.626953, 0.612305, 0.559082, 0.604492 ] }, { "question_id": "10012851", "image_id": 229352, "question": "màu của vùng đât là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xanh lá", "màu đen", "màu xanh dương", "màu tía", "màu đỏ", "màu trắng", "màu xám", "màu cam", "dĩa nhựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.502014, "confidences": [ 0.502014, 0.494231, 0.001, 0.000418, 0.000355, 0.000284, 0.0002, 0.000199, 0.000166, 9.4e-05 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.890137, 0.630371, 0.666016, 0.641602, 0.547363, 0.602539, 0.494629, 0.519043, 0.387695 ] }, { "question_id": "10007031", "image_id": 531289, "question": "màu của bánh là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu vàng", "màu cam", "màu đỏ", "màu xanh lá", "màu nâu", "màu xanh dương", "màu xám", "bánh", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.446736, "confidences": [ 0.446736, 0.329402, 0.206135, 0.002535, 0.002101, 0.001783, 0.001514, 0.001349, 0.000916, 0.00065 ], "gate_score_top1": 0.858398, "gate_scores": [ 0.858398, 0.838867, 0.808594, 0.627441, 0.645996, 0.634277, 0.586426, 0.562988, 0.39624, 0.619629 ] }, { "question_id": "10070911", "image_id": 384213, "question": "những gì được hiển thị với sự đa dạng của các mặt hàng trên quầy", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "phòng bếp", "quầy tính tiền", "buồng", "phòng", "sân khấu", "nhà ở", "cửa sổ", "cái thìa", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.759559, "confidences": [ 0.759559, 0.214243, 0.008843, 0.001561, 0.001294, 0.001228, 0.001158, 0.001092, 0.000755, 0.000698 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.899414, 0.694336, 0.487305, 0.632812, 0.459473, 0.561523, 0.549316, 0.449463, 0.596191 ] }, { "question_id": "10112131", "image_id": 435334, "question": "có bao nhiêu con ngựa chăn thả trong các chuồng khác nhau, một số mặc chăn", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "hai", "một", "sáu", "mười", "bãi cỏ", "đồi", "bảy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.533442, "confidences": [ 0.533442, 0.311154, 0.142457, 0.006067, 0.001614, 0.001185, 0.00101, 0.000307, 0.000225, 0.000215 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.84082, 0.863281, 0.759277, 0.634766, 0.624023, 0.552734, 0.567383, 0.473877, 0.418701 ] }, { "question_id": "10031681", "image_id": 207740, "question": "con mèo ngồi ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hộp", "hành lý", "xe đẩy", "thùng chứa", "sàn nhà", "toa xe", "cái ví", "bồn tắm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.720641, "confidences": [ 0.720641, 0.158304, 0.048092, 0.020284, 0.005961, 0.00525, 0.003871, 0.003723, 0.002105, 0.001258 ], "gate_score_top1": 0.897461, "gate_scores": [ 0.897461, 0.819824, 0.72998, 0.730957, 0.649414, 0.592773, 0.503906, 0.611816, 0.61084, 0.59082 ] }, { "question_id": "10117011", "image_id": 168453, "question": "có bao nhiêu người đang tận hưởng thời gian của họ trên bãi biển", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "năm", "predicted_topk": [ "năm", "bảy", "bốn", "sáu", "hai", "một", "mười", "chín", "tám", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.414919, "confidences": [ 0.414919, 0.346678, 0.082666, 0.052136, 0.032882, 0.025409, 0.015963, 0.008346, 0.008153, 0.006577 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.843262, 0.753906, 0.780762, 0.733398, 0.663086, 0.660645, 0.62207, 0.671875, 0.675293 ] }, { "question_id": "10049751", "image_id": 524662, "question": "nhiều trái cây và rau quả ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "thùng chứa", "rau", "bát", "ảnh chụp", "sáu", "toa xe", "món ăn", "tòa nhà", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.595183, "confidences": [ 0.595183, 0.390331, 0.001705, 0.001367, 0.000637, 0.000406, 0.000389, 0.000326, 0.000317, 0.000316 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.897461, 0.618652, 0.697754, 0.697266, 0.580078, 0.63916, 0.663574, 0.456787, 0.670898 ] }, { "question_id": "10087951", "image_id": 473942, "question": "cái gì đang bị treo trên móc", "ground_truth": "đồ chơi", "ground_truth_normalized": "đồ chơi", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "đồ chơi", "cái kệ", "con chó", "chuột", "khung", "móng vuốt", "gấu trúc", "nón", "con cừu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.639366, "confidences": [ 0.639366, 0.350344, 0.000772, 0.000622, 0.000567, 0.000498, 0.000319, 0.000273, 0.00026, 0.000195 ], "gate_score_top1": 0.838379, "gate_scores": [ 0.838379, 0.870117, 0.594727, 0.563965, 0.51709, 0.503906, 0.519043, 0.512695, 0.542969, 0.460205 ] }, { "question_id": "10079991", "image_id": 559113, "question": "những gì đang di chuyển trên một con đường với các tòa nhà cao tầng", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe đẩy", "xe", "tàu hỏa", "xe điện", "xe cộ", "trạm", "toa xe", "xe buýt", "xe tải" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.697612, "confidences": [ 0.697612, 0.197541, 0.015839, 0.013495, 0.006616, 0.00585, 0.005193, 0.0047, 0.002947, 0.002551 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.744141, 0.667969, 0.638672, 0.578613, 0.606934, 0.541992, 0.561523, 0.53125, 0.66748 ] }, { "question_id": "10102691", "image_id": 340259, "question": "có bao nhiêu ly rượu trên quầy", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "tám", "một", "ba", "mười", "chín", "sàn nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.760979, "confidences": [ 0.760979, 0.233906, 0.002205, 0.001343, 0.000278, 0.000164, 0.00014, 7.5e-05, 3.3e-05, 3.2e-05 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.875, 0.70166, 0.693359, 0.531738, 0.606445, 0.580078, 0.483887, 0.412354, 0.344238 ] }, { "question_id": "10056321", "image_id": 363276, "question": "nam đeo kính râm đang cầm cái gì", "ground_truth": "ngoài trời", "ground_truth_normalized": "ngoài trời", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "ngoài trời", "áo sơ mi", "màu xanh lá", "màu tía", "bánh", "dĩa nhựa", "bữa ăn", "món ăn", "đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.691576, "confidences": [ 0.691576, 0.12112, 0.039169, 0.034974, 0.00874, 0.005811, 0.004687, 0.002979, 0.002837, 0.00232 ], "gate_score_top1": 0.701172, "gate_scores": [ 0.701172, 0.651367, 0.563477, 0.688477, 0.597168, 0.54834, 0.512207, 0.532227, 0.494873, 0.306885 ] }, { "question_id": "10070511", "image_id": 440123, "question": "cái gì đang trưng bày những chiếc bánh pizza tự làm với một cái ly bên cạnh nó", "ground_truth": "đĩa", "ground_truth_normalized": "đĩa", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "đĩa", "đĩa ăn", "bữa ăn", "bữa trưa", "kính đeo", "dĩa", "pizza", "quầy tính tiền", "chai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.452476, "confidences": [ 0.452476, 0.307359, 0.075322, 0.017856, 0.014097, 0.009557, 0.009209, 0.00832, 0.004704, 0.003787 ], "gate_score_top1": 0.782227, "gate_scores": [ 0.782227, 0.796387, 0.706055, 0.708984, 0.65918, 0.656738, 0.600098, 0.575195, 0.629883, 0.55957 ] }, { "question_id": "10101541", "image_id": 489588, "question": "những gì đang chăn thả trên một cánh đồng mở", "ground_truth": "con bò", "ground_truth_normalized": "con bò", "predicted_top1": "con cừu", "predicted_topk": [ "con cừu", "con bò", "cái lều", "gia súc", "con heo", "áo choàng", "bãi cỏ", "con dê", "hay", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.745056, "confidences": [ 0.745056, 0.222834, 0.003933, 0.00263, 0.00208, 0.001829, 0.001815, 0.001766, 0.001389, 0.001252 ], "gate_score_top1": 0.82373, "gate_scores": [ 0.82373, 0.826172, 0.581543, 0.598145, 0.512207, 0.395996, 0.628418, 0.365723, 0.505371, 0.556152 ] }, { "question_id": "10100541", "image_id": 579277, "question": "những gì đỗ ở lối đi ngoài trời", "ground_truth": "xe tay ga", "ground_truth_normalized": "xe tay ga", "predicted_top1": "cửa hàng", "predicted_topk": [ "cửa hàng", "xe tay ga", "xe máy", "xe đạp", "rau", "cửa tiệm", "cây", "rau quả", "bát", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.696468, "confidences": [ 0.696468, 0.223476, 0.012436, 0.009461, 0.00875, 0.003012, 0.001716, 0.001518, 0.00143, 0.001236 ], "gate_score_top1": 0.817871, "gate_scores": [ 0.817871, 0.811035, 0.710938, 0.68457, 0.565918, 0.507324, 0.563477, 0.393799, 0.586914, 0.602051 ] }, { "question_id": "10094031", "image_id": 491131, "question": "những gì cho thấy băng ghế gỗ ở phía đường phố", "ground_truth": "những bức ảnh", "ground_truth_normalized": "những bức ảnh", "predicted_top1": "băng ghế", "predicted_topk": [ "băng ghế", "những bức ảnh", "cái ghế", "rào chắn", "cây", "hồ", "tường", "xe ô tô", "cửa sổ", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.337756, "confidences": [ 0.337756, 0.213853, 0.027617, 0.021719, 0.020724, 0.019092, 0.016362, 0.013328, 0.011971, 0.010658 ], "gate_score_top1": 0.69043, "gate_scores": [ 0.69043, 0.588867, 0.518555, 0.675293, 0.575195, 0.630859, 0.606934, 0.522949, 0.599609, 0.448242 ] }, { "question_id": "10101011", "image_id": 546649, "question": "nhà tù những gì với hai giường và sơn bong tróc từ tường", "ground_truth": "điện thoại", "ground_truth_normalized": "điện thoại", "predicted_top1": "giường", "predicted_topk": [ "giường", "điện thoại", "phòng", "tường", "phòng ngủ", "bàn chải", "khăn", "màn", "đèn để bàn", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.463273, "confidences": [ 0.463273, 0.303822, 0.062943, 0.013193, 0.010335, 0.009121, 0.005077, 0.004631, 0.003275, 0.003137 ], "gate_score_top1": 0.725098, "gate_scores": [ 0.725098, 0.662109, 0.71875, 0.461914, 0.607422, 0.452881, 0.53418, 0.456787, 0.522461, 0.347412 ] }, { "question_id": "10094461", "image_id": 425727, "question": "người phụ nữ bay trong ngày là gì", "ground_truth": "ngoài", "ground_truth_normalized": "ngoài", "predicted_top1": "diều", "predicted_topk": [ "diều", "ngoài", "cây", "áo sơ mi", "màu xanh lá", "dĩa nhựa", "màu vàng", "mũ", "máy bay", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.55111, "confidences": [ 0.55111, 0.135055, 0.082881, 0.034821, 0.017959, 0.01613, 0.013346, 0.008336, 0.006607, 0.004782 ], "gate_score_top1": 0.818359, "gate_scores": [ 0.818359, 0.588867, 0.693359, 0.608887, 0.663086, 0.605957, 0.526367, 0.546875, 0.640625, 0.526855 ] }, { "question_id": "10039081", "image_id": 370479, "question": "đầu bếp và bồi bàn đang ở đâu", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "cửa hàng", "phòng", "cửa tiệm", "bát", "chảo", "quầy tính tiền", "lò vi sóng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.696656, "confidences": [ 0.696656, 0.238884, 0.04949, 0.002235, 0.00173, 0.001337, 0.000692, 0.000648, 0.000478, 0.000372 ], "gate_score_top1": 0.901367, "gate_scores": [ 0.901367, 0.871094, 0.79541, 0.638184, 0.68457, 0.658691, 0.657227, 0.654297, 0.508301, 0.555664 ] }, { "question_id": "10071861", "image_id": 405882, "question": "những gì nằm trên bàn, sẵn sàng để được cắt", "ground_truth": "bánh", "ground_truth_normalized": "bánh", "predicted_top1": "dĩa", "predicted_topk": [ "dĩa", "bánh", "dao", "đĩa ăn", "sô cô la", "bữa ăn", "nến", "mũ lưỡi trai", "cà rốt", "cái nĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.671578, "confidences": [ 0.671578, 0.240396, 0.016264, 0.005676, 0.004836, 0.003436, 0.002188, 0.00208, 0.001671, 0.001453 ], "gate_score_top1": 0.807617, "gate_scores": [ 0.807617, 0.724609, 0.643555, 0.682617, 0.619141, 0.560547, 0.49585, 0.391602, 0.47168, 0.497314 ] }, { "question_id": "10062841", "image_id": 560111, "question": "những gì đang ngồi trong một sân tàu", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "xe tải", "xe buýt", "xe điện ngầm", "xe", "màu đỏ", "mũ" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.630463, "confidences": [ 0.630463, 0.304872, 0.028804, 0.009838, 0.002824, 0.001316, 0.001205, 0.001152, 0.000903, 0.000747 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.800293, 0.794434, 0.669434, 0.730957, 0.632324, 0.486816, 0.429443, 0.605957, 0.406738 ] }, { "question_id": "10019571", "image_id": 404673, "question": "màu của con mèo là gì", "ground_truth": "màu đen", "ground_truth_normalized": "màu đen", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu đen", "màu vàng", "màu cam", "màu xanh dương", "màu xanh lá", "cái ghế", "màu đỏ", "màu tía", "màu trắng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.946357, "confidences": [ 0.946357, 0.052153, 0.000358, 0.000226, 7.4e-05, 6.6e-05, 5.8e-05, 4e-05, 3e-05, 2.9e-05 ], "gate_score_top1": 0.908691, "gate_scores": [ 0.908691, 0.836426, 0.541016, 0.616699, 0.617188, 0.540039, 0.535645, 0.565918, 0.527832, 0.579102 ] }, { "question_id": "10065091", "image_id": 533281, "question": "những gì treo bên cạnh lò pizza", "ground_truth": "mái chèo", "ground_truth_normalized": "mái chèo", "predicted_top1": "tường", "predicted_topk": [ "tường", "mái chèo", "pizza", "lò vi sóng", "bức tượng", "quầy tính tiền", "bữa ăn", "cái bàn", "áo sơ mi", "tạp dề" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.179835, "confidences": [ 0.179835, 0.168939, 0.066937, 0.062149, 0.025556, 0.021604, 0.020098, 0.01449, 0.01352, 0.012875 ], "gate_score_top1": 0.683105, "gate_scores": [ 0.683105, 0.597168, 0.662109, 0.683594, 0.603516, 0.659668, 0.583008, 0.484619, 0.643555, 0.533691 ] }, { "question_id": "10113141", "image_id": 432233, "question": "có bao nhiêu người đàn ông đang chơi trò chơi trên bãi cỏ", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "hai", "predicted_topk": [ "hai", "năm", "sáu", "bảy", "mười", "chín", "tám", "một", "bốn", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.577478, "confidences": [ 0.577478, 0.169374, 0.092809, 0.090306, 0.013849, 0.012708, 0.012079, 0.010536, 0.007559, 0.001919 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.804688, 0.788086, 0.788574, 0.668457, 0.588867, 0.62793, 0.594727, 0.65625, 0.619141 ] }, { "question_id": "10039541", "image_id": 16664, "question": "con mèo cuộn tròn ngủ ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "bát", "predicted_topk": [ "bát", "thùng chứa", "chậu", "tách", "bồn tắm", "giường", "gầu múc", "con mèo", "cái nồi", "mèo con" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.56156, "confidences": [ 0.56156, 0.105927, 0.094952, 0.081217, 0.020656, 0.019518, 0.013626, 0.009949, 0.009202, 0.006094 ], "gate_score_top1": 0.812988, "gate_scores": [ 0.812988, 0.706055, 0.763672, 0.70752, 0.722656, 0.609863, 0.570312, 0.600586, 0.688477, 0.479736 ] }, { "question_id": "10107641", "image_id": 414747, "question": "có bao nhiêu người đàn ông đang đứng cùng nhau trong khi một người sửa chiếc nơ của mình", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "mười", "bốn", "bảy", "cà vạt", "năm", "đồng hồ", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.739494, "confidences": [ 0.739494, 0.247699, 0.011141, 0.000195, 9.4e-05, 5.4e-05, 5.4e-05, 3.6e-05, 3.3e-05, 3.1e-05 ], "gate_score_top1": 0.85791, "gate_scores": [ 0.85791, 0.861816, 0.83252, 0.470947, 0.473145, 0.337646, 0.47168, 0.51123, 0.353516, 0.264404 ] }, { "question_id": "10106891", "image_id": 248229, "question": "có bao nhiêu người trên lưng ngựa đang cưỡi trên bãi biển", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "mười", "bảy", "ba", "hai", "tám", "một", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.678228, "confidences": [ 0.678228, 0.289432, 0.022232, 0.002504, 0.002201, 0.001735, 0.001032, 0.000351, 0.000177, 0.000131 ], "gate_score_top1": 0.905273, "gate_scores": [ 0.905273, 0.868652, 0.772461, 0.615723, 0.693359, 0.700195, 0.659668, 0.466309, 0.49585, 0.450684 ] }, { "question_id": "10073301", "image_id": 387355, "question": "chewing trên cành cây là gì", "ground_truth": "quán bar", "ground_truth_normalized": "quán bar", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "quán bar", "cây", "móng vuốt", "con chim", "lá", "đồi", "màu trắng", "gấu trúc", "vườn bách thú" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.210278, "confidences": [ 0.210278, 0.123375, 0.089735, 0.039665, 0.018828, 0.013896, 0.013614, 0.01224, 0.010993, 0.009692 ], "gate_score_top1": 0.583984, "gate_scores": [ 0.583984, 0.385254, 0.720215, 0.566895, 0.544434, 0.481934, 0.473145, 0.489746, 0.4729, 0.4021 ] }, { "question_id": "10105011", "image_id": 288825, "question": "có bao nhiêu chiếc thuyền neo đậu trong đầm phá với bãi biển cát trắng", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "bốn", "một", "năm", "mười", "con thuyền", "sáu", "bảy", "bến du thuyền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.604644, "confidences": [ 0.604644, 0.381344, 0.009622, 0.001323, 0.00114, 0.000387, 7.8e-05, 7.4e-05, 6.8e-05, 4.3e-05 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.897461, 0.675293, 0.574219, 0.710449, 0.488037, 0.360596, 0.515625, 0.418701, 0.234619 ] }, { "question_id": "10105561", "image_id": 255176, "question": "có bao nhiêu con chim trên dây điện một mình", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "tám", "chín", "một", "mười", "hai", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.561317, "confidences": [ 0.561317, 0.31242, 0.083432, 0.024186, 0.011559, 0.001546, 0.000884, 0.000706, 0.000587, 0.000546 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.876465, 0.831055, 0.779297, 0.713867, 0.611328, 0.62793, 0.568848, 0.587402, 0.623535 ] }, { "question_id": "10062471", "image_id": 335085, "question": "đầy những chai thủy tinh đủ màu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cái kệ", "tủ đông", "cửa", "cỗ máy", "phòng bếp", "chai", "sàn nhà", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.703863, "confidences": [ 0.703863, 0.258937, 0.008965, 0.005925, 0.005459, 0.002064, 0.001267, 0.001242, 0.000945, 0.000874 ], "gate_score_top1": 0.821777, "gate_scores": [ 0.821777, 0.821289, 0.67334, 0.615234, 0.754883, 0.673828, 0.651855, 0.524414, 0.538574, 0.456299 ] }, { "question_id": "10102361", "image_id": 495124, "question": "có bao nhiêu người đàn ông đang ngồi trên chiếc ghế đẩu", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "hai", "predicted_topk": [ "hai", "một", "ba", "phòng", "bốn", "chung cư", "sàn nhà", "năm", "mười", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.936774, "confidences": [ 0.936774, 0.05942, 0.002642, 0.000405, 0.000166, 2.3e-05, 2.2e-05, 2.1e-05, 1.9e-05, 1.7e-05 ], "gate_score_top1": 0.90332, "gate_scores": [ 0.90332, 0.80957, 0.79834, 0.645996, 0.527832, 0.394531, 0.352051, 0.495361, 0.388428, 0.42749 ] }, { "question_id": "10040321", "image_id": 232410, "question": "thủy tinh trong suốt màu xanh như vật thể tròn ở đâu", "ground_truth": "kho", "ground_truth_normalized": "kho", "predicted_top1": "sân bay", "predicted_topk": [ "sân bay", "kho", "trạm", "áo vest", "tòa nhà", "ga-ra", "bảo tàng", "máy bay", "cửa hàng", "balo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.735508, "confidences": [ 0.735508, 0.214045, 0.009062, 0.005204, 0.004013, 0.003867, 0.001855, 0.001274, 0.001148, 0.00086 ], "gate_score_top1": 0.83252, "gate_scores": [ 0.83252, 0.836914, 0.685059, 0.64209, 0.70459, 0.62207, 0.667969, 0.48999, 0.632812, 0.505371 ] }, { "question_id": "10076141", "image_id": 505619, "question": "người phụ nữ uống cà phê và ăn gì", "ground_truth": "bánh", "ground_truth_normalized": "bánh", "predicted_top1": "cà phê", "predicted_topk": [ "cà phê", "bánh", "cupcake", "tách", "donut", "sô cô la", "món tráng miệng", "bánh ngọt", "chảo", "đồ uống" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.566475, "confidences": [ 0.566475, 0.26654, 0.019999, 0.015575, 0.007847, 0.006751, 0.006417, 0.005404, 0.003551, 0.003382 ], "gate_score_top1": 0.695801, "gate_scores": [ 0.695801, 0.780273, 0.616699, 0.513184, 0.647461, 0.473145, 0.589355, 0.52002, 0.645508, 0.519531 ] }, { "question_id": "10102601", "image_id": 185530, "question": "có bao nhiêu con cừu đang gặm cỏ trên sườn đồi xanh", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "sáu", "một", "bảy", "hai", "mười", "đồi", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.726776, "confidences": [ 0.726776, 0.261173, 0.006513, 0.002601, 0.000637, 0.000355, 0.000306, 0.000216, 0.000191, 0.000135 ], "gate_score_top1": 0.900391, "gate_scores": [ 0.900391, 0.871094, 0.8125, 0.742676, 0.666992, 0.575195, 0.621582, 0.547363, 0.495605, 0.436768 ] }, { "question_id": "10095721", "image_id": 505133, "question": "những gì được bao phủ bởi lò hơi đầy nước và các loại thực phẩm khác nhau", "ground_truth": "bếp", "ground_truth_normalized": "bếp", "predicted_top1": "lò vi sóng", "predicted_topk": [ "lò vi sóng", "bếp", "chảo", "thịt", "quầy tính tiền", "phòng bếp", "bữa ăn", "gà", "tường", "món ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.537728, "confidences": [ 0.537728, 0.228579, 0.064222, 0.026408, 0.01815, 0.013514, 0.011073, 0.008794, 0.007011, 0.0048 ], "gate_score_top1": 0.794922, "gate_scores": [ 0.794922, 0.77002, 0.661621, 0.543945, 0.669922, 0.658691, 0.61084, 0.529297, 0.48999, 0.479492 ] }, { "question_id": "10057831", "image_id": 545101, "question": "một nhà bếp trống với một cái bếp màu trắng", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "lò vi sóng", "cửa", "tường", "bếp", "tủ đá", "nhà ở", "cái kệ", "bức ảnh", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.666793, "confidences": [ 0.666793, 0.134939, 0.063492, 0.018226, 0.010304, 0.009775, 0.00748, 0.00543, 0.004944, 0.004718 ], "gate_score_top1": 0.80957, "gate_scores": [ 0.80957, 0.69873, 0.743164, 0.633789, 0.649902, 0.640625, 0.525391, 0.54834, 0.600586, 0.580078 ] }, { "question_id": "10060241", "image_id": 533589, "question": "những gì nằm bên cạnh kệ giữ nhiều chai khác nhau", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "tủ đông", "cái kệ", "sàn nhà", "cửa", "cửa ra vào", "cỗ máy", "hộp", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.643558, "confidences": [ 0.643558, 0.202505, 0.073918, 0.012946, 0.00518, 0.002778, 0.002552, 0.00248, 0.002478, 0.002274 ], "gate_score_top1": 0.806641, "gate_scores": [ 0.806641, 0.758301, 0.654297, 0.658691, 0.542969, 0.605469, 0.440674, 0.571289, 0.454834, 0.612305 ] }, { "question_id": "10044511", "image_id": 421656, "question": "đĩa rau ở đâu", "ground_truth": "đĩa ăn", "ground_truth_normalized": "đĩa ăn", "predicted_top1": "bát", "predicted_topk": [ "bát", "đĩa ăn", "món ăn", "chậu", "thùng chứa", "chảo", "cái nồi", "phòng bếp", "lọ cắm hoa", "bữa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.834327, "confidences": [ 0.834327, 0.099646, 0.042358, 0.002539, 0.001655, 0.001346, 0.000876, 0.000765, 0.000752, 0.000742 ], "gate_score_top1": 0.859863, "gate_scores": [ 0.859863, 0.683105, 0.73584, 0.588867, 0.538086, 0.612305, 0.632324, 0.664062, 0.648926, 0.373535 ] }, { "question_id": "10109891", "image_id": 161973, "question": "có bao nhiêu chiếc máy bay đóng thế cùng nhau bay trên không trung", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "sáu", "bảy", "tám", "chín", "ba", "một", "bát", "táo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.933061, "confidences": [ 0.933061, 0.063001, 0.001955, 0.000784, 0.00039, 9.1e-05, 4.4e-05, 1.8e-05, 1.6e-05, 1.6e-05 ], "gate_score_top1": 0.921875, "gate_scores": [ 0.921875, 0.866211, 0.778809, 0.705566, 0.567383, 0.52832, 0.527344, 0.459229, 0.34082, 0.340332 ] }, { "question_id": "10102611", "image_id": 467142, "question": "có bao nhiêu chiếc máy bay đều được trang trí giống nhau bay đồng loạt", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "tám", "chín", "năm", "bốn", "mười", "một", "hai", "núi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.498626, "confidences": [ 0.498626, 0.373453, 0.067219, 0.048986, 0.004314, 0.001514, 0.001029, 0.000629, 0.000475, 0.000205 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.858398, 0.803711, 0.79541, 0.751465, 0.660645, 0.59082, 0.54541, 0.57373, 0.44458 ] }, { "question_id": "10094631", "image_id": 373140, "question": "cái gì đang đậu trên đường phố", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "xe cộ", "predicted_topk": [ "xe cộ", "xe đẩy", "xe tải", "xe máy", "xe buýt", "xe tay ga", "phương tiện giao thông", "toa xe", "xe ô tô", "xe đạp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.65952, "confidences": [ 0.65952, 0.272789, 0.011892, 0.010454, 0.008838, 0.006365, 0.003876, 0.003749, 0.003613, 0.002319 ], "gate_score_top1": 0.846191, "gate_scores": [ 0.846191, 0.824219, 0.828613, 0.769043, 0.675781, 0.647949, 0.655762, 0.546387, 0.730957, 0.623047 ] }, { "question_id": "10076831", "image_id": 502414, "question": "những gì xử lý một số bánh rán", "ground_truth": "cỗ máy", "ground_truth_normalized": "cỗ máy", "predicted_top1": "donut", "predicted_topk": [ "donut", "cỗ máy", "cửa tiệm", "cửa hàng", "bánh ngọt", "tạp dề", "cái mâm", "lò vi sóng", "sô cô la", "con chó" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.461459, "confidences": [ 0.461459, 0.405649, 0.012737, 0.011485, 0.008652, 0.006818, 0.005167, 0.004969, 0.004825, 0.002133 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.693848, 0.640137, 0.589355, 0.651367, 0.599609, 0.598633, 0.60498, 0.602539, 0.662598 ] }, { "question_id": "10048071", "image_id": 494090, "question": "bộ sưu tập của gấu đồ chơi ở đâu", "ground_truth": "cửa tiệm", "ground_truth_normalized": "cửa tiệm", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "cửa tiệm", "cửa sổ", "cửa hàng", "toa xe", "đường phố", "xe ô tô", "văn phòng", "nhà ở", "xe lăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.502499, "confidences": [ 0.502499, 0.42981, 0.021483, 0.006893, 0.004822, 0.003017, 0.002834, 0.002127, 0.001676, 0.001189 ], "gate_score_top1": 0.766113, "gate_scores": [ 0.766113, 0.783691, 0.731445, 0.581055, 0.537109, 0.67041, 0.617188, 0.552246, 0.561523, 0.518555 ] }, { "question_id": "10103011", "image_id": 382115, "question": "có bao nhiêu biển báo tên đường và biển chỉ dẫn", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "một", "predicted_topk": [ "một", "ba", "hai", "bốn", "bảy", "năm", "chín", "mười", "tám", "tòa nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.5508, "confidences": [ 0.5508, 0.313836, 0.118192, 0.010655, 0.001473, 0.000408, 0.000211, 0.000163, 0.000121, 0.00011 ], "gate_score_top1": 0.803223, "gate_scores": [ 0.803223, 0.845215, 0.774902, 0.61084, 0.52832, 0.509277, 0.41626, 0.393555, 0.361084, 0.422119 ] }, { "question_id": "10055581", "image_id": 432859, "question": "những gì nằm bên cạnh máy nghe nhạc mp3 và các mặt hàng khác", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "bàn phím", "bức tranh", "cái ghế", "màn", "xe ô tô", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.836955, "confidences": [ 0.836955, 0.150058, 0.006883, 0.001795, 0.000477, 0.000336, 0.000159, 0.000148, 0.000117, 9.6e-05 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.838867, 0.688965, 0.672363, 0.603027, 0.599121, 0.538086, 0.473877, 0.605957, 0.55957 ] }, { "question_id": "10044931", "image_id": 315647, "question": "nhà vệ sinh trắng đang ngồi ở đâu", "ground_truth": "vòi hoa sen", "ground_truth_normalized": "vòi hoa sen", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "nhà ở", "chuồng", "bồn tắm", "ô cửa", "chậu", "phòng", "buồng", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.710188, "confidences": [ 0.710188, 0.265378, 0.005594, 0.004602, 0.00383, 0.001979, 0.001802, 0.000635, 0.000455, 0.000259 ], "gate_score_top1": 0.845703, "gate_scores": [ 0.845703, 0.845215, 0.738281, 0.6875, 0.68457, 0.515137, 0.497559, 0.602539, 0.437012, 0.410889 ] }, { "question_id": "10115901", "image_id": 186883, "question": "cái kệ thủy tinh có bao nhiêu con bò kiểu gốm sứ có sơn màu và kiểu dáng trên mỗi cái", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "mười", "một", "tám", "chín", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.558878, "confidences": [ 0.558878, 0.405702, 0.012251, 0.011921, 0.003664, 0.001564, 0.001269, 0.000975, 0.000386, 0.000195 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.881348, 0.743652, 0.769043, 0.692871, 0.631348, 0.574707, 0.417969, 0.488037, 0.546875 ] }, { "question_id": "10113821", "image_id": 156824, "question": "có bao nhiêu người đang ngồi ở quầy và uống rượu", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "sáu", "hai", "một", "mười", "quán bar", "bảy", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.670177, "confidences": [ 0.670177, 0.268669, 0.048358, 0.002938, 0.002804, 0.001824, 0.000896, 0.000542, 0.000419, 0.000227 ], "gate_score_top1": 0.867188, "gate_scores": [ 0.867188, 0.840332, 0.799316, 0.695312, 0.615234, 0.607422, 0.554688, 0.47168, 0.509766, 0.408691 ] }, { "question_id": "10050341", "image_id": 292662, "question": "xe cứu hỏa màu đỏ đậu ở đâu", "ground_truth": "trạm", "ground_truth_normalized": "trạm", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "trạm", "tòa nhà", "bảo tàng", "kho", "cửa tiệm", "ảnh chụp", "ga-ra", "nhà ở", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.586943, "confidences": [ 0.586943, 0.250476, 0.062593, 0.054808, 0.006914, 0.00248, 0.002125, 0.001407, 0.001236, 0.001004 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.777344, 0.742676, 0.65918, 0.674805, 0.571289, 0.507324, 0.562988, 0.575684, 0.527832 ] }, { "question_id": "10076131", "image_id": 531735, "question": "những gì đỗ và người đàn ông đứng cạnh một trong số đó", "ground_truth": "xe máy", "ground_truth_normalized": "xe máy", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe máy", "xe tay ga", "mũ", "bến tàu", "giá đỡ", "con khỉ", "cây", "máy bay", "hộp số" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.692369, "confidences": [ 0.692369, 0.279742, 0.015177, 0.001544, 0.000754, 0.000536, 0.000376, 0.00034, 0.000317, 0.00031 ], "gate_score_top1": 0.882324, "gate_scores": [ 0.882324, 0.90918, 0.723633, 0.613281, 0.480713, 0.542969, 0.47876, 0.488525, 0.549316, 0.470215 ] }, { "question_id": "10100891", "image_id": 398507, "question": "những gì ngồi trên mảng cỏ", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "xe cộ", "phương tiện giao thông", "xe buýt", "đoạn phim giới thiệu", "giường", "động cơ", "cây", "toa xe", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.784604, "confidences": [ 0.784604, 0.161912, 0.013874, 0.013712, 0.004374, 0.002492, 0.001423, 0.001311, 0.001303, 0.000843 ], "gate_score_top1": 0.87207, "gate_scores": [ 0.87207, 0.76709, 0.709473, 0.705566, 0.577637, 0.567383, 0.541016, 0.523438, 0.494629, 0.626465 ] }, { "question_id": "10035011", "image_id": 3178, "question": "con hươu cao cổ trẻ đang bú mẹ của nó ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "cỏ khô", "chuồng trại", "hay", "hươu cao cổ", "cửa tiệm", "đường sắt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.637932, "confidences": [ 0.637932, 0.289794, 0.043412, 0.014149, 0.00099, 0.00098, 0.000942, 0.000613, 0.000606, 0.000407 ], "gate_score_top1": 0.892578, "gate_scores": [ 0.892578, 0.803223, 0.73877, 0.650879, 0.379639, 0.537109, 0.465576, 0.366211, 0.463623, 0.434814 ] }, { "question_id": "10096331", "image_id": 352418, "question": "điều gì bù đắp cho thịt bò teriyaki sẫm màu trong món xào", "ground_truth": "rau", "ground_truth_normalized": "rau", "predicted_top1": "bát", "predicted_topk": [ "bát", "rau", "món ăn", "bữa ăn", "cái nĩa", "rau xà lách", "đĩa ăn", "thùng chứa", "thịt", "chén đĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.36389, "confidences": [ 0.36389, 0.180843, 0.173915, 0.035264, 0.032934, 0.027625, 0.023908, 0.022068, 0.011449, 0.011183 ], "gate_score_top1": 0.836914, "gate_scores": [ 0.836914, 0.774902, 0.71875, 0.604004, 0.581543, 0.625488, 0.604492, 0.701172, 0.581055, 0.626953 ] }, { "question_id": "10111041", "image_id": 437467, "question": "có bao nhiêu con ngựa vằn rải rác khắp đồng cỏ vào một ngày nắng", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "năm", "ba", "sáu", "hai", "một", "bảy", "tám", "mười", "đồi" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 1, "confidence_top1": 0.616598, "confidences": [ 0.616598, 0.277923, 0.068374, 0.021515, 0.00631, 0.0014, 0.001383, 0.001287, 0.000846, 0.00022 ], "gate_score_top1": 0.847656, "gate_scores": [ 0.847656, 0.853027, 0.831055, 0.754883, 0.72998, 0.581543, 0.52832, 0.51416, 0.529785, 0.387695 ] }, { "question_id": "10041471", "image_id": 191408, "question": "hotdog đang được đặt vào đâu", "ground_truth": "lon", "ground_truth_normalized": "lon", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "món ăn", "chảo", "bát", "lọ cắm hoa", "lon", "gầu múc", "chậu", "phòng bếp", "thùng chứa" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.343368, "confidences": [ 0.343368, 0.142023, 0.069217, 0.066305, 0.048415, 0.034466, 0.028573, 0.02764, 0.022692, 0.017986 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.744629, 0.705078, 0.77832, 0.75293, 0.505371, 0.738281, 0.664062, 0.629883, 0.694336 ] }, { "question_id": "10040401", "image_id": 467180, "question": "nhà vệ sinh ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chuồng", "phòng", "sàn nhà", "chậu", "bồn tiểu", "ô cửa", "vòi hoa sen", "nhà ở", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.58161, "confidences": [ 0.58161, 0.160877, 0.145341, 0.027416, 0.009814, 0.007437, 0.006034, 0.005747, 0.005483, 0.00199 ], "gate_score_top1": 0.770508, "gate_scores": [ 0.770508, 0.70752, 0.772461, 0.581055, 0.53125, 0.551758, 0.536133, 0.601562, 0.622559, 0.375244 ] }, { "question_id": "10111321", "image_id": 14543, "question": "có bao nhiêu người đang ngồi trên tuyết với ván trượt tuyết trước một ngọn núi", "ground_truth": "bảy", "ground_truth_normalized": "bảy", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "bảy", "năm", "mười", "bốn", "chín", "tám", "một", "núi", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.393733, "confidences": [ 0.393733, 0.313912, 0.252235, 0.00926, 0.007647, 0.005955, 0.004918, 0.002925, 0.002119, 0.000801 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.84375, 0.841309, 0.669434, 0.763672, 0.638672, 0.619141, 0.648438, 0.529297, 0.537109 ] }, { "question_id": "10082711", "image_id": 416787, "question": "sô cô la lấp đầy những gì với những rắc đường ở bên ngoài", "ground_truth": "donut", "ground_truth_normalized": "donut", "predicted_top1": "sô cô la", "predicted_topk": [ "sô cô la", "donut", "bánh ngọt", "cupcake", "bức ảnh", "bánh", "cái mâm", "đĩa ăn", "chảo", "cỗ máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.493585, "confidences": [ 0.493585, 0.470982, 0.009076, 0.004338, 0.001508, 0.001219, 0.000885, 0.000832, 0.000616, 0.00052 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.878906, 0.680664, 0.692871, 0.560059, 0.637695, 0.604492, 0.589355, 0.558594, 0.358643 ] }, { "question_id": "10094171", "image_id": 460208, "question": "những gì được trang bị với quầy bếp, tủ lạnh, lò nướng và kệ", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "chai", "predicted_topk": [ "chai", "tủ đá", "phòng bếp", "cái kệ", "quầy tính tiền", "quán bar", "tủ lạnh", "tủ đông", "buồng", "bếp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.40996, "confidences": [ 0.40996, 0.363204, 0.067449, 0.018225, 0.010104, 0.008525, 0.007993, 0.007642, 0.00511, 0.005101 ], "gate_score_top1": 0.768066, "gate_scores": [ 0.768066, 0.737793, 0.729004, 0.681641, 0.739258, 0.551758, 0.610352, 0.609863, 0.53125, 0.61377 ] }, { "question_id": "10040301", "image_id": 73591, "question": "hai hươu cao cổ đứng ở đâu", "ground_truth": "điện thoại", "ground_truth_normalized": "điện thoại", "predicted_top1": "vườn bách thú", "predicted_topk": [ "vườn bách thú", "chuồng", "lồng", "điện thoại", "tòa nhà", "bảo tàng", "đường sắt", "rào chắn", "hộp", "sân" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.475063, "confidences": [ 0.475063, 0.329067, 0.059461, 0.017923, 0.009538, 0.006684, 0.005424, 0.004015, 0.003854, 0.003606 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.833984, 0.64502, 0.448486, 0.615234, 0.619141, 0.51123, 0.463867, 0.55127, 0.545898 ] }, { "question_id": "10053111", "image_id": 436848, "question": "những gì cho thấy phòng tắm lát gạch với một bồn rửa và nhà vệ sinh", "ground_truth": "ảnh chụp", "ground_truth_normalized": "ảnh chụp", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "tường", "vòi hoa sen", "quầy tính tiền", "bồn tắm", "ảnh chụp", "buồng", "bức ảnh", "khăn", "gương" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.219093, "confidences": [ 0.219093, 0.148246, 0.06695, 0.065527, 0.049656, 0.041247, 0.039589, 0.037776, 0.035211, 0.027369 ], "gate_score_top1": 0.686035, "gate_scores": [ 0.686035, 0.610352, 0.688477, 0.669922, 0.674805, 0.448486, 0.502441, 0.682617, 0.624023, 0.731934 ] }, { "question_id": "10111861", "image_id": 102589, "question": "có bao nhiêu chiếc bánh rán bị mờ trong một hộp", "ground_truth": "năm", "ground_truth_normalized": "năm", "predicted_top1": "sáu", "predicted_topk": [ "sáu", "năm", "bốn", "bảy", "tám", "hộp", "chín", "mười", "donut", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.819054, "confidences": [ 0.819054, 0.148, 0.016801, 0.00803, 0.004417, 0.000744, 0.00038, 0.00037, 0.000156, 7.3e-05 ], "gate_score_top1": 0.895508, "gate_scores": [ 0.895508, 0.862305, 0.77832, 0.807617, 0.699707, 0.586914, 0.604004, 0.568848, 0.473633, 0.530762 ] }, { "question_id": "10044211", "image_id": 150669, "question": "đồng hồ lớn được treo ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "văn phòng", "predicted_topk": [ "văn phòng", "phòng", "cửa", "ô cửa", "hành lang", "cửa tiệm", "nhà ở", "tòa nhà", "cái ghế", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.720456, "confidences": [ 0.720456, 0.169792, 0.01294, 0.009883, 0.009449, 0.007489, 0.006886, 0.005609, 0.005077, 0.00494 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.833008, 0.678223, 0.670898, 0.561523, 0.768555, 0.709961, 0.635254, 0.68457, 0.626465 ] }, { "question_id": "10110291", "image_id": 490998, "question": "có bao nhiêu máy bay xếp hàng trong đội hình y", "ground_truth": "tám", "ground_truth_normalized": "tám", "predicted_top1": "chín", "predicted_topk": [ "chín", "bảy", "tám", "sáu", "bốn", "năm", "một", "mười", "hai", "núi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.520792, "confidences": [ 0.520792, 0.191589, 0.173764, 0.078016, 0.00759, 0.004384, 0.001296, 0.001164, 0.001039, 0.00084 ], "gate_score_top1": 0.81543, "gate_scores": [ 0.81543, 0.772461, 0.770996, 0.812012, 0.624512, 0.664551, 0.475586, 0.4729, 0.499756, 0.428955 ] }, { "question_id": "10093371", "image_id": 567898, "question": "những gì chứa đầy thực phẩm được trình bày nghệ thuật", "ground_truth": "dĩa", "ground_truth_normalized": "dĩa", "predicted_top1": "chảo", "predicted_topk": [ "chảo", "dĩa", "thùng chứa", "cái mâm", "chén đĩa", "món ăn", "cái thìa", "quầy tính tiền", "bát", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.616073, "confidences": [ 0.616073, 0.229312, 0.017273, 0.014376, 0.013505, 0.011218, 0.008567, 0.007415, 0.006087, 0.004103 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.760254, 0.733887, 0.696289, 0.626465, 0.705078, 0.567383, 0.513184, 0.671387, 0.698242 ] }, { "question_id": "10049061", "image_id": 135878, "question": "một con chim mũm mĩm ở đâu", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "cây", "lọ cắm hoa", "gầu múc", "bát", "giường", "sân vườn", "cái ghế", "cái lọ", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.904628, "confidences": [ 0.904628, 0.064768, 0.006488, 0.004803, 0.002942, 0.001798, 0.000929, 0.000908, 0.000583, 0.000529 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.739746, 0.760254, 0.660156, 0.679688, 0.603027, 0.542969, 0.644043, 0.515625, 0.553223 ] }, { "question_id": "10041911", "image_id": 337857, "question": "con hươu cao cổ ăn ở đâu trên đỉnh cột", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "hay", "cỏ khô", "đường sắt", "lá", "bảo tàng", "cái lều" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.554363, "confidences": [ 0.554363, 0.366411, 0.060995, 0.002459, 0.001778, 0.001119, 0.000747, 0.000733, 0.000723, 0.000441 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.844238, 0.787109, 0.60498, 0.526855, 0.485107, 0.51416, 0.510254, 0.543945, 0.415527 ] }, { "question_id": "10085281", "image_id": 500084, "question": "hai con mèo đang tận hưởng gì trong khi ngồi trong cửa sổ", "ground_truth": "mặt trời", "ground_truth_normalized": "mặt trời", "predicted_top1": "cửa sổ", "predicted_topk": [ "cửa sổ", "mặt trời", "con mèo", "con chó", "cửa", "cái ghế", "móng vuốt", "giường", "bức ảnh", "gấu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.503048, "confidences": [ 0.503048, 0.153421, 0.084068, 0.019658, 0.018868, 0.018721, 0.018467, 0.017934, 0.005523, 0.005275 ], "gate_score_top1": 0.723633, "gate_scores": [ 0.723633, 0.62793, 0.645996, 0.640625, 0.65625, 0.450439, 0.643066, 0.572754, 0.538574, 0.472168 ] }, { "question_id": "10055361", "image_id": 500613, "question": "những gì đỗ trong bãi đậu xe", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "động cơ", "phương tiện giao thông", "xe cộ", "tàu hỏa", "xe buýt", "màu đỏ", "trạm", "máy bay", "xe máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.746326, "confidences": [ 0.746326, 0.214663, 0.009141, 0.005029, 0.00496, 0.002922, 0.000642, 0.000575, 0.000522, 0.000522 ], "gate_score_top1": 0.867676, "gate_scores": [ 0.867676, 0.784668, 0.678711, 0.577148, 0.706055, 0.600098, 0.611328, 0.420654, 0.61084, 0.385742 ] }, { "question_id": "10063281", "image_id": 479912, "question": "những gì được gắn vào một bên của một máy bay bốn động cơ", "ground_truth": "bến tàu", "ground_truth_normalized": "bến tàu", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "bến tàu", "sân bay", "con dốc", "bầu trời", "mặt trời", "rào chắn", "xe cộ", "máy bay trực thăng", "ga-ra" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.630767, "confidences": [ 0.630767, 0.137483, 0.05342, 0.031038, 0.019272, 0.011285, 0.008841, 0.004901, 0.004582, 0.003196 ], "gate_score_top1": 0.789551, "gate_scores": [ 0.789551, 0.630371, 0.629883, 0.544434, 0.573242, 0.496826, 0.324219, 0.544922, 0.501465, 0.378906 ] }, { "question_id": "10070091", "image_id": 348475, "question": "một chiếc xe mười tám bánh lăn xuống hàng cây thường xanh hướng về một ngọn núi tuyết phủ là gì", "ground_truth": "xa lộ", "ground_truth_normalized": "xa lộ", "predicted_top1": "cây", "predicted_topk": [ "cây", "xa lộ", "đường", "núi", "bức ảnh", "đồi", "đường đi bộ", "phương tiện giao thông", "đoạn phim giới thiệu", "xe cộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.276214, "confidences": [ 0.276214, 0.222813, 0.191328, 0.074925, 0.054178, 0.022191, 0.007433, 0.007051, 0.006585, 0.006408 ], "gate_score_top1": 0.799805, "gate_scores": [ 0.799805, 0.700195, 0.741211, 0.693359, 0.719238, 0.679199, 0.591797, 0.474365, 0.608887, 0.585938 ] }, { "question_id": "10117921", "image_id": 192196, "question": "có bao nhiêu người đang đứng trong bếp chuẩn bị thức ăn", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "ba", "hai", "một", "bảy", "tám", "táo", "mười" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.557799, "confidences": [ 0.557799, 0.302088, 0.045077, 0.045077, 0.008019, 0.006469, 0.006319, 0.00581, 0.001407, 0.00119 ], "gate_score_top1": 0.763672, "gate_scores": [ 0.763672, 0.775391, 0.706543, 0.733398, 0.578125, 0.57959, 0.576172, 0.539551, 0.523438, 0.484619 ] }, { "question_id": "10068251", "image_id": 382671, "question": "những gì đang đi bộ bên cạnh bãi biển", "ground_truth": "gia súc", "ground_truth_normalized": "gia súc", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "bò đực", "bờ biển", "đường", "con ngựa", "ngân hàng", "bắp chân", "chuồng trại", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.725559, "confidences": [ 0.725559, 0.260735, 0.003083, 0.002576, 0.000468, 0.00041, 0.000271, 0.000176, 0.000169, 0.000151 ], "gate_score_top1": 0.894043, "gate_scores": [ 0.894043, 0.820801, 0.630371, 0.660156, 0.486084, 0.524902, 0.431396, 0.171509, 0.352539, 0.496582 ] }, { "question_id": "10081441", "image_id": 356828, "question": "bàn phím máy tính đã làm gì trên gỗ", "ground_truth": "cái bàn", "ground_truth_normalized": "cái bàn", "predicted_top1": "bàn phím", "predicted_topk": [ "bàn phím", "cái bàn", "máy tính", "văn phòng", "trang thiết bị", "chuột", "ảnh chụp", "đồng hồ", "quầy tính tiền", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.743055, "confidences": [ 0.743055, 0.205534, 0.011732, 0.009066, 0.003794, 0.001957, 0.00167, 0.001506, 0.00091, 0.000847 ], "gate_score_top1": 0.865234, "gate_scores": [ 0.865234, 0.819824, 0.709961, 0.742676, 0.666016, 0.648926, 0.641602, 0.630371, 0.521973, 0.491943 ] }, { "question_id": "10021841", "image_id": 215776, "question": "màu của vòi nước là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu cam", "màu vàng", "màu xám", "màu nâu", "vòi", "màu đen", "màu xanh lá", "màu trắng", "xe tải" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.528804, "confidences": [ 0.528804, 0.418318, 0.049186, 0.001074, 0.000235, 0.000225, 0.000191, 0.000122, 0.000101, 5.6e-05 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.896484, 0.791016, 0.604004, 0.55957, 0.536133, 0.541992, 0.436523, 0.463867, 0.453857 ] }, { "question_id": "10054341", "image_id": 466575, "question": "những gì được thể hiện đang trên mặt đất", "ground_truth": "bao bì", "ground_truth_normalized": "bao bì", "predicted_top1": "vali", "predicted_topk": [ "vali", "bao bì", "hành lý", "thân cây", "sàn nhà", "cái túi", "xe đẩy", "gian hàng", "hộp", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.379111, "confidences": [ 0.379111, 0.201344, 0.170879, 0.053351, 0.03192, 0.016113, 0.006849, 0.006359, 0.005656, 0.005231 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.683594, 0.730469, 0.677734, 0.635254, 0.806641, 0.592773, 0.500977, 0.578125, 0.569336 ] }, { "question_id": "10035651", "image_id": 542946, "question": "con mèo đen đang ngồi ở đâu", "ground_truth": "gầu múc", "ground_truth_normalized": "gầu múc", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "gầu múc", "cây", "bồn tắm", "bát", "sân", "cái ghế", "giường", "lọ cắm hoa", "chậu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.577439, "confidences": [ 0.577439, 0.290355, 0.024021, 0.012269, 0.011019, 0.008383, 0.007814, 0.006618, 0.005412, 0.003975 ], "gate_score_top1": 0.851562, "gate_scores": [ 0.851562, 0.759277, 0.616211, 0.692871, 0.673828, 0.553711, 0.700684, 0.581055, 0.688965, 0.704102 ] }, { "question_id": "10000221", "image_id": 222191, "question": "màu sắc của ngọn lửa là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu cam", "màu đỏ", "màu xanh dương", "màu trắng", "xe tải", "màu xám", "màu tía", "màu xanh lá", "màu đen" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.895918, "confidences": [ 0.895918, 0.093694, 0.003024, 0.002229, 0.000629, 0.000541, 0.000531, 0.000522, 0.000145, 0.000106 ], "gate_score_top1": 0.871582, "gate_scores": [ 0.871582, 0.806641, 0.678711, 0.626465, 0.594238, 0.640625, 0.550293, 0.611816, 0.476562, 0.495605 ] }, { "question_id": "10078981", "image_id": 439738, "question": "những gì ngồi trong bình thủy tinh xanh", "ground_truth": "lá", "ground_truth_normalized": "lá", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "lá", "cây", "cái nồi", "sân vườn", "bông hoa", "tường", "màu xanh lá", "chai", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.479189, "confidences": [ 0.479189, 0.280602, 0.16953, 0.027567, 0.005282, 0.004943, 0.003051, 0.001829, 0.001356, 0.001301 ], "gate_score_top1": 0.783691, "gate_scores": [ 0.783691, 0.774902, 0.806152, 0.711426, 0.689941, 0.595703, 0.703125, 0.570801, 0.462646, 0.625977 ] }, { "question_id": "10025681", "image_id": 263178, "question": "trái cây và rau quả nằm ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "bát", "predicted_topk": [ "bát", "thùng chứa", "chậu", "lọ cắm hoa", "tách", "cái nồi", "cái lọ", "món ăn", "máy xay", "cái rổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.781951, "confidences": [ 0.781951, 0.165838, 0.020197, 0.009211, 0.004079, 0.001601, 0.001438, 0.000835, 0.000772, 0.000701 ], "gate_score_top1": 0.886719, "gate_scores": [ 0.886719, 0.822754, 0.712891, 0.780762, 0.705566, 0.712402, 0.643066, 0.577637, 0.619629, 0.581055 ] }, { "question_id": "10039691", "image_id": 226224, "question": "bộ hành lý nằm ở đâu", "ground_truth": "bánh xe", "ground_truth_normalized": "bánh xe", "predicted_top1": "vali", "predicted_topk": [ "vali", "sân bay", "đường ray", "trạm", "hành lý", "bánh xe", "sàn nhà", "cái túi", "xe đẩy", "núi" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.293463, "confidences": [ 0.293463, 0.093613, 0.077608, 0.074344, 0.061273, 0.054604, 0.025945, 0.01437, 0.012781, 0.011855 ], "gate_score_top1": 0.768555, "gate_scores": [ 0.768555, 0.549805, 0.486328, 0.627441, 0.666016, 0.35498, 0.554688, 0.538086, 0.523438, 0.554688 ] }, { "question_id": "10110481", "image_id": 435807, "question": "có bao nhiêu thành viên đang chơi trò chơi điện tử", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "một", "hai", "năm", "phòng", "sáu", "mười", "bảy", "tám" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.410141, "confidences": [ 0.410141, 0.361948, 0.118429, 0.090803, 0.013236, 0.000707, 0.00042, 0.000309, 0.000218, 0.000178 ], "gate_score_top1": 0.868652, "gate_scores": [ 0.868652, 0.826172, 0.791504, 0.785645, 0.729492, 0.530762, 0.536621, 0.47168, 0.446533, 0.373535 ] }, { "question_id": "10042041", "image_id": 501739, "question": "táo đỏ và xanh nằm ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "bát", "predicted_topk": [ "bát", "chậu", "thùng chứa", "cái rổ", "lọ cắm hoa", "tách", "đĩa ăn", "gầu múc", "quả cam", "cái nồi" ], "gt_rank": 4, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.928507, "confidences": [ 0.928507, 0.018245, 0.017615, 0.011373, 0.003115, 0.002484, 0.001182, 0.001122, 0.000819, 0.0008 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.724609, 0.706543, 0.672852, 0.734863, 0.655273, 0.526855, 0.521973, 0.465332, 0.624512 ] }, { "question_id": "10021691", "image_id": 412781, "question": "màu của con mèo là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu xám", "màu nâu", "màu đen", "màu vàng", "màu trắng", "chậu", "phòng", "màu đỏ", "màu xanh dương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.743226, "confidences": [ 0.743226, 0.247012, 0.002865, 0.001864, 0.000468, 0.000391, 0.000249, 0.000139, 0.000133, 9.5e-05 ], "gate_score_top1": 0.873047, "gate_scores": [ 0.873047, 0.866211, 0.72168, 0.657715, 0.414307, 0.583008, 0.53125, 0.570801, 0.60498, 0.485596 ] }, { "question_id": "10086291", "image_id": 345137, "question": "cái gì nằm trong chảo phía trên cho rau cắt nhỏ", "ground_truth": "gà tây", "ground_truth_normalized": "gà tây", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "gà tây", "gà", "thịt", "bữa ăn", "chảo", "cà rốt", "rau", "món ăn", "đĩa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.467868, "confidences": [ 0.467868, 0.085873, 0.07175, 0.048834, 0.039857, 0.025236, 0.017142, 0.013324, 0.011759, 0.011375 ], "gate_score_top1": 0.75, "gate_scores": [ 0.75, 0.529297, 0.730957, 0.649414, 0.570801, 0.532715, 0.645996, 0.530762, 0.608887, 0.625977 ] }, { "question_id": "10029001", "image_id": 2240, "question": "nhóm động vật dễ thương ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "hộp", "predicted_topk": [ "hộp", "giường", "phòng ngủ", "thùng chứa", "đồ chơi", "ngăn kéo", "toa xe", "vali", "cái ghế", "cái kệ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.643345, "confidences": [ 0.643345, 0.155822, 0.031288, 0.020559, 0.013326, 0.012666, 0.01046, 0.008274, 0.006357, 0.006357 ], "gate_score_top1": 0.814453, "gate_scores": [ 0.814453, 0.775391, 0.71875, 0.68457, 0.67041, 0.674805, 0.633789, 0.614746, 0.526855, 0.571777 ] }, { "question_id": "10055141", "image_id": 571585, "question": "tủ lạnh mở và hiển thị những gì và các nhãn dán khác trên cửa", "ground_truth": "cái kệ", "ground_truth_normalized": "cái kệ", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cái kệ", "tủ lạnh", "cửa", "tủ đông", "cửa ra vào", "cỗ máy", "chai", "cửa sổ", "bức ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.685172, "confidences": [ 0.685172, 0.166602, 0.033322, 0.029522, 0.024284, 0.008311, 0.004857, 0.003485, 0.002189, 0.002085 ], "gate_score_top1": 0.838867, "gate_scores": [ 0.838867, 0.813965, 0.710938, 0.791992, 0.691895, 0.644043, 0.710938, 0.601562, 0.4729, 0.5625 ] }, { "question_id": "10089051", "image_id": 459487, "question": "những gì đứng trên cánh đồng với một ngọn núi phủ tuyết trong nền", "ground_truth": "con cừu", "ground_truth_normalized": "con cừu", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "con cừu", "gia súc", "đồi", "bò đực", "bãi cỏ", "áo choàng", "ngân hàng", "con chó", "con dê" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.781834, "confidences": [ 0.781834, 0.160712, 0.03586, 0.001566, 0.001503, 0.001187, 0.000992, 0.00098, 0.00087, 0.00078 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.81543, 0.784668, 0.660645, 0.486572, 0.632812, 0.359375, 0.428223, 0.563477, 0.336914 ] }, { "question_id": "10094961", "image_id": 454982, "question": "cái gì đang ngồi trên bàn", "ground_truth": "máy tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "bàn phím", "con mèo", "bức tranh", "hai", "cái ghế", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.915631, "confidences": [ 0.915631, 0.076642, 0.002685, 0.000453, 0.000166, 0.000126, 0.00012, 0.000108, 0.000106, 8.5e-05 ], "gate_score_top1": 0.884766, "gate_scores": [ 0.884766, 0.786621, 0.609863, 0.584961, 0.482178, 0.530273, 0.532715, 0.578125, 0.481934, 0.499512 ] }, { "question_id": "10008391", "image_id": 43776, "question": "màu của chiếc tàu là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "màu đỏ", "màu đen", "màu vàng", "màu trắng", "màu nâu", "màu xám", "màu tía", "màu xanh dương", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.577667, "confidences": [ 0.577667, 0.409627, 0.008568, 0.001495, 0.000682, 0.000347, 0.000165, 0.000132, 0.000132, 0.000107 ], "gate_score_top1": 0.917969, "gate_scores": [ 0.917969, 0.896484, 0.792969, 0.6875, 0.629395, 0.622559, 0.572266, 0.570312, 0.501465, 0.476318 ] }, { "question_id": "10081171", "image_id": 374352, "question": "những gì chất đống với đống hành lý rất cao", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "vali", "predicted_topk": [ "vali", "xe đẩy", "hành lý", "toa xe", "tàu hỏa", "trạm", "xe ô tô", "đường ray", "cái túi", "xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.635907, "confidences": [ 0.635907, 0.323523, 0.004041, 0.003068, 0.002394, 0.001304, 0.001257, 0.000971, 0.000877, 0.000832 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.828125, 0.65918, 0.632324, 0.644043, 0.554688, 0.658203, 0.44751, 0.619629, 0.589844 ] }, { "question_id": "10106901", "image_id": 198064, "question": "có bao nhiêu chiếc hộp đựng đồ xếp chồng lên nhau từ lớn đến nhỏ", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "tám", "chín", "sàn nhà", "ba", "mười", "hộp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.488943, "confidences": [ 0.488943, 0.481362, 0.018161, 0.006603, 0.001491, 0.000472, 0.000206, 0.000185, 0.000185, 0.000157 ], "gate_score_top1": 0.885254, "gate_scores": [ 0.885254, 0.875488, 0.792969, 0.8125, 0.606934, 0.588379, 0.476074, 0.533203, 0.595703, 0.547363 ] }, { "question_id": "10106261", "image_id": 139971, "question": "có bao nhiêu bồn tiểu được gắn trên tường gạch", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "hai", "bảy", "ba", "phòng tắm", "một", "sáu", "mười", "tám" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.660619, "confidences": [ 0.660619, 0.231899, 0.059093, 0.013237, 0.007904, 0.00461, 0.003712, 0.003295, 0.001471, 0.001403 ], "gate_score_top1": 0.849121, "gate_scores": [ 0.849121, 0.783203, 0.76709, 0.698242, 0.751953, 0.638184, 0.541504, 0.616699, 0.545898, 0.469238 ] }, { "question_id": "10025831", "image_id": 26958, "question": "con hươu cao cổ đơn độc ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "cỏ khô", "nhà ở", "bảo tàng", "ảnh chụp", "hay", "lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.855422, "confidences": [ 0.855422, 0.123235, 0.011241, 0.003579, 0.000458, 0.000391, 0.000272, 0.000212, 0.000203, 0.000195 ], "gate_score_top1": 0.90332, "gate_scores": [ 0.90332, 0.841309, 0.763672, 0.650391, 0.412354, 0.598145, 0.523438, 0.522461, 0.406738, 0.48584 ] }, { "question_id": "10029261", "image_id": 529963, "question": "người đàn ông đang đánh răng ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "phòng", "bàn chải", "hành lang", "vòi hoa sen", "nhà ở", "chậu", "tường", "buồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.806706, "confidences": [ 0.806706, 0.171758, 0.0059, 0.001934, 0.001166, 0.001033, 0.000945, 0.000791, 0.000666, 0.000514 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.875977, 0.616211, 0.605957, 0.522461, 0.580078, 0.647461, 0.557617, 0.568359, 0.446777 ] }, { "question_id": "10104861", "image_id": 579156, "question": "có bao nhiêu con bò đứng trên đồng cỏ vào một ngày nắng", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "một", "hai", "chuồng", "mười", "sáu", "tám", "bảy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.802288, "confidences": [ 0.802288, 0.164273, 0.018794, 0.009904, 0.003215, 0.000124, 0.000114, 6.8e-05, 5.6e-05, 4.9e-05 ], "gate_score_top1": 0.915039, "gate_scores": [ 0.915039, 0.822266, 0.795898, 0.727539, 0.737305, 0.551758, 0.439209, 0.465088, 0.320068, 0.39502 ] }, { "question_id": "10033361", "image_id": 194616, "question": "cửa tủ lạnh mở ra ở đâu", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "tủ lạnh", "cái kệ", "phòng bếp", "tủ đông", "cửa sổ", "cỗ máy", "sàn nhà", "cửa ra vào" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.625417, "confidences": [ 0.625417, 0.21362, 0.129567, 0.004468, 0.004165, 0.003095, 0.001479, 0.001425, 0.001285, 0.001166 ], "gate_score_top1": 0.816406, "gate_scores": [ 0.816406, 0.852539, 0.791992, 0.637695, 0.69043, 0.560059, 0.502441, 0.628418, 0.509277, 0.483887 ] }, { "question_id": "10016671", "image_id": 240405, "question": "màu của con chó là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu nâu", "màu trắng", "màu đen", "màu đỏ", "màu vàng", "màu cam", "con ngựa", "màu xanh lá", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.774106, "confidences": [ 0.774106, 0.220059, 0.002445, 0.001164, 0.000417, 0.000347, 7.8e-05, 5e-05, 4e-05, 3.8e-05 ], "gate_score_top1": 0.874023, "gate_scores": [ 0.874023, 0.862305, 0.69873, 0.625, 0.59668, 0.494873, 0.523926, 0.35376, 0.45874, 0.450439 ] }, { "question_id": "10088621", "image_id": 507893, "question": "cái gì mở ra phòng tắm đơn giản, màu trắng", "ground_truth": "cửa", "ground_truth_normalized": "cửa", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "cửa", "bức ảnh", "nhà ở", "bồn tắm", "tường", "cửa sổ", "mặt trời", "sân khấu", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.4429, "confidences": [ 0.4429, 0.393923, 0.022662, 0.019728, 0.019612, 0.013167, 0.005741, 0.005478, 0.00492, 0.004559 ], "gate_score_top1": 0.783691, "gate_scores": [ 0.783691, 0.807617, 0.761719, 0.601074, 0.617188, 0.594238, 0.583496, 0.552734, 0.602051, 0.598633 ] }, { "question_id": "10035701", "image_id": 387408, "question": "người phụ nữ đang chụp ảnh mình ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "vòi hoa sen", "máy ảnh", "nhà ở", "chậu", "ô cửa", "chuồng", "phòng", "điện thoại" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.90849, "confidences": [ 0.90849, 0.083845, 0.002011, 0.001089, 0.000297, 0.000285, 0.000243, 0.000213, 0.000175, 0.000165 ], "gate_score_top1": 0.90625, "gate_scores": [ 0.90625, 0.877441, 0.695312, 0.502441, 0.608887, 0.523926, 0.495605, 0.486816, 0.468994, 0.461426 ] }, { "question_id": "10079141", "image_id": 353830, "question": "những gì được trình bày trên đĩa trắng", "ground_truth": "món ăn", "ground_truth_normalized": "món ăn", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "món ăn", "ngoài trời", "bữa ăn", "đĩa ăn", "áo sơ mi", "chảo", "đĩa", "bữa trưa", "bánh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.950029, "confidences": [ 0.950029, 0.018814, 0.003467, 0.003393, 0.002689, 0.001877, 0.001795, 0.00144, 0.001229, 0.001148 ], "gate_score_top1": 0.783203, "gate_scores": [ 0.783203, 0.707031, 0.55957, 0.655762, 0.612793, 0.54248, 0.626465, 0.491943, 0.471436, 0.539062 ] }, { "question_id": "10008411", "image_id": 381047, "question": "màu của con mèo là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu nâu", "màu trắng", "màu cam", "màu đen", "màu vàng", "màu xanh dương", "con mèo", "chậu", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.563455, "confidences": [ 0.563455, 0.409024, 0.010565, 0.005655, 0.004799, 0.000736, 0.000319, 0.000222, 0.000207, 0.000196 ], "gate_score_top1": 0.836426, "gate_scores": [ 0.836426, 0.84375, 0.753906, 0.649902, 0.688965, 0.447754, 0.469482, 0.500977, 0.489258, 0.572266 ] }, { "question_id": "10051211", "image_id": 388312, "question": "con mèo đáng yêu đang ngóc đầu lên ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "cái túi", "sàn nhà", "hộp", "xe đẩy", "ô cửa", "toa xe", "cái ví", "thân cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.804475, "confidences": [ 0.804475, 0.147079, 0.02309, 0.008461, 0.002521, 0.001448, 0.001035, 0.000693, 0.000454, 0.000367 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.817383, 0.803711, 0.661133, 0.675781, 0.65332, 0.526367, 0.582031, 0.596191, 0.48291 ] }, { "question_id": "10062321", "image_id": 579453, "question": "đẹp những gì với các trung tâm màu cam trong một chiếc bình màu xanh", "ground_truth": "bông hoa", "ground_truth_normalized": "bông hoa", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "hoa hồng", "tường", "mặt", "bình hoa", "cây", "tách", "cái nồi", "chai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.687105, "confidences": [ 0.687105, 0.29552, 0.005065, 0.001706, 0.001588, 0.001205, 0.000556, 0.000505, 0.00043, 0.000312 ], "gate_score_top1": 0.798828, "gate_scores": [ 0.798828, 0.865723, 0.771973, 0.708984, 0.460205, 0.538086, 0.580078, 0.588867, 0.633789, 0.546387 ] }, { "question_id": "10109271", "image_id": 319522, "question": "có bao nhiêu con ngựa đứng từ xa trên đồng cỏ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "hai", "một", "sáu", "mười", "bảy", "đồi", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.555706, "confidences": [ 0.555706, 0.397145, 0.042187, 0.001472, 0.000674, 0.000493, 0.000332, 0.000147, 0.000142, 8.5e-05 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.840332, 0.80957, 0.685547, 0.600098, 0.578613, 0.478271, 0.437012, 0.405029, 0.462646 ] }, { "question_id": "10091211", "image_id": 486383, "question": "những gì được chuyển đổi thành nhà kho máy tính tạm thời", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "quầy tính tiền", "predicted_topk": [ "quầy tính tiền", "phòng bếp", "chậu", "cái bàn", "buồng", "bếp", "lò vi sóng", "nhà ở", "sân khấu", "tủ đá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.512664, "confidences": [ 0.512664, 0.287578, 0.035024, 0.029724, 0.026541, 0.015301, 0.015241, 0.005957, 0.00552, 0.004333 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.844727, 0.742188, 0.739258, 0.539551, 0.67334, 0.665527, 0.406494, 0.395508, 0.661133 ] }, { "question_id": "10029481", "image_id": 411208, "question": "con chó nâu đang nằm ở đâu", "ground_truth": "cái ghế", "ground_truth_normalized": "cái ghế", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "cái ghế", "nhà ở", "nhiều cái ghế", "chung cư", "cửa sổ", "gian hàng", "thư viện", "đi văng", "cỗ máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.555368, "confidences": [ 0.555368, 0.425816, 0.012909, 0.000877, 0.000524, 0.000367, 0.000363, 0.000275, 0.000218, 0.000174 ], "gate_score_top1": 0.911621, "gate_scores": [ 0.911621, 0.875, 0.793457, 0.633301, 0.67627, 0.589355, 0.690918, 0.529785, 0.439453, 0.411865 ] }, { "question_id": "10041251", "image_id": 162892, "question": "hai giường nằm cạnh nhau ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng ngủ", "chung cư", "hành lang", "giường", "tòa nhà", "nhà ở", "ô cửa", "sàn nhà", "phòng bếp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.838534, "confidences": [ 0.838534, 0.153906, 0.001321, 0.001189, 0.000737, 0.00072, 0.000584, 0.00014, 0.00012, 0.000118 ], "gate_score_top1": 0.911133, "gate_scores": [ 0.911133, 0.859863, 0.691895, 0.587891, 0.609863, 0.588379, 0.703125, 0.52002, 0.508301, 0.608887 ] }, { "question_id": "10112361", "image_id": 510564, "question": "có bao nhiêu đĩa pizza ngồi trên đỉnh bàn gỗ", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "tám", "mười", "chín", "đồng hồ", "đĩa ăn", "màu nâu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.929726, "confidences": [ 0.929726, 0.058514, 0.005296, 0.004173, 0.000754, 0.000102, 4.5e-05, 3.2e-05, 3.1e-05, 3e-05 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.848633, 0.758789, 0.78418, 0.585449, 0.519043, 0.442871, 0.393799, 0.38501, 0.479004 ] }, { "question_id": "10074601", "image_id": 472216, "question": "người trượt tuyết trượt những gì đang đi trên một con đường tuyết", "ground_truth": "cây sào", "ground_truth_normalized": "cây sào", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "cây sào", "bầu trời", "quần short", "trượt tuyết", "xe đạp", "trang thiết bị", "mũ", "áo sơ mi", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.593254, "confidences": [ 0.593254, 0.190357, 0.013736, 0.012098, 0.010148, 0.009952, 0.008817, 0.00672, 0.006463, 0.005925 ], "gate_score_top1": 0.801758, "gate_scores": [ 0.801758, 0.679199, 0.48999, 0.542969, 0.585938, 0.67627, 0.582031, 0.541016, 0.64502, 0.60791 ] }, { "question_id": "10075091", "image_id": 573778, "question": "những gì đang ngồi trên cỏ", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "hươu cao cổ", "predicted_topk": [ "hươu cao cổ", "ngựa rằn", "con chim", "cây", "lá", "vườn bách thú", "con voi", "bãi cỏ", "chuồng", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.849456, "confidences": [ 0.849456, 0.146465, 0.000293, 0.000289, 0.000225, 0.000204, 0.000172, 0.000148, 0.000137, 0.000136 ], "gate_score_top1": 0.880859, "gate_scores": [ 0.880859, 0.85791, 0.539062, 0.482666, 0.443359, 0.32959, 0.573242, 0.390625, 0.431641, 0.46875 ] }, { "question_id": "10026741", "image_id": 329011, "question": "một con chó đang tắm ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "bồn tắm", "predicted_topk": [ "bồn tắm", "chậu", "vòi hoa sen", "phòng tắm", "hồ bơi", "giường", "sân khấu", "quầy tính tiền", "móng vuốt", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.634647, "confidences": [ 0.634647, 0.356005, 0.001883, 0.001629, 0.000547, 0.000501, 0.000412, 0.000235, 0.000166, 0.000156 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.883301, 0.643066, 0.63623, 0.62207, 0.625977, 0.489746, 0.58252, 0.454834, 0.460938 ] }, { "question_id": "10078781", "image_id": 494584, "question": "những gì bay lên trên đại dương với những ngọn núi trong nền", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vịt", "diều", "con vẹt", "máy bay", "chim bồ câu", "hồ", "con ngựa", "áo sơ mi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.683393, "confidences": [ 0.683393, 0.291636, 0.004152, 0.002675, 0.002426, 0.002012, 0.000622, 0.000541, 0.00043, 0.000353 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.828613, 0.624023, 0.608398, 0.67627, 0.59375, 0.549805, 0.453613, 0.455078, 0.461914 ] }, { "question_id": "10036371", "image_id": 311167, "question": "con mèo đang nằm ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "chậu", "predicted_topk": [ "chậu", "giường", "bồn tắm", "bát", "con mèo", "phòng tắm", "thùng chứa", "tách", "gầu múc", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.995017, "confidences": [ 0.995017, 0.002585, 0.000449, 0.00037, 0.000199, 6.2e-05, 4.9e-05, 3.7e-05, 3.5e-05, 3.2e-05 ], "gate_score_top1": 0.919434, "gate_scores": [ 0.919434, 0.742188, 0.660645, 0.587891, 0.645996, 0.51709, 0.318604, 0.445801, 0.359375, 0.463135 ] }, { "question_id": "10045841", "image_id": 62292, "question": "một giường phụ được thiết lập ở đâu", "ground_truth": "phòng ngủ", "ground_truth_normalized": "phòng ngủ", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "ô cửa", "phòng ngủ", "cửa", "hành lang", "sàn nhà", "nhà ở", "tường", "phòng tắm", "chung cư" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.374795, "confidences": [ 0.374795, 0.263702, 0.251626, 0.030052, 0.021646, 0.017258, 0.00942, 0.003112, 0.003064, 0.001826 ], "gate_score_top1": 0.856934, "gate_scores": [ 0.856934, 0.765625, 0.806152, 0.671387, 0.694336, 0.709961, 0.774414, 0.57959, 0.702637, 0.623047 ] }, { "question_id": "10037471", "image_id": 570951, "question": "hai đầu bếp bắt đầu công việc chuẩn bị ở đâu", "ground_truth": "quán ăn", "ground_truth_normalized": "quán ăn", "predicted_top1": "phòng bếp", "predicted_topk": [ "phòng bếp", "quán ăn", "tạp dề", "phòng", "nhà ở", "bát", "buồng", "lò vi sóng", "chảo", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.945325, "confidences": [ 0.945325, 0.043528, 0.004697, 0.00132, 0.00116, 0.000384, 0.000328, 0.00025, 0.000218, 0.000153 ], "gate_score_top1": 0.924805, "gate_scores": [ 0.924805, 0.84668, 0.729004, 0.674805, 0.707031, 0.686523, 0.556152, 0.559082, 0.63623, 0.553223 ] }, { "question_id": "10045971", "image_id": 260883, "question": "hươu cao cổ ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "lá", "rào chắn", "bảo tàng", "nhà ở", "đường", "cỏ khô", "cửa tiệm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.825764, "confidences": [ 0.825764, 0.158836, 0.001796, 0.001276, 0.000971, 0.000781, 0.000769, 0.000344, 0.000342, 0.000337 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.819824, 0.615234, 0.52002, 0.536133, 0.487061, 0.589355, 0.592773, 0.317871, 0.506348 ] }, { "question_id": "10113451", "image_id": 171484, "question": "có bao nhiêu con hươu cao cổ trong một cái chuồng gần một tòa nhà", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "chuồng", "bảy", "ba", "một", "tám", "mười", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.581849, "confidences": [ 0.581849, 0.415829, 0.000835, 0.000237, 0.000192, 0.000179, 5.5e-05, 5.1e-05, 3.5e-05, 3.4e-05 ], "gate_score_top1": 0.903809, "gate_scores": [ 0.903809, 0.89502, 0.722656, 0.591797, 0.544434, 0.673828, 0.508789, 0.36792, 0.412598, 0.381836 ] }, { "question_id": "10090151", "image_id": 393840, "question": "những gì đang ở trên sông", "ground_truth": "ngân hàng", "ground_truth_normalized": "ngân hàng", "predicted_top1": "con thuyền", "predicted_topk": [ "con thuyền", "ngân hàng", "con bò", "thuyền buồm", "con ngựa", "bến tàu", "bến du thuyền", "đưa đón", "áo choàng", "ca nô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.658843, "confidences": [ 0.658843, 0.082142, 0.038274, 0.020209, 0.014246, 0.014219, 0.01315, 0.012233, 0.009003, 0.008441 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.658203, 0.676758, 0.538086, 0.612793, 0.50293, 0.412109, 0.456787, 0.505371, 0.528809 ] }, { "question_id": "10056741", "image_id": 445662, "question": "những gì được thắp sáng trong chiếc cốc thủy tinh lớn với những ngọn nến khác xung quanh nó", "ground_truth": "nến", "ground_truth_normalized": "nến", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "nến", "bông hoa", "tách", "tường", "cây", "hoa hồng", "bình hoa", "cái nồi", "mặt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.658846, "confidences": [ 0.658846, 0.243324, 0.014699, 0.011765, 0.008574, 0.005962, 0.005927, 0.004261, 0.004236, 0.002113 ], "gate_score_top1": 0.760742, "gate_scores": [ 0.760742, 0.818359, 0.647461, 0.719238, 0.779297, 0.73291, 0.680664, 0.541992, 0.677246, 0.486084 ] }, { "question_id": "10102331", "image_id": 62029, "question": "có bao nhiêu cô gái mười mấy tuổi đang tạo dáng trên cánh đồng với những cây vợt tennis", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bảy", "bốn", "chín", "tám", "mười", "một", "bức ảnh", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.527467, "confidences": [ 0.527467, 0.420533, 0.033984, 0.005635, 0.003112, 0.002395, 0.002331, 0.000244, 0.000151, 0.000109 ], "gate_score_top1": 0.859375, "gate_scores": [ 0.859375, 0.847168, 0.828613, 0.735352, 0.69043, 0.60498, 0.66748, 0.476807, 0.471191, 0.390137 ] }, { "question_id": "10031811", "image_id": 58105, "question": "người đàn ông đứng ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "nhà ở", "predicted_topk": [ "nhà ở", "phòng", "hành lang", "phòng bếp", "cái ghế", "chung cư", "ô cửa", "cửa", "cửa sổ", "sàn nhà" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.615971, "confidences": [ 0.615971, 0.364951, 0.004612, 0.003322, 0.001509, 0.001426, 0.001091, 0.000942, 0.000554, 0.000414 ], "gate_score_top1": 0.897461, "gate_scores": [ 0.897461, 0.894043, 0.748047, 0.710449, 0.706055, 0.716797, 0.659668, 0.606934, 0.655273, 0.59668 ] }, { "question_id": "10082301", "image_id": 461838, "question": "người lướt sóng đang giữ một ván lướt sóng trắng mang gì", "ground_truth": "áo ba lỗ", "ground_truth_normalized": "áo ba lỗ", "predicted_top1": "ván lướt sóng", "predicted_topk": [ "ván lướt sóng", "áo ba lỗ", "bảng", "bờ biển", "cây sào", "mười", "cái lều", "áo khoác", "con thuyền", "dĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.732864, "confidences": [ 0.732864, 0.126362, 0.078767, 0.032326, 0.002808, 0.00106, 0.00082, 0.00074, 0.000532, 0.000518 ], "gate_score_top1": 0.789062, "gate_scores": [ 0.789062, 0.733398, 0.749512, 0.722656, 0.575195, 0.512695, 0.528809, 0.586914, 0.5625, 0.490479 ] }, { "question_id": "10003181", "image_id": 110761, "question": "màu của quần là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu nâu", "màu xám", "màu trắng", "màu vàng", "màu xanh lá", "màu đỏ", "màu cam", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.520128, "confidences": [ 0.520128, 0.444889, 0.008148, 0.007361, 0.004178, 0.003464, 0.003009, 0.002013, 0.001484, 0.000614 ], "gate_score_top1": 0.868164, "gate_scores": [ 0.868164, 0.858398, 0.759766, 0.709473, 0.658203, 0.63916, 0.640625, 0.585449, 0.631836, 0.490234 ] }, { "question_id": "10030251", "image_id": 242210, "question": "con mèo đang trèo lên đâu", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "cửa", "tủ đông", "cái kệ", "cửa ra vào", "sàn nhà", "cửa sổ", "chai", "cỗ máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.531175, "confidences": [ 0.531175, 0.450802, 0.003635, 0.002422, 0.001424, 0.001291, 0.000639, 0.000504, 0.000267, 0.000258 ], "gate_score_top1": 0.796875, "gate_scores": [ 0.796875, 0.835938, 0.734863, 0.520996, 0.587402, 0.453369, 0.448975, 0.41748, 0.412354, 0.536621 ] }, { "question_id": "10044161", "image_id": 7559, "question": "nhóm bàn chải đánh răng đầy màu sắc ở đâu", "ground_truth": "thùng chứa", "ground_truth_normalized": "thùng chứa", "predicted_top1": "tách", "predicted_topk": [ "tách", "thùng chứa", "người giữ", "lọ cắm hoa", "cái lọ", "ly", "hộp", "cái túi", "bát", "gương" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.677333, "confidences": [ 0.677333, 0.249177, 0.00801, 0.007855, 0.006386, 0.005883, 0.005724, 0.002704, 0.001998, 0.001523 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.840332, 0.693848, 0.728027, 0.728516, 0.552734, 0.710449, 0.714844, 0.612305, 0.622559 ] }, { "question_id": "10112501", "image_id": 269235, "question": "có bao nhiêu con cừu ở bên sườn đồi đá", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "hai", "predicted_topk": [ "hai", "ba", "một", "bốn", "mười", "năm", "đồi", "đường", "chuồng", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.644943, "confidences": [ 0.644943, 0.3534, 0.000732, 0.000465, 3.5e-05, 3.2e-05, 2.9e-05, 1.1e-05, 8e-06, 7e-06 ], "gate_score_top1": 0.903809, "gate_scores": [ 0.903809, 0.895996, 0.624512, 0.553711, 0.413574, 0.536621, 0.478271, 0.312256, 0.48584, 0.377197 ] }, { "question_id": "10033731", "image_id": 276781, "question": "hai quả táo và hai trái chuối đang nằm ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "bát", "predicted_topk": [ "bát", "cái rổ", "thùng chứa", "gầu múc", "cái ghế", "bồn tắm", "cái túi", "cái nồi", "lồng", "ảnh chụp" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.488331, "confidences": [ 0.488331, 0.430951, 0.014575, 0.004291, 0.003579, 0.002949, 0.002455, 0.002379, 0.002302, 0.002192 ], "gate_score_top1": 0.811035, "gate_scores": [ 0.811035, 0.818848, 0.602051, 0.587891, 0.581055, 0.570801, 0.506348, 0.564941, 0.525391, 0.568848 ] }, { "question_id": "10082421", "image_id": 405882, "question": "những gì nằm ở trung tâm của một bảng với các tấm", "ground_truth": "bánh", "ground_truth_normalized": "bánh", "predicted_top1": "dĩa", "predicted_topk": [ "dĩa", "bánh", "dao", "đĩa ăn", "sô cô la", "bữa ăn", "cà rốt", "nến", "màu trắng", "bánh ngọt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.493375, "confidences": [ 0.493375, 0.37534, 0.015015, 0.012694, 0.009905, 0.003979, 0.003181, 0.002841, 0.002756, 0.002645 ], "gate_score_top1": 0.761719, "gate_scores": [ 0.761719, 0.729004, 0.577637, 0.705078, 0.629883, 0.532227, 0.478271, 0.458984, 0.577637, 0.509277 ] }, { "question_id": "10052811", "image_id": 412240, "question": "những gì nằm trên sàn bên cạnh một số đôi giày", "ground_truth": "con chó", "ground_truth_normalized": "con chó", "predicted_top1": "cún yêu", "predicted_topk": [ "cún yêu", "con chó", "con mèo", "gấu", "nón", "con ngựa", "đồng hồ", "móng vuốt", "cái ghế", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.709872, "confidences": [ 0.709872, 0.228668, 0.014224, 0.006449, 0.003486, 0.002867, 0.001891, 0.001517, 0.001132, 0.001102 ], "gate_score_top1": 0.831055, "gate_scores": [ 0.831055, 0.82666, 0.672852, 0.644043, 0.55127, 0.556152, 0.520996, 0.405029, 0.37915, 0.444824 ] }, { "question_id": "10060861", "image_id": 436559, "question": "những gì đỗ sau chiếc xe trên sân cỏ", "ground_truth": "xe máy", "ground_truth_normalized": "xe máy", "predicted_top1": "xe đạp", "predicted_topk": [ "xe đạp", "xe máy", "xe cộ", "con chim", "con khỉ", "xe tay ga", "bến tàu", "màu trắng", "mũ", "mũ bảo hiểm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.723818, "confidences": [ 0.723818, 0.257079, 0.001406, 0.000798, 0.000701, 0.000699, 0.000599, 0.000592, 0.000506, 0.000475 ], "gate_score_top1": 0.866699, "gate_scores": [ 0.866699, 0.895996, 0.614746, 0.542969, 0.47998, 0.51416, 0.426514, 0.609863, 0.473633, 0.425049 ] }, { "question_id": "10027851", "image_id": 96517, "question": "con mèo đang ngồi ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "xe đẩy", "hộp", "toa xe", "sàn nhà", "bồn tắm", "cái ví", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.575124, "confidences": [ 0.575124, 0.332856, 0.043321, 0.008014, 0.007647, 0.007528, 0.003054, 0.001494, 0.001293, 0.001198 ], "gate_score_top1": 0.900879, "gate_scores": [ 0.900879, 0.871582, 0.788086, 0.70459, 0.672852, 0.671875, 0.541992, 0.6875, 0.625977, 0.549805 ] }, { "question_id": "10026631", "image_id": 215315, "question": "hai con voi trưởng thành và một con voi nhỏ ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "thân cây", "lá", "lồng", "bãi cỏ", "đồi", "rào chắn", "bảo tàng", "con voi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.608478, "confidences": [ 0.608478, 0.377813, 0.003035, 0.001003, 0.000828, 0.000452, 0.000422, 0.000369, 0.000256, 0.00024 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.84082, 0.692871, 0.551758, 0.63623, 0.582031, 0.603516, 0.504883, 0.51123, 0.508301 ] }, { "question_id": "10107721", "image_id": 528275, "question": "có bao nhiêu con ngựa đang nghỉ ngơi trên đồng cỏ trên núi", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "một", "mười", "sáu", "đồi", "bãi cỏ", "xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.661731, "confidences": [ 0.661731, 0.263218, 0.048312, 0.013734, 0.010407, 0.000322, 0.000219, 0.000172, 0.000122, 6.7e-05 ], "gate_score_top1": 0.897461, "gate_scores": [ 0.897461, 0.809082, 0.823242, 0.761719, 0.731934, 0.453369, 0.513672, 0.459473, 0.467773, 0.290283 ] }, { "question_id": "10117481", "image_id": 121414, "question": "có bao nhiêu con chim đang ngồi cùng nhau trên cành cây", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "mười", "diều", "bảy", "sáu", "con chim" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.561936, "confidences": [ 0.561936, 0.427498, 0.006122, 0.003684, 6.8e-05, 4e-05, 2.7e-05, 2.7e-05, 2.2e-05, 2e-05 ], "gate_score_top1": 0.899902, "gate_scores": [ 0.899902, 0.881348, 0.68457, 0.641602, 0.53125, 0.334961, 0.349365, 0.322754, 0.421631, 0.472412 ] }, { "question_id": "10056081", "image_id": 391810, "question": "ngồi trên đỉnh cỏ xanh là gì", "ground_truth": "xe tải", "ground_truth_normalized": "xe tải", "predicted_top1": "động cơ", "predicted_topk": [ "động cơ", "xe tải", "xe ô tô", "tàu hỏa", "phương tiện giao thông", "màu đỏ", "xe cộ", "màu xanh lá", "xe buýt", "vòi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.544638, "confidences": [ 0.544638, 0.401591, 0.0084, 0.007648, 0.004919, 0.003861, 0.003677, 0.001527, 0.001415, 0.00111 ], "gate_score_top1": 0.808594, "gate_scores": [ 0.808594, 0.859375, 0.70166, 0.717773, 0.61377, 0.64209, 0.567383, 0.501465, 0.595703, 0.576172 ] }, { "question_id": "10105141", "image_id": 436438, "question": "có bao nhiêu con ngựa vằn trong một khu vực kín - một con đứng, con kia nằm trên mặt đất", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "bốn", "mười", "chuồng", "năm", "thân cây", "bãi cỏ", "đường sắt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.929641, "confidences": [ 0.929641, 0.06894, 0.000763, 6.6e-05, 5.6e-05, 4.4e-05, 2.5e-05, 2.4e-05, 2.4e-05, 2.1e-05 ], "gate_score_top1": 0.904785, "gate_scores": [ 0.904785, 0.873535, 0.773438, 0.556641, 0.504883, 0.597168, 0.567871, 0.455322, 0.521484, 0.394775 ] }, { "question_id": "10100011", "image_id": 434786, "question": "người đàn ông có râu hút những gì", "ground_truth": "thuốc lá", "ground_truth_normalized": "thuốc lá", "predicted_top1": "cà vạt", "predicted_topk": [ "cà vạt", "thuốc lá", "đồng hồ", "bộ đồ", "áo sơ mi", "kính đeo", "điện thoại", "nón", "tường", "quán bar" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.562248, "confidences": [ 0.562248, 0.386427, 0.006234, 0.005459, 0.00457, 0.003135, 0.001701, 0.001423, 0.001117, 0.001044 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.788574, 0.686035, 0.675781, 0.63916, 0.572754, 0.697754, 0.533203, 0.450195, 0.545898 ] }, { "question_id": "10014581", "image_id": 579534, "question": "màu sắc của bông hoa là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu đỏ", "predicted_topk": [ "màu đỏ", "màu cam", "lọ cắm hoa", "màu trắng", "màu nâu", "màu đen", "màu xanh lá", "màu vàng", "màu xám", "cửa sổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.675669, "confidences": [ 0.675669, 0.304548, 0.005938, 0.001759, 0.001297, 0.000962, 0.000888, 0.000834, 0.000305, 0.000265 ], "gate_score_top1": 0.888184, "gate_scores": [ 0.888184, 0.863281, 0.626953, 0.634277, 0.560547, 0.504395, 0.530762, 0.504395, 0.533691, 0.499023 ] }, { "question_id": "10053771", "image_id": 335733, "question": "những gì đứng đầu với rau bina, cà chua và bông cải xanh", "ground_truth": "pizza", "ground_truth_normalized": "pizza", "predicted_top1": "bữa ăn", "predicted_topk": [ "bữa ăn", "món ăn", "pizza", "đĩa ăn", "chảo", "rau xà lách", "bát", "rau", "thịt", "quầy tính tiền" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.407215, "confidences": [ 0.407215, 0.171084, 0.145197, 0.11308, 0.066217, 0.012442, 0.011507, 0.009823, 0.004968, 0.004283 ], "gate_score_top1": 0.806152, "gate_scores": [ 0.806152, 0.798828, 0.712891, 0.762695, 0.776855, 0.601562, 0.671875, 0.614746, 0.596191, 0.606934 ] }, { "question_id": "10074461", "image_id": 566920, "question": "cái gì trên tấm trắng trên bàn với thìa bạc và dĩa rải rác ngẫu nhiên xung quanh nó", "ground_truth": "bánh", "ground_truth_normalized": "bánh", "predicted_top1": "pizza", "predicted_topk": [ "pizza", "bánh", "ngoài trời", "món ăn", "đĩa ăn", "đĩa", "bữa ăn", "áo sơ mi", "bữa trưa", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.982788, "confidences": [ 0.982788, 0.002893, 0.001504, 0.00091, 0.00084, 0.000644, 0.000576, 0.000555, 0.000483, 0.000363 ], "gate_score_top1": 0.790039, "gate_scores": [ 0.790039, 0.512695, 0.476562, 0.515625, 0.532227, 0.381836, 0.532715, 0.440918, 0.404297, 0.538574 ] }, { "question_id": "10015301", "image_id": 227484, "question": "màu của xe là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu đỏ", "màu xám", "màu xanh lá", "màu tía", "màu trắng", "màu cam", "màu xanh dương", "màu vàng", "xe tải" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.868892, "confidences": [ 0.868892, 0.107908, 0.01421, 0.002393, 0.001901, 0.001075, 0.001025, 0.000771, 0.000213, 0.000138 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.863281, 0.789062, 0.702637, 0.693848, 0.672363, 0.652344, 0.660645, 0.486816, 0.42334 ] }, { "question_id": "10108431", "image_id": 333371, "question": "máy bay phản lực jumbo khổng lồ có bao nhiêu động cơ trên mỗi cánh khi nó bay", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "một", "predicted_topk": [ "một", "hai", "ba", "bốn", "năm", "chín", "bảy", "mười", "tám", "sáu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.636869, "confidences": [ 0.636869, 0.287059, 0.037949, 0.015453, 0.007831, 0.003227, 0.003043, 0.002582, 0.0015, 0.000459 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.822266, 0.772949, 0.703613, 0.754883, 0.592285, 0.602539, 0.581543, 0.620117, 0.583008 ] }, { "question_id": "10005201", "image_id": 385844, "question": "màu của nhà vệ sinh là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xanh lá", "phòng tắm", "màu xanh dương", "màu xám", "màu cam", "màu nâu", "màu đen", "màu đỏ", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.549019, "confidences": [ 0.549019, 0.444609, 0.00084, 0.000811, 0.00071, 0.000517, 0.000478, 0.000388, 0.000211, 0.000187 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.875977, 0.612305, 0.653809, 0.641113, 0.50293, 0.556641, 0.522949, 0.518555, 0.491943 ] }, { "question_id": "10064961", "image_id": 429366, "question": "những gì được hình dung trong hình ảnh này", "ground_truth": "sân khấu", "ground_truth_normalized": "sân khấu", "predicted_top1": "quầy tính tiền", "predicted_topk": [ "quầy tính tiền", "sân khấu", "tủ đá", "bếp", "chậu", "buồng", "công cụ", "phòng bếp", "tường", "cái bàn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.840326, "confidences": [ 0.840326, 0.079704, 0.015271, 0.011216, 0.010957, 0.005969, 0.002628, 0.001533, 0.00144, 0.001382 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.640137, 0.714355, 0.743164, 0.649902, 0.48999, 0.687988, 0.615234, 0.532715, 0.52832 ] }, { "question_id": "10011961", "image_id": 292973, "question": "màu của máy bay là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu xám", "màu đỏ", "màu xanh dương", "màu nâu", "màu đen", "màu vàng", "bầu trời", "màu xanh lá", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.843329, "confidences": [ 0.843329, 0.143154, 0.003598, 0.003053, 0.002602, 0.000795, 0.000358, 0.000355, 0.000334, 0.000296 ], "gate_score_top1": 0.901855, "gate_scores": [ 0.901855, 0.836426, 0.664551, 0.72168, 0.712891, 0.528809, 0.547363, 0.48877, 0.603516, 0.532227 ] }, { "question_id": "10065191", "image_id": 418062, "question": "hai người bạn chia sẻ những gì tại một bữa tiệc", "ground_truth": "nước", "ground_truth_normalized": "nước", "predicted_top1": "rượu", "predicted_topk": [ "rượu", "kính đeo", "nước", "chai", "quán bar", "ly", "đồ uống", "tách", "áo sơ mi", "nến" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.452405, "confidences": [ 0.452405, 0.196103, 0.18859, 0.051962, 0.014946, 0.013931, 0.005288, 0.004435, 0.003239, 0.003216 ], "gate_score_top1": 0.787598, "gate_scores": [ 0.787598, 0.761719, 0.799805, 0.73877, 0.688965, 0.572754, 0.728516, 0.637207, 0.655762, 0.736816 ] }, { "question_id": "10060931", "image_id": 560111, "question": "những gì nằm trên đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "xe tải", "xe điện ngầm", "xe buýt", "máy bay", "xe", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.774432, "confidences": [ 0.774432, 0.203607, 0.007772, 0.002236, 0.0011, 0.000705, 0.000682, 0.000654, 0.000429, 0.000317 ], "gate_score_top1": 0.921875, "gate_scores": [ 0.921875, 0.821777, 0.76709, 0.64209, 0.744629, 0.516113, 0.641602, 0.621582, 0.428955, 0.393311 ] }, { "question_id": "10059661", "image_id": 542634, "question": "người phụ nữ đeo mũ bảo hiểm đang cưỡi ngựa là gì", "ground_truth": "con ngựa", "ground_truth_normalized": "con ngựa", "predicted_top1": "mũ", "predicted_topk": [ "mũ", "con ngựa", "mũ bảo hiểm", "con bò", "đầm", "xe đạp", "gia súc", "xe", "nhà ở", "bãi cỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.51445, "confidences": [ 0.51445, 0.385305, 0.029137, 0.014117, 0.005411, 0.003006, 0.002115, 0.0018, 0.001297, 0.001099 ], "gate_score_top1": 0.802246, "gate_scores": [ 0.802246, 0.77832, 0.615723, 0.618652, 0.566895, 0.577637, 0.515625, 0.624023, 0.38208, 0.54541 ] }, { "question_id": "10092551", "image_id": 434022, "question": "chuyến tàu thổi khói vào không khí", "ground_truth": "tàu", "ground_truth_normalized": "tàu hỏa", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "tàu hỏa", "hàng hoá", "đường sắt", "động cơ", "các tòa nhà", "trạm", "xe điện ngầm", "đầu máy", "phương tiện giao thông" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.404216, "confidences": [ 0.404216, 0.279992, 0.119486, 0.071628, 0.0522, 0.00527, 0.005039, 0.004235, 0.003166, 0.003015 ], "gate_score_top1": 0.864258, "gate_scores": [ 0.864258, 0.747559, 0.739746, 0.801758, 0.722168, 0.630859, 0.510742, 0.562012, 0.433838, 0.445557 ] }, { "question_id": "10021941", "image_id": 68764, "question": "màu của đồng hồ là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu xám", "màu đỏ", "màu trắng", "màu vàng", "màu nâu", "màu xanh dương", "màu cam", "màu tía", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.902252, "confidences": [ 0.902252, 0.086586, 0.003518, 0.002428, 0.002245, 0.000316, 0.000283, 0.000274, 0.000114, 9.7e-05 ], "gate_score_top1": 0.887207, "gate_scores": [ 0.887207, 0.807617, 0.736328, 0.62207, 0.621094, 0.589844, 0.617188, 0.532715, 0.538574, 0.52002 ] }, { "question_id": "10083781", "image_id": 549399, "question": "những gì đỗ ở bên đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "xe tay ga", "màu xanh dương", "ga-ra", "cây", "hộp số", "đường", "máy bay", "mũ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.649115, "confidences": [ 0.649115, 0.344742, 0.000606, 0.000438, 0.000254, 0.000216, 0.000179, 0.000164, 0.000162, 0.000157 ], "gate_score_top1": 0.924805, "gate_scores": [ 0.924805, 0.868652, 0.629395, 0.640137, 0.442139, 0.4729, 0.370605, 0.505859, 0.530762, 0.459229 ] }, { "question_id": "10109811", "image_id": 186888, "question": "có bao nhiêu cậu bé đang ngồi bên ngoài bậc thềm", "ground_truth": "chín", "ground_truth_normalized": "chín", "predicted_top1": "một", "predicted_topk": [ "một", "chín", "hai", "bảy", "mười", "sáu", "tám", "năm", "gậy", "quả bóng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.40827, "confidences": [ 0.40827, 0.283907, 0.090388, 0.044921, 0.037386, 0.028221, 0.020486, 0.00927, 0.008967, 0.008007 ], "gate_score_top1": 0.758301, "gate_scores": [ 0.758301, 0.750488, 0.743164, 0.643555, 0.69873, 0.671387, 0.565918, 0.563477, 0.59375, 0.547852 ] }, { "question_id": "10080171", "image_id": 356827, "question": "người đang cưỡi ván trượt trên tuyết phủ đang cầm cái gì", "ground_truth": "ba lan", "ground_truth_normalized": "ba lan", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "ba lan", "núi", "trang thiết bị", "đồi", "trượt tuyết", "ngân hàng", "mắt", "bầu trời", "nón" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.939464, "confidences": [ 0.939464, 0.012988, 0.006818, 0.006208, 0.005923, 0.005674, 0.002455, 0.002205, 0.001472, 0.001353 ], "gate_score_top1": 0.891113, "gate_scores": [ 0.891113, 0.682617, 0.674316, 0.706055, 0.681641, 0.644043, 0.651855, 0.61377, 0.590332, 0.663086 ] }, { "question_id": "10039481", "image_id": 470754, "question": "người đang chụp ảnh ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "máy ảnh", "ô cửa", "chậu", "vòi hoa sen", "nhà ở", "phòng", "ảnh chụp", "buồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.587371, "confidences": [ 0.587371, 0.403693, 0.002565, 0.001078, 0.000555, 0.0004, 0.000326, 0.000315, 0.000281, 0.000231 ], "gate_score_top1": 0.914062, "gate_scores": [ 0.914062, 0.911621, 0.567871, 0.578125, 0.567383, 0.634766, 0.591309, 0.55127, 0.417969, 0.524902 ] }, { "question_id": "10100641", "image_id": 342377, "question": "cái gì đựng cà rốt và các loại rau khác", "ground_truth": "rau quả", "ground_truth_normalized": "rau quả", "predicted_top1": "rau", "predicted_topk": [ "rau", "cà rốt", "rau quả", "cửa hàng", "hoa quả", "cây", "màu xanh lá", "chén đĩa", "giỏ", "bữa ăn" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.51194, "confidences": [ 0.51194, 0.174861, 0.117396, 0.059726, 0.02524, 0.009731, 0.008291, 0.003089, 0.00293, 0.001907 ], "gate_score_top1": 0.73291, "gate_scores": [ 0.73291, 0.761719, 0.612305, 0.624023, 0.641602, 0.706055, 0.569824, 0.485596, 0.489258, 0.481934 ] }, { "question_id": "10066711", "image_id": 348793, "question": "những gì đang đến trên đường phố thành phố", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "vòi", "predicted_topk": [ "vòi", "xe buýt", "xe ô tô", "tàu hỏa", "động cơ", "lá cờ", "tòa nhà", "các tòa nhà", "cây", "đường đi bộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.711884, "confidences": [ 0.711884, 0.148637, 0.018067, 0.010254, 0.009502, 0.005741, 0.00563, 0.004722, 0.004658, 0.004613 ], "gate_score_top1": 0.849609, "gate_scores": [ 0.849609, 0.71875, 0.717773, 0.687012, 0.62207, 0.513672, 0.568359, 0.480469, 0.487061, 0.558105 ] }, { "question_id": "10036281", "image_id": 218060, "question": "người phụ nữ selfie ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "vòi hoa sen", "máy ảnh", "chậu", "quầy tính tiền", "buồng", "ô cửa", "nhà ở", "phòng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.93622, "confidences": [ 0.93622, 0.059851, 0.000956, 0.000639, 0.000361, 0.000154, 0.000106, 0.000104, 8.8e-05, 8.8e-05 ], "gate_score_top1": 0.914551, "gate_scores": [ 0.914551, 0.890625, 0.718262, 0.556641, 0.601074, 0.628418, 0.426758, 0.466064, 0.562012, 0.503906 ] }, { "question_id": "10049571", "image_id": 527691, "question": "người phụ nữ đóng gói quần áo ở đâu", "ground_truth": "hành lý", "ground_truth_normalized": "hành lý", "predicted_top1": "vali", "predicted_topk": [ "vali", "hành lý", "cái túi", "sàn nhà", "phòng", "túi", "ô cửa", "phòng ngủ", "tường", "balo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.624466, "confidences": [ 0.624466, 0.22794, 0.06111, 0.01908, 0.017304, 0.01385, 0.003713, 0.003277, 0.001345, 0.001223 ], "gate_score_top1": 0.878418, "gate_scores": [ 0.878418, 0.800293, 0.804688, 0.717285, 0.70459, 0.709473, 0.589844, 0.619141, 0.528809, 0.554199 ] }, { "question_id": "10048161", "image_id": 361888, "question": "một con hươu cao cổ và một con đà điểu sống ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "lá", "rào chắn", "đường sắt", "cỏ khô", "bảo tàng", "ảnh chụp", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.721429, "confidences": [ 0.721429, 0.26748, 0.001268, 0.001066, 0.001005, 0.000576, 0.000455, 0.000419, 0.00031, 0.000291 ], "gate_score_top1": 0.918945, "gate_scores": [ 0.918945, 0.859375, 0.629395, 0.577637, 0.616699, 0.60498, 0.427246, 0.550293, 0.544922, 0.566406 ] }, { "question_id": "10072861", "image_id": 578553, "question": "những gì đang ở trong túi hành lý", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "vali", "máy tính", "trang thiết bị", "cái bàn", "thùng chứa", "hộp", "bàn phím", "giường", "cái túi" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.855485, "confidences": [ 0.855485, 0.062214, 0.055118, 0.002831, 0.001299, 0.000937, 0.000922, 0.000789, 0.000668, 0.000638 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.770996, 0.76123, 0.519531, 0.53418, 0.562012, 0.526367, 0.485352, 0.521973, 0.546387 ] }, { "question_id": "10088451", "image_id": 447842, "question": "cửa sổ của tòa nhà thành phố phản ánh trong nền; đèn giao thông nằm ở phía trước", "ground_truth": "các tòa nhà", "ground_truth_normalized": "các tòa nhà", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "các tòa nhà", "xe ô tô", "đường phố", "đường đi bộ", "cây", "tòa tháp", "lá cờ", "trạm", "cầu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.425574, "confidences": [ 0.425574, 0.418976, 0.017226, 0.012902, 0.010266, 0.00955, 0.005636, 0.0046, 0.004424, 0.003973 ], "gate_score_top1": 0.774414, "gate_scores": [ 0.774414, 0.830078, 0.732422, 0.698242, 0.640137, 0.569336, 0.589844, 0.566406, 0.457275, 0.54834 ] }, { "question_id": "10094721", "image_id": 519338, "question": "cái gì đang trên đầu đường ray", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "xe điện ngầm", "hàng hoá", "màu xanh dương", "xe tải", "xe điện", "trạm", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.898859, "confidences": [ 0.898859, 0.094002, 0.001496, 0.000716, 0.000423, 0.000268, 0.000237, 0.00018, 0.000168, 0.000165 ], "gate_score_top1": 0.925293, "gate_scores": [ 0.925293, 0.814941, 0.713379, 0.624023, 0.583496, 0.638672, 0.683105, 0.575684, 0.43042, 0.471924 ] }, { "question_id": "10092251", "image_id": 382671, "question": "những gì đang diễn ra dọc theo bờ sông", "ground_truth": "gia súc", "ground_truth_normalized": "gia súc", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "gia súc", "bò đực", "bờ biển", "đường", "ngân hàng", "con ngựa", "bức ảnh", "bắp chân", "con cừu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.528864, "confidences": [ 0.528864, 0.452361, 0.003238, 0.002685, 0.000617, 0.000501, 0.000405, 0.00029, 0.000266, 0.00024 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.83252, 0.623047, 0.649414, 0.484131, 0.454102, 0.508789, 0.384277, 0.174072, 0.44751 ] }, { "question_id": "10094201", "image_id": 459487, "question": "những gì gặm cỏ trong thung lũng gần một thị trấn nhỏ", "ground_truth": "con cừu", "ground_truth_normalized": "con cừu", "predicted_top1": "con bò", "predicted_topk": [ "con bò", "con cừu", "gia súc", "áo choàng", "đồi", "ngân hàng", "bãi cỏ", "bò đực", "con chó", "cỏ khô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.689825, "confidences": [ 0.689825, 0.261828, 0.028584, 0.001121, 0.001121, 0.001035, 0.001031, 0.000873, 0.000825, 0.000737 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.82666, 0.78418, 0.385742, 0.63916, 0.450928, 0.618652, 0.493164, 0.530273, 0.379639 ] }, { "question_id": "10013871", "image_id": 47944, "question": "màu của gấu bông là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu tía", "màu xanh lá", "màu cam", "màu xanh dương", "màu trắng", "màu xám", "màu nâu", "màu đen", "gấu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.871052, "confidences": [ 0.871052, 0.103223, 0.015164, 0.001732, 0.001652, 0.000844, 0.000693, 0.000414, 0.000309, 0.000294 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.838867, 0.713867, 0.547363, 0.664062, 0.586914, 0.51709, 0.568359, 0.529785, 0.406494 ] }, { "question_id": "10075401", "image_id": 447948, "question": "những gì dừng lại với cửa mở và núi trong nền", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "đoạn phim giới thiệu", "giường", "xe buýt", "hàng hóa", "toa xe", "cây", "đường đi bộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.819425, "confidences": [ 0.819425, 0.152767, 0.011329, 0.004471, 0.001785, 0.001294, 0.000961, 0.00041, 0.0004, 0.000374 ], "gate_score_top1": 0.866699, "gate_scores": [ 0.866699, 0.810059, 0.724121, 0.586914, 0.530273, 0.515137, 0.498535, 0.445801, 0.517578, 0.427979 ] }, { "question_id": "10047151", "image_id": 34689, "question": "bàn chải đánh răng duy nhất nằm ở đâu", "ground_truth": "người giữ", "ground_truth_normalized": "người giữ", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "tách", "thùng chứa", "cái nồi", "cái lọ", "hộp", "tường", "người giữ", "gầu múc", "ảnh chụp" ], "gt_rank": 8, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.435266, "confidences": [ 0.435266, 0.199279, 0.069681, 0.056429, 0.05301, 0.022755, 0.012156, 0.010982, 0.010398, 0.009122 ], "gate_score_top1": 0.793945, "gate_scores": [ 0.793945, 0.797852, 0.812012, 0.71875, 0.722168, 0.723633, 0.67334, 0.583008, 0.69043, 0.654785 ] }, { "question_id": "10101001", "image_id": 405032, "question": "những gì gấu treo bên cạnh cây", "ground_truth": "gấu trúc", "ground_truth_normalized": "gấu trúc", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "gấu trúc", "con chim", "cây", "rào chắn", "con cừu", "màu đen", "con vịt", "máy bay", "bò đực" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.49677, "confidences": [ 0.49677, 0.452314, 0.019719, 0.004684, 0.001764, 0.00129, 0.00072, 0.000664, 0.000588, 0.000508 ], "gate_score_top1": 0.855957, "gate_scores": [ 0.855957, 0.803711, 0.705566, 0.628906, 0.469482, 0.599121, 0.53418, 0.526367, 0.415771, 0.428955 ] }, { "question_id": "10028291", "image_id": 519716, "question": "con mèo trắng ngủ ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "cái rổ", "giường", "bát", "quả bóng", "cửa tiệm", "thùng chứa", "con mèo", "nhà ở", "tách" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.60999, "confidences": [ 0.60999, 0.348922, 0.006329, 0.004958, 0.001806, 0.001186, 0.001052, 0.000867, 0.000851, 0.000762 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.808594, 0.605469, 0.647949, 0.565918, 0.569824, 0.445557, 0.523926, 0.490967, 0.521973 ] }, { "question_id": "10104131", "image_id": 517430, "question": "có bao nhiêu người đàn ông đang làm việc trên máy bay bên ngoài", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "hai", "một", "năm", "mười", "sáu", "bảy", "tám", "chín" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.696809, "confidences": [ 0.696809, 0.275015, 0.017581, 0.005576, 0.001597, 0.000288, 0.000246, 0.000208, 0.000119, 0.000114 ], "gate_score_top1": 0.847168, "gate_scores": [ 0.847168, 0.822754, 0.671387, 0.671875, 0.688477, 0.381348, 0.556152, 0.421631, 0.384766, 0.343506 ] }, { "question_id": "10073891", "image_id": 352080, "question": "những gì chứa đầy những mảnh quần áo màu sắc khác nhau", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "sàn nhà", "hành lý", "hộp", "ô cửa", "phòng ngủ", "xe đẩy", "màu đen", "ngăn kéo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.821593, "confidences": [ 0.821593, 0.150797, 0.006783, 0.005802, 0.002061, 0.000683, 0.000516, 0.000511, 0.000506, 0.000421 ], "gate_score_top1": 0.918457, "gate_scores": [ 0.918457, 0.857422, 0.666504, 0.693359, 0.657227, 0.433594, 0.544922, 0.515137, 0.657227, 0.538574 ] }, { "question_id": "10055461", "image_id": 495088, "question": "những gì bay trên bãi cỏ và bãi đá", "ground_truth": "hải âu", "ground_truth_normalized": "hải âu", "predicted_top1": "con chim", "predicted_topk": [ "con chim", "hải âu", "con vịt", "diều", "máy bay", "con vẹt", "hồ", "con ngựa", "cây", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.90634, "confidences": [ 0.90634, 0.077967, 0.002902, 0.001508, 0.000908, 0.000556, 0.000451, 0.00045, 0.00042, 0.000371 ], "gate_score_top1": 0.875488, "gate_scores": [ 0.875488, 0.743164, 0.674316, 0.620605, 0.554688, 0.646484, 0.55127, 0.585938, 0.496094, 0.338623 ] }, { "question_id": "10051601", "image_id": 157397, "question": "con mèo bên cửa, cố gắng nhìn dưới cửa đang ở đâu", "ground_truth": "hành lang", "ground_truth_normalized": "hành lang", "predicted_top1": "sàn nhà", "predicted_topk": [ "sàn nhà", "hành lang", "cửa", "phòng", "nhà ở", "ô cửa", "phòng tắm", "cái ghế", "phòng bếp", "tủ đá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.360643, "confidences": [ 0.360643, 0.216193, 0.11042, 0.080785, 0.077995, 0.055523, 0.0172, 0.005328, 0.004158, 0.00396 ], "gate_score_top1": 0.754883, "gate_scores": [ 0.754883, 0.768555, 0.685059, 0.80127, 0.759277, 0.655762, 0.660645, 0.541504, 0.536133, 0.449707 ] }, { "question_id": "10107791", "image_id": 545749, "question": "có bao nhiêu xe tải đang đậu trong tòa nhà", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "ba", "predicted_topk": [ "ba", "bốn", "năm", "hai", "một", "ga-ra", "sáu", "bảy", "mười", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.581367, "confidences": [ 0.581367, 0.341768, 0.043963, 0.012945, 0.006689, 0.001546, 0.000745, 0.000729, 0.000401, 0.000369 ], "gate_score_top1": 0.845215, "gate_scores": [ 0.845215, 0.800293, 0.716309, 0.60791, 0.589355, 0.477783, 0.597168, 0.454346, 0.401855, 0.40332 ] }, { "question_id": "10081581", "image_id": 407520, "question": "những gì ngồi đóng cửa trong phòng trung tính", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "tủ lạnh", "tủ đông", "cửa ra vào", "cửa", "cái kệ", "phòng bếp", "mặt trời", "chai", "cỗ máy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.804642, "confidences": [ 0.804642, 0.121009, 0.029655, 0.005817, 0.00369, 0.002737, 0.002022, 0.001252, 0.001214, 0.000866 ], "gate_score_top1": 0.82666, "gate_scores": [ 0.82666, 0.751465, 0.671387, 0.57666, 0.639648, 0.60791, 0.647949, 0.454346, 0.483398, 0.58252 ] }, { "question_id": "10092541", "image_id": 562735, "question": "cái gì đầy ở trên bàn", "ground_truth": "tách", "ground_truth_normalized": "tách", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "tách", "con thuyền", "con chim", "lọ cắm hoa", "móng vuốt", "chậu", "chai", "gấu", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.688708, "confidences": [ 0.688708, 0.256348, 0.001888, 0.001801, 0.001721, 0.001594, 0.001542, 0.001429, 0.001233, 0.001188 ], "gate_score_top1": 0.799316, "gate_scores": [ 0.799316, 0.768066, 0.592285, 0.452881, 0.449219, 0.470459, 0.514648, 0.332031, 0.476807, 0.39624 ] }, { "question_id": "10025641", "image_id": 111281, "question": "hai cô gái đang ở đâu khi một trong số họ chụp ảnh", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "chậu", "máy ảnh", "quầy tính tiền", "chuồng", "vòi hoa sen", "buồng", "phòng", "ô cửa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.652239, "confidences": [ 0.652239, 0.333131, 0.003545, 0.003215, 0.000821, 0.000427, 0.000382, 0.00033, 0.000247, 0.000205 ], "gate_score_top1": 0.888672, "gate_scores": [ 0.888672, 0.881836, 0.646973, 0.546387, 0.633301, 0.473633, 0.558594, 0.405762, 0.495361, 0.434814 ] }, { "question_id": "10105791", "image_id": 576122, "question": "có bao nhiêu xe buýt đậu trong hàng trong một bãi đậu xe", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "bốn", "bảy", "chín", "mười", "tám", "ba", "một", "băng ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.667682, "confidences": [ 0.667682, 0.310501, 0.014983, 0.003658, 0.000568, 0.000453, 0.000431, 0.000109, 5.8e-05, 4.7e-05 ], "gate_score_top1": 0.890137, "gate_scores": [ 0.890137, 0.884277, 0.804688, 0.770996, 0.572266, 0.612305, 0.53418, 0.56543, 0.496094, 0.381348 ] }, { "question_id": "10070181", "image_id": 514018, "question": "nhà bếp có gì với hai ngọn truy cập sáng bóng bên cạnh một giá treo tường", "ground_truth": "lò vi sóng", "ground_truth_normalized": "lò vi sóng", "predicted_top1": "bông hoa", "predicted_topk": [ "bông hoa", "lò vi sóng", "tường", "bếp", "quầy tính tiền", "lọ cắm hoa", "chậu", "phòng bếp", "sân khấu", "chai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.444674, "confidences": [ 0.444674, 0.137217, 0.052902, 0.026137, 0.025833, 0.025532, 0.022313, 0.018176, 0.014633, 0.014548 ], "gate_score_top1": 0.76123, "gate_scores": [ 0.76123, 0.641113, 0.689453, 0.686523, 0.693359, 0.635254, 0.590332, 0.608398, 0.512207, 0.618164 ] }, { "question_id": "10066431", "image_id": 463876, "question": "những gì hiển thị trên bề mặt gỗ nhỏ", "ground_truth": "trang thiết bị", "ground_truth_normalized": "trang thiết bị", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "bàn phím", "bức tranh", "cái ghế", "chuột", "quầy tính tiền", "văn phòng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.410743, "confidences": [ 0.410743, 0.362479, 0.181555, 0.030223, 0.003888, 0.000636, 0.000511, 0.000352, 0.000334, 0.000334 ], "gate_score_top1": 0.86377, "gate_scores": [ 0.86377, 0.837891, 0.815918, 0.76709, 0.691406, 0.629395, 0.568359, 0.693848, 0.482666, 0.518555 ] }, { "question_id": "10067711", "image_id": 347648, "question": "cái bình nào bên cạnh những người khác", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "cây", "cái nồi", "lá", "mặt", "tường", "tách", "chai", "bông hoa", "thân cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.748143, "confidences": [ 0.748143, 0.168901, 0.036527, 0.010903, 0.001808, 0.001506, 0.001213, 0.001019, 0.001015, 0.000883 ], "gate_score_top1": 0.79541, "gate_scores": [ 0.79541, 0.797363, 0.795898, 0.639648, 0.441406, 0.618164, 0.603516, 0.514648, 0.457031, 0.57666 ] }, { "question_id": "10061171", "image_id": 569674, "question": "những gì đang đứng trong đám cỏ cao và bụi rậm", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "rào chắn", "hươu cao cổ", "bãi cỏ", "chuồng", "con chim", "con voi", "cây", "máy bay" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.920199, "confidences": [ 0.920199, 0.077326, 0.000486, 0.000435, 0.000151, 8.7e-05, 7.9e-05, 4.9e-05, 4.4e-05, 3.5e-05 ], "gate_score_top1": 0.916016, "gate_scores": [ 0.916016, 0.84082, 0.494873, 0.677246, 0.418213, 0.414307, 0.486084, 0.497559, 0.370361, 0.299805 ] }, { "question_id": "10012661", "image_id": 217407, "question": "màu của bông hoa là gì", "ground_truth": "màu tía", "ground_truth_normalized": "màu tía", "predicted_top1": "màu xanh dương", "predicted_topk": [ "màu xanh dương", "màu tía", "màu vàng", "bông hoa", "màu xám", "màu đen", "màu trắng", "tách", "lọ cắm hoa", "xe ô tô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.806091, "confidences": [ 0.806091, 0.188495, 0.001373, 0.000328, 0.000248, 0.000231, 0.000154, 0.000142, 0.0001, 9.3e-05 ], "gate_score_top1": 0.881836, "gate_scores": [ 0.881836, 0.816895, 0.615723, 0.591309, 0.555176, 0.515625, 0.541992, 0.303467, 0.459961, 0.462646 ] }, { "question_id": "10091341", "image_id": 400994, "question": "những gì đang sử dụng mỏ của nó để đào vào lông của nó", "ground_truth": "con chim", "ground_truth_normalized": "con chim", "predicted_top1": "con vịt", "predicted_topk": [ "con vịt", "con chim", "hải âu", "hồ", "con cừu", "chai", "nước", "con ngựa", "con thuyền", "con mèo" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.695299, "confidences": [ 0.695299, 0.287588, 0.002261, 0.002079, 0.000456, 0.000403, 0.000399, 0.000336, 0.000321, 0.000299 ], "gate_score_top1": 0.839355, "gate_scores": [ 0.839355, 0.785156, 0.598145, 0.546387, 0.532227, 0.458252, 0.432861, 0.470215, 0.585449, 0.450439 ] }, { "question_id": "10083891", "image_id": 554145, "question": "cái gì trưng bày với hàng tá bàn chải đánh răng để bán", "ground_truth": "cửa hàng", "ground_truth_normalized": "cửa hàng", "predicted_top1": "bàn chải đánh răng.", "predicted_topk": [ "bàn chải đánh răng.", "cửa hàng", "bàn chải", "cái kệ", "rau", "chén đĩa", "tường", "hoa quả", "hộp", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.480355, "confidences": [ 0.480355, 0.362591, 0.017192, 0.006865, 0.005849, 0.005731, 0.004663, 0.003611, 0.003544, 0.002528 ], "gate_score_top1": 0.71582, "gate_scores": [ 0.71582, 0.748535, 0.624512, 0.729492, 0.586426, 0.592773, 0.635742, 0.641113, 0.631348, 0.405518 ] }, { "question_id": "10087321", "image_id": 579192, "question": "cái gì cho thấy một người đàn ông đi bộ đến ván trượt tuyết và đứng trên đó", "ground_truth": "những bức ảnh", "ground_truth_normalized": "những bức ảnh", "predicted_top1": "ván trượt", "predicted_topk": [ "ván trượt", "máy ảnh", "những bức ảnh", "mũ", "áo sơ mi", "đồi", "bức tranh", "đường sắt", "trượt tuyết", "xe đạp" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.548618, "confidences": [ 0.548618, 0.07367, 0.046919, 0.035347, 0.03426, 0.01485, 0.011909, 0.011748, 0.010367, 0.009412 ], "gate_score_top1": 0.788574, "gate_scores": [ 0.788574, 0.725586, 0.654785, 0.606445, 0.679688, 0.614258, 0.553223, 0.614746, 0.605957, 0.667969 ] }, { "question_id": "10111611", "image_id": 90912, "question": "có bao nhiêu ly rượu cạn gần hết đang ngồi trên bàn", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "mười", "bảy", "một", "ba", "tám", "chín", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.963503, "confidences": [ 0.963503, 0.032969, 0.001518, 0.00044, 0.00032, 0.000158, 0.000154, 6.4e-05, 4.2e-05, 2.8e-05 ], "gate_score_top1": 0.900879, "gate_scores": [ 0.900879, 0.878418, 0.722656, 0.626953, 0.666504, 0.621582, 0.607422, 0.415527, 0.438477, 0.4021 ] }, { "question_id": "10049341", "image_id": 428486, "question": "cô gái trẻ đang đứng ở đâu", "ground_truth": "phòng", "ground_truth_normalized": "phòng", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chậu", "bồn tắm", "vòi hoa sen", "phòng", "nhà ở", "bàn chải", "quầy tính tiền", "gương", "tường" ], "gt_rank": 5, "error_category": "medium_hard", "question_type": 3, "confidence_top1": 0.853299, "confidences": [ 0.853299, 0.041176, 0.04038, 0.027753, 0.010996, 0.002764, 0.001975, 0.001778, 0.001164, 0.001066 ], "gate_score_top1": 0.830566, "gate_scores": [ 0.830566, 0.721191, 0.720215, 0.740234, 0.628418, 0.639648, 0.509277, 0.605957, 0.665039, 0.465332 ] }, { "question_id": "10062661", "image_id": 549649, "question": "những gì đang nằm trên bàn với kính râm trên", "ground_truth": "xe đẩy", "ground_truth_normalized": "xe đẩy", "predicted_top1": "con mèo", "predicted_topk": [ "con mèo", "xe đẩy", "con chim", "nón", "con ngựa", "con chó", "cà vạt", "màu xám", "máy bay", "mặt trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.802595, "confidences": [ 0.802595, 0.087963, 0.005656, 0.004735, 0.002547, 0.002363, 0.002326, 0.002099, 0.002067, 0.002003 ], "gate_score_top1": 0.69873, "gate_scores": [ 0.69873, 0.556152, 0.524414, 0.412109, 0.418213, 0.504395, 0.454834, 0.458252, 0.437012, 0.299316 ] }, { "question_id": "10035121", "image_id": 46009, "question": "hai con ngựa vằn vây quanh đi dạo ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "chuồng trại", "ô cửa", "tòa nhà", "lồng", "bảo tàng", "nhà ở", "cửa tiệm", "rào chắn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.648638, "confidences": [ 0.648638, 0.164001, 0.077167, 0.027622, 0.026982, 0.011117, 0.003457, 0.003338, 0.003273, 0.002646 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.777832, 0.789551, 0.704102, 0.700684, 0.712891, 0.596191, 0.669922, 0.542969, 0.509766 ] }, { "question_id": "10111211", "image_id": 435990, "question": "có bao nhiêu người đứng trên một chiếc thuyền gần bến cảng", "ground_truth": "một", "ground_truth_normalized": "một", "predicted_top1": "ba", "predicted_topk": [ "ba", "một", "bốn", "hai", "năm", "mười", "con thuyền", "bến du thuyền", "ca nô", "quán bar" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.506153, "confidences": [ 0.506153, 0.422907, 0.032867, 0.020013, 0.00263, 0.001202, 0.001138, 0.000414, 0.000232, 0.000209 ], "gate_score_top1": 0.835938, "gate_scores": [ 0.835938, 0.786621, 0.736328, 0.63623, 0.624023, 0.406738, 0.414062, 0.289551, 0.29248, 0.230591 ] }, { "question_id": "10065851", "image_id": 521838, "question": "những gì đang đi xuống các đường ray gần một khu rừng", "ground_truth": "động cơ", "ground_truth_normalized": "động cơ", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "động cơ", "xe ô tô", "hàng hoá", "xe điện ngầm", "máy bay", "xe tải", "xe", "xe buýt", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.742024, "confidences": [ 0.742024, 0.252461, 0.000988, 0.000574, 0.000528, 0.000189, 0.000126, 0.000103, 0.000102, 9.3e-05 ], "gate_score_top1": 0.931641, "gate_scores": [ 0.931641, 0.856445, 0.725586, 0.615723, 0.614258, 0.626465, 0.685547, 0.412354, 0.615234, 0.398193 ] }, { "question_id": "10057821", "image_id": 521282, "question": "những gì sắp xếp gọn gàng trong chiếc bình trong vắt chứa đầy nước", "ground_truth": "bông hoa", "ground_truth_normalized": "bông hoa", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "bông hoa", "cái lọ", "tường", "mặt", "cái nồi", "tách", "hoa hồng", "chai", "bát" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.51009, "confidences": [ 0.51009, 0.364545, 0.062366, 0.012043, 0.005428, 0.005386, 0.005089, 0.003666, 0.00251, 0.00188 ], "gate_score_top1": 0.794922, "gate_scores": [ 0.794922, 0.842773, 0.699707, 0.700195, 0.481689, 0.691895, 0.644531, 0.687012, 0.515625, 0.635742 ] }, { "question_id": "10086341", "image_id": 375078, "question": "cái gì trên bàn dựa vào tường", "ground_truth": "chai", "ground_truth_normalized": "chai", "predicted_top1": "lọ cắm hoa", "predicted_topk": [ "lọ cắm hoa", "chai", "bình hoa", "bông hoa", "cây", "tách", "cái nồi", "tường", "bức tượng", "cái kệ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.871675, "confidences": [ 0.871675, 0.056823, 0.012679, 0.012241, 0.00676, 0.00334, 0.00214, 0.002135, 0.001929, 0.001448 ], "gate_score_top1": 0.791992, "gate_scores": [ 0.791992, 0.762695, 0.646973, 0.60791, 0.697754, 0.691406, 0.579102, 0.659668, 0.597168, 0.614258 ] }, { "question_id": "10048901", "image_id": 486595, "question": "cặp vợ chồng xe tay ga đang ở đâu", "ground_truth": "tòa nhà", "ground_truth_normalized": "tòa nhà", "predicted_top1": "ga-ra", "predicted_topk": [ "ga-ra", "tòa nhà", "kho", "trạm", "chuồng trại", "cửa tiệm", "phòng", "xe đạp", "ô cửa", "bảo tàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.585314, "confidences": [ 0.585314, 0.380871, 0.005562, 0.0034, 0.002283, 0.002182, 0.001523, 0.001482, 0.001205, 0.000795 ], "gate_score_top1": 0.842285, "gate_scores": [ 0.842285, 0.861816, 0.687012, 0.666504, 0.599609, 0.620605, 0.623535, 0.571289, 0.640137, 0.54248 ] }, { "question_id": "10048301", "image_id": 52611, "question": "người đàn ông phản chiếu ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "máy ảnh", "chậu", "ô cửa", "chuồng", "phòng", "vòi hoa sen", "ảnh chụp", "áo vest" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.769884, "confidences": [ 0.769884, 0.225806, 0.000963, 0.000467, 0.000182, 0.00017, 0.000168, 0.00014, 0.000132, 0.000106 ], "gate_score_top1": 0.916016, "gate_scores": [ 0.916016, 0.900879, 0.514648, 0.596191, 0.5, 0.513672, 0.527832, 0.535645, 0.422607, 0.520996 ] }, { "question_id": "10048111", "image_id": 32510, "question": "người phụ nữ lấy một bức ảnh của mình ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "máy ảnh", "vòi hoa sen", "chậu", "ô cửa", "chuồng", "nhà ở", "phòng", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.621882, "confidences": [ 0.621882, 0.371343, 0.002674, 0.000525, 0.000246, 0.000152, 0.000124, 0.000123, 0.000118, 0.000103 ], "gate_score_top1": 0.899414, "gate_scores": [ 0.899414, 0.907715, 0.569336, 0.599121, 0.53125, 0.478271, 0.439697, 0.535156, 0.468506, 0.526367 ] }, { "question_id": "10082161", "image_id": 563927, "question": "người phụ nữ mặc áo vàng đánh gì trên sân đất nện", "ground_truth": "quả bóng", "ground_truth_normalized": "quả bóng", "predicted_top1": "vợt", "predicted_topk": [ "vợt", "quả bóng", "quần short", "mũ", "áo sơ mi", "mặt trời", "nón", "mũ lưỡi trai", "ván trượt", "gậy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.554087, "confidences": [ 0.554087, 0.352199, 0.019485, 0.011146, 0.009798, 0.007586, 0.005337, 0.003748, 0.002663, 0.00157 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.788086, 0.69043, 0.651367, 0.722168, 0.61377, 0.804199, 0.532227, 0.637207, 0.698242 ] }, { "question_id": "10056501", "image_id": 465664, "question": "những gì nằm xung quanh máy bay trên đường băng", "ground_truth": "rào chắn", "ground_truth_normalized": "rào chắn", "predicted_top1": "máy bay", "predicted_topk": [ "máy bay", "sân bay", "rào chắn", "bến tàu", "bầu trời", "con dốc", "diều", "mặt trời", "con chim", "máy bay trực thăng" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.891776, "confidences": [ 0.891776, 0.032104, 0.028891, 0.007108, 0.004571, 0.002409, 0.00221, 0.002032, 0.001921, 0.001173 ], "gate_score_top1": 0.824707, "gate_scores": [ 0.824707, 0.6875, 0.474854, 0.536621, 0.591309, 0.452881, 0.552246, 0.418701, 0.536621, 0.46167 ] }, { "question_id": "10063711", "image_id": 478766, "question": "những gì được phục vụ với khoai tây nướng và bông cải xanh", "ground_truth": "cá", "ground_truth_normalized": "cá", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "thịt", "món ăn", "bữa ăn", "bữa ăn tối", "cá", "dĩa", "quán ăn", "chảo", "bát" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.869567, "confidences": [ 0.869567, 0.033849, 0.023816, 0.022993, 0.00804, 0.00578, 0.002889, 0.00262, 0.002049, 0.001794 ], "gate_score_top1": 0.861816, "gate_scores": [ 0.861816, 0.800781, 0.76416, 0.731934, 0.735352, 0.397461, 0.681641, 0.612305, 0.649414, 0.675781 ] }, { "question_id": "10013611", "image_id": 456422, "question": "màu của bộ đồ là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu nâu", "predicted_topk": [ "màu nâu", "màu đỏ", "màu xanh dương", "màu đen", "màu tía", "màu cam", "màu xám", "màu vàng", "màu xanh lá", "gấu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.589568, "confidences": [ 0.589568, 0.288457, 0.035824, 0.026831, 0.023678, 0.004599, 0.002741, 0.002381, 0.00197, 0.001459 ], "gate_score_top1": 0.795898, "gate_scores": [ 0.795898, 0.821777, 0.681152, 0.764648, 0.725098, 0.614746, 0.564453, 0.499023, 0.519531, 0.437012 ] }, { "question_id": "10067261", "image_id": 364884, "question": "người đang cưỡi ván trượt tuyết trên tuyết bao phủ là gì", "ground_truth": "con dốc", "ground_truth_normalized": "con dốc", "predicted_top1": "núi", "predicted_topk": [ "núi", "con dốc", "trượt tuyết", "đồi", "cây", "sáu", "ngân hàng", "giá đỡ", "ván trượt", "năm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.260792, "confidences": [ 0.260792, 0.227467, 0.190056, 0.085331, 0.029375, 0.013292, 0.011481, 0.008416, 0.008062, 0.006749 ], "gate_score_top1": 0.697754, "gate_scores": [ 0.697754, 0.673828, 0.693359, 0.709473, 0.630371, 0.658203, 0.5, 0.500488, 0.583496, 0.583984 ] }, { "question_id": "10081391", "image_id": 371243, "question": "những gì đang đi cùng nhau trên cánh đồng", "ground_truth": "ngựa vằn", "ground_truth_normalized": "ngựa vằn", "predicted_top1": "ngựa rằn", "predicted_topk": [ "ngựa rằn", "ngựa vằn", "hươu cao cổ", "rào chắn", "bãi cỏ", "chuồng", "con ngựa", "con chim", "con voi", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.636968, "confidences": [ 0.636968, 0.360109, 0.0008, 0.000439, 0.000114, 8e-05, 8e-05, 6.9e-05, 6.6e-05, 4.5e-05 ], "gate_score_top1": 0.88623, "gate_scores": [ 0.88623, 0.902832, 0.686523, 0.469238, 0.407471, 0.40625, 0.511719, 0.458984, 0.5, 0.356445 ] }, { "question_id": "10030411", "image_id": 242695, "question": "nhóm ba con hươu cao cổ đang ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "lá", "bảo tàng", "rào chắn", "đường sắt", "nhà ở", "cỏ khô", "hươu cao cổ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.560705, "confidences": [ 0.560705, 0.413438, 0.004331, 0.001968, 0.001584, 0.000866, 0.000748, 0.000742, 0.000687, 0.000546 ], "gate_score_top1": 0.896973, "gate_scores": [ 0.896973, 0.786133, 0.60791, 0.552734, 0.586426, 0.460205, 0.450439, 0.562988, 0.352539, 0.318604 ] }, { "question_id": "10034611", "image_id": 153985, "question": "đàn ông sử dụng máy tính xách tay ở đâu", "ground_truth": "thư viện", "ground_truth_normalized": "thư viện", "predicted_top1": "tòa nhà", "predicted_topk": [ "tòa nhà", "thư viện", "phòng", "cửa tiệm", "văn phòng", "lớp học", "kho", "ga-ra", "laptop", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.66361, "confidences": [ 0.66361, 0.245084, 0.023428, 0.021415, 0.008081, 0.004024, 0.002887, 0.00232, 0.002205, 0.000873 ], "gate_score_top1": 0.834961, "gate_scores": [ 0.834961, 0.817871, 0.728027, 0.709961, 0.620117, 0.628906, 0.631836, 0.672363, 0.54541, 0.554688 ] }, { "question_id": "10057801", "image_id": 356648, "question": "nhóm đàn ông đang điều tra cái gì", "ground_truth": "hộp đựng", "ground_truth_normalized": "hộp đựng", "predicted_top1": "nước", "predicted_topk": [ "nước", "hộp đựng", "quả bóng", "tủ đá", "áo sơ mi", "tủ lạnh", "hộp", "mặt trời", "vali", "chiếc ô" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.33777, "confidences": [ 0.33777, 0.203274, 0.026456, 0.026097, 0.018981, 0.016331, 0.01586, 0.014189, 0.009742, 0.009442 ], "gate_score_top1": 0.739258, "gate_scores": [ 0.739258, 0.580078, 0.602539, 0.492188, 0.474365, 0.613281, 0.541016, 0.537109, 0.592773, 0.533691 ] }, { "question_id": "10006391", "image_id": 105580, "question": "màu của cái bát là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu trắng", "predicted_topk": [ "màu trắng", "màu cam", "màu vàng", "màu đỏ", "màu xám", "màu nâu", "màu xanh lá", "màu đen", "màu xanh dương", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.58857, "confidences": [ 0.58857, 0.337987, 0.053687, 0.009185, 0.003162, 0.001433, 0.001344, 0.000322, 0.000216, 0.000142 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.828125, 0.790527, 0.708008, 0.62207, 0.602051, 0.604004, 0.445801, 0.493164, 0.499512 ] }, { "question_id": "10114941", "image_id": 36598, "question": "có bao nhiêu cặp đôi đang đi bộ dưới mưa, cầm ô che mưa", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "mười", "chiếc ô", "bờ biển", "năm", "mũ", "sáu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.559106, "confidences": [ 0.559106, 0.438847, 0.000756, 0.000573, 5.6e-05, 4.5e-05, 1.8e-05, 1.6e-05, 1.5e-05, 1.4e-05 ], "gate_score_top1": 0.895996, "gate_scores": [ 0.895996, 0.878418, 0.514648, 0.523438, 0.457031, 0.324463, 0.269775, 0.429199, 0.336426, 0.347412 ] }, { "question_id": "10093081", "image_id": 449402, "question": "người đàn ông mặc những gì đang sử dụng điện thoại di động", "ground_truth": "nón", "ground_truth_normalized": "nón", "predicted_top1": "điện thoại", "predicted_topk": [ "điện thoại", "nón", "mặt nạ", "cà vạt", "trường hợp", "áo choàng", "bộ đồ", "máy tính", "trang thiết bị", "thiết bị" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.650386, "confidences": [ 0.650386, 0.287482, 0.009666, 0.00386, 0.003212, 0.003077, 0.002406, 0.001771, 0.001465, 0.001387 ], "gate_score_top1": 0.870605, "gate_scores": [ 0.870605, 0.833496, 0.681641, 0.721191, 0.606934, 0.559082, 0.620117, 0.662598, 0.595215, 0.572266 ] }, { "question_id": "10027551", "image_id": 256664, "question": "bánh sandwich bbq đã phục vụ ở đâu", "ground_truth": "cái rổ", "ground_truth_normalized": "cái rổ", "predicted_top1": "cái mâm", "predicted_topk": [ "cái mâm", "cái rổ", "bát", "thùng chứa", "đĩa ăn", "cái ghế", "chảo", "quán ăn", "hộp", "món ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.547129, "confidences": [ 0.547129, 0.370206, 0.033245, 0.018722, 0.003796, 0.003215, 0.001492, 0.001394, 0.001282, 0.001167 ], "gate_score_top1": 0.840332, "gate_scores": [ 0.840332, 0.80127, 0.744629, 0.699219, 0.673828, 0.680176, 0.591309, 0.646973, 0.621094, 0.602539 ] }, { "question_id": "10021731", "image_id": 346566, "question": "màu sắc của bông hoa là gì", "ground_truth": "màu vàng", "ground_truth_normalized": "màu vàng", "predicted_top1": "màu đen", "predicted_topk": [ "màu đen", "màu trắng", "màu vàng", "màu nâu", "màu xanh lá", "màu đỏ", "bông hoa", "lọ cắm hoa", "màu tía", "màu xám" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.686116, "confidences": [ 0.686116, 0.158571, 0.122534, 0.012815, 0.004498, 0.002876, 0.001111, 0.000971, 0.000788, 0.000431 ], "gate_score_top1": 0.821289, "gate_scores": [ 0.821289, 0.795898, 0.823242, 0.693359, 0.63916, 0.593262, 0.549316, 0.537109, 0.536133, 0.474854 ] }, { "question_id": "10082481", "image_id": 387150, "question": "những gì đỗ lề đường bên cạnh đồng hồ đậu xe", "ground_truth": "xe cộ", "ground_truth_normalized": "xe cộ", "predicted_top1": "xe ô tô", "predicted_topk": [ "xe ô tô", "xe cộ", "xe đạp", "xa lộ", "xe tải", "cửa sổ", "xe máy", "bầu trời", "màu xám", "tàu hỏa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.650796, "confidences": [ 0.650796, 0.177918, 0.044635, 0.004555, 0.004502, 0.004381, 0.003395, 0.003316, 0.002927, 0.002913 ], "gate_score_top1": 0.813965, "gate_scores": [ 0.813965, 0.70752, 0.647949, 0.482422, 0.612793, 0.565918, 0.608398, 0.407959, 0.590332, 0.557129 ] }, { "question_id": "10025621", "image_id": 213366, "question": "xe cứu hỏa đậu ở đâu", "ground_truth": "ga-ra", "ground_truth_normalized": "ga-ra", "predicted_top1": "trạm", "predicted_topk": [ "trạm", "ga-ra", "kho", "tòa nhà", "phòng", "cửa tiệm", "đường phố", "ảnh chụp", "ô cửa", "xe điện ngầm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.506793, "confidences": [ 0.506793, 0.211263, 0.109174, 0.10216, 0.028369, 0.003355, 0.002059, 0.002023, 0.001976, 0.001864 ], "gate_score_top1": 0.813477, "gate_scores": [ 0.813477, 0.791504, 0.770996, 0.795898, 0.771484, 0.654785, 0.607422, 0.571289, 0.636719, 0.547363 ] }, { "question_id": "10101591", "image_id": 436174, "question": "những gì tất cả đậu sau bên cạnh nhau xếp hàng trên đường", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "cây", "xe tay ga", "con khỉ", "xe cộ", "bến tàu", "hộp số", "máy bay", "mũ bảo hiểm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.692259, "confidences": [ 0.692259, 0.297737, 0.002616, 0.000801, 0.000437, 0.000399, 0.000301, 0.000299, 0.000238, 0.000176 ], "gate_score_top1": 0.915527, "gate_scores": [ 0.915527, 0.877441, 0.664062, 0.618652, 0.480957, 0.563477, 0.389648, 0.414307, 0.546875, 0.422607 ] }, { "question_id": "10116681", "image_id": 343193, "question": "có bao nhiêu điện thoại di động xếp trên bàn", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "tám", "một", "điện thoại", "mười", "hai" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.698076, "confidences": [ 0.698076, 0.300239, 0.000345, 0.000179, 0.000168, 8.3e-05, 6.6e-05, 6.6e-05, 5.6e-05, 4.7e-05 ], "gate_score_top1": 0.90332, "gate_scores": [ 0.90332, 0.911621, 0.672363, 0.643555, 0.655762, 0.454834, 0.563477, 0.458008, 0.476562, 0.55127 ] }, { "question_id": "10037361", "image_id": 51095, "question": "con mèo đen nhỏ đang ngồi ở đâu", "ground_truth": "cái túi", "ground_truth_normalized": "cái túi", "predicted_top1": "vali", "predicted_topk": [ "vali", "cái túi", "hành lý", "hộp", "sàn nhà", "xe đẩy", "toa xe", "thùng chứa", "bồn tắm", "giường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.91052, "confidences": [ 0.91052, 0.059124, 0.011284, 0.00491, 0.002196, 0.001674, 0.001144, 0.000498, 0.00046, 0.000342 ], "gate_score_top1": 0.92041, "gate_scores": [ 0.92041, 0.841797, 0.751953, 0.693848, 0.547852, 0.674316, 0.639648, 0.597168, 0.640137, 0.521973 ] }, { "question_id": "10026281", "image_id": 110258, "question": "hươu cao cổ và ngựa vằn ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "bảo tàng", "tòa nhà", "cửa tiệm", "điện thoại", "hươu cao cổ", "sân vận động" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.750735, "confidences": [ 0.750735, 0.236229, 0.004161, 0.00122, 0.001105, 0.000423, 0.000399, 0.000262, 0.00021, 0.000177 ], "gate_score_top1": 0.889648, "gate_scores": [ 0.889648, 0.796875, 0.656738, 0.537109, 0.546875, 0.581543, 0.499756, 0.374756, 0.325439, 0.533691 ] }, { "question_id": "10001281", "image_id": 139105, "question": "màu của lá là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu nâu", "màu đen", "màu xám", "màu vàng", "màu trắng", "con bò", "màu đỏ", "con ngựa", "màu cam" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.932178, "confidences": [ 0.932178, 0.063435, 0.001232, 0.000821, 0.000503, 0.000226, 0.000126, 0.000102, 6.1e-05, 5.4e-05 ], "gate_score_top1": 0.898438, "gate_scores": [ 0.898438, 0.808105, 0.683594, 0.640625, 0.681641, 0.609375, 0.54541, 0.519043, 0.394043, 0.48584 ] }, { "question_id": "10112951", "image_id": 86754, "question": "có bao nhiêu người đang đứng trên ghế công viên với một con chó bị xích", "ground_truth": "ba", "ground_truth_normalized": "ba", "predicted_top1": "bốn", "predicted_topk": [ "bốn", "ba", "năm", "hai", "sáu", "một", "mười", "bảy", "băng ghế", "đồng hồ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.707883, "confidences": [ 0.707883, 0.286011, 0.002051, 0.001655, 0.000548, 0.000437, 0.000182, 8.8e-05, 6.8e-05, 4.5e-05 ], "gate_score_top1": 0.879395, "gate_scores": [ 0.879395, 0.872559, 0.733887, 0.649902, 0.632812, 0.579102, 0.513184, 0.523926, 0.342285, 0.41748 ] }, { "question_id": "10099111", "image_id": 533485, "question": "những gì chứa đầy những bông hoa màu hồng với lá xanh", "ground_truth": "lọ cắm hoa", "ground_truth_normalized": "lọ cắm hoa", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "lọ cắm hoa", "bát", "gầu múc", "cây", "tách", "cái lọ", "nhà ở", "thùng chứa", "tường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.54831, "confidences": [ 0.54831, 0.404299, 0.031421, 0.004456, 0.001297, 0.00079, 0.000718, 0.00058, 0.000567, 0.00041 ], "gate_score_top1": 0.876465, "gate_scores": [ 0.876465, 0.884277, 0.8125, 0.722168, 0.631348, 0.602051, 0.623047, 0.59375, 0.688477, 0.581055 ] }, { "question_id": "10098191", "image_id": 395124, "question": "những gì phù hợp với gạch ốp tường", "ground_truth": "bức màn", "ground_truth_normalized": "bức màn", "predicted_top1": "tường", "predicted_topk": [ "tường", "bồn tắm", "bức màn", "vòi hoa sen", "phòng tắm", "chậu", "mặt trời", "sân khấu", "quầy tính tiền", "chiếc ô" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.237767, "confidences": [ 0.237767, 0.209828, 0.175318, 0.084778, 0.027203, 0.014279, 0.014223, 0.010135, 0.009301, 0.008232 ], "gate_score_top1": 0.662598, "gate_scores": [ 0.662598, 0.696777, 0.609375, 0.70166, 0.481934, 0.519531, 0.534668, 0.455078, 0.586426, 0.617188 ] }, { "question_id": "10075321", "image_id": 477623, "question": "đoàn tàu nào gắn các toa tàu và đậu trên một bộ đường ray", "ground_truth": "đầu máy", "ground_truth_normalized": "đầu máy", "predicted_top1": "màu cam", "predicted_topk": [ "màu cam", "đầu máy", "động cơ", "trạm", "tàu hỏa", "hàng hoá", "màu đen", "xe ô tô", "đường sắt", "cây" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.575985, "confidences": [ 0.575985, 0.138963, 0.061906, 0.035342, 0.016118, 0.012095, 0.005769, 0.005062, 0.004437, 0.003459 ], "gate_score_top1": 0.801758, "gate_scores": [ 0.801758, 0.494141, 0.641602, 0.51416, 0.541504, 0.557129, 0.567383, 0.523926, 0.527832, 0.341797 ] }, { "question_id": "10086571", "image_id": 458721, "question": "những gì đang nằm trên mặt đất bên cạnh một chai nước thể thao", "ground_truth": "đĩa ném", "ground_truth_normalized": "đĩa ném", "predicted_top1": "dĩa nhựa", "predicted_topk": [ "dĩa nhựa", "đĩa ném", "dĩa", "con chó", "nón", "chai", "con mèo", "áo sơ mi", "ván lướt sóng", "bồn tiểu" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.442833, "confidences": [ 0.442833, 0.139344, 0.051062, 0.037139, 0.01613, 0.01114, 0.00815, 0.00727, 0.00681, 0.005797 ], "gate_score_top1": 0.769531, "gate_scores": [ 0.769531, 0.520508, 0.638184, 0.615234, 0.639648, 0.539062, 0.526367, 0.611816, 0.464355, 0.504395 ] }, { "question_id": "10095181", "image_id": 457616, "question": "cậu bé mặc cái gì vung gậy", "ground_truth": "đồng phục", "ground_truth_normalized": "đồng phục", "predicted_top1": "gậy", "predicted_topk": [ "gậy", "đồng phục", "mũ", "áo sơ mi", "quả bóng", "lồng", "găng tay", "mũ bảo hiểm", "màu xanh dương", "tượng đài" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.408345, "confidences": [ 0.408345, 0.376185, 0.043039, 0.027788, 0.015926, 0.011494, 0.010568, 0.004249, 0.003684, 0.00309 ], "gate_score_top1": 0.84082, "gate_scores": [ 0.84082, 0.675293, 0.64502, 0.613281, 0.660156, 0.483643, 0.65332, 0.508789, 0.567871, 0.439941 ] }, { "question_id": "10072171", "image_id": 531784, "question": "cái gì trên một chồng hộp", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "bàn phím", "màn", "vali", "bức tranh", "màu vàng", "con ngựa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.526592, "confidences": [ 0.526592, 0.461099, 0.002123, 0.001389, 0.000761, 0.000274, 0.000264, 0.000235, 0.000234, 0.000215 ], "gate_score_top1": 0.862305, "gate_scores": [ 0.862305, 0.837402, 0.555176, 0.60791, 0.57959, 0.465576, 0.443604, 0.591797, 0.472168, 0.450195 ] }, { "question_id": "10015841", "image_id": 229884, "question": "màu của chiếc đĩa là gì", "ground_truth": "màu cam", "ground_truth_normalized": "màu cam", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu cam", "màu đỏ", "màu đen", "màu xám", "màu nâu", "màu xanh lá", "màu trắng", "những quả cam", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.628875, "confidences": [ 0.628875, 0.352767, 0.009737, 0.001615, 0.001154, 0.00096, 0.000915, 0.000818, 0.000108, 8.5e-05 ], "gate_score_top1": 0.875977, "gate_scores": [ 0.875977, 0.881836, 0.771973, 0.559082, 0.543945, 0.620117, 0.558594, 0.56543, 0.445801, 0.458984 ] }, { "question_id": "10004771", "image_id": 11222, "question": "màu của ghế là gì", "ground_truth": "màu xanh lá", "ground_truth_normalized": "màu xanh lá", "predicted_top1": "màu xám", "predicted_topk": [ "màu xám", "màu xanh lá", "màu đen", "màu nâu", "màu vàng", "màu cam", "màu trắng", "màu tía", "màu đỏ", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.690001, "confidences": [ 0.690001, 0.301439, 0.002266, 0.001915, 0.001256, 0.000581, 0.000461, 0.000256, 0.000203, 0.000155 ], "gate_score_top1": 0.893066, "gate_scores": [ 0.893066, 0.863281, 0.686523, 0.705078, 0.620605, 0.530762, 0.647949, 0.58252, 0.52002, 0.507812 ] }, { "question_id": "10079701", "image_id": 398339, "question": "những gì mọc trong vườn", "ground_truth": "cây", "ground_truth_normalized": "cây", "predicted_top1": "bông cải xanh", "predicted_topk": [ "bông cải xanh", "cây", "lá", "sân vườn", "bãi cỏ", "mặt", "xe tải", "giỏ", "cái nồi", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.518735, "confidences": [ 0.518735, 0.344205, 0.089441, 0.002222, 0.001789, 0.001605, 0.001183, 0.001123, 0.001114, 0.001001 ], "gate_score_top1": 0.799316, "gate_scores": [ 0.799316, 0.829102, 0.766113, 0.545898, 0.601074, 0.489014, 0.425293, 0.489502, 0.431396, 0.562988 ] }, { "question_id": "10094071", "image_id": 346334, "question": "những gì trong cánh đồng cỏ", "ground_truth": "con cừu", "ground_truth_normalized": "con cừu", "predicted_top1": "gấu", "predicted_topk": [ "gấu", "con cừu", "màu nâu", "con chó", "con bò", "đồi", "bò đực", "con dê", "bãi cỏ", "gia súc" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.775685, "confidences": [ 0.775685, 0.203142, 0.002623, 0.001968, 0.001234, 0.000867, 0.000717, 0.000618, 0.000588, 0.000481 ], "gate_score_top1": 0.856445, "gate_scores": [ 0.856445, 0.80127, 0.687988, 0.67334, 0.649902, 0.482422, 0.427002, 0.320801, 0.580566, 0.484619 ] }, { "question_id": "10035751", "image_id": 18412, "question": "đứa trẻ đang chải tóc ở đâu", "ground_truth": "gương", "ground_truth_normalized": "gương", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "gương", "phòng", "máy sấy khô", "ô cửa", "nhà ở", "chậu", "tường", "vòi hoa sen", "máy ảnh" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.530058, "confidences": [ 0.530058, 0.446353, 0.00768, 0.001276, 0.000959, 0.000803, 0.000783, 0.000648, 0.00052, 0.000481 ], "gate_score_top1": 0.869629, "gate_scores": [ 0.869629, 0.86084, 0.662598, 0.408691, 0.485352, 0.636719, 0.577148, 0.617188, 0.517578, 0.362549 ] }, { "question_id": "10079261", "image_id": 521995, "question": "cái gì trên bàn thành phố", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "con ngựa", "bàn phím", "cái ghế", "bức tranh", "văn phòng", "màn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.629276, "confidences": [ 0.629276, 0.352992, 0.003999, 0.002425, 0.000873, 0.00075, 0.000681, 0.000519, 0.000514, 0.000338 ], "gate_score_top1": 0.881348, "gate_scores": [ 0.881348, 0.823242, 0.64209, 0.660645, 0.488281, 0.54834, 0.528809, 0.630859, 0.535645, 0.434814 ] }, { "question_id": "10078291", "image_id": 542792, "question": "những gì đang dựa vào một tòa nhà", "ground_truth": "gậy", "ground_truth_normalized": "gậy", "predicted_top1": "bức tượng", "predicted_topk": [ "bức tượng", "gậy", "tượng đài", "tòa nhà", "máy bay", "xe đạp", "tường", "áo sơ mi", "hộp", "dĩa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.592601, "confidences": [ 0.592601, 0.336337, 0.013298, 0.001931, 0.001699, 0.001596, 0.001567, 0.001567, 0.001371, 0.001115 ], "gate_score_top1": 0.79834, "gate_scores": [ 0.79834, 0.818359, 0.594238, 0.500488, 0.602539, 0.481934, 0.492676, 0.612793, 0.549805, 0.44751 ] }, { "question_id": "10085811", "image_id": 356586, "question": "cái gì trên cái đĩa màu xanh lá cây và màu trắng", "ground_truth": "donut", "ground_truth_normalized": "donut", "predicted_top1": "đĩa ăn", "predicted_topk": [ "đĩa ăn", "donut", "sô cô la", "bốn", "bánh ngọt", "món tráng miệng", "bức ảnh", "hươu cao cổ", "ba", "bữa ăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.726665, "confidences": [ 0.726665, 0.167943, 0.055166, 0.003689, 0.00199, 0.00147, 0.001384, 0.001106, 0.001031, 0.000905 ], "gate_score_top1": 0.798828, "gate_scores": [ 0.798828, 0.763184, 0.677246, 0.59668, 0.533203, 0.47583, 0.440186, 0.47168, 0.526855, 0.463379 ] }, { "question_id": "10114431", "image_id": 433676, "question": "có bao nhiêu người đứng trên sườn núi trên ván trượt tuyết", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "sáu", "bảy", "ba", "mười", "tám", "một", "hai", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.666852, "confidences": [ 0.666852, 0.330116, 0.001963, 0.000329, 0.000219, 7.6e-05, 4.9e-05, 4.7e-05, 2.9e-05, 2.6e-05 ], "gate_score_top1": 0.914062, "gate_scores": [ 0.914062, 0.921875, 0.770996, 0.698242, 0.675781, 0.481445, 0.4646, 0.561523, 0.51709, 0.415527 ] }, { "question_id": "10070841", "image_id": 420710, "question": "những gì đi qua cây cầu, dưới một vòm", "ground_truth": "xe buýt", "ground_truth_normalized": "xe buýt", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe buýt", "xe ô tô", "xe điện ngầm", "xe điện", "hàng hoá", "động cơ", "cửa ra vào", "tường", "trạm" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.934553, "confidences": [ 0.934553, 0.017938, 0.010181, 0.007052, 0.006175, 0.002409, 0.002138, 0.001481, 0.00116, 0.00093 ], "gate_score_top1": 0.897949, "gate_scores": [ 0.897949, 0.746582, 0.798828, 0.700684, 0.647461, 0.58252, 0.63623, 0.533203, 0.415039, 0.538574 ] }, { "question_id": "10119291", "image_id": 77874, "question": "có bao nhiêu con ngựa bị trói vào cột trên bãi biển", "ground_truth": "bốn", "ground_truth_normalized": "bốn", "predicted_top1": "năm", "predicted_topk": [ "năm", "bốn", "ba", "sáu", "mười", "hai", "một", "bảy", "nhà ở", "xe" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.578198, "confidences": [ 0.578198, 0.41646, 0.002763, 0.000859, 0.000178, 0.00016, 0.00014, 7.9e-05, 7.7e-05, 6.2e-05 ], "gate_score_top1": 0.90918, "gate_scores": [ 0.90918, 0.880859, 0.735352, 0.643555, 0.481445, 0.630859, 0.557617, 0.457275, 0.419922, 0.381836 ] }, { "question_id": "10087921", "image_id": 434930, "question": "đứa trẻ đang ăn bánh rán ở bàn là gì", "ground_truth": "sô cô la", "ground_truth_normalized": "sô cô la", "predicted_top1": "cái ghế", "predicted_topk": [ "cái ghế", "sô cô la", "cupcake", "bánh ngọt", "donut", "bánh", "nhà ở", "văn phòng", "cửa tiệm", "xe lăn" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.540791, "confidences": [ 0.540791, 0.215112, 0.108165, 0.025392, 0.007418, 0.005322, 0.004331, 0.00417, 0.004065, 0.002635 ], "gate_score_top1": 0.751465, "gate_scores": [ 0.751465, 0.685547, 0.688477, 0.564941, 0.576172, 0.618652, 0.47998, 0.498779, 0.494141, 0.504883 ] }, { "question_id": "10035741", "image_id": 40901, "question": "người đàn ông rửa tay ở đâu", "ground_truth": "chậu", "ground_truth_normalized": "chậu", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "chậu", "gương", "phòng", "vòi hoa sen", "chuồng", "quầy tính tiền", "bồn tiểu", "buồng", "nhà ở" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.867476, "confidences": [ 0.867476, 0.119249, 0.003383, 0.002262, 0.002084, 0.000774, 0.00074, 0.000457, 0.000223, 0.0002 ], "gate_score_top1": 0.902344, "gate_scores": [ 0.902344, 0.818359, 0.724609, 0.625, 0.644043, 0.568359, 0.611816, 0.568359, 0.410156, 0.517578 ] }, { "question_id": "10017961", "image_id": 182960, "question": "màu sắc của hình ảnh là gì", "ground_truth": "màu xám", "ground_truth_normalized": "màu xám", "predicted_top1": "màu vàng", "predicted_topk": [ "màu vàng", "màu xám", "màu đen", "màu trắng", "màu xanh dương", "màu cam", "màu xanh lá", "chiếc ô", "màu đỏ", "màu tía" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.449745, "confidences": [ 0.449745, 0.35717, 0.074575, 0.038689, 0.016902, 0.010913, 0.009537, 0.008786, 0.007129, 0.001591 ], "gate_score_top1": 0.763672, "gate_scores": [ 0.763672, 0.756836, 0.697266, 0.695312, 0.733887, 0.584473, 0.628418, 0.550781, 0.581543, 0.563965 ] }, { "question_id": "10023921", "image_id": 60140, "question": "màu của bảng là gì", "ground_truth": "màu đỏ", "ground_truth_normalized": "màu đỏ", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu đỏ", "màu xanh dương", "màu cam", "màu xanh lá", "màu đen", "màu vàng", "màu xám", "màu trắng", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.93685, "confidences": [ 0.93685, 0.047749, 0.002631, 0.002424, 0.002377, 0.002156, 0.001263, 0.001108, 0.00077, 0.000219 ], "gate_score_top1": 0.906738, "gate_scores": [ 0.906738, 0.813477, 0.709473, 0.682129, 0.643066, 0.675293, 0.620117, 0.57666, 0.681641, 0.48999 ] }, { "question_id": "10039411", "image_id": 366373, "question": "nhóm trẻ em đang ngủ ở đâu", "ground_truth": "giường", "ground_truth_normalized": "giường", "predicted_top1": "phòng ngủ", "predicted_topk": [ "phòng ngủ", "giường", "phòng", "chung cư", "cái ghế", "tòa nhà", "khăn", "cái túi", "vali", "hành lý" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.520923, "confidences": [ 0.520923, 0.463319, 0.012061, 0.000291, 0.000126, 0.00011, 8.7e-05, 8.7e-05, 8.4e-05, 8e-05 ], "gate_score_top1": 0.873535, "gate_scores": [ 0.873535, 0.872559, 0.810059, 0.520508, 0.579102, 0.406494, 0.360352, 0.438477, 0.52002, 0.450195 ] }, { "question_id": "10056311", "image_id": 449768, "question": "những gì đỗ bên ngoài với chuỗi gắn liền với nó", "ground_truth": "xe đạp", "ground_truth_normalized": "xe đạp", "predicted_top1": "xe máy", "predicted_topk": [ "xe máy", "xe đạp", "cây", "hộp số", "máy bay", "xe tay ga", "mũ", "bến tàu", "đường", "xe cộ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.951591, "confidences": [ 0.951591, 0.044333, 0.000346, 0.000327, 0.00016, 0.000152, 0.000125, 0.00012, 0.000117, 0.000108 ], "gate_score_top1": 0.924805, "gate_scores": [ 0.924805, 0.811035, 0.532715, 0.44751, 0.506836, 0.54541, 0.496338, 0.384766, 0.498047, 0.511719 ] }, { "question_id": "10108831", "image_id": 111002, "question": "có bao nhiêu chú cừu lông cừu được vẽ bằng những chữ cái nhỏ màu xanh", "ground_truth": "sáu", "ground_truth_normalized": "sáu", "predicted_top1": "năm", "predicted_topk": [ "năm", "sáu", "tám", "bảy", "một", "bốn", "chín", "mười", "sàn nhà", "đồi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.50368, "confidences": [ 0.50368, 0.407892, 0.032706, 0.021282, 0.008109, 0.00786, 0.002027, 0.001588, 0.000698, 0.000485 ], "gate_score_top1": 0.844727, "gate_scores": [ 0.844727, 0.822266, 0.728516, 0.740234, 0.674805, 0.697266, 0.484131, 0.540527, 0.436279, 0.422119 ] }, { "question_id": "10097311", "image_id": 393838, "question": "những gì đầy cần tây, hành tây và cà rốt", "ground_truth": "chảo", "ground_truth_normalized": "chảo", "predicted_top1": "cái nồi", "predicted_topk": [ "cái nồi", "chảo", "món ăn", "cà rốt", "bữa ăn", "rau", "bát", "chén đĩa", "rau xà lách", "quầy tính tiền" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.716592, "confidences": [ 0.716592, 0.230833, 0.015525, 0.005836, 0.00321, 0.002816, 0.001458, 0.000983, 0.000839, 0.00082 ], "gate_score_top1": 0.871094, "gate_scores": [ 0.871094, 0.79541, 0.760742, 0.681152, 0.559082, 0.661133, 0.668945, 0.600098, 0.497314, 0.59375 ] }, { "question_id": "10072341", "image_id": 444982, "question": "những gì chăn thả cỏ trong bao vây của họ", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "ngựa vằn", "predicted_topk": [ "ngựa vằn", "ngựa rằn", "rào chắn", "chuồng", "bãi cỏ", "hươu cao cổ", "màu xanh lá", "cây", "con chim", "ba" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.759486, "confidences": [ 0.759486, 0.229828, 0.003848, 0.001164, 0.000774, 0.000575, 0.000248, 0.000182, 0.000119, 0.000115 ], "gate_score_top1": 0.884277, "gate_scores": [ 0.884277, 0.826172, 0.559082, 0.540527, 0.487549, 0.608887, 0.614746, 0.411133, 0.432373, 0.527832 ] }, { "question_id": "10079371", "image_id": 343603, "question": "cái gì đang mở và gần như trống rỗng", "ground_truth": "tủ lạnh", "ground_truth_normalized": "tủ lạnh", "predicted_top1": "tủ đá", "predicted_topk": [ "tủ đá", "cửa", "cửa ra vào", "cái kệ", "tủ đông", "tủ lạnh", "chai", "con chó", "sàn nhà", "tường" ], "gt_rank": 6, "error_category": "medium_hard", "question_type": 0, "confidence_top1": 0.819612, "confidences": [ 0.819612, 0.066235, 0.055994, 0.0133, 0.011875, 0.009617, 0.003337, 0.001402, 0.00069, 0.000602 ], "gate_score_top1": 0.827637, "gate_scores": [ 0.827637, 0.845703, 0.746094, 0.742676, 0.678711, 0.691406, 0.624512, 0.606934, 0.466064, 0.541992 ] }, { "question_id": "10046891", "image_id": 212633, "question": "nhóm người chuẩn bị thức ăn ở đâu", "ground_truth": "phòng bếp", "ground_truth_normalized": "phòng bếp", "predicted_top1": "phòng", "predicted_topk": [ "phòng", "phòng bếp", "nhà ở", "quán ăn", "lớp học", "cửa hàng", "văn phòng", "tạp dề", "cửa tiệm", "thùng chứa" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.883526, "confidences": [ 0.883526, 0.062276, 0.011656, 0.005725, 0.005213, 0.00439, 0.004012, 0.00366, 0.003326, 0.001024 ], "gate_score_top1": 0.878906, "gate_scores": [ 0.878906, 0.849609, 0.756836, 0.73584, 0.681641, 0.627441, 0.619629, 0.608398, 0.713379, 0.536133 ] }, { "question_id": "10112881", "image_id": 229896, "question": "có bao nhiêu người đàn ông mặc quân phục cùng với hai người đàn ông khác đang cắt bánh", "ground_truth": "hai", "ground_truth_normalized": "hai", "predicted_top1": "ba", "predicted_topk": [ "ba", "hai", "bốn", "một", "năm", "bảy", "bánh", "mười", "tám", "chuồng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 1, "confidence_top1": 0.574201, "confidences": [ 0.574201, 0.348271, 0.033949, 0.032017, 0.004631, 0.000397, 0.000361, 0.000292, 0.000254, 0.000183 ], "gate_score_top1": 0.882812, "gate_scores": [ 0.882812, 0.82666, 0.685547, 0.69873, 0.650879, 0.397217, 0.433105, 0.375977, 0.412354, 0.478516 ] }, { "question_id": "10072051", "image_id": 373075, "question": "người đàn ông không mặc áo nướng là gì", "ground_truth": "gà", "ground_truth_normalized": "gà", "predicted_top1": "thịt", "predicted_topk": [ "thịt", "gà", "áo sơ mi", "bữa ăn", "chảo", "món ăn", "dĩa", "cái nĩa", "tạp dề", "màu xanh lá" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.536682, "confidences": [ 0.536682, 0.209348, 0.125988, 0.01773, 0.012946, 0.004413, 0.003069, 0.002549, 0.002547, 0.002308 ], "gate_score_top1": 0.78418, "gate_scores": [ 0.78418, 0.719238, 0.684082, 0.607422, 0.534668, 0.536621, 0.537109, 0.476074, 0.42749, 0.445801 ] }, { "question_id": "10066011", "image_id": 403065, "question": "những gì nó thực hiện nhiệm vụ của mình trên bãi biển", "ground_truth": "phương tiện giao thông", "ground_truth_normalized": "phương tiện giao thông", "predicted_top1": "xe tải", "predicted_topk": [ "xe tải", "phương tiện giao thông", "xe cộ", "đoạn phim giới thiệu", "xe ô tô", "xe đẩy", "toa xe", "xe buýt", "giường", "đường" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.515288, "confidences": [ 0.515288, 0.44769, 0.019747, 0.003211, 0.001505, 0.000802, 0.000769, 0.000546, 0.000391, 0.000368 ], "gate_score_top1": 0.877441, "gate_scores": [ 0.877441, 0.843262, 0.754395, 0.65625, 0.673828, 0.549805, 0.430908, 0.487793, 0.398682, 0.486328 ] }, { "question_id": "10076911", "image_id": 499134, "question": "những gì nằm bên cạnh máy tính xách tay bạc trên bàn", "ground_truth": "máy vi tính", "ground_truth_normalized": "máy tính", "predicted_top1": "laptop", "predicted_topk": [ "laptop", "máy tính", "trang thiết bị", "cái bàn", "thư viện", "văn phòng", "bức tranh", "bàn phím", "màn", "cái ghế" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.524549, "confidences": [ 0.524549, 0.445179, 0.016089, 0.009096, 0.000433, 0.000305, 0.000291, 0.000278, 0.000234, 0.00017 ], "gate_score_top1": 0.896484, "gate_scores": [ 0.896484, 0.862305, 0.731934, 0.793945, 0.620605, 0.606934, 0.650391, 0.606934, 0.499023, 0.527832 ] }, { "question_id": "10017061", "image_id": 128670, "question": "màu của chiếc bình là gì", "ground_truth": "màu nâu", "ground_truth_normalized": "màu nâu", "predicted_top1": "màu xanh lá", "predicted_topk": [ "màu xanh lá", "màu nâu", "màu cam", "màu tía", "cái nồi", "màu đỏ", "màu đen", "cây", "màu xám", "màu vàng" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.671397, "confidences": [ 0.671397, 0.24893, 0.028703, 0.008353, 0.006195, 0.003649, 0.003025, 0.002996, 0.002523, 0.001623 ], "gate_score_top1": 0.792969, "gate_scores": [ 0.792969, 0.734863, 0.671387, 0.620605, 0.558105, 0.612305, 0.566406, 0.431885, 0.554688, 0.504883 ] }, { "question_id": "10076691", "image_id": 572303, "question": "những gì đỗ bên cạnh cây trên đường ray", "ground_truth": "xe ô tô", "ground_truth_normalized": "xe ô tô", "predicted_top1": "tàu hỏa", "predicted_topk": [ "tàu hỏa", "xe ô tô", "động cơ", "hàng hoá", "xe tải", "xe", "xe đẩy", "xe cộ", "phương tiện giao thông", "vali" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.878642, "confidences": [ 0.878642, 0.106591, 0.007086, 0.001757, 0.000793, 0.000267, 0.000208, 0.000199, 0.000149, 0.000142 ], "gate_score_top1": 0.908203, "gate_scores": [ 0.908203, 0.865723, 0.728516, 0.639648, 0.781738, 0.494629, 0.44751, 0.494141, 0.513184, 0.437256 ] }, { "question_id": "10096891", "image_id": 551952, "question": "những gì đang xảy ra tải xe đạp", "ground_truth": "xe tải", "ground_truth_normalized": "xe tải", "predicted_top1": "phương tiện giao thông", "predicted_topk": [ "phương tiện giao thông", "xe tải", "xe cộ", "toa xe", "xe buýt", "đoạn phim giới thiệu", "xe máy", "giường", "xe đạp", "xe đẩy" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.513512, "confidences": [ 0.513512, 0.393724, 0.062053, 0.003549, 0.002482, 0.002082, 0.00173, 0.001628, 0.001273, 0.000995 ], "gate_score_top1": 0.825684, "gate_scores": [ 0.825684, 0.847656, 0.785645, 0.538086, 0.520996, 0.533691, 0.630371, 0.512207, 0.506836, 0.497559 ] }, { "question_id": "10093511", "image_id": 480345, "question": "những gì ăn lá từ trên đỉnh của cây", "ground_truth": "ngựa rằn", "ground_truth_normalized": "ngựa rằn", "predicted_top1": "hươu cao cổ", "predicted_topk": [ "hươu cao cổ", "ngựa rằn", "lá", "cây", "chuồng", "vườn bách thú", "màu xanh lá", "bãi cỏ", "cỏ khô", "con voi" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.980604, "confidences": [ 0.980604, 0.017272, 0.000371, 0.000295, 0.000132, 0.000106, 8.2e-05, 4.5e-05, 4.3e-05, 3.8e-05 ], "gate_score_top1": 0.898926, "gate_scores": [ 0.898926, 0.803223, 0.518066, 0.557617, 0.511719, 0.333496, 0.647461, 0.357422, 0.332764, 0.503906 ] }, { "question_id": "10043641", "image_id": 481428, "question": "vài con bò tập hợp ở đâu", "ground_truth": "chuồng", "ground_truth_normalized": "chuồng", "predicted_top1": "chuồng trại", "predicted_topk": [ "chuồng trại", "chuồng", "nhà ở", "ô cửa", "cửa tiệm", "ga-ra", "rào chắn", "tòa nhà", "kho", "con bò" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.630075, "confidences": [ 0.630075, 0.337255, 0.004449, 0.004004, 0.003806, 0.002106, 0.001044, 0.000999, 0.000964, 0.000911 ], "gate_score_top1": 0.84082, "gate_scores": [ 0.84082, 0.876953, 0.678711, 0.649414, 0.672363, 0.722656, 0.456543, 0.605469, 0.556152, 0.45166 ] }, { "question_id": "10083721", "image_id": 340209, "question": "người đàn ông đang chụp gì với một chiếc máy ảnh nhỏ", "ground_truth": "bức ảnh", "ground_truth_normalized": "bức ảnh", "predicted_top1": "máy ảnh", "predicted_topk": [ "máy ảnh", "bức ảnh", "những bức ảnh", "kính đeo", "nón", "mũ", "gương", "tường", "áo vest", "mặt trời" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 0, "confidence_top1": 0.576042, "confidences": [ 0.576042, 0.380741, 0.010885, 0.003513, 0.003452, 0.00323, 0.001349, 0.000996, 0.000917, 0.000635 ], "gate_score_top1": 0.883301, "gate_scores": [ 0.883301, 0.865234, 0.776367, 0.66748, 0.748047, 0.698242, 0.563477, 0.645996, 0.626465, 0.52832 ] }, { "question_id": "10045461", "image_id": 134650, "question": "mắt cá nhìn ở đâu", "ground_truth": "nhà ở", "ground_truth_normalized": "nhà ở", "predicted_top1": "phòng tắm", "predicted_topk": [ "phòng tắm", "vòi hoa sen", "nhà ở", "chuồng", "ô cửa", "chậu", "gương", "phòng", "bồn tắm", "hành lang" ], "gt_rank": 3, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.442207, "confidences": [ 0.442207, 0.275647, 0.226741, 0.015734, 0.012064, 0.004912, 0.002843, 0.002048, 0.001312, 0.0009 ], "gate_score_top1": 0.819824, "gate_scores": [ 0.819824, 0.825195, 0.82666, 0.728516, 0.62793, 0.549316, 0.645996, 0.608398, 0.596191, 0.54541 ] }, { "question_id": "10023101", "image_id": 517395, "question": "màu của chiếc tàu là gì", "ground_truth": "màu xanh dương", "ground_truth_normalized": "màu xanh dương", "predicted_top1": "màu tía", "predicted_topk": [ "màu tía", "màu xanh dương", "màu vàng", "màu cam", "màu xanh lá", "màu xám", "màu trắng", "màu nâu", "màu đen", "màu đỏ" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 2, "confidence_top1": 0.889147, "confidences": [ 0.889147, 0.108712, 0.000289, 0.000252, 0.000191, 0.000169, 0.00016, 0.000125, 9.3e-05, 2.2e-05 ], "gate_score_top1": 0.905762, "gate_scores": [ 0.905762, 0.881836, 0.601074, 0.577148, 0.561523, 0.59082, 0.639648, 0.624023, 0.601074, 0.468994 ] }, { "question_id": "10035731", "image_id": 26538, "question": "hai con hươu cao cổ đang ở đâu", "ground_truth": "vườn bách thú", "ground_truth_normalized": "vườn bách thú", "predicted_top1": "chuồng", "predicted_topk": [ "chuồng", "vườn bách thú", "lồng", "rào chắn", "bảo tàng", "cỏ khô", "phòng tắm", "tòa nhà", "nhà ở", "đường sắt" ], "gt_rank": 2, "error_category": "near_miss", "question_type": 3, "confidence_top1": 0.75381, "confidences": [ 0.75381, 0.235351, 0.003644, 0.001958, 0.000264, 0.000264, 0.000233, 0.000215, 0.000169, 0.000157 ], "gate_score_top1": 0.902832, "gate_scores": [ 0.902832, 0.851074, 0.698242, 0.629395, 0.515625, 0.343018, 0.600586, 0.530273, 0.572266, 0.476074 ] } ], "confusion_pairs": [ [ "năm", "bốn", 19 ], [ "năm", "sáu", 14 ], [ "chuồng", "vườn bách thú", 14 ], [ "phòng tắm", "gương", 10 ], [ "tủ đá", "tủ lạnh", 9 ], [ "laptop", "máy tính", 8 ], [ "vali", "cái túi", 6 ], [ "tàu hỏa", "xe ô tô", 6 ], [ "bốn", "ba", 5 ], [ "xe máy", "xe đạp", 5 ], [ "ba", "hai", 5 ], [ "ba", "bốn", 5 ], [ "xe đạp", "xe máy", 4 ], [ "tàu hỏa", "động cơ", 4 ], [ "lọ cắm hoa", "bông hoa", 4 ], [ "vali", "hành lý", 4 ], [ "bát", "cái rổ", 3 ], [ "phòng", "chung cư", 3 ], [ "màu đen", "màu nâu", 3 ], [ "tủ đá", "cửa", 3 ], [ "ngựa vằn", "ngựa rằn", 3 ], [ "ga-ra", "kho", 3 ], [ "hai", "ba", 3 ], [ "phòng tắm", "phòng", 3 ], [ "con chim", "hải âu", 3 ], [ "phòng bếp", "quán ăn", 3 ], [ "một", "hai", 3 ], [ "nhà ở", "phòng bếp", 2 ], [ "cái nồi", "lọ cắm hoa", 2 ], [ "phòng ngủ", "giường", 2 ], [ "ván trượt", "trượt tuyết", 2 ], [ "tủ đá", "cái kệ", 2 ], [ "màu trắng", "màu cam", 2 ], [ "tàu hỏa", "xe điện ngầm", 2 ], [ "màu trắng", "màu vàng", 2 ], [ "sáu", "năm", 2 ], [ "vali", "túi", 2 ], [ "chậu", "phòng bếp", 2 ], [ "gấu", "đồ chơi", 2 ], [ "màu đen", "màu xám", 2 ], [ "phòng tắm", "nhà ở", 2 ], [ "phòng tắm", "chậu", 2 ], [ "màu xám", "màu đen", 2 ], [ "tàu hỏa", "xe buýt", 2 ], [ "bốn", "sáu", 2 ], [ "màu tía", "màu trắng", 2 ], [ "vali", "xe đẩy", 2 ], [ "bốn", "năm", 2 ], [ "sáu", "bốn", 2 ], [ "phòng tắm", "chuồng", 2 ] ], "type_breakdown": { "0": { "total": 4513, "correct": 4277, "errors": 236 }, "1": { "total": 1752, "correct": 1674, "errors": 78 }, "2": { "total": 2187, "correct": 2150, "errors": 37 }, "3": { "total": 2505, "correct": 2393, "errors": 112 } } }