Multimodal

VCR: A Task for Pixel-Level Complex Reasoning in Vision Language Models via Restoring Occluded Text

We introduce Visual Caption Restoration (VCR), a novel vision-language task that challenges models to accurately restore partially …

Tianyu Zhang, Suyuchen Wang, Lu Li, Ge Zhang, Perouz Taslakian, Sai Rajeswar, Jie Fu, Bang Liu, Yoshua Bengio