PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Zhang, Xiaoman; Wu, Chaoyi; Zhao, Ziheng; Lin, Weixiong; Zhang, Ya; Wang, Yanfeng; Xie, Weidi

Computer Science > Computer Vision and Pattern Recognition

arXiv:2305.10415 (cs)

[Submitted on 17 May 2023 (v1), last revised 29 May 2023 (this version, v5)]

Title:PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Authors:Xiaoman Zhang, Chaoyi Wu, Ziheng Zhao, Weixiong Lin, Ya Zhang, Yanfeng Wang, Weidi Xie

View PDF

Abstract:In this paper, we focus on the problem of Medical Visual Question Answering (MedVQA), which is crucial in efficiently interpreting medical images with vital clinic-relevant information. Firstly, we reframe the problem of MedVQA as a generation task that naturally follows the human-machine interaction, we propose a generative-based model for medical visual understanding by aligning visual information from a pre-trained vision encoder with a large language model. Secondly, we establish a scalable pipeline to construct a large-scale medical visual question-answering dataset, named PMC-VQA, which contains 227k VQA pairs of 149k images that cover various modalities or diseases. Thirdly, we pre-train our proposed model on PMC-VQA and then fine-tune it on multiple public benchmarks, e.g., VQA-RAD and SLAKE, outperforming existing work by a large margin. Additionally, we propose a test set that has undergone manual verification, which is significantly more challenging, even the best models struggle to solve.

Subjects:	Computer Vision and Pattern Recognition (cs.CV)
Cite as:	arXiv:2305.10415 [cs.CV]
	(or arXiv:2305.10415v5 [cs.CV] for this version)
	https://doi.org/10.48550/arXiv.2305.10415

Submission history

From: Xiaoman Zhang [view email]
[v1] Wed, 17 May 2023 17:50:16 UTC (4,337 KB)
[v2] Thu, 18 May 2023 12:08:10 UTC (4,337 KB)
[v3] Fri, 19 May 2023 04:30:00 UTC (4,337 KB)
[v4] Wed, 24 May 2023 15:35:13 UTC (4,337 KB)
[v5] Mon, 29 May 2023 12:23:21 UTC (4,337 KB)

Computer Science > Computer Vision and Pattern Recognition

Title:PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Submission history

Access Paper:

References & Citations

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators

Computer Science > Computer Vision and Pattern Recognition

Title:PMC-VQA: Visual Instruction Tuning for Medical Visual Question Answering

Submission history

Access Paper:

References & Citations

BibTeX formatted citation

Bookmark

Bibliographic and Citation Tools

Code, Data and Media Associated with this Article

Demos

Recommenders and Search Tools

arXivLabs: experimental projects with community collaborators