论文信息
题目:Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine
面向生物医学的多模态大语言模型及其像素级洞察力
作者:Xiaoshuang Huang, Lingdong Shen, Jia Liu, Fangxin Shang, Hongxiang Li, Haifeng Huang, Yehui Yang
源码:https://github.com/ShawnHuang497/MedPLIB
论文创新点
- 像素级别理解:作者提出了一种具有像素级别理解能力的多模态大语言模型MedPLIB,支持视觉问答(VQA)、任意像素级别的提示&