医图论文 AAAI‘25 | 面向生物医学的多模态大语言模型及其像素级洞察力

论文信息

题目:Towards a Multimodal Large Language Model with Pixel-Level Insight for Biomedicine
面向生物医学的多模态大语言模型及其像素级洞察力
作者:Xiaoshuang Huang, Lingdong Shen, Jia Liu, Fangxin Shang, Hongxiang Li, Haifeng Huang, Yehui Yang
源码:https://github.com/ShawnHuang497/MedPLIB

论文创新点

  1. 像素级别理解:作者提出了一种具有像素级别理解能力的多模态大语言模型MedPLIB,支持视觉问答(VQA)任意像素级别的提示&

猜你喜欢

转载自blog.csdn.net/qq_42722197/article/details/145078731
今日推荐