三种能有效融合文本和图像信息的方法——特征拼接、跨模态注意、条件批量归一化

NoSuchKey