为什么我们拥有庞大的语言模型,而Vision Transformers的规模却很小?

NoSuchKey