文章总结
主要内容
本文研究了多模态大型语言模型(MLLMs)在混合文化语境中的文化偏见问题。通过构建跨文化基准数据集MIXCUBE,作者测试了模型在面对不同种族人物与文化元素(如食物、节日、服装)结合时的识别能力。研究发现:
- 高资源文化(如英国、美国):模型表现稳定,准确率下降幅度较小(<15%)。
- 低资源文化(如阿塞拜疆、缅甸):模型对人物种族变化敏感,准确率下降显著(如GPT-4o在阿塞拜疆食物识别中准确率下降超40%)。
- 数据偏差:现有模型对低资源文化的认知不足,可能源于训练数据中文化多样性不足。
创新点
- MIXCUBE数据集:包含5个国家(阿塞拜疆、缅甸、韩国、英国、美国)、3类文化元素(食物、节日、服装)的2500张图像