Meta昨天悄默声的发了Llama 4系列AI模型,CEO马克·扎克伯格在宣传视频中反复强调这将"加速开源AI发展"并让"全世界受益"。
不过,这一宣传却在AI开发社区引发了激烈争议。油管知名博主1littlecoder频道就做了一支很辛辣的视频(Llama 4 is NOT Open Source!),对Meta的开源主张提出了强烈质疑,指出Llama 4的许可条款与真正的开源精神相去甚远。
一、Meta的Llama 4发布与开源宣言
马克·扎克伯格在Llama 4发布视频中充满热情地宣布:"今天是Llama 4的日子。我们的目标是构建世界领先的AI,将其开源,并使其普遍可访问,让全世界都能受益。我一直认为开源AI将成为领先模型,而随着Llama 4,这开始变为现实。"
扎克伯格的宣言表明Meta正全力押注开源AI战略,试图在与OpenAI、Google等闭源模型巨头的竞争中,通过开源路线赢得主导地位。Meta在官方发布中反复强调Llama 4的"开源"性质,将其视为企业AI战略的核心优势。
然而,这一"开源"的定义很快受到了社区的严格审视。1littlecoder直言不讳地表示:"这是对开源的污蔑,与开源毫无关系。在这个视频中,我将论证为什么我们应该停止称Llama 4为开源模型。你可以称它为开放模型,你可以称它为开放权重模型,但它不是开源的。"
二、开源的本质与Llama 4的下载壁垒
开源软件的基本原则之一是普遍可访问性。正如视频中所述:"开源通过开源或免费许可促进对产品的普遍访问。这意味着任何人都应该能够访问你的产品,而不会有太多麻烦。"
与其他真正开源的AI模型相比,Llama 4的获取过程显得异常复杂。1littlecoder指出,即使是中国公司的模型如DeepSeek和Qwen,用户只需点击几下即可下载。而Meta的模型却设置了多重障碍:
"Meta的模型要求你首先登录Hugging Face账户,这点我能理解,他们可能有垃圾邮件问题。然后填写表格,务必提供你的法定全名。我是说,为什么下载PyTorch权重或一些随机二进制文件需要提供我的法定姓名?还有出生日期、完整的组织名称、所有公司标识符。"
更令人担忧的是,表格上明确警告:"避免使用首字母缩写和特殊字符。未能按照这些指示操作可能会阻止你访问此模型和Hugging Face上的其他模型。提交后,你将无法编辑此表格。因此,请确保所有信息准确无误。"
这意味着一旦因填写信息不当被Meta禁止,用户可能永远无法从Hugging Face下载该模型,这与开源软件的普遍可访问性原则直接冲突。
三、Llama 4的许可证限制与开源定义的冲突
更具争议性的是Llama 4的社区许可协议,1littlecoder将其描述为"对开源的污蔑"。这份许可协议包含多项限制,直接挑战了传统开源定义:
首先是用户限制条款:"如果你拥有一家月活跃用户超过7亿的公司,你不能使用这个模型。"虽然这对大多数开发者来说影响有限,但它违背了开源软件不应对使用者有歧视的基本原则。
"如果你来自Google或者像OpenAI这样的组织,你不能使用这个模型。对我们这些可怜的家伙来说,我们可以使用这个模型。"创作者半开玩笑地指出。
其次是关于再分发的严格要求。许可证规定,如果分发或提供Llama材料,必须显示"使用Llama构建"的标志。1littlecoder对此表示强烈不满:"为什么我要这样做?你想加速开源,对吧?你不是在寻求任何好处,因为你相信开源。只要给我模型,我想怎么用就怎么用。这是愚蠢,完全的愚蠢。"
更令人震惊的是命名要求:"如果你使用Llama材料或任何Llama材料的输出或结果来创建、训练、微调或以其他方式改进分发或提供的AI模型,你还应该在任何此类AI模型名称的开头包含'Llama'。"
"例如,如果你采用Qwen并用Llama相关模型进行某种微调,那么你必须称之为Llama Qwen、Llama Deep Seek或Llama GPT-4。"创作者解释道,"一个是标明'使用Llama构建',第二个是你必须在名称前加前缀,比如你必须说Llama然后是其他模型。我不认为这是开源。"
此外,还有版权声明要求:"在你分发的Llama材料的所有副本中,你必须包含以下归属声明,并与分发的此类副本一起提供声明文本文件:'Llama 4的许可证和Llama 4社区许可证,版权Meta平台,保留所有权利。'"
四、AI社区对Llama 4许可的专业评估
为验证自己的观点,1littlecoder向Google的Gemini AI提出了问题:"这是开源吗?它符合开源许可吗?"
Gemini的回答证实了创作者的疑虑:"这个许可证不完全符合基于普遍接受的开源定义和原则的开源许可证。"
Gemini列出了多个原因:
- 商业限制(对大型平台的使用限制)
- "使用Llama构建"的强制标注要求
- 添加"Llama"前缀的命名要求
- 附加声明的要求
Gemini进一步解释了为什么这些问题对开源重要:"像OSI(开源倡议组织)批准的开源许可遵循这些原则:使用自由、学习自由、再分发自由、修改自由,没有歧视。"
1littlecoder对此感到无比沮丧:"天哪,你甚至不能下载这个模型,如果你因为提供了一些错误的详细信息而被Meta封禁一次,那么你就再也无法从Hugging Face下载这个模型了。这是多么愚蠢!"
五、Llama 4的技术规格与模型系列
尽管存在许可争议,Llama 4在技术方面仍展现出令人印象深刻的能力。Meta发布了两个初始模型,并预告了两个即将推出的模型:
1. Llama 4 Scout
- 极快速度,原生多模态
- 业界领先的近乎无限的1000万token上下文长度
- 设计为在单个GPU上运行
- 170亿参数×16专家
- "同类中性能最高的小型模型"
2. Llama 4 Maverick
- 据称在所有基准测试中击败GPT-4.0和Gemini Flash 2
- 比DeepSeek v3更小更高效,但在文本方面仍有可比性
- 原生多模态
- 170亿参数×128专家
- 设计为在单个主机上运行,便于推理
- 扎克伯格称其为"一头野兽"
即将推出的模型:
Llama 4 Reasoning - 预计在下个月有更多消息
Llama 4 Behemoth - 扎克伯格描述为"巨大",超过2万亿参数,"我不知道有人在训练更大的模型",据称已经是"世界上性能最高的基础模型",而且"甚至还没有完成训练"
扎克伯格对Llama 4系列的愿景是雄心勃勃的:"总体而言,Llama 4是Meta AI和开源的一个里程碑。首次,最好的小型、中型,可能很快是前沿模型将是开源的。还有很多工作要做,但这里的轨迹很明确。"
六、对AI开源未来的思考与挑战
1littlecoder在结束时呼吁AI社区重新思考什么才是真正的开源:"请不要称这为开源。我相信,将任何进入Hugging Face的愚蠢模型称为开源,对于开源代表的内容或开源支持者来说,是一种污蔑。这不是开源,只是你可以下载并带有一堆限制的开放权重。"