目前最火的Gemini有哪些创新

跟我读,[dʒemɪnaɪ], 不是铃木汽车那个jimny

      一早上被刷屏了,铺天盖地的Gemini逆袭,从现在公布出来的demo和测试结果确实看着是很领先的模型,对video的识别GPT4v目前是做不到的,因为它的多模态encoder和decoder现在不支持video的

     与此同时也伴随着争议让一些问题发酵,比如为什么在MMLU里面few_shot COT@32的时候 Gemini Ultra beat GPT4,而few_shot COT@5的时候 不如GPT4

Image

      对于我个人来说,我其实最关注的是Gemini的技术实现是否有所突破,相对于现在的casual-decoder的Transformer来讲

      由于东西比较新,也没有Paper出来(由于GPT-4就没公布,估计后面大家想看到一些商业化的产品的核心内容也很难了),我就自己总结了几个比较值得说的点:

1- 真正的多模态:把video能力加入到编解码里面,目前没看到解码,如果不能生成视频的话,那严格来说还是差了一块拼图,但是不管怎么说,这个是个不小的提升,相当于把人类世界的几种表达方式凑全了,目前Claude2只能text,GPT-4V和GPT-4严格来说是两个模型,还不支持video

2- Encoder-decoder模式:不知道是急于给T5和众兄弟证明,还是确实顶级大佬们发现了Encoder-decoder模式的某种没表现出来的能力,从一些小道消息,我听说Gemini并没有采用业界现在最火,性能最优的casual-decoder的架构,而是采用了最让人诟病的和T5一样的非满秩encoder-decoder全来的传统Transformer模型,另外之前Dall-E3暴露的论文,发现它也用的T5做的多模态,这块就属于我超级关心的范畴了,希望以后能暴露出更多的信息

3- 模型规模,现在爆出来的信息,Gemini大概是GPT4的5倍(由于它是encoder-de

猜你喜欢

转载自blog.csdn.net/kingsoftcloud/article/details/134863123