打爆GPT-4，谷歌发布史上最强大模型Gemini - 代码天地

打爆GPT-4，谷歌发布史上最强大模型Gemini

企业开发 2023-12-18 03:39:02 阅读次数: 0

Datawhale干货

大模型：Gemini、编辑：量子位

传闻中的谷歌杀手锏Gemini，来了！

就在刚刚，谷歌CEO皮猜和哈萨比斯在谷歌官网联名发文，宣布推出这一万众瞩目的多模态大模型。

标题明晃晃写着“最大”、“最强”，主打的就是一个干爆GPT-4。

具体来说，此次谷歌一共带来了Gemini的三个版本：

Gemini Ultra：谷歌最大、最强模型，适用于高度复杂的任务
Gemini Pro：可扩展至各种任务的Gemini模型
Gemini Nano：适用于端侧设备的高效Gemini版本（1.8B/3.25B）

其中Gemini Ultra一上来就在32个基准测试中拿下30个SOTA，并且第一个在MMLU基准上达到人类专家水平。

而Gemini Pro从今天起，就会在Bard中实装上线。

同时，谷歌Gemini团队还公布了一份60页的详细技术报告。

消息一出，社交媒体瞬间炸了锅。

英伟达AI科学家Jim Fan就第一时间转发评论：

这是OpenAI王座的有力竞争者。

话不多说，一起来看更多细节。

谷歌史上最强大模型Gemini

在LLM中的表现，也正如我们刚才所述，32个基准测试中拿下30个SOTA。

其中，通用、推理、数学和编程等大方向的成绩如下表所示：

△Gemini 在包括文本和编码在内的一系列基准测试中达到SOTA

在多模态方面，Gemini Ultra在新的MMMU基准测试中也获得了59.4%的SOTA分数。

这项基准测试是由跨不同领域的多模式任务组成，需要大模型进行一个深思熟虑的推理过程。

根据谷歌给出的图像基准测试结果来看，Gemini Ultra在没有OCR系统的帮助下，表现优于之前最先进的模型。

△Gemini 在一系列多模态基准测试中达到SOTA

接下来，我们以具体的案例来看一下Gemini的能力。

例如科学家们经常要面对从成千上万的文献中提取数据的难题，像下面这篇研究，作者就通过手动的方法从上万篇遗传学论文中创建了数据集。

像这样的数据集是需得随着时间流逝而进行更新的，但现实的情况是，自2021年以来，这个领域便已有超过200000篇新增的论文……

再像以往手动的方式显然是不可行的，不过现在有了Gemini，一切就变得简单了起来。

首先，通过自然语言的Prompt，告诉Gemini去过滤相关的科学论文：

只需片刻时间，Gemini就能找到相关论文和非相关的论文。

而后，继续用Prompt告诉Gemini去阅读相关论文，并提取关键数据，甚至是可以要求它添加注释的那种。

如果你给Gemini一个午休的时间长度，它就能阅读200000篇论文，从中筛选出250篇并提取数据！

并且由于Gemini是多模态的，我们还可以让它对上面的数据表格做进一步的深入操作，例如更新图表：

对于学生党来说，Gemini现在也可以成为非常得力的学习助手。

例如“喂”给Gemini一张手写物理题，它不仅能看懂，而且还可以辨别手写答案的对错。

在此基础上，若是选择一个错误的题目，我们还可以跟Gemini通过自然语言沟通，让它对每一个细节步骤进行详解。

在看图像做理解和推理方面，谷歌还亮出了更多有意思的案例。

例如替换图片素材的组合方式，Gemini就能像人一样精准猜中所指的电影名字：

就连下面这种高难度的也能hold住：

再如寻找两张图片的相似之处：

更有意思的是，谷歌还特意用中文做了个demo，来展示Gemini对多张图片的组合理解能力：

那么接下来的问题就是：Gemini是如何做到的？

60页报告透露技术细节

谷歌Gemini背后技术的杀手锏，便是原生多模态（natively multimodal）。

因为以往创建多模态大模型的方法，通常是为不同的模态训练单独的组件，然后将它们拼接在一起，大致模拟其中的一些功能。

这样训练出来的模型虽然有时可以很好地执行某些任务（比如描述图像），但在面对更具概念性和复杂推理的情况下，就会出现表现不佳的结果。

而谷歌Gemini所强调的原生多模态，是指从一开始就对不同的模态进行预训练，然后用额外的多模态数据对其进行微调，以此来进一步完善大模型的有效性。

谷歌对此表示：

这样的训练方法，有助于Gemini从头开始无缝地理解和推理各种输入，远远优于现有的多模态模型；而且它的功能在几乎每个领域都是最先进的。

具体到模型架构方面，Gemini基于增强的Transformer decoder打造，采用了高效attention机制（如multi-query attention），支持32k上下文长度。

尽管没有透露Ultra和Pro版本的具体参数规模，但技术报告中提到，谷歌使用TPUv5e和TPUv4来训练Gemini。

训练Gemini Ultra使用了跨多个数据中心的大量TPUv4。这意味着与谷歌此前的主力大模型PaLM-2相比，Gemini在规模上显著增大。

此前，PaLM-2被曝参数规模为3400亿。

Gemini Pro实装上线

竞争对手那边，OpenAI的GPTs惊艳全世界，微软的Copilot更是先一步渗透进全线产品。

因此Gemini一出，谷歌也当即强调：Gemini将通过谷歌产品推向数十亿用户。

率先上线的是Gemini Pro。从今天起，谷歌的聊天机器人Bard将由Gemini Pro微调版本驱动。谷歌表示：

这是Bard自推出以来的最大升级。

谷歌还打算把Gemini引入手机：Pixel 8 Pro将是第一款运行Gemini Nano的智能手机。

另外，谷歌计划在接下来几个月中，将Gemini全面推向搜索、广告、Chrome和Duet AI等产品线。

根据官方数据，Gemini能使用户的搜索生成体验（SGE）速度更快、质量更高，比如在美国使用英语搜索延迟能减少40%。

值得关注还有，就在Gemini正式亮相的同时，谷歌还推出了专为大模型而设计的新一代TPU——Cloud TPU v5p。

那么，你觉得这一波，谷歌能赶上OpenAI的脚步吗？

参考链接：
[1]https://blog.google/technology/ai/google-gemini-ai
[2]https://storage.googleapis.com/deepmind-media/gemini/gemini_1_report.pdf
[3]https://youtu.be/jV1vkHv4zq8?si=jjAw0uV0dkpP3eVT

最新技术，点赞在看↓

猜你喜欢

转载自blog.csdn.net/Datawhale/article/details/134889135

打爆GPT-4，谷歌发布史上最强大模型Gemini

Google 发布最强大模型Gemini，能力与GPT-4相当

超越GPT-4！谷歌发布最强多模态大模型—Gemini

Google 发布最强 AI 模型 Gemini，性能超「GPT-4」

超越GPT-4！谷歌AI大模型Gemini震撼发布

谷歌发布大模型Gemini，赶超GPT4

LLM（五）| Gemini：谷歌发布碾压GPT-4最强原生多模态，语言理解能力首次超过人类

谷歌发布Gemini以5倍速击败GPT-4

赶超GPT-4性能，谷歌最新多模态Gemini发布

探索谷歌新模型Gemini：超越GPT-4的多模态技术与体验教程

谷歌Gemini全面反击：人工智能的新巅峰，GPT-4的强劲对手超越GPT-4的多模态大模型

谷歌发布最强AI大模型Gemini（超越chatgpt4）

“不逊色GPT-4”！百度最强大模型发布，我们第一时间实测了一波

谷歌发布史上“最强大脑”——可以控制和操作机器人的AI模型

OpenAI 又赢麻了谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4

谷歌承认Gemini视频是“剪出来”的，想赶超GPT-4想疯了

GPT-4 Turbo：OpenAI发布旗舰版GPT-4模型，更便宜｜更强大｜128K上下文｜支持多模态

Google 发布史上最强大模型，能否抗衡 OpenAI?

逼近GPT-4，AI编程要革命！Meta开源史上最强代码工具Code Llama

无限访问GPT-4！史上最强企业版ChatGPT上线，3.2万token

GPT-4，究竟强大在哪里？

Google DeepMind推出大模型 Gemini （vs GPT4）：规模最大、能力最强的人工智能模型

最强模型GPT-4 Turbo来了，程序员会失业吗？

GPT-4 发布：在考试中击败 90% 的人类；谷歌开放大语言模型 PaLM API；FireFox 111 发布|极客头条

无限访问GPT-4！史上最强企业版ChatGPT上线，3.2万token，OpenAI颠覆打工人

媲美GPT4，一键搭建谷歌 Gemini

全面剖析OpenAI发布的GPT-4比其他GPT模型强在哪里

侵吞全球算力！谷歌Gemini被曝算力达GPT-4五倍，手握TPU王牌碾压OpenAI

传谷歌开始小范围测试 Gemini：比训练 GPT-4 算力大 5 倍，多模态能力大提升

OpenAI 正式发布 GPT-4

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)