谷歌 Gemini 2.0 Flash 升级版深度研究:能否超越 OpenAI deep research?(实测对比)

谷歌基于其最新的模型Gemini 2.0 Flash和Flash Thinking又推出了一系列功能更新:包括基于2.0 Flash的文生图功能:简单一句话就能出图。基于2.0 Flash Thinking的deep research深度研究功能。

图片

关于deep research,这个对于咱们写文献综述、主题调研比较有用。娜姐之前写过几篇文章:

Gemini 2.0 Flash Thinking 是Gemini 2.0系列中专为增强推理而设计的实验模型,和之前基于1.5 pro的深度研究有哪些不同呢?

首先看一下谷歌官方的说明:

1 2.0 Flash thinking推理速度约为1.5 Pro的两倍,且在数学和科学领域表现更出色;

2 超长上下文:百万token的窗口使得复杂分析能够更好的实现;

3 基于thinking推理模型的深度研究,边思考边搜索边分析总结,提升了分析结果的质量。

           

1 下面,娜姐还是以一篇综述论文写作为例,来实测一下基于2.0 Flash Thinking的deep research表现如何。

以 “金属离子在阿兹海默症(AD)病理中的关键作用”为主题写一篇综述。为防止它只查找中文文献,可以加一句“请你查找英文文献来源,然后用中文撰写综述。”

图片

相比之前的1.5 pro基座的深度研究,是给出综述大纲,2.0 flash thinking则是给自己规划了行动路径:    

图片

有点OpenAI deep research的意思了,自主规划达成目标的路径。 

和之前一样,你也可以点“修改方案”提出改进计划,确定后点“开始研究” 它就开始给你干活了。           

接下来,Gemini 2.0 deep research会展示自己的思考过程,以及实时检索的网页信息。这过程也挺像OpenAI deep research的。    

图片

会对信息做分析判断,并根据判断结果实时改变行动策略:

图片

看起来是智能了许多。

               

2 实测效果展示           

最后还是生成了一份谷歌文档的综述报告。写了4000多字,引用了109个信息源,90%以上都是学术论文。而且参考文献都是最新的,这点很赞。

图片

再来看看内容质量:           

首先,信息的准确度还是比较高的。和AD病理相关的金属离子,按照重要性从高到低展开,基本上没有遗漏:    

图片

缺点就是,对于机制的相关论述还是过于简略,没有OpenAI deep research深入。

而且,过多的引用孟德尔分析和荟萃分析的结论,可能这类OA文章信息源比较多。           

整体来讲,相比基于1.5 pro的深度研究,报告的质量无论从准确性、深度和时效性都有所提升。关键是免费用户每天也能用,这一点比OpenAI香太多了。           

总结一下,基于Gemini 2.0 flash thinking的deep research:

           

优点:    

1 报告的准确性比1.5 pro版提升很多。

2 参考文献来源更丰富。           

3 信息来源更新(很重要):过时的信息来源意味着过时的甚至错误的结论,所以最新的信息源很重要。相比基于1.5 pro的deep research,基于2.0 flash基座的deep research能够查找最新信息源。

           

缺点:

1 来源文献不够优质,掺杂了很多“荟萃分析”的结果。还有很多来源于MDPI / Frontiers期刊的全文论文。

2 作为学术论文,论文的深度还是远远不够。涉及机制、原理的论述部分,还是太过简略。  

   

此外,基于Gemini 2.0 flash Imagen 3文生图功能,娜姐也浅浅试了一下:

图片

图片

图片

    

图片

图片

以后画示意图需要啥零部件,直接化身神笔马良,找Gemini 要就行。当然,复杂的图一定要注意核实科学性和准确性。

----

今天就介绍到这里。

如果觉得有用,欢迎在看、转发和点赞!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。