面向未来的智能对话新体验—Claude2

a6ef8a25784b09b4c5c025ee4b9290c1.jpeg Claude助手发展历史
 Anthropic 公司是由OpenAI前研究副总裁带领10名OpenAI前员工于2021年成立的。这里面既有GPT-3首席工程师Tom Brown,也有OpenAI安全和政策副总裁Daniela Amodei,可以说是带走了相当一批核心人才。出走成立新公司的原因之一,自然是对OpenAI现状并不满意。 从前几年开始,微软频频给OpenAI注资,随后又要求他们使用Azure超算来搞研究,而且将技术授权给微软,甚至为微软自己的投资活动筹集资金。这与OpenAI创立的初衷相悖,一批员工便想到了离职创业。当然,还有一部分原因是这群人想做能控制、可解释的AI,说白了就是先搞明白AI模型背后的原理,从而在提供工具的同时设计更多可解释的AI模型。于是,在OpenAI彻底变成“微软揽钱机器”后,他们便从这家公司离开,创办了Anthropic。Claude目标是成为一个安全、接近人类价值观且合乎道德规范的AI系统。目前(2023年4月)Anthropic目前团队大约80人,融资额超过13亿美元,估值达到41亿美元。Claude是在Anthropic自主研发的大型语言模型Create基础上设计打造而成。Create使用Anthropic自行收集的巨大多样化训练集进行训练,并采用了原创性的自监督学习方法。相较于ChatGPT背后的GPT模型采用的监督学习方式,这种方法更能促进模型对各种场景的泛化理解,强化常识推理能力,更好地学会人类交互模式。经过持续迭代优化,Claude助手已经发布了多版本,当前最新版本集成了Create的最新能力,可以提供流畅、知识丰富、上下文关联的英文语音交互体验。模型方面,Anthropic宣称其规模已经超过175亿参数,相当于GPT-3的1.5倍。
Claude功能更新
体验网址:https://claude.ai/
  • 一次记忆10万token,相当于75000个单词
Claude 的上下文窗口从 9K token 扩展到了 100K token(Claude 2 已经扩展到 200K token,但目前发布版本仅支持 100K token)。升级后的Claude-100k版本,对话和任务处理能力得到极大提升。一方面,是“一次性可处理文本量”的增加,直接拓宽了Claude的可从事岗位类型。之前,大模型最多用来处理几十页的文档。现在,Claude已经能速读公司财报年报、技术开发文档、识别法律文件中的风险、阅读上百页研究论文、乃至于处理整个代码库中的数据。最关键的是,它不仅能通读全文总结其中的要点,还能进一步完成具体任务,如写代码、整理表格等。Claude可以是你的「代码伴侣」,分分钟就能做个演示。比如,上传一个240页的Langchain API文档,让它基于这个文档用Anthropic的语言模型 做一个Langchain的简单演示。

114fd798f7bd71313d79c2ed3a0d3c62.jpeg

此外,Claude100k还能处理大约6小时的音频量。比如说,把一个马斯克的播客内容转录成了58k个token量的文本,然后用Claude进行了总结和问答。另一方面则是“记忆力”的增加,带来了对话题掌控度的提升、以及聊天能力的提升。此前大模型经常会出现“聊着聊着忘了话题”的情况,对话窗口总字数超过几千字后,开始胡言乱语。但现在,拥有一次10万+个token记忆力的Claude,则不太可能出现这种情况,反而能牢牢记住和你聊过的话题,连续交谈上好几天。
  • Claude 的训练数据主要是英语,但 Claude 2 的训练数据中非英语数据比例已经明显增加。经测试发现claude对中文的理解能力相对于chatgpt要好很多。
  •  Claude 2 的训练数据包括 2022 年和 2023 年初更新的数据。这意味着它在互联网新闻等方面了解的更多。
性能测试
在标准基准上评估测试了 Claude 2、Claude Instant 1.1 和 Claude 1.3,包括用于 python 函数合成的 Codex HumanEval、用于解决小学数学问题的 GSM8k、用于多学科问答的 MMLU、针对长故事问答的 QuALITY、用于科学问题的 ARC-Challenge、用于阅读理解的 TriviaQA 和用于中学水平阅读理解与推理的 RACE-H,具体的评估结果如下表所示:

0e2357bc46bd7cb2538e8806b60fdcb4.jpeg

值得注意的是,Claude 2 生成代码的能力有了明显的提升,在 Codex HumanEval 上的得分从 56% 上升到 71.2%。该研究还用几个常见资格水平考试的题目测试了 Claude 2 的实际能力。首先,Claude 2 在美国律师资格考试(Bar Exam)的多项选择题测试中得分率为 76.5%,高于 Claude 1.3 的 73.0%。

bb6960e83e44513eafa4250215d428e9.jpeg

其次,研究团队还用美国研究生入学考试(GRE)测试了 Claude 2 的能力水平,Claude 2 在 GRE 阅读和写作考试中的得分高于 90%,在定量推理方面已达到了参加 GRE 考试的考生的中位数水平。

1e1cc1e367157bb9937a291fd5f30a2c.jpeg

最后,该研究还在美国医师执照考试(USMLE)题目上测试了 Claude 2

5d1fd714412465f1c2706c4d8fd8effc.jpegAnthropic 表示,人工智能写作平台 Jasper 和代码导航工具 Sourcegraph 等公司已开始将 Claude 2 纳入其运营中。

f46a240c243543c3df79aa2d0f8c7499.jpeg

总结
综上,我们可以看出,在人工智能领域,Claude 2凭借其卓越的自然语言理解能力、丰富知识问答以及友好交互,已成为一个不可忽视的强力新竞争者,在许多方面领先于当前最热门的ChatGPT。Claude 2的出现给人机交互带来新的思考和可能。相信未来随着其能力的不断提升,它必将给我们带来更加智能、更加人性化的语音交互体验。 面向未来的智能对话新体验—Claude2

猜你喜欢

转载自blog.csdn.net/specssss/article/details/131729387
今日推荐