5分钟弄懂:大模型是什么?怎么用?怎么选型?哪个好?

本文主要目标是 5分钟 内快速搞懂大模型 的一些关键要点。

主要 介绍了大模型是什么怎么用,大模型的主要评价标准,以及选什么最合适。

目录

大模型是什么

大模型这轮创新,有哪些本质性的突破?

怎么用大模型?常见的大模型应用有哪些?

第一种用法: 作为最终用户直接用

第二种用法:把大模型包装到自己的产品里,再对外提供服务

那大模型那么多,怎么选型好一些?

那最后哪个好?

整体而言通义Qwen是我们推荐的


大模型是什么

大模型是一种 模拟人脑功能 的高级人工智能系统,它通过权重方式存储了海量知识和人类已知的方法。

这类模型能够处理多种形式的输入(如文本、语音或图像 ,所以叫多模态 ),并以相对应形式输出结果(文本、语音或图像) 。

之所以称为“大”模型,是因为在这一波AI创新中 ,其核心假设是训练数据量越大、模型参数越多(这些参数类似于神经元),则模型性能越出色,在当前的实际测试中也确实如此,越大的模型,效果就越好,当前最先进的大模型已经包含了数百亿甚至更多数量级的参数。

大模型这轮创新,有哪些本质性的突破?

这轮大模型创新的核心突破点包括:

1 、大模型的理解能力显著提升:无论是图片、文字还是语音输入,都能精准把握用户意图。

2、 大模型的表达能力有显著提升:这些模型能够以更加自然流畅的方式表达信息,即“说人话”,使得输出更易于人类理解。

3、 大模型展现出了一定的任务泛化的能力比如学会了玩一款新游戏后,能够将所学技能迁移到类似但规则略有不同的另一款游戏中。基于上述能力,大模型可用于快速调研获取信息或自动完成一系列复杂操作。

然而,大模型在高层次抽象规划与实时学习方面仍存在局限性:因此更适合辅助执行具体任务而非制定战略决策。

最佳实践是让大模型作为助手参与低层次的任务执行,并由人类监督最终成果,这种模式也被称为copilot副驾驶模式。

怎么用大模型?常见的大模型应用有哪些?

第一种用法: 作为最终用户直接用

这也是大部分用户最直接的用法,只需下载一个如OpenAI chatgpt 的应用,或国内的百度度小满、阿里通义千问、字节豆包、智谱清言等应用即可直接体验。

根据个人经验,豆包和智谱清言表现较为出色,主要因为它们在语音识别方面做得相当准确,使得输入更加简便快捷。

从我的使用感受来看,几乎所有问题都可以先咨询这些大模型,尤其是以前需要通过百度搜索解决的问题,现在几乎都能由这些智能助手处理。

特别是如今的大模型还能帮助预先检索网页信息后再作答,这不仅提升了回答的质量,也大大提高了效率。

第二种用法:把大模型包装到自己的产品里,再对外提供服务

将大模型能力集成到现有产品中,能够显著增强产品的智能化水平。

例如,通过检索增强(RAG)功能,可以将团队积累的知识输入给大模型,使它能够基于这些知识来解答用户的问题,从而大大减轻了客服人员的工作负担。

此外,在创意领域如视频或图像生成上,利用大模型的强大泛化和创造能力,可以帮助用户快速产出多种设计方案,只需从中挑选最满意的即可。

对于处理大量文本数据的任务,比如情感分析或者语义分类,大模型同样能发挥重要作用,提高工作效率。

为了实现上述目标,选择合适的大模型服务提供商至关重要,像阿里云 百炼 这样的平台提供了丰富的API接口以及构建工具支持,帮助企业轻松搭建起具备先进AI能力的应用程序。采用如RAG或Agent等架构设计,可进一步优化解决方案,使之更加贴近实际需求。

那大模型那么多,怎么选型好一些?

在选择大模型时,从其本身能力出发进行横向评估是关键。主要通过两种方式进行:

一是基准测试(或称考试模式),它通过一系列预设问题来检验模型在特定领域的知识掌握情况与推理能力;

基准测试中常见的有GSM-8K(侧重于数学解题能力)、MMLU(多学科综合知识水平)、TheoremQA(理论证明能力)和GPQA(常识理解和应用)。尽管基准测试可能因题目固定而易于“刷分”,但仍为衡量模型基本性能提供了重要参考。

二是人类评估(或竞技场模式),这种模式下,针对同一开放性问题,让两个模型分别作答后由人来评判哪个答案更优。

相比之下,竞技场模式由于问题更加灵活且贴近实际应用场景,在一定程度上能更好地反映模型的真实表现。通常情况下,这两种方法得出的结果具有一致性,但后者更能体现模型在处理复杂、非结构化信息时的能力。

基准测试,可以参考huggingface的 : https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard


而人类评估竞技场模式,也可以参考国外 https://lmarena.ai 的,或者咱们国内的平替 思南平台 OpenCompass司南 - 评测榜单

给大家截个图 当前的hugging face的llm leader board : 可以看到里面的QPQA和MMLU值

另外我们也可以看一下竞技场的情况,我把国内能排的上模型都标出来了

那最后哪个好?

我建议从几个维度综合下来选适合的AI模型:

1) 考虑榜单排名:选取在权威榜单上排名前20位的模型,或是在特定领域如代码生成、图像识别等细分领域表现优异的模型。这些模型通常经过了大量针对性的数据训练,在其专长领域具有更高的准确度和性能。

2)可访问性和合规性问题:由于地域限制及政策因素,一些国外优秀的AI模型可能在国内存在访问不便或内容输出不符合当地法律法规的情况,因此,在选择时需要特别注意这一点。

3)是否支持私有化部署:也是一个重要因素。对于那些对数据安全性要求较高或者希望拥有更多控制权的企业来说,能够进行私有化部署的模型显然更具吸引力。这不仅保证了数据的安全,同时也为用户提供了更加灵活的服务选项。

4)成本效益分析:

当采用API调用方式时,比较不同供应商提供的服务价格

而在考虑私有化部署方案时,要考虑模型大小,在能满足功能的前提下选最小的模型,以达到性价比最优解。综上所述,通过对比以上几个方面可以帮助您更好地做出决策。

整体而言通义Qwen是我们推荐的

整体而言,通义Qwen是我们推荐的选择,理由是。

1) 能力排名靠前 :QWen 在MMLU、TheoremQA、GPQA等客观评测指标上超越了Llama 3 70B。竞技场模式也在第一梯队。

2) 可访问性和合规性: 在API调用的情况下是有安全保护的,基本不用担心出现恶意问题攻击问题。

3) 完全开源 : 目前是最为开放的模型之一,提供了全尺寸的多模态大模型开源版本 。 多大多小都有的选。

4)价格合理,有100万免费token可以使用,调用API的成本较低,因为是开源的,自己构建的话甚至可以免费使用。特别推荐关注其Qwen和Qwen vl两个模态的模型,它们在开源榜单上均位居国内第一。

你可以在 阿里云的百炼里面 快速体验。 

同时,如果您是java开发者,也可以用spring ai alibaba 来快速调用到通义千问的能力。

猜你喜欢

转载自blog.csdn.net/whisperzzza/article/details/143507240