本文主要的目的是帮你快速入门大模型 ,回答几个基本问题:
1)大模型是什么
2)大模型有哪些主要的应用场景
3) 大模型的排行榜看哪个好?
4) 选型的时候要考虑什么要素
5)国内大模型哪些还可以?
大模型是什么意思?
简单说: 大模型是一种高级人工智能系统,通过模仿人脑的处理方式,利用权重存储全球知识与人类已知方法。
它可以接收文字、语音或图片作为输入,并以相同形式之一给出响应。
被称为“大模型”的原因,是d因为这些基于Transformer架构的模型有一个核心的技术革新假设:
随着训练数据量和模型参数(可类比为神经元)数量增加,模型性能将得到显著提升;
在目前的实践中,这个scaling law 规则还是成立的,在参数规模大的情况下甚至能泛化出更强的能力 ,当前最先进的这类模型已包含数百亿个参数。
大模型这轮创新,有哪些本质性的突破?
本轮大模型创新在几个关键方面实现了本质性突破。
首先,大模型的理解能力显著提升,能够精准地解析用户的诉求,无论是通过图片、文字还是语音表达。
其次,这些模型现在表达能力有了显著提升,可以生成非常自然流畅且易于理解的人类语言,即“能说人话”。
此外,大模型展现出了一定的任务泛化能力,比如一个经过训练以回答健康咨询的模型,他学会了在内科场景下胃痛的可能原因,在处理消化科的时候也能利用上内科学到的那些现象和处理方式。
不过,目前的大模型也存在着一些瓶颈需要规避:
当前的大模型在制定高层次抽象计划及实时学习方面仍存在局限,因此更适合执行具体任务而非规划复杂的策略。典型的,比如大模型目前在处理汉诺塔问题上是做不好的。。。
理想的应用方式是将复杂计划分解后交由模型执行,并由人类监督与调整最终结果,这正是copilot模式的核心理念。
我要在什么时候用大模型呢?具体啥场景?
1) 您可以作为最终用户直接用
对于最终用户而言,最直接的方式就是下载如OpenAI的应用程序,或是国内的百度度小满、阿里通义千问(对应后面大模型排名中的QWen),字节豆包 ,智谱清言(对应后面排名中的GLM) 等软件来体验。
根据个人使用感受,豆包和智谱清言在笔者发文时表现较为出色,主要得益于其精准的语音识别功能,让信息输入变得更加便捷。
在日常生活中遇到的各种疑问,现在几乎都可以尝试通过这些大模型来解答,尤其是那些过去习惯于求助于搜索引擎的问题,如今更是可以依靠大模型的帮助得到解决。
值得注意的是,当前许多大模型还具备了先检索网络资源再给出答案的能力,这大大提高了回复的质量与速度,使得获取信息的过程更加高效准确。
2)您可以把大模型包装到自己的产品里,再对外提供服务
在自己过去的产品中叠加大模型能力并对外提供服务,也是一种有效利用AI技术的方法。
场景1 : 是通过检索增强(RAG)能力,将团队积累的知识赋予大模型,使它能够基于这些知识来回答问题,从而实现自动化的客服答疑,极大减少人力资源消耗。
场景2: 是大模型可以用于生成视频、图像等内容,其强大的泛化和联想功能可以帮助快速产出创意作品,用户只需进行最后的筛选。
场景3: 大模型还可以做诸如情感分析、语义分类等数据处理任务也非常有用。
要实现上述功能,需选择如阿里云百炼这样的大模型服务商,并获取相应的API调用权限及构建工具包,按照文档指引集成到现有系统中,常见的解决方案包括检索增强RAG和多模态输出 形态等。
那大模型那么多,怎么判断他们的能力?哪个排行榜靠谱点?
在选择大模型时,大家或许也都听过排行榜 不过相信大家也跟笔者一样,都有个疑问,哪个排行榜靠谱?
对于大模型能力的横向比较,常用的方法有两类,一类基准测试(或称“考试模式”),另一类是人类评估(或称“竞技场模式”)。
“基准测试 ”,是通过一系列预设问题来考察模型性能,本质就是构建了一大堆的Q/A对,让模型基于Q去回答,然后跟A做对比,判断对错,就跟考试一样 ,里面有很多类型的数据集,比如GSM-8K专注于数学解题能力;MMLU覆盖多领域知识理解;TheoremQA则测试定理证明技巧;GPQA旨在评价通用问题解答质量。不过这些测试容易出现“刷分”现象,但它们依然提供了有价值的参考信息。
“人类评估” : 则是让两个模型针对同一开放性问题给出答案,再由人判断哪个更优,就像模型在打擂台,这种方式更能反映实际使用场景下的人类偏好。
两种方法结合使用时,通常能够得到一致的结果,为选型提供全面视角。
基准测试,可以参考huggingface的 : https://huggingface.co/spaces/open-llm-leaderboard/open_llm_leaderboard 。
而人类评估竞技场模式,也可以参考国外 https://lmarena.ai 的,或者咱们国内的平替 思南平台
鉴于外网环境不稳定,我把当前截图发出来,也标记出了国内排名靠前的模型,基本可以看到模型的差距也没那么大了,实测国内模型基本都是可用的, 要对咱们国内的模型有信心!
那最后哪个好?
在选择AI模型时,可以参考以下几个维度进行判断:
- 榜单排名:优先考虑在权威排行榜上名列前茅的模型,尤其是那些在特定领域如代码生成或图像识别方面表现突出的模型。这些模型通常针对特定任务进行了优化,在相关领域的性能更优。
- 国情适应性:对于中国用户来说,选择国内提供的AI服务可能更为合适,因为它们在内容审核、法律法规遵守等方面更加符合本地要求。此外,由于网络条件的影响,使用国外的API可能会遇到访问速度慢或不稳定的问题。
- 私有化部署支持:如果应用场景对数据隐私保护有较高要求,或者需要将AI功能集成到企业内部系统中,则应考虑该AI解决方案是否支持私有化部署。Spring AI Alibaba在这方面表现出色,它不仅能够轻松接入阿里云的各种大模型服务,还允许用户配置以接入其他提供商(如OpenAI)的服务甚至是自定义的本地模型。
- 成本效益分析:根据您的具体需求评估不同选项的成本。如果是通过API调用的方式使用云上的服务,那么比较各大平台的价格和服务条款;而对于私有化部署方案,则需综合考量硬件投入与维护费用等因素来决定最终的选择。
综上所述,选择适合您项目的AI模型时,可以结合上述因素进行全面考量。
如果是构建AINative应用,那我推荐您试试通义Qwen
如果您的应用场景主要集中在中国大陆,并且对数据隐私有较高的要求,通义Qwen无疑是一个更优的选择,理由是:
首先,通义Qwen是目前最开放的大模型之一,提供全尺寸和全模态的开源版本,支持私有部署,能够很好地满足企业对数据安全的需求。
其次,通义Qwen在多个评测中表现卓越。随着国内模型技术的快速进步,阿里云通义凭借充足的计算资源和坚定的战略投入,在持续模型训练能力上名列前茅。在MMLU、TheoremQA和GPQA等客观评测指标上,通义Qwen已经在一些基准测试中超越了Llama 3 70B,并在Hugging Face的Open LLM Leaderboard中占据首位,展现出其在国内模型中的领先地位。
此外,通义Qwen的API定价透明,目前还提供100万免费token供用户使用,无论是通过API调用还是自建模型,其使用成本都相对较低。这对于企业在预算控制上提供了重要优势。
最后,通义Qwen注重内容安全,通过API调用时配备专门的内容审查模块,确保了安全性和稳定性。这对于对数据敏感的行业尤为重要。
特别值得关注的是,Qwen和Qwen VL两个版本在国内开源榜单上都表现出色,显示了其技术实力和市场潜力。综上所述,若您在寻找一个符合数据隐私要求且具备强大性能的AI模型,通义Qwen将是值得考虑的理想选择。