开发大语言模型需要数据？算法？算力？ - 代码天地

开发大语言模型需要数据？算法？算力？

业界资讯 2023-06-21 13:40:40 阅读次数: 0

开发大语言模型的关键是什么。最近看到不少文章为了流量，甚至连 5G 通讯都说成了是开发大语言模型的关键

其实从前面的原理介绍，不难看出，大语言模型的其中一个关键点是数据。

关键一：数据

训练数据主要是所谓的语料库。今天的很多语言模型的语料库主要有以下几种：

Books：BookCorpus 是之前小语言模型如 GPT-2 常用的数据集，包括超过 11000 本电子书。主要包括小说和传记，最近更新时间是 2015 年 12 月。大一点的书籍语料库是 Gutenberg，它有 70000 本书，包括小说、散文、戏剧等作品，是目前最大的开源书籍语料库之一，最近更新时间是 2021 年 12 月。
CommonCrawl：这个是目前最大的开源网络爬虫数据库，不过这个数据包含了大量脏数据，所以目前常用的四个数据库是 C4、CC-Stories、CC-News 和 RealNews。另外还有两个基于 CommonCrawl 提取的新闻语料库 REALNEWS 和 CC-News。
Reddit Links：简单理解 Reddit 就是外国版本的百度贴吧 + 知乎。目前开源的数据库有 OpenWebText 和 PushShift.io。
Wikipedia：维基百科是目前大模型广泛使用的语料库。
Code：一般包含 GitHub 上的开源公共代码库，或者是

猜你喜欢

转载自blog.csdn.net/weixin_41937552/article/details/130650703

开发大语言模型需要数据？算法？算力？

大算力与大模型的融合之力

用大数据“喂养”出来的AI模型ChatGPT 爆火是大数据、大算力、强算法的支撑，中国缺乏的什么？

免费白嫖GPU算力，畅玩大模型的算力平台!

大模型，拼算力更拼落地力

PODsys：大模型AI算力平台部署的开源“神器”

工信部：着力推动大模型算法技术突破，提升智能芯片算力水平

大模型引爆算力缺口，智算中心是正“途”

筑基 AIGC 智算 OS 助力大模型高效释放算力

大模型训练-实战：模型、算力、数据训练实际情况【LLaMA系列（zhixi-13b）、mt5系列（mt5-xxl-13b）】

千亿参数的大模型，需要多少算力？

「专题速递」多媒体内容理解、视频云大模型算法实践、AI算力云的探索、FreeSWITCH对接人工智能

人工智能三要素：算法、算力、算据（数据）

AI大模型专题报告：AI大模型及应用加速落地，持续带动算力产业链发展

美格智能团队成功在高算力AI模组上运行大模型Stable Diffusion

全面解放AI算力！让大模型训练效率暴涨的硬科技来啦，斩获金奖

突破“百模大战”，大模型算力效率成关键

优刻得AIGC算力底座亮相，中立安全云计算助力大模型发展

2023智博会产品金奖颁给AIStation，大模型算力平台效率受关注

使用 UCS(On-Premises) 管理您的GPU资源池，释放AI大模型算力潜能

大模型加剧算力多元化之争，断代式、可进化，你选择谁？

大模型时代，我们需要什么样的AI算力系统？

比亚迪首谈智驾进展：年内量产大算力域控，感知大模型上车

大语言模型的开发利器langchain

陈天奇等人新作引爆AI界：手机原生跑大模型，算力不是问题了

陈天奇等人新作引爆AI界！手机原生跑大模型，算力不是问题了

AI大模型背后的算力基石，腾讯云首次完整披露自研星脉高性能计算网络

大模型“暴力计算”时代，华为昇腾如何突围算力之困？ | WAIC2023

为AI大模型打破算力瓶颈，腾讯云的第三次网络架构进化

浪潮信息Owen ZHU：大模型百花齐放，算力效率决定速度

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)