前言
2024中关村论坛年会‧硬科技投资与发展论坛于近日在中关村国际创新中心举办。来自全球的180位投资人、金融家、企业家、产业专家、政府相关领导, 围绕“资本全球化和技术出海”、“硬科技投资的立与破”、“硬科技的全球新实践”,进行了深入的交流与探讨。
北京市人民政府副秘书长韩耕在致辞中表示,在新时代的征程中,硬科技的创新与发展作为新质生产力的核心要素,已经成为我国现代化建设不可或缺的重要力量。北京市独角兽企业的数量在全国一直居于首位,其中硬科技独角兽企业占比超过60%。面向未来,北京市布局了6大科技领域20个细分产业,设立了4支百亿级的科技创新基金,这些基金将重点投向人工智能、机器人技术、医疗健康等战略性的新兴产业。
北京市人民政府副秘书长韩耕
Alluxio作为全球备受瞩目的新一代AI数据平台,首席架构师傅正佳博士受邀出席论坛,并在主题为“硬科技的全球新实践”的TED秀环节与2023-2024年杰出的创新领航者们,包括智谱AI总裁王绍兰,探路者集团总裁何华杰,东方空间联合创始人、联席CEO布向伟,本源量子CMO赵勇杰,致晶科技创始人钟海政一同分享了各企业的最新硬核技术与应用实践。
Alluxio分享主题:
《新一代AI数据平台》
Alluxio首席架构师傅正佳博士
AI加速演进 vs 数据管理挑战
当前AI快速演进,在各行业垂直及横向领域,都受到了广泛关注。来自美国的投资人和未来学家 Ray Kurzwell 预测,“人工智能将在2029年达到人类智力水平,至2045年,智能技术和人类文明所创造的生物机器智能的能力将被扩大10亿倍;NVIDIA CEO黄仁勋认为我们正在鉴证全球性数据中心重组的需求井喷,这场长达十年的对现有数据中心的回收和利用,终将迈向加速计算的转型之旅。我们也了解到越来越多的企业开始准备或正在利用AI来赋能业务,通过训练模型,把模型应用到实际业务中,以提升生产效率并创造更大价值。
与此同时,新一代 AI 从 ChatGPT开始,模型结构变得越来越复杂,所涉参数量越来越大,算力需求也越来越多,这样的趋势愈发明显。所以普遍认为,AI发展最重要的是三大核心——算力、算法和数据,但大家往往忽略了AI基础设施建设的重要性,而实践证明,只有把AI基础设施构建好,AI的三大核心能力才能得到更好的发挥。
企业构建AI基础设施同样面临一系列挑战:
当前国内企业普遍会遇到GPU稀缺、价格昂贵以及利用率低的问题,但即便GPU的问题可以缓解,另一个问题也会随之而来,就是数据如何被更好的管理和服务于GPU的计算,如何达到GPU所需要的数据访问效率(当数据IO成为瓶颈的时候,GPU的利用率就会变得不足,需要等待数据被加载到GPU以后才能进行训练);
算法和业务负责人往往要求更快的模型建设周期和迭代速度,我们也看到数据有非常清晰的增长趋势,比如智能驾驶、无人驾驶车的数据采集,比如各行业数据的采集、标注之后,很多公司需要做数据规模不断增长的准备。
规模的增长有两个维度,一方面是整个数据量的增长,比如说有多少亿张图片,有多少语音,尤其除了大语言模型,还有多模态、文生图、文生视频,各种模型训练都需要有数据的准备,这样数据量会不断增加。
另一方面是数据本身大小的增长,几年前我们看到一张人脸识别图片可能只有100KB、200KB,而现在我们看到的是视频图片,4K高清图片,一张图片就是1MB、4MB、8MB,数据本身在不断增大,所以,这两个维度相乘,整个数据的规模是按平方级别来增长的。
因此,我们需要一个比较好的数据存储、数据I/O的解决方案给到整个训练平台,使得训练效果变得更好。
Alluxio解决方案
现在市面上有一些方案,在一定程度能够满足需求,但是会带来大量的问题,尤其是一些原本针对超算中心的解决方案,比如商业存储,它们成本非常高昂,但它们并不是为了解决当前典型AI场景所面临的挑战而设计的。
因此,Alluxio希望利用高性能分布式数据访问平台,更好解决整个AI中的数据平台、数据I/O所面临的问题。Alluxio是介于计算框架(训练平台框架),如Pytorch、TensorFlow、Ray与数据存储之间,可以把慢存储跟计算算力框架进行协调和编排,我们也称之为分布式数据编排工具。
通过Alluxio可以把数据更快速的贴近到计算节点,比如GPU和CPU算力中,快速将数据自动进行冷热分离,使得数据能够被GPU的训练任务快速的获取。同时,Alluxio可以将底层不同类型的数据源联合在一起,形成一个由低成本的冷存储和Alluxio热缓存所组成的高性价比和高ROI的整体解决方案。
此方案主要解决的第一个场景是,当企业有自己的数据,因为比较敏感,并不能放到云上,只能放在本地,同时本地算力又不充足,需要从其他数据中心借用GPU算力,这时候企业就需要一个可以支持灵活GPU部署,灵活利用算力的数据和算力调度的解决方案,Alluxio可以很好的应对这样的场景。
第二个场景是模型训练完成以后要分发到线上的推理集群,有大量的推理集群需要频繁地更新模型,推理部署的过程可能会有I/O瓶颈,这种情况下Alluxio可以非常高效的解决推理部署过程中遇到的问题。
Alluxio带来的价值
整体来说,在新一代AI训练平台中,Alluxio既能为整个训练的过程提供加速服务,同时,训练完成的模型在部署到推理集群上线的过程中,Alluxio又能够提供比较好的推理和分发加速的能力,这种整体解决方案相较额外购买非常昂贵的硬件,企业只需要采用标准的低成本硬件,即可快速部署和使用Alluxio,真正实现降本增效。
通过测试验证,我们可以很直观地看到一个训练任务在没有采用Alluxio的时候需要耗时85分钟,而采用Alluxio之后只需要耗时17分钟,效率提升5倍,DataLoader在整个训练的耗时占比也从82%大幅下降到了1%,这样带来的价值是,Alluxio可以将企业花费大量成本采购的GPU利用率由原先的17%提升到93%,不仅使得企业的基础设施ROI实现巨大提升,同时加速了最终业务上线。
目前,Alluxio正在全球范围,在各个行业被企业和机构广泛采用,我们期待与大家一同努力加速AI演进,更高效地为企业带来投资回报。
✦
【添加小助手,获取更多资料】
✦
✦
【近期热门】
✦
✦
【宝典集市】
✦
本文分享自微信公众号 - Alluxio(Alluxio_China)。
如有侵权,请联系 [email protected] 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。