【开源大模型生态10】大模型是一个能耗陷阱吗?

这场大模型竞赛,感觉越来越像美苏争霸时期的登月。

大家都在比拼着,去购买芯片,做超算,扩大算力,然后做出一个大模型,回答一些鸡同鸭讲的问题。

最后消耗了大量的电能,GPT4一次训练,就要消耗1200个中国人一年的用电量!真实太触目惊心了。结果呢,就是创造几首打油诗、弄几个无法使用的PPT吗?

这个说的绝对了,我当然知道大模型能干很多事。

不过现在的语言大模型,比如Transformer模型,已经几乎一统天下了,都是它的变种,但我觉得,他还是在LEVEL1,还无法推理,只是在不断地对比和计算权重,在猜答案,更可怕的是,他是如何运作的,是一个黑盒子。

大模型通常需要具有数十亿乃至上万亿个参数,训练时到数万亿个Token,这就需要消耗巨大的算力。算力需求随着大模型的发展而呈指数级增长,对全球算力规模提出了巨大的要求。大型预训练模型的训练和调优过程需要消耗巨大的算力资源。例如,训练ChatGPT所需的算力相当于64个英伟达A100 GPU训练1年的时间。此外,大模型的日常运营和优化也需要大量的算力投入。预计到2030年,全球算力总规模将达到56ZFlops,其中智能算力成为推动算力增长的主要动力。这对于社会的信息基础设施建设和企业、科研机构的大模型研发都带来了巨大的挑战。

我觉得没啥刚需,就是为了卖芯片,为了销售硬件。

有一段时间,人们觉得卖软件赚钱,做硬件的,显得很土。现在做硬件的,又牛哄哄起来了。

芯片更是贵的离谱。

耗电就算力,散热更消耗能源。

能源竞赛,把资源都去喂这东西了。

感觉背后的布局很大。

本文纯属胡说八道。

猜你喜欢

转载自blog.csdn.net/giszz/article/details/142470826