新闻动态

DeepSeek大“火”算力还重要吗?

DeepSeek着实大“火”了一把。虽然很多人还都不知道什么是大模型,但是“DeepSeek”这个陌生的英文最近一定有刷到过。在蛇年春节后举行的广东省高质量发展大会上,DeepSeek作为人工智能领域的代表,被认为“以不怕虎的勇气锐气撼动美国人工智能巨头、产生连锁效应”,可见其如今的火爆程度和被寄予的厚望,而前一个在全球拥有如此大影响力的中国互联网产品,就要数《黑神话:悟空》了。

但是在热闹的背后,我们还是要清晰认识到,就技术层面而言,DeepSeek只是“赶上”还没做到“超越”。其实对于DeepSeek和国内AI领域,还面临众多的问题,虽然DeepSeek探索出了一条能够更高效“赶上”的新路,但是我们距离真正的超越,还有很长的路要走。

DeepSeek之所以能有如此大的影响力,其中最重要原因是来自其能够用更低的算力实现了和ChatGPT等世界领先的大模型类似的体验。有数据显示,以去年年底发布的大模型DeepSeek V3为例,其拥有671B参数,训练数据14.8T高质量token,整个训练只需要280万个GPU小时,而LLama 3(405B)使用了3080万GPU小时,几乎是DeepSeek V3的11倍。

DeepSeek用更高效率的算法,实现了对算力需求的减少,诚然是技术的一大进步,但是如果觉得DeepSeek的出现就让算力变得不重要的话,那就是大错特错了。

其实大模型本来就是一个基于算力而出现的科技产品,对算力的需求肯定是持续增长的,DeepSeek也不例外,虽然其基础算力比竞争对手要低,但正是这在方面的优势同时又是开源的产品,会吸引更多开发者和应用选用DeepSeek来提供服务,这一方面能够加速大模型的普及,另一方面也是对算力市场的进一步扩大。就在DeepSeek发布后,包括华为云、腾讯云等平台就已经将其上线并提供给开发者选用,可见在算力平台本身,也很看好DeepSeek带来的增量市场。

所以在热度散去之后,我们还是要清晰地认识到,虽然来自中国的DeepSeek带来了大模型算法技术方面的提升,对算力有了更高效率的使用,但是算力作为大模型时代的基础设施,还是全球范围内的一个“卡脖子”的技术难题,还有待国内从业者去突破。

2024年,中国科技圈可谓在全世界挣足了面子,从《黑神话:悟空》到DeepSeek,一个个创新产品除了带来突破和惊喜,也让世界看到了中国的创新能力。但是如何从一鸣惊人到持续火爆,这对于中国的互联网产品而言还是一个不小的挑战。

《黑神话:悟空》作为“过来人”,推出之初可谓是抢占了全世界的头条,但是作为一款游戏产品,其也受到了市场受众的影响,“雷声”远大于“雨点”。所以作为DeepSeek而言,已经成功“打响头炮”,但是如何“持续火爆”则还要继续努力。特别是在“百模大战”的市场环境下,DeepSeek还需要面对市场竞争的问题,而历史的教训告诉我们,最好的产品未必能活到最后,只有获得用户认可的产品才能笑到最后。

DeepSeek的横空出世,对于行业而言也带来了诸多的思考。其中不得不提的就是创始人梁文峰,作为一个在中国私募基金中名列前茅的基金经理,早在2015年就已经创立了量化对冲基金,2021年管理资金突破千亿元大关,跻身国内量化私募“四大天王”行列。在2023年5月开始进军大模型成立子公司“深度求索”(DeepSeek),在2024年底推出的DeepSeek-V3震撼全球,成为了大模型行业的佼佼者。

对于国内像百度、阿里等等大模型厂商而言,DeepSeek的出现正好印证了马云所言:“干掉你的,往往不是你的对手!”当大家都在关注同行大模型又更新到第几代时,来自私募基金的“大佬”转手将在量化投资方面的积累变成了大模型DeepSeek,不仅让国内大模型同行们措手不及,连国际人工智能巨头们也都为之颤抖,这背后正说明了当行业还处在初级阶段的时候,机会会在不同领域出现,而百花齐放的行业格局,正是最需要创新探索最优路线的时候。

此外,虽然大模型在全球都备受关注,但是因为文化和语言等方面的不同,国内大模型更应该走的是具有中国特色的道路,而DeepSeek开拓的“更低算力同样效果”的路径,正是现阶段我们还无法打破算力“自供应”背景下的“良方”,对于DeepSeek而言,通过功能的不断丰富和完善,用更低成本来吸引更多的国内开发者和应用端使用大模型,来更快地在国内普及大模型,让大模型从技术层面落地到引用层面,才是DeepSeek继续发展的意义和价值。

 


请长按下面二维码关注珠海政企通公众号了解更多
主管单位:珠海市工业和信息化局
主办单位:珠海市中小企业服务中心
企业咨询热线:0756-2111177
地址:珠海市民服务中心2号楼5层