珠海政企通_新闻资讯详情

DeepSeek大“火”算力还重要吗？

发布时间：

2025-02-14

浏览数量：

676

来源单位：

南方日报

DeepSeek着实大“火”了一把。虽然很多人还都不知道什么是大模型，但是“DeepSeek”这个陌生的英文最近一定有刷到过。在蛇年春节后举行的广东省高质量发展大会上，DeepSeek作为人工智能领域的代表，被认为“以不怕虎的勇气锐气撼动美国人工智能巨头、产生连锁效应”，可见其如今的火爆程度和被寄予的厚望，而前一个在全球拥有如此大影响力的中国互联网产品，就要数《黑神话：悟空》了。

但是在热闹的背后，我们还是要清晰认识到，就技术层面而言，DeepSeek只是“赶上”还没做到“超越”。其实对于DeepSeek和国内AI领域，还面临众多的问题，虽然DeepSeek探索出了一条能够更高效“赶上”的新路，但是我们距离真正的超越，还有很长的路要走。

DeepSeek之所以能有如此大的影响力，其中最重要原因是来自其能够用更低的算力实现了和ChatGPT等世界领先的大模型类似的体验。有数据显示，以去年年底发布的大模型DeepSeek V3为例，其拥有671B参数，训练数据14.8T高质量token，整个训练只需要280万个GPU小时，而LLama 3（405B）使用了3080万GPU小时，几乎是DeepSeek V3的11倍。

DeepSeek用更高效率的算法，实现了对算力需求的减少，诚然是技术的一大进步，但是如果觉得DeepSeek的出现就让算力变得不重要的话，那就是大错特错了。

其实大模型本来就是一个基于算力而出现的科技产品，对算力的需求肯定是持续增长的，DeepSeek也不例外，虽然其基础算力比竞争对手要低，但正是这在方面的优势同时又是开源的产品，会吸引更多开发者和应用选用DeepSeek来提供服务，这一方面能够加速大模型的普及，另一方面也是对算力市场的进一步扩大。就在DeepSeek发布后，包括华为云、腾讯云等平台就已经将其上线并提供给开发者选用，可见在算力平台本身，也很看好DeepSeek带来的增量市场。

所以在热度散去之后，我们还是要清晰地认识到，虽然来自中国的DeepSeek带来了大模型算法技术方面的提升，对算力有了更高效率的使用，但是算力作为大模型时代的基础设施，还是全球范围内的一个“卡脖子”的技术难题，还有待国内从业者去突破。

在2024年，中国科技圈可谓在全世界挣足了面子，从《黑神话：悟空》到DeepSeek，一个个创新产品除了带来突破和惊喜，也让世界看到了中国的创新能力。但是如何从一鸣惊人到持续火爆，这对于中国的互联网产品而言还是一个不小的挑战。

《黑神话：悟空》作为“过来人”，推出之初可谓是抢占了全世界的头条，但是作为一款游戏产品，其也受到了市场受众的影响，“雷声”远大于“雨点”。所以作为DeepSeek而言，已经成功“打响头炮”，但是如何“持续火爆”则还要继续努力。特别是在“百模大战”的市场环境下，DeepSeek还需要面对市场竞争的问题，而历史的教训告诉我们，最好的产品未必能活到最后，只有获得用户认可的产品才能笑到最后。

DeepSeek的横空出世，对于行业而言也带来了诸多的思考。其中不得不提的就是创始人梁文峰，作为一个在中国私募基金中名列前茅的基金经理，早在2015年就已经创立了量化对冲基金，2021年管理资金突破千亿元大关，跻身国内量化私募“四大天王”行列。在2023年5月开始进军大模型成立子公司“深度求索”（DeepSeek），在2024年底推出的DeepSeek-V3震撼全球，成为了大模型行业的佼佼者。

对于国内像百度、阿里等等大模型厂商而言，DeepSeek的出现正好印证了马云所言：“干掉你的，往往不是你的对手！”当大家都在关注同行大模型又更新到第几代时，来自私募基金的“大佬”转手将在量化投资方面的积累变成了大模型DeepSeek，不仅让国内大模型同行们措手不及，连国际人工智能巨头们也都为之颤抖，这背后正说明了当行业还处在初级阶段的时候，机会会在不同领域出现，而百花齐放的行业格局，正是最需要创新探索最优路线的时候。

此外，虽然大模型在全球都备受关注，但是因为文化和语言等方面的不同，国内大模型更应该走的是具有中国特色的道路，而DeepSeek开拓的“更低算力同样效果”的路径，正是现阶段我们还无法打破算力“自供应”背景下的“良方”，对于DeepSeek而言，通过功能的不断丰富和完善，用更低成本来吸引更多的国内开发者和应用端使用大模型，来更快地在国内普及大模型，让大模型从技术层面落地到引用层面，才是DeepSeek继续发展的意义和价值。