【财经分析】大模型迎来“降本增效”年 “独角兽”们应对冲击需寻求更多差异
DeepSeek-V3因其训练成本之低引发国内外热议,让行业开始反思,无限追逐更大算力集群、更多数据量是否是大模型优化唯一道路。效率是2025年大模型行业的关键词之一,除了少数公司有能力、有愿景用万卡,乃至十万卡继续追求顶级大模型,大多数公司未来要降本增效。
新华财经上海1月15日电(记者杜康、朱程)岁末年初,国内外主流大模型再次降价。DeepSeek-V3因其训练成本之低引发国内外热议,让行业开始反思,无限追逐更大算力集群、更多数据量是否是大模型优化唯一道路。伯克利大学NovaSky 团队Sky-T1-32B-Preview开源模型的发布,再次印证了高水平AI研发不需要天价预算。行业也由单方面的性能角逐,转向性能与实用性并重的发展趋势,更加注重性价比。
成本的降低,无疑将进一步加快大模型的场景落地。这同时也对大模型创业公司提出挑战。在与大厂的“价格”比拼中不具备优势的创业公司们,迫切需要寻找到一条差异化道路,避开互联网厂商的“射程”将是关键。
训练成本降低 效率成为行业关键词
日前,DeepSeek-V3因其训练成本之低引发行业热议。从其正式发布的技术报告来看,DeepSeek-V3完整训练只需2.788M H800 GPU小时,包括预训练、上下文长度外推和后训练。假设H800 GPU的租金为每GPU小时2美元,其总训练成本仅为557万美元。Deepseek也透露,上述成本不包括与架构、算法或数据相关的先前研究或精简实验的成本。
美国人工智能公司Anthropic的CEO达里奥·阿莫迪曾透露,GPT-4o这样的模型训练成本约为1亿美元。这意味着DeepSeek的成本只有GPT-4o的1/20。
训练成本降低的同时,DeepSeek-V3保持了高性能。根据其公告,DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
为什么DeepSeek-V3能够实现低成本、高性能?“包括模型架构、基础设施优化、数据优化在内,我们看到DeepSeek-V3从端到端都进行了工程优化,叠加后呈现出很好的效果。”Gartner研究总监闫斌介绍,大模型进入公众视野大约时间尚短,只有两年多时间。期间,行业模型训练相对粗放,通过尽量多收集数据,建设更大的数据中心,以获得更好的训练结果,行业也用“Scaling Law”总结这一过程。
“DeepSeek-V3证明了,通过更好的工程化能力,我们可以通过相对较少的算力资源、较小的模型,也可以达到不错的训练效果。”闫斌说。“目前行业在数据和算法方面仍有优化空间,低成本的训练和高效推理应用或将是下一阶段大模型发展的方向之一。”
值得关注的是,伯克利大学NovaSky 团队也刚刚发布了Sky-T1-32B-Preview开源模型,在常见的推理和编码基准测试中,与OpenAI的o1-preview“平分秋色”。据称,其训练成本不到 450 美元,展示了以经济高效的方式复制高水平推理能力的可能性。
NovaSky 团队之所以能够以如此低成本进行模型训练,其关键之处包括使用了数据筛选机制,如通过QwQ-32B-Preview生成初始数据,通过GPT-4o-mini重写数据格式等。此外,NovaSky 团队选择了Qwen2.5-32B-Instruct作为基础模型进行训练。“这个项目证明了,高水平AI研发不需要天价预算。”行业人士评价道。
“效率是2025年大模型行业的关键词之一。除了少数公司有能力、有愿景用万卡,乃至十万卡继续追求顶级大模型,大多数公司未来要降本增效。事实上,优化注意力机制、采用MOE架构、降低模型激活的参数量等,都已经是很主流的降本方式。我们相信这会带来AI门槛的降低,以及技术的普及化,不仅体现在应用侧,还有研发侧。”瑞银证券中国软件分析师张维璇表示。
行业再降价 大模型创业公司将直面冲击
伴随着训练成本的降低,DeepSeek-V3 的API 价格目前为每百万输入tokens 0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens 8元。同时,DeepSeek提供了45天优惠价格体验期,在2025年2月8日之前,所有用户使用 DeepSeek-V3 API 的价格分别下降了 80%(输入命中)、50%(输入未命中)、75%(输出)。
事实上,2024年上半年中国大模型“价格战”的发起者,正是DeepSeek。
2024年5月,DeepSeek率先宣布降价,其发布的第二代MoE大模型DeepSeek-V2定为0.001元/千tokens的输入价格与0.002元/千tokens的输出价格。随后,智谱 AI、火山引擎、 阿里云、百度、科大讯飞、腾讯云等国内主要大模型厂商迅速跟进。DeepSeek甚至获得了一个新称号——AI界“拼多多”。
可以看到,2024年年底,除了DeepSeek-V3 新版本的推出以及API 价格调整,国内大模型其他厂商也在降价。2024年12月31日,阿里云宣布2024年度第三轮大模型降价,通义千问视觉理解模型全线降价超80%,其中,Qwen-VL-Plus直降81%;更高性能的Qwen-VL-Max降幅高达85%。此前,在12月18日举办的火山引擎Force大会上,字节跳动推出的豆包视觉理解模型也宣布进行降价。
“大模型不断降价,无疑有利于吸引更多企业使用新的技术,为大模型创业公司提供了更大的市场。同时,这也对大模型创业公司构成了挑战。‘独角兽’们仅仅做到提升大模型能力还不够,还要不断优化算法,快速降低模型的推理成本。只有真正做到为用户提供更有性价比的大模型服务,才能赢得市场份额。”MiniMax副总裁刘华对记者表示。
经过一年多来的行业竞争,中国人工智能大模型的行业格局不断清晰,主要玩家从“百模大战”时代不断收敛。MiniMax与智谱AI、百川智能、月之暗面、阶跃星辰、零一万物6家行业“独角兽”企业估值均超10亿美金,被行业称为国内“大模型六小虎”;再加上关注度较高的幻方和面壁智能,以及互联网大厂中的字节、阿里、百度和腾讯,行业主要玩家缩减到十来家。
API接口调用付费是大模型企业B端重要商业化实现路径之一。不过,ToB业务中,由于互联网大厂可以将AI功能绑定算力和云服务业务,二者叠加商业推广上效率更高。因此,在“价格战”中,大厂因为业务复合、资金雄厚,也更有优势。面对“价格战”,创业公司只能化压力为动力,从加快迭代模型、不断优化算法中寻找解法。
“如果要拼低价和资源,创业公司肯定不如大厂。下一步,大模型创业公司可以聚焦在提供个性化服务,比如提供情感类大模型的API接口。”行业人士对记者表示。
“独角兽”们需差异化发展 避开互联网厂商“射程”
无疑,大模型训练成本、推理成本的下降,将进一步加快行业场景应用落地。事实上,寻找更合适的大规模落地场景、更好的商业闭环模式,已经成为大模型企业下一阶段发展的当务之急。
在接受采访时,多位行业人士提到上述提到的“大模型六小虎”开始出现分化,并表示有独角兽企业出现“掉队”的势头。“这也说明,大模型行业发展遇到了瓶颈。”行业人士评价道。
“从全球来看,大模型企业都面临一定的融资压力。大模型出现之初,大家对它的预期很高,后面又经历了预期的回调。与此同步,行业融资热度稍降。当然这也符合一项新技术的发展曲线。单纯通过讲故事已经很难找到投资人。”闫斌表示。
从B端应用来看,Gartner一份最新调研结果显示,截至2024年6 ⽉目前只有8%的中国企业将生成式人工智能部署在生产环境中。对此,闫斌解释称,目前大模型在中国企业生产场景中小规模落地已出现,但大规模企业落地仍然较为少见。“如果把最终落地应用比作一场考试,那么大模型能力、数据、工程化、产品设计将是几门关键课程。根据我们观察,国内很多大模型能力已经不错,目前落地短板更聚焦在其他几个方面。”
再来看C端落地。根据AI产品榜数据,目前用户量排名靠前的应用分别为抖音的豆包、MiniMax的Talkie AI、月之暗面的Kimi智能助手、百度的文小言,全球12月份的月活分别为7117万、2977万、1669万、1347万,在全球主要C端产品榜单中,分别位列第2位、第4位、第15位、第20位。
与创业“独角兽”们相比,“大厂”在C端应用推广上,展示出了流量和资本方面的巨大优势。字节2024年5月才推出AI对话助手“豆包”,凭借投流买量后来居上,成为过去半年增长最快的移动应用。“一些创业公司此前通过投流买量的方式迅速扩大了用户量。但随着‘大厂’下场,这种做法就显得不那么划算了。”有行业人士对记者表示。
“目前国内大模型企业的C端产品存在‘同质化’的问题,很多企业都推出了AI对话助手类产品,功能大同小异。但是,大模型技术在不断迭代。各家企业需要基于大模型能力的提升趋势,去探索新的AI产品形态,去满足客户们尚未被满足的需要。尤其是创业公司,更是要把资源聚焦于技术和产品的创新,而不是通过投流买量进入变成‘红海’的赛道。”刘华说。
编辑:王媛媛
声明:新华财经为新华社承建的国家金融信息平台。任何情况下,本平台所发布的信息均不构成投资建议。如有问题,请联系客服:400-6123115