随着Agent、多模态模型的新一轮技术升级,云厂商的新一轮变革也在同步到来。火山引擎就像一条“鲶鱼”,在过去一年的时间里改变了云格局,现在火山引擎想要的更多——大模型时代最好的云供应商。
2024年是大模型加速落地的关键一年。各行各业正在用大模型开发AI原生应用,这让推理算力消耗速度大幅增长。进入2025年之后,deepseek的冲击、manus产品的出现,为大模型时代带来新的想象力,推理和agent成为最消耗云算力的方向之一。
4 月 17 日,OpenAI 公司发布 o 系列模型中的最新款 o3 和 o4-mini,与此同时,火山引擎发布豆包 1.5·深度思考模型等新品。全球最有实力的两家的AI独角兽相遇在了同一天,两家公司专注点非常一致:深度思考、多模态和agent能力。
OpenAI o3、o4-mini 新增图像深度思考与 Agent 能力,被称为是 OpenAI 迄今为止发布的最智能的模型,在 o1 优越能力的背后,核心突破在于运用思维链(chain of thought)方法来处理复杂任务。
豆包的发布与此类似。豆包 1.5·深度思考模型对标全球推理模型第一梯队,视觉理解模型实现更强视觉定位能力。性能上,豆包 1.5·深度思考模型在数学、代码、科学等专业领域推理任务中表现已 经达到或接近全球第一梯队水平,对标 DeepSeek R1、QWQ-32B 等顶尖模型,并增加了视觉理解能力;功能上,豆包 APP 基于豆包 1.5·深度思考模型进行了定向训练,可以实现“边想边搜”。其次,多模态能力方面,字节升级的豆包·文生图模型 3.0 在最新的 文生图领域权威榜单 Artificial Analysis 竞技场中排名全球第一梯队,新版本豆包·视觉理解模型实现更强的视觉定位能力,可应用于线下门店的巡检场景、GUI agent、机器人训练、自动驾驶训练等。
近期,多位行业人士向《财中社》表达了同一个观点,云厂算力在向agent和应用倾斜,未来将会有更多的类manus的agent产品出现,与此同时,推理算力也会大幅度增加。
火山引擎正在为这一变化做准备。作为字节to B业务主体,4月17日,火山引擎面向 Agent 服务,发布 OS Agent、GUI Agent 大模型(豆包 1.5·UI-TARS),面向大规模推理,发布 AI 云原生·ServingKit 推理套件。火山引擎的野心是为所有的agent企业提供工具支持,让千千万万的C端用户都能使用豆包大模型。
浪潮之下,云计算市场在大模型带动下在过去一年里呈现出了指数级增长。火山引擎是其中最大的受益者和引领者。
根据IDC 发布的《中国公有云大模型服务市场格局分析,2025年一季度》报告(以下简称IDC报告),2024年中国公有云上大模型调用量达114.2万亿tokens,自2024下半年始呈现飞跃式增长的态势。这主要得益于云厂商大模型能力的快速提升,大模型降价潮带来的模型调用成本下降。
火山引擎总裁谭待对《财中社》表示,豆包大模型自发布以来tokens增长超过106倍,日均tokens使用量超过12.7万亿。谭待表示,Agent智能体应用发展将带动大模型进一步普及。“深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。”
在IDC报告中,将当下云市场格局描述为“一超多强”的格局。火山引擎以46.4%的市场份额位居首位,百度智能云、阿里云紧随其后,而腾讯云、中国移动、天翼云等公有云厂商整体占据15%的市场份额。
且根据解释说明,该维度不包含出海群体使用的MaaS平台的调用量,也不包含各大模型APP上的调用量。也就是说,海外用户模型调用量及产生在C端应用上的模型调用量,都不包含在内。
而从字节系产品关于AI的探索进程来看,火山引擎虽然在云计算市场相对入局较晚,但火山引擎与豆包大模型深度绑定,且去年的AI to C应用中,豆包也具有影响力优势,于是火山引擎以云厂身份切入借助“豆包”提供大模型层面的服务(MaaS),这样的商业逻辑与IDC这样的统计方式一致性最高,拿下这一维度市场份额第一并不意外。
2021年,火山引擎进入公有云市场,彼时公有云市场已经完成分割,阿里、腾讯、百度、华为等分割之下市场稳固。而此前云计算的统计维度主要也是以IaaS、PaaS、SaaS 为主。一个老生常谈的统计结果是,根据中国信通院2024年发布的《云计算白皮书》(统计时间维度早于2024年),在中国公有云的 IaaS 和 paaS 市场,份额前六都没有火山引擎的身影(SaaS因其特性主要看整体规模)。
火山引擎第一个关键转折点是2022年提出的“双擎驱动”,即巨量引擎+火山引擎。而火山引擎遇到的第二个关键转折点,就是大模型时代。在火山引擎云计算基础建设仍然需进一步投入的基础上,2024年时的字节自然以MaaS(模型即服务)为关键桥梁,来同时布局AI to C和云计算。在IaaS,PaaS,SaaS已经完成市场分割的基础上,火山引擎锚定了MaaS市场。这么看来,火山引擎业务基因和布局模式本就与云厂提供MaaS服务这样的逻辑高度契合。其中关键在于,这样的布局与“豆包”这一名字深度绑定。
到了2024年下半年,火山引擎迎来爆发期。2024年初,谭待就指出,大模型关键是要做大生态,要把大模型做好,把应用落地,把成本做低。模型推理价格降低超过90%后,企业客户尝试创新的心理负担会更小。他还提到,云厂商按token计费,并非很理想的商业模式。这在未来甚至可能有变化。因为,token消耗数量无法真实反映不同业务、场景的客户价值。另一位云厂商技术人士对此表示认同,按token计费是算力资源不够丰富时的无奈之举。这种商业模式合理但不友好。云厂商可以充分衡量算力成本。然而,企业客户做大模型应用创新,成本无法预估,效果无法预判。
IDC表示,从大模型模态角度出发,目前大语言模型、文本类能力的调用量占主导地位。不过自2024年第四季度起,语音类模型调用量已开始呈现增长态势,预计在2025年,图像、视频类大模型的调用量也将逐步兴起,这表明市场对于大模型的应用需求正朝着多元化方向发展。
增量的出现总是意味着市场洗牌。DeepSeek、Manus出现之后,更是大大带动了推理、agent的行业想象力和市场规模,算力消耗在大幅度增长。其中,manus发布之后一码难求在很大程度上就是因为算力供应不足。“和deepseek这样的chatbot相比,manus带来的算力消耗是指数级增长。”一位行业人士表示,云厂格局的变化,还在继续。
火山引擎作为字节跳动旗下云和AI服务平台,在大模型方面展现出了独特而显著的优势。去年9月,字节推出两款豆包视频生成模型PixelDance和Seaweed,主打复杂提示词精准理解、镜头一致、多交互主体和镜头灵活控制;12月,字节又发布了豆包视觉理解模型Doubao-vision,可融合视觉与语言多感官深度思考和创作,模型能力在十多个主流数据集上比肩谷歌的Gemini2.0与OpenAI的GPT-4o。今年4月17日,火山引擎面向企业市场发布豆包1.5・深度思考模型,同步升级文生图模型 3.0、视觉理解模型,并推出 OS Agent 解决方案及AI云原生推理套件,帮助企业更快、更省地构建和部署Agent应用。
在今年全国两会期间,《政府工作报告》起草组成员、国务院研究室副主任陈昌盛强调,要加快人工智能多场景应用,防止过多采用“私有化部署+项目制”的方式,造成市场“碎片化”问题。
上海经邑产业数智研究院副院长沈佳庆表示,大范围的私有化部署正如同过去大小企业“自建锅炉”,增加灵活性的同时却容易造成整体重复建设和社会资源的浪费。此外,私有化部署会导致数据之间无法有效共享和流通,过去长期存在的“信息孤岛”问题将会在AI时代继续存在。
因此,多名业内人士建议,国家相关战略中应旗帜鲜明地提出“公有云优先”的发展理念,并出台具体的支持举措,例如组织实施公有云“企业上模”推广工程、将云服务费用列入企业研发费用加计扣除范围等,鼓励企业采购各类公有云AI产品与服务。
外界常见的两个疑问是,在此趋势之下算力价格会不会继续下降,manus带来的agent浪潮会不会持续。
谭待今年初在朋友圈表示,“豆包1.5Pro模型的预训练成本、推理成本均低于DeepSeek V3,更是远低于国内其他模型,在当前的价格下有非常不错的毛利”。
一个可以看到的现象是,算力价格正在逐渐下降,市场在逐渐扩大,算力市场总量正在上升。一位行业人士对《财中社》表达了对于agent的信心,“从某种意义上来说,manus创新程度并不高,它更接近于缝合,所以我相信只这是一个开头,后续还会有更多agent产品出现。”
另一位从业者则认为,这是摩尔定律的必然结果,价格持续下降加速了大模型的普及率,AI应用或者Agent会提前爆发。
在此逻辑之下,新兴市场成为云厂商竞相追逐的新方向:推理、agent、多模态。如何让更多用户使用大模型,如何提供更好更便捷服务和开发套件,成为云市场的的主流爆发的重要推动力。
2025年被业界视为“Agent智能体元年”。谭待认为,在多模态深度思考模型的基础上,Agent需要良好的架构和工具,去操作数字世界和物理世界。同时,模型的推理成本和延迟要持续降低,才能推动应用普惠。
Agent的特点是,它比此前的chatbot更为智能化、消耗算力更高。一位云计算从业者表示,大模型工具链会让大量中小型独立应用开发商诞生。3人-5人的小团队,也能短时间开发出爆款应用。AI应用、SaaS应用的生态将交错融合。部分场景,AI应用更易用、更便捷,会逐渐替代SaaS应用。部分场景,AI应用长在SaaS软件上,它是SaaS应用的组件。这就像微信、支付宝等APP上还有小程序。
2025年被业界视为“Agent智能体元年”。谭待认为,在多模态深度思考模型的基础上,Agent需要良好的架构和工具,去操作数字世界和物理世界。同时,模型的推理成本和延迟要持续降低,才能推动应用普惠。
在2025AI巡展上,火山引擎宣布推出OS Agent解决方案,并演示了由Agent操作浏览器,搜索商品页,实现iPhone比价的任务,甚至由Agent在远程计算机上用剪映进行视频编辑、配乐。
据悉,OS Agent解决方案包含豆包UI-TARS模型,以及veFaaS函数服务、云服务器、云手机等产品,实现对代码、浏览器、电脑、手机以及其他Agent的操作。其中,豆包UI-TARS模型将屏幕视觉理解、逻辑推理、界面元素定位和操作整合在一起,突破传统自动化工具依赖预设规则的局限性,为Agent的智能交互提供了更接近人类操作的模型基础。
好的模型和工具能够加速Agent的落地,火山引擎表示,面对大规模推开云网址 kaiyun官方入口理需求,他们专门打造了AI云原生ServingKit 推理套件,让模型部署更快、推理成本更低,GPU 消耗相比传统方案降低80%。
事实上,火山引擎已经帮部分企业客户落地大模型,并部署了AI应用。火山引擎表示,它不会只提供IT基础设施,而是更贴近企业客户实际业务需求。
早在2024年,火山引擎先后与吉利、长城、蔚来、广汽等多家车企达成深度合作,为车企提供了数字化营销、智能座舱、车载聚合音视频内容等一系列服务。
2025年5月,火山引擎成立了汽车大模型生态联盟,一汽红旗、东风乘用车、吉利汽车、长城汽车、广汽乘用车、宇通客车在内的24家整车厂、官方机构、出行生态公司等加入其中。下半年,火山引擎在汽车领域有一个重要的突破客户,那就是奔驰。8月13日,火山引擎与奔驰签署战略合作备忘录,双方宣布将在大模型、生成式人工智能和大数据技术领域展开合作。
据了解,目前豆包大模型已经应用到了汽车、手机、金融、消费、互娱等30多个行业。
国内某头部云厂商一位高管认为,移动互联网阶段,中国诞生了微信、抖音、快手、滴滴、小红书等公司。大模型落地阶段,中国科技公司同样有实力催生新一轮应用繁荣。关键在于,云厂商要为应用(Agent)爆发做好准备。