6月7日-8日,2025全球人工智能技术大会(GAITC 2025)在杭州举办。
此次会上,中科曙光携全栈AI基础设施多项核心成果深度参与,并携手中国人工智能学会成功举办“大模型时代的AI基础设施”专题活动。
在致辞中,中科曙光高级副总裁李斌表示,国产算力要实现突围发展,从单点技术突破向体系化、生态化创新升级是必然趋势。中科曙光在长期产业实践中反复打磨形成全栈AI基础设施软硬件产品矩阵,围绕算力的生产、聚集、释放、调度与服务环节,加速各行各业智能跃迁。
今年是中科曙光成立三十周年,其发展历程最早可追溯至上世纪九十年代国家863计划支持的智能计算机系统主题专项,到2009年,公司开始研究开发GPGPU异构并行计算系统,成为国内最早推出异构集群的企业。
在过去的三十年中,曙光长期专注于高端计算领域,先后研制推出了9代高端计算产品,发展到今天,基本形成了从核心部件、计算系统到计算服务的AI产业链完整布局——“曙光AI基础设施”。
据悉,“曙光AI基础设施”是中科曙光在长期产业实践中,反复打磨的全栈智能化转型矩阵。
通过完善的产品布局,中科曙光横向连接算力生产、聚集、释放、调用、服务的各个环节,贯穿AI算力全链条,从而降低使用成本、高效赋能场景。
李斌表示,“曙光AI基础设施”分为核心基础、系统设施、服务平台三层架构,每个层面都打造了业界领先的关键模块能力。
在核心基础层,以新一代国产AI异构加速卡打造软硬协同优化能力,探索“算力优化+算法调优”新范式,性能总吞吐量提升120%。
在系统设施层,基于5A级智算中心、ParaStor全闪存储、极致性能的加速服务器、浸没式相变液冷等一系列产品加速产业融合。
在服务平台层,依托曙光云、全国算力网、神玑大模型等承接各行各业AI需求、落地关键场景。
AI大模型的爆发触发全球算力需求的指数级增长,国产AI算力行业迎来发展机遇,同时也面临能效、成本、生态、技术封锁等诸多挑战。响应时代之需,打造贯穿AI算力全链条的软硬协同基础设施是当前发展的关键之举。
中科曙光总裁助理、智能计算产品事业部总Kaiyun体育官方网站 开云登录网站经理杜夏威指出,大模型创新正在加快改变AI算力结构,国产GPU加速卡迎来重大机遇,实现芯片-算法-模型深度耦合,已成为AI基础设施的重要创新方向。为此需要聚焦三大能力建设:一是建设面向业务场景的全栈软件,自底向上逐层完善软件栈覆盖,降低国产芯片与用户业务整合的门槛;二是围绕模型性能特性建立正向优化机制,结合芯片架构深入分析与测试,形成算法、算子、库、运行时的“贯穿式”优化链条;三是推进大模型行业赋能,协助客户解决大模型集成“最后一公里”问题,促进国产算力高效应用。
故而,多年来中科曙光针对国产GPU加速卡,先后研发从底层的GPU开发工具套件,到中间的人工智能基础软件系统DAS,再到靠近上层的人工智能应用平台DAP,再到今年2月推出了端到端全栈AI加速套件——DeepAI深算智能引擎。
据悉,结合国产GPU加速卡的通用架构和全精度优势,DeepAI深算智能引擎集成超过2000个算子,对标CUDA的算子覆盖度超过99%,覆盖AI训练、AI推理、AI4S和科学计算等场景。
此外,该引擎还具备生态全面兼容、极致性能优化、AI高阶功能集成、开源与快速迭代的能力。
目前,中科曙光以DeepAI深算智能引擎为核心的相关产品方案,已经进入众多关键行业,支撑中国气象局、深圳纪委、中国电信天翼云、PICC人保财险、中石化物探院、上海市皮肤病医院等客户实现应用落地。
大模型训练推理过程不仅是AI计算密集型应用,也是数据密集型、IO敏感型应用。随着数据的流动,围绕数据采集、数据准备、模型训练、模型推理和数据归档,对存储能力的要求更高,如高带宽、低延时、高密度、低成本等。大模型不断创新及其在智能驾驶、具身智能、AI4S、智算中心等领域的应用,对先进存力的需求持续增加。
曙光存储副总裁张新凤表示,曙光存储作为中科曙光长期投入的核心技术方向,旨在为大规模计算提供大容量、高性能、高可靠的存储服务,核心目标是最大化存储介质性能并消除软件性能瓶颈。
大模型时代的AI存储架构正在重塑,曙光存储团队基于二十年的技术积累与行业经验,正全力推动这一变革。
她透露,过去一年里基于“AI加速”需求,持续迭代产品技术打造“超级隧道”,不仅满足关键用户与新兴场景对先进存力的极致需求,同时也引领了中国存储行业的发展,助推AI基础设施升级。
在此次大会上,曙光存储首次提出的“超级隧道HyperTunnel”亮相,通过极简交互、零锁竞争和软硬融合的核心理念,构建起高效、低时延的数据传输路径。
在曙光存储的两大产品——分布式全闪存储ParaStor、集中式全闪存储FlashNexus中,“超级隧道”都有不同维度的技术实现。在AI训练场景中,ParaStor系列可提供190GB/s带宽及500万IOPS,可将GPT - 4级别模型的训练周期从3个月压缩至1周,极致释放AI潜能;FlashNexus通过亿级IOPS、微秒级延迟的全球顶尖性能,极速支持AI推理决策。
而凭借此技术优势,曙光的高性能高端存储系统存储在智算中心领域获得了广泛应用,包括支持业务涵盖运营商、工业、政务和云计算等智算中心和大型平台底层的高性能存储系统。同时,也为部分公有云服务商替换了底层的高性能存储系统重要领域。
当前,AI大模型企业如智源、智谱等均在曙光存储上进行了大规模训练迭代与优化。此外,智元机器人等具身智能客户、多家造车新势力喝传统车企的在智能驾驶领域,包括新势力车企及传统车企,以及具身智能领域业务,曙光存储都提供了底层的存力平台支持。在科教领域,持续为西湖大学、华南理工大学、复旦大学等提供高品质服务教育+AI数据存储解决方案。
据赛迪顾问最新发布的《2024中国分布式存储市场研究报告(2025)》,曙光存储位居中国AI存储市场份额第一。
随着数智化进程的加速,云、大模型、数据相关的安全风险与挑战也与日俱增。传统的云上加密方案一般都是在云外部署独立的密码设备及服务,不仅增加了额外的设备成本与网络时延,而且无法满足大模型训练推理过程中,对硬件层、数据层、应用层的全方位、更高级的加密防护需求。
曙光云计算集团首席架构师王琪表示,近年来随着AI大模型的推动,云计算行业迎来新一轮以智能算力为特征的算力基础设施升级浪潮,总结起来,云智算服务将呈现“超大规模、多元生态、智能调度、服务变革、可信安全”的五大特性,为此,曙光云推出了“全栈可信、云中生智”战略。
一是曙光的全栈云、超融合云等云软件以及大数据平台、数据治理平台,已经全面支持AI大模型的管理、部署、开发、应用,这个是面向服务和应用的,可以提供强大的AI所需的算力、算法、数据支持;
二是面向云平台本身的运营,通过把云运营和AI技术相结合,通过智能分析和决策优化,提升运营效率、提升服务质量的同时还可以降低成本,比如在AI云运营、AI数据治理等领域已经有了很好的应用案例。这些变化目前都已经在50多个云中心完成升级。
在全栈可信、安全可靠方面,尤其是像政务云、私有云对安全可信的政策要求越来越高,曙光云通过芯云融合,充分利用国产x86处理器内置的密码能力,将芯片内置的安全处理器作为云内整体安全可信体系的可信根。
据悉,面向安全敏感的政企客户,这个技术能够基于国密算法实现对云内各个层面数据的加密防护,实现从云平台物理硬件到虚拟化、数据、网络以及云上应用的闭环安全可信,打造立体密算,可以为大模型为代表的应用及数据提供端到端的安全防护,为云上用户筑牢可信可控的安全屏障。
接下来,曙光云将继续深度融合AI大模型算法,打造高质量数据集,为政企客户提供一站式提供算力服务、数据服务、AI大模型管理、训练、推理、智能体开发与编排以及开放API的全流程服务,并借助云原生安全机制确保全流程的安全可信,和业界合作伙伴一起,共同建设“全栈智能、安全可信”的云计算生态。