
在大模子产业从“考试驱动”走向“推理驱动”的重要拐点上,国产 GPU 厂商正从头扫视算力的营业价值与寄托口头。
1 月 27 日,专注于推理 GPU 的曦望(Sunrise)在杭州举办首届 Sunrise GPU Summit,发布新一代推理 GPU 芯片启望S3,并走漏其围绕推理场景构建的算力居品体系及共建推理云生态谈论。
这亦然曦望在近一年累计完成约 30 亿元战术融资后的初度集会公开亮相。
在国产GPU 行业缓缓从“拼性能参数”转向“拼单元经济性”的配景下,曦望弃取将战术要点明确锚定在推理算力这一更具恒久详情趣的赛说念。
从“拼参数”到“算清账”,S3 聚焦推理效用与本钱与强调峰值算力和通用身手的训推一体GPU 途径不同,曦望在启望S3 芯片上不绝强化其“All-in 推理”的定位。
曦望联席CEO王勇在发布会上示意,AI 行业正在进入以应用落地为中枢的下半场,推理缓缓杰出考试,成为主要算力浮滥场景。比拟考试阶段的一次性高参加,推理更强调恒久寄托身手、单元本钱和系统领悟性,这也正在改变 GPU 的竞争逻辑。
据先容,启望S3 是一款面向大模子推理深度定制的 GPGPU 芯片,围绕竟然推理负载,对芯片架构、存储体系与互联口头进行了系统级策画。比拟上一代居品,S3 在典型推理场景下的举座性价比进步朝上 10 倍。
在算力与存储策画上,S3 扶植从 FP16 到 FP4 的精度解放切换,在保证模子成果的前提下显耀进步低精度推理效用;同期最初在国内 GPGPU 居品中遴荐 LPDDR6 显存决策,显存容量较上一代进步 4 倍,缓解了大模子推理中常见的显存瓶颈问题。
在DeepSeek V3/R1满血版等主流大模子推理场景中,S3 的单元 Token 推理本钱较上一代裁汰约 90%。王勇示意,这使“百万 Token 一分钱”从意见走向可限度化部署的工程身手。
王勇示意,曦望的推理GPU 并非单点硬件蜕变,而是通过芯片架构、软件体系与算力寄托口头的一体化策画,将硬件身手领悟出动为可寄托、可计价的推理算力。当今,曦望已构建与CUDA兼容的基础软件体系,扶植推理当用低本钱迁徙与连接优化,干系身手已遮蔽 ModelScope 平台 90% 以上主流大模子形态。
围绕启望S3,曦望同步发布了面向大模子推理的寰望 SC3-256 超节点决策,可高效撑持 PD 差别架构与大限度民众并行(EP)部署,适配千亿、万亿级参数的多模态 MoE 推理场景。
在寄托形态上,寰望SC3 遴荐全液冷策画,中枢能效方针PUE阐述极致。曦望方面示意,在同等算力限度下,该决策的举座寄托本钱适度在千万元级别,相较行业内同类亿元级决策裁汰一个数目级。
同期,曦望还推出遮蔽PCIe、OAM 模组、一体机及 AI 计较集群在内的 S3 居品矩阵,遮蔽从单机推理到大限度集群部署的万般化需求。
不单卖芯片,重构算力寄托的推理“云模式”如若说S3 回应的是“推理算力奈何更低廉”,那么曦望共建的推理云谈论,则进一步指向“算力奈何更好用”。
跟着推理逐步成为大模子算力浮滥的主要开头,推理算力在骨子落地中无数存在资源碎屑化、运维复杂、本钱不能推敲等挑战。比拟考试阶段的一次性参加,推理更强调连接寄托身手与恒久单元本钱,这也对算力寄托口头提议了新的条款。

在此配景下,曦望通过生态共建推理云视为其推理算力体系中的重要一环。依托自研推理GPU,曦望完结从底层芯片到表层平台的全栈优化,将硬件身手以平台化口头领悟开释,从而裁汰模子适配和系统部署复杂度,酿成面向应用落地的齐备算力寄托旅途。
曦望联席CEO王湛示意,新一代的AI算力平台,应具备软硬件深度协同、资源诈欺高度弹性、技能门槛低且开动领悟可靠等特征。基于这一判断,曦望通过云化口头临算力寄托模式进行重构,使推理算力从“蛊惑身手”出动为可模范化、可限度化的劳上路手。
据先容,共建推理云以启望S3 为底座,通过 GPU 池化与弹性出动,将漫步的算力资源整合为长入的推理算力池,并以 MaaS(Model as a Service)动作中枢进口,向企业提供开箱即用的大模子推理作事。企业无需关切底层硬件确立和集群运维,即可按需调用模子身手,并凭证业务负载纯真彭胀算力限度。
在领悟性与运维层面,共建推理云在千卡级集群场景下可用性达到99.95%,横向彭胀效用朝上95%。
在这一目的之下,曦望蚁合商汤科技、第四范式等生态伙伴,共同发起“百万 Token 一分钱”推理本钱谈论。曦望方面示意,该谈论并非单一居品身手的展示,而是多方围绕推理算力本钱酿成的协同共鸣,象征着大模子推理正在从“技能可行”走向“经济可行”,为 AI 应用限度化落地提供明晰的本钱锚点。
推理算力走向“系统工程”,生态协同成重要变量跟着推理算力竞争从单点技能走向系统工程身手比拼,产业协同的弥留性日益突显。
中国工程院院士、浙江大学信息学部主任吴汉明在发布会上示意,推理期间的算力竞争,已演进为涵盖芯片、系统架构、软件平台和应用场景的综称身手竞争,需要构建从芯片到系统、从技能到应用的齐备蜕变链条。
发布会现场,曦望与浙江大学签署战术协作契约,蚁合确立“智能计较蚁合研发中心”,围绕光互连 GPU 超节点架构、半导体假造制造(计较光刻)以及 AI 高精度征象推敲等前沿目的张开协同辩论。
此外,曦望还与中交信科集团、杭钢数字科技、浙江算力科技、三一集团、协鑫科技等企业达成战术协作,推动推理算力在交通、制造、医疗等行业的落地应用。
曦望董事长徐冰示意,跟着大模子进入限度化应用阶段,AI 产业正从“考试驱动”转向“推理驱动”。比拟一次性参加繁密的考试,推理更强调恒久寄托身手、单元本钱和系统领悟性。
他指出,曦望并不但愿只作念一家卖芯片的公司,而是围绕推理场景,构建“芯片+系统+生态”的举座布局,让推理算力竟然成为可限度化、可连接的基础神情。2025年,曦望芯片寄托量已冲破万片。
“谁能连接裁汰推理本钱,谁就掌抓了 AI 产业的本钱弧线。”徐冰示意,曦望但愿通过推理算力体系的系统性蜕变开yun体育网,助力 AI 应用完结限度化落地与可连接增长。