天翼云:国云焕新 打出智算“组合拳” 共赢AI新时代-新华网
新华网 > > 正文
2024 07/09 11:22:48
来源:新华网

天翼云:国云焕新 打出智算“组合拳” 共赢AI新时代

字体:

在深圳,依托“息壤”强大的调度能力,以深圳开放智算中心为枢纽,,中国电信携手深智城构筑起科创算网走廊。该项目以开放算力中心为枢纽,实现了算力调度、算力供给、算力科创、算力赋能和算力招商,从而让算力真正成为科技创新与产业创新融合的“催化剂” 。

——在7月5日召开的中国电信星辰人工智能生态论坛上,这些令产业振奋的消息接续不断,我们现在已经进入了对于AI潜力不断探索、挖掘和使用的新时代。与此相应,天翼云科技有限公司董事长、总经理胡志强也给出了中国电信的答案:人工智能已成为新一轮科技革命和产业变革的核心驱动力量,天翼云以丰富的智算资源供给、强大的智算服务能力和开放的模型应用生态,为数字经济发展注入新动能。

天翼云科技有限公司董事长、总经理胡志强表示:工智能已成为新一轮科技革命和产业变革的核心驱动力量。

自建+汇聚,

打造“巨无霸”智算资源

智能算力,是数字化、智能化的关键底座。当前,人类社会正处于从工业文明迈入数字文明的重要关口,对于智能算力的需求不言而喻。

为了以丰富的智算资源供给强力支撑数字化、智能化转型,天翼云采取了“两手抓”策略:其一为自建丰富、多样化的智能算力资源,其二为汇聚社会多方算力。

一方面,天翼云自建大规模智能算力,配合产业集群科学布局,迅速实现了资源的丰富化和形态的多样化。围绕AI产业集聚地区,天翼云规划建设了北京、上海、广东、浙江、安徽人工智能公共算力中心,提供训推一体化能力,并先后建成上海、北京万卡池——全国最早建成并真正投产运行的两个国产化、全液冷、单集群万卡公共智算中心。在清洁能源集聚地,天翼云建设了内蒙、贵州、宁夏智算中心,提供绿色算力。尤为值得一提的是,天翼云还在31省预部署了AI云电脑和推理池,在280多个地市的一城一池节点和1000多个边缘节点按需下沉AI云电脑算力和推理算力;提供国内外主流的GPU、NPU算力方案,面向不同场景为用户提供公有云、私有云、边缘云多种形态服务。

另一方面,天翼云通过算力分发网络平台“息壤”,大规模汇聚社会各方算力,促进算力的互联互通、高效利用和供需匹配。据胡志强介绍,“息壤”作为调度底座,实现了算力统一接入、算数网一体化调度、算力简便易用三个方面的技术创新,从而实现裸算力云化接入、算力更泛在、算力选择和应用部署更简单。在“息壤”的赋能下,天翼云助力全国一体化算力体系的形成,并且让智算更普惠。

“息壤”可赋能三大算力服务场景,包括天翼云自营的公共算力服务平台、行业算力互联网和城市算力互联网。基于广阔的应用空间,“息壤”正在让全网算力变得“随手可得”。

基础大模型+行业大模型

提供“超好用”智算服务

当前,以大模型为代表的生成式人工智能持续迭代演变,引发了智能范式之变、产业动能之变、算力模式之变,同样也引发了产业界的思索。“有了足够多的算力之后,接下来就要解决如何通过构建强大的平台能力,来帮助客户用好算力、练好模型。”胡志强表示。当前大模型的两个主要场景算力需求旺盛,一个是万亿参数基础大模型训练,从国内外看,基础大模型训练呈现参数越来越大的趋势, 这将带来更大算力需求。 二是针对行业需求训练开发行业大模型,如何降低开发门槛,加速大模型产业落地。天翼云针对两大类模型场景的痛点和难点,在实践中给出了解决之道。

为了应对万亿参数基础大模型训练场景的挑战,天翼云构建了行业领先、国产化的“万卡集群”解决方案。尤为值得一提的是,作为一项高度复杂的系统工程,该方案基于国产万卡智算集群和自研智算平台,解决了超大规模的组网互联、高效率的集群计算、长期稳定性和高可用性等众多技术难题。

“我们在中国电信的星辰万亿参数大模型的训练过程中,发现挑战主要来自于算力、性能和稳定性三个方面。”胡志强指出。天翼云基于单集群万卡智算中心,搭载一体化计算加速平台“云骁”和一站式智算服务平台“慧聚”,从基础设施到平台构建了解决方案。面对大算力挑战,天翼云建设了可横向扩展的PB级HPFS,满足存储要求;组建了低延时的超大规模RDMA网络,满足基础算力需求;通过计算、内存、通信多维优化,提升综合算效。面对性能挑战,天翼云采取升级AI框架、拓扑感知调度等多种加速优化手段,将国产算力的综合算效比提升至行业可比水平。面对稳定性挑战,天翼云通过对数百项指标监控和分类,实现了故障训前发现;结合断点续训能力,实现训练任务长期稳定、高可用运行。

“息壤”“云骁”“慧聚”三大智算平台亮相2024界人工智能大会。

为了满足行业大模型训推场景下的特定需求,天翼云量身打造了“一站式”智算服务。据胡志强介绍,面对训练部署工程复杂、训推效率有待提高、训练中断频繁三大痛点,天翼云通过“云骁”和“慧聚”两大平台进行了有效解决。例如,“慧聚”平台预置行业数据集、支持内外主流AI加速硬件、预置多个基础大模型等全栈工具链能力,让大模型精调场景只需要通过选数据、选硬件、选模型三步操作,即可实现大模型训推。

在丰富的智算资源供给、强大的智算平台能力之外,天翼云还在积极建设开放的模型应用生态,在业界率先发布AI云电脑、打造红云大模型开发者社区等,从而高效驱动场景化创新和国产模型孵化。面对正在到来的AI新时代,持续创新与勇于实践的天翼云,必将扮演好云服务国家队的角色,助力我国数字经济腾飞!

【纠错】 【责任编辑:李想】