阿里云AI基础设施升级亮相 模型算力利用率提升超20%
9月20日,2024云栖大会现场,阿里云全面展示了全新升级后的AI Infra系列产品及能力。通过全栈优化,阿里云打造出一套稳定和高效的AI基础设施,连续训练有效时长大于99%,模型算力利用率提升20%以上。
“AI创新需要新形态的云基础设施。”阿里云副总裁、弹性计算及存储产品线负责人吴结生表示,阿里云整合底层的计算、存储、网络等资源,实现了统一调度和软硬一体优化,以满足模型训练和推理的爆发式AI算力需求。
基于全新的CIPU2.0,阿里云新推出磐久AI服务器,实现单机16卡、显存1.5T以上,支持Solar RDMA互联。磐久AI服务器采用超钛金电源实现97%以上的高能效,并可通过AI算法预测GPU故障,准确率达92%,保障AI算力的性能和稳定性。
在存储方面,阿里云并行文件存储CPFS实现端到端全链路性能提升,单客户端吞吐达25GB/s,高性能数据流动达到100GB/s,为AI智算提供指数级扩展存储能力。
为AI设计的高性能网络架构HPN7.0,性能和稳定性也再次提升,其中,集合通信性能提升1倍以上,模型端到端训练性能提升10%以上。
通过底层计算、存储、网络等基础设施的升级,阿里云灵骏集群可提供超大规模、超强性能的智能算力,万卡规模性能线性度超过96%,并行存储吞吐20TB/s,万卡规模下网络带宽利用率超过99%,可支持单集群十万卡级别AI算力规模。
面向AI业务,阿里云计算产品也大幅演进更新。本次云栖大会上,容器服务ACK面向AI实现重磅升级,大模型应用冷启动延迟降低85%,并可提供15000个超大规模节点支持。同时,容器计算服务ACS即将推出 GPU容器算力。(李记)
您可能感兴趣的文章
- 09-20阿里云AI基础设施升级亮相 模型算力利用率提升超20%
- 09-20华为以智能解决方案扩大汽车“朋友圈”
- 09-20打击网络灰黑产 多部门、多平台正联动
- 09-202024北京互联网大会开幕 北京电信算网创新为智慧北京注入活力
- 09-20共筑安全底座 服务社会民生
- 09-19中国电信以算力筑基 开启数智生活时代
- 09-19高德全面开放时空智能应用 助力产业AI+应用落地
- 09-19吴泳铭:AI最大的想象力不在手机屏幕 而是改变物理世界
- 09-19周靖人:全面投入升级AI大基建
- 09-19万兆光网应用开启智慧生活新篇章
阅读排行
推荐教程
- 08-11浙大研发全新褶皱 MOF 薄膜:利好可穿戴设备、医疗健康等,可承受 53.2% 应变
- 08-11一工人命丧特斯拉得州工厂,家属起诉称是触电身亡
- 08-11郭明錤称高通受华为麒麟芯片冲击:最快 23Q4 开始价格战、明年向中国厂商出货
- 09-11宝马 CEO:由于欧盟内燃机禁令,欧洲车企无法赢得与中国对手的价格战
- 07-25研究认为 GPS 可提前两小时预测地震,但传感器精度需提升 100 倍
- 09-11宝马推出全球首款电动防弹车 i7 Protection:重 4900 公斤,续航 380
- 09-04跑 3.2 公里仅记录 160 米,西铁城宣布停售召回第二代 CZ Smart 智能手表
- 08-19杭州亚运会“亚运元宇宙”正式发布:融合 AI、VR、数字孪生,可提供“沉浸式
- 08-11废弃电路板成新金矿:英国皇家造币厂每年可从中提取半吨黄金
- 08-11全国首个跨境智慧口岸进入大规模路面施工阶段,中方段预计年底建成