百度智能云云原生AI解决方案

国内云服务器商百度智能云云原生AI基于百度智能云容器引擎支持GPU显存和算力的共享与隔离,同时集成多种主流深度学习框架,通过对AI任务的编排、管理,提供深度学习训练服务,帮助企业客户提高GPU资源使用效率和提升AI训练速度,快速降本增效。

  云原生AI能力全景图

百度智能云云原生AI在资源弹性、跨节点架构感知,训练推理效率等多方面的能力显著提升,可最大化地帮助企业实现AI应用的快速交付与落地。

百度智能云云原生AI解决方案

  方案优势

1、双引擎虚拟化

提供了用户态和内核态双引擎:用户态性能最优,内核态隔离性强。用户可以根据自己的需求灵活选择。

2、AI调度

调度支持共享混部、独立调度,用户可根据需求灵活选择;支持拓扑感知以及亲和调度。

3、分布式训练加速

使用百度自研AI加速套件AIAK-Traning,通信功能优化,TCP场景提升43.7%,RDMA提升11.4%。

4、推理加速

百度自研推理加速引擎AIAK-Inference,推理效率极速提升,ResNet等可以加速15%-80%。

5、数据加速

支持Fluid Operator与PFS/RapidFS等,能实现分布式缓存引擎加速与协同调度,训练效果提升5倍以上。

  大规模训练最佳实践

支持数千卡分布式训练,为其提供高效稳定的训练环境。大规模训练资源效能提升:等效算力50%+、数据并行加速比90%+。

百度智能云云原生AI解决方案

我们能提供

1、高性能基础设施适配

  • 支持RDMA容器网络,单机可达1.6Tbps
  • 支持高性能容器存储,可实现百万IOPS、百GB吞吐

2、高效调度

节点间tor交换机架构感知

3、通信、框架、调度高效协同

  • 容错(节点故障时框架感知并要求调度器重分配)
  • 端到端自动并行

4、支持自研通信库ECCL

容英伟达、昆仑等多家芯片

解决方案

阿里云云上大数据仓库解决方案

2022-7-25 15:35:57

解决方案

阿里云极致弹性的云原生架构解决方案

2022-7-29 14:40:44

相关推荐