GPU资源调度平台

产品介绍:


得益于GPU资源高效的处理能力,现实应用能够快速进行大量计算密集型任务,例如训练神经网络。然而,随着GPU资源不断增长以及深度学习应用领域越来越广泛,通常多个服务/开发团队对GPU资源的需求也愈加强烈,与之而来的是资源共享与调度问题,这迫切需要一个针对GPU集群的资源管理与任务调度平台。

本产品提供了一个细粒度的GPU集群资源管理与调度框架能够对GPU的资源实现细粒度的分配和任务调度。并且,通过合理的资源分配算法,能够在不影响任务执行速度上尽可能的提高整体资源利用率通过在合适的时间将任务调度到合适的节点,能够达到在利用现有资源的前提下,提高吞吐量以及满足最迟处理时间需求。



产品功能:
  • GPU资源共享:

    通过在深度学习框架中设置参数等方式,限制单个任务的资源使用,以此来保证多个任务对GPU资源的共享。

  • AI任务全流程支持:

    关注AI任务中从程序编写、测试,到部署以及升级的全流程,做到易用高效的人工智能任务调度平台。

  • 外挂存储支持:

    在实际场景中,数据可能存放在分布式文件系统中,该平台需要支持将数据等从外挂存储导入。

  • 与现有大数据平台深度融合:

    支持与现有大数据平台Hadoop、Spark等实现数据融合交互。

  • 动态增减集群节点:

    支持故障机器热剔除、集群升级对用户无感知。

  • CPU/GPU混合调度:

    支持混合调度,并且支持灵活的调度策略。

  • 支持集群管理组件或者工具:

    整个产品的容器化部署编排,产品化程度更高

  • 接口访问的安全认证:

    用户管理、组管理、配额管理

  • 资源的动态分组隔离:

    现有技术中采用了强隔离,即分组资源固定,每个任务只能只用该分组的资源,如果配置不合理,容易造成整体资源利用率下降。在基于分组的概念上引入私有资源与公共资源的划分,尽可能平衡整体资源利用率与资源竞争。同时,综合历史情况,采用相关算法智能的调整分组似有资源的划分,保证高优先级任务的成功执行。

产品优势:
  • ● GPU资源统一管理与分配:

    整合所有GPU相关资源,并具体记录详细GPU型号、所在节点资源情况以及全局网络拓扑结构等静态信息;定时向中心管理器汇报各个节点上的资源使用情况等动态信息;根据下发的任务,综合考虑系统当前负载以及任务需求分配合适的GPU资源。

  • ● 计算任务合理调度:

    针对任务需求,结合分析系统当前的负载情况,决定调度该任务的时刻,做到提供足够的资源并在规定时间之内完成。通过划分优先级、预留资源、虚拟分组、任务分配等策略,满足不同的应用场景。

  • ● 资源细粒度分配与调度的自动优化:

    主要任务是收集整理任务在以往多次运行过程中的资源使用随时间变化的规律,结合任务的运行需求,自动的调整任务所需的资源以及调度时间,做到在满足任务需求的基础上降低资源占用率。

  • ● 通过资源共享提高整体资源利用率:

    将所有资源集中管理,用户只需在需要运行训练任务时提交任务,而不再需要原有的漫长申请等待。此外,通过任务级别的分配策略,有效避免分组内的闲置率。同时基于以往的任务执行情况,能够保证未来高优先级任务能够尽快的获得资源。

  • ● 更好的满足时间约束要求:

    不同的任务有着不同的时效要求,框架通过考虑这些时间约束,通过优先调度紧急任务并推迟其他任务,能够保证更好的满足整体的时间约束要求。

产品示例图:

使用场景:

涉及到多个服务/开发团队需要高效共享GPU集群资源的场景。