行业解决方案

教育

亿万克高校HPC解决方案

教育

概述

随着互联网时代的发展,越来越多的高校项目已离不开计算机的使用,特别是一些技术性的研究领域,单台计算设备已经不能满足其计算性能要求,高校对高性能计算集群的需求也愈发强烈。


背景介绍

目前,高校一般以学院或者学校为单位组建一套高性能计算集群,多个项目团队共同使用资源,不同的项目团队研究的方

向和领域都不一样,对高性能计算集群资源的要求存在着差异,所以高校的高性能计算集群普遍会有以下特点:

 

应用类型多样

高校所含院系较多,主要需要高性能计算资源的院系为物理化学领域的院系、生物信息领域的院系、3D设计领域的院系及人工智能等领域的院系,而在这些领域研究的内容所需资源各不一样。

 

高网络带宽

目前大部分计算软件均支持MPI并行,可以进行跨节点并行计算。不同算法的计算程序表现出的并行扩展性不尽相同。大部分计算程序并行计算时对计算程序的并行加速比和并行扩展性有重要的影响。计算网络的延迟和带宽性能都很重要,小数据包或者大数据包交换较多时,对计算网络的延迟非常敏感。

 

高并发读写存储

高性能计算集群需要配置全局共享存储系统。当集群规模增大时,多个计算节点通过网络并发访问IO节点,IO节点的网络出口带宽会出现争抢,IO节点也无法处理过多的IO请求,造成负载过高,IO阻塞,形成瓶颈。特别是物理化学领域的部分计算软件对存储IO的压力较大。


解决方案介绍

目前亿万克通过提供硬件支持,在整个架构中为高校用户提供高性能计算平台所需的硬件资源。

高校HPC解决方案_画板 1.jpg

1高性能计算架构图

高校HPC解决方案2_画板 1.jpg

2 网络拓扑图


高性能计算集群中的硬件共包含计算资源、存储资源、网络和登录管理四个部分。

 

计算资源

CPU计算节点:采用亿万克2U Whitley 平台服务器,单节点最大可支持80C,单CPU八个内存通道极大程度满足访存密集型的应用程序,高效发挥其计算性能。

异构节点:采用亿万克GPU服务器,单台最大可支持10张全高全长GPU卡,为用户的人工智能训练及其他可用GPU计算资源加速的应用提供强大的计算能力。

胖节点:采用亿万克4U服务器,最大支持4CPU,提供大容量内存,满足一些不适合跨节点运算访存密集且对单机计算性能要求较高的应用。

 

存储资源

存储采用亿万克推出的全新一代分布式集群存储系统,针对高效文件存储系统及数据共享需求,采用横向扩展架构,基于存储服务器集群提供统一的文件命名空间、高性能的文件存储能力及稳定高效的读写带宽,同时具备弹性扩展、高可靠、易部署、易管理、易使用等特点,通过副本方式对数据进行安全保护。

 

网络资源

计算存储网络:采用主流HDR Infiniband组网,所有节点采用HDR全线速互联,低时延高带宽使数据高速传输,避免成为系统性能瓶颈;

管理网络:采用千兆以太网作为登录管理网络,满足各类使用人员接入系统使用资源;

监控网络:采用千兆以太网对各节点进行统一监控,及时定位故障和掌握节点状态。

 

登录管理

登录节点:采用亿万克2U机架式服务器作为集群登录节点,为用户登录高性能计算系统并使用集群资源提供入口;

管理节点:采用亿万克2U机架式服务器作为集群管理节点,部署集群管理软件、调度系统,以及承载集群所需服务的运行。


优势与价值

性能强大

Intel最新架构Whitley为基石,以最优配置,将设备最大性能发挥出来,提供各类应用所需资源,以满足高校用户计算要求。

管理高效

本套系统中,无论是计算资源、存储资源、登录管理节点或者是网络都可以随着客户的需求和规模不断横向扩展,免除高校用户后期资源扩展难的后顾之忧。

高扩展性

通过集群管理和作业调度软件将系统中的所有资源都纳入进去,对所有节点进行统一管理,可以通过管理平台及时定位故障,有利于运维和管理。

安全可靠

系统存储采用并行分布式架构,多节点并发处理数据,采用副本形式对数据进行安全保护,保障数据的安全可用。