Easycluster高性能计算解决方案
Easycluster High Performance Computing Solution
高性能计算集群基本架构示意图
HPC(High Performance Computing)是计算机技术中一个相对比较高端的领域, 涉及到计算数学、计算机科学、其他应用学科的综合技术。该领域的使用者大多不是计算机专业的专家,而是诸如物理、化学、工程领域的学者或研究人员,这就更加大了HPC项目的难度。 群立作为HPC增值服务与解决方案提供商,能够为用户解决HPC方面的一系列问题。 目前,我们能为用户提供如下服务:
项目
|
内容
|
1. 计算机体系结构
|
根据用户具体应用需求推荐提供合适的硬件架构
|
2. 硬件配置
|
综合用户需求、预算等多方面因素提供硬件配置方案和建设方案
|
3. 集群实施及优化
|
操作系统、网络驱动、编译器、函数库、并行环境、并行文件系统、集群存储规划、集群优化
|
4.Easycluster集群管理软件
|
硬件监控、调度系统、人员管理、记账计费、断电保护等
|
5.应用软件支持
|
完成用户应用软件的安装、编译、并行、优化等工作,提供相应的调度系统脚本
|
6.集群培训
|
集群管理员培训、集群用户培训、并行计算培训
|
7.集群系统维护服务
|
集群系统后期维护服务,解决集群运行中碰到的问题,维护集群运行良好
|
8.二次开发
|
针对客户需求,可进行Easycluster的二次开发
|
9. 旧有问题判断
|
如用户拥有旧有集群,有问题无法解决,可以提供诊断服务,提供合理建议和解决方案
|
EasyCluster有哪些功能模块?
集群监视:实时监控集群硬件负载情况,进程分配情况
集群控制:可对不同品牌单个节点或一批节点进行关闭重启等操作
任务调度:支持特权队列、Deadline、Fairshare、队列优先权等调度策略及其组合
账户管理:统一的账户管理,与操作系统、调度系统保持同步的用户信息
计费记帐:根据LICENSC,用户、用户组等的记账计费信息
断电及温度保护:确保集群系统在长时间停电或高温环境下的安全
系统恢复:异常情况下系统快速恢复,无需操作者去熟悉操作系统的特性
特定应用绑定:根据用户的需求对商业软件进行绑定,使用户能够通过EasyCluster实现商业软件任务的挂起、删除操作及高级调度策略。
用户限制:可以限制用户命令行登陆集群、最大任务数、最大计算核数、可以使用的软件类型等
...............
EasyCluster有何特点?
EasyCluster基于web界面,客户端无需安装任何软件;集群监控完全采用动态技术, 实时更新数据;任务调度基于业内知名的任务调度系统, 并根据我们与多家实验室长期多年的合作心得, 对其源码进行了改进,从而使其更加实用高效; 针对科学软件的定制、断电保护、 集群工具集是EasyCluster的特色功能,需求都来自于我们与实验室的合作, 非常具有针对性和实用性, 而这些都是业内其他集群管理系统或任务调度系统所不能提供的。
为什么说EasyCluster是可定制的?
EasyCluster是完全自主研发的集群管理产品,所以和OpenSource的以及国外的一些集群软件相比, 有着先天的优势-可定制化。我们可以根据用户的使用需求,为其定制EasyCluster, 目的就是让系统能为用户提供更好、更实用的功能。事实上,EasyCluster 的发展过程中, 有相当一部分需求就是来自各大高校的实验室,也正是由于这些功能, 使EasyCluster具有了其他集群管理软件所没有的亮点功能。我们相信,软件是用来提高工作效率和水平的工具, 而只有系统可定制化,方能更贴近用户的需求,从而赢得更多的用户。
支持的应用软件
包括Ansys、Fluent、LS-Dyna、Material-Studio、Abaqus、Comsol、VASP、FDTD-Solution、SAS、Molcas、Molpro、ADF、Gaussian、TurboMole、Lammps、ORCA、Matlab、WRF、WRF-CHEM、HWRF、Gromacs、Amber、NAMD、Towhee、Delft3D、Blast等涉及物理、化学、制药、地质、统计、农学、材料、CFD、FEM、大气、航天航空等诸多学科领域。
全面的解决方案
合理的硬件架构
服务器配置、机型、网络、UPS、空调、存储、GPU等
稳定的集群运行
操作系统、并行环境、编译器、函数库合理选择和部署
规范的集群管理
账户管理、任务管理、队列管理、安全管理、调度系统管理、命令行登陆集群管理
充分的应用调研
了解计算用户需求:计算软件、计算规模、计算时间、用户量、计算储存要求
全面的计算软件支持
协助用户安装、编译、优化、并行计算软件,优化运行效率;提供高效的调度脚本,方便用户使用和集群管理
丰富的调度策略
先进先出、平衡树、Deadline、特权队列、针对特殊应用单独任务队列、单任务最大运行时间、单任务最大运行核数、单用户最大任务数、单用户最大运行核数等策略及策略交叉组合
真实的调度管理
对于商业软件,调度系统并非一定支持,即使支持也无法支持管理(挂起、删除、调度策略响应),这需要调度系统的二次开发。对于高性能计算平台,不能简单满足于实现调度,管理更加重要。最初建立最起码要满足大多数商业软件的调度管理后逐步增加和丰富。
储存瓶颈压力
利用脚本中间数据本地化存储、最终数据空闲时转移、定期数据清理、并行文件系统、I/O数据分流
异常情况处理
异常断电、空调故障、用户命令行登陆集群运行程序
记账信息透明
提供详细的任务运行时间、使用集群情况等报表
二次功能开发
碰到特殊问题和情况及时二次开发,完善功能
充分全面培训
充分的集群管理员及用户培训
用户培训侧重于如何提交管理任务、规范使用集群、数据处理
管理员培训侧重于基本集群知识及配置、集群管理软件使用、规范管理集群基本事项、账户管理、调度策略设置、异常情况处理等
及时服务响应
及时响应硬件及集群系统服务要求,解决集群及用户问题,保障集群良好运行