业务要求:高性能计算集群的监控一直存在系统资源环境复杂多样、监控数据分散、作业状态数据孤立、问题定位困难等普遍问题。

方案构建:本监控平台为此专门分成了两部分:一部分针对集群基础资源监控,包括内存、CPU、网络、磁盘等一系列集群实时负载情况监控和历史数据统计,通过统一的采集代理屏蔽资源环境的差异,把各种分散的监控数据进行汇总,并持久化存储到磁盘。第二部分针对集群作业和进程的监控,实时监控整个集群中每个作业所占用的系统负载、所在的节点位置以及筛选作业中僵死进程。

服务结果:该监控平台提供了统一的WEB界面,方便用户实时查看集群负载、作业总数、运行作业数量等相关指标,帮助用户快速定位和解决问题。主要功能包括:集群资源负载仪表板、作业信息查询、可疑进程排查、作业资源负载展示等。


2018年11月26日

HPC软件许可证管理和调度解决方案

下一篇:

HPC集群监控平台

添加时间:

上一篇: