云监控作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业IT运维成本。本文将以三大知名公有或专/私有云平台存储产品监控体系为例进行分析,旨在帮助读者详细了解云平台存储全方位监控的方向和监控指标体系建设的详细内容。
【作者】邓毓 江西农信运维技术经理
本文中所指的云监控为云平台(公有云或私有云)的性能监视与检测,它能为用户提供一个针对云资源、云服务或者云产品的全方位监控平台。云监控本身也作为云平台对外的一种云服务,通过它可全面掌控云上的资源使用情况、业务的运行状况,能够及时掌控及处理云上出现的突发情况,保证业务连续性运行,同时降低企业IT运维成本。云平台存储是云平台基础设施的核心基础资源,包括块、文件和对象等一系列存储产品,对用户提供数据存储服务。其架构复杂性及技术难度较云下传统集中式存储有较大提升,因此,云上不同类别的存储产品的精细化监控也变得尤为重要。基于此,本文将以三大知名公有或专/私有云平台存储产品监控体系为例进行分析,旨在帮助读者详细了解云平台存储全方位监控的方向和监控指标体系建设的详细内容。
一、云平台存储全方位监控建设方向
云平台存储全方位监控建设方向应当包括至少以下四个方面:云平台存储基础底座监控、云平台存储产品监控、事件告警平台、多维度图表展示及报表,形成一个完整的云监控服务,其架构如图1所示,下面将一一进行介绍:
图1:云平台存储全方位监控图
1. 云平台存储基础底座监控
如今的云平台存储时代分布式架构得到了广泛应用,云平台存储基础底座通过利用大量标准化机器的存储资源聚合构造一个海量存储池,作为数据存储的基石性系统,其上承载了一系列的云平台存储服务。既有要求高吞吐量,I/O能力随集群规模线性增长的“开放存储”,又有要求低时延的“弹性计算”。作为底层平台核心的云平台存储底座必须二者兼顾,同时具备高吞吐量和低时延。因此其技术架构十分复杂,作为基础底座,完备的监控是必备的。主要包括两大类别,一是存储产品集群监控,包括该存储产品所用底座集群下的存储空间、机器信息和健康信息等,健康信息涉及集群元数据节点和数据节点的整体状态、水位、磁盘、集群日志等信息;二是集群节点监控,包括节点基础监控,如CPU、内存、进程、磁盘、缓存等,以及节点级状态、水位、磁盘、硬件、节点日志等信息。
2. 云平台存储产品监控
云监控针对云平台存储产品的监控,需提供自动、准确且几乎实时地采集基础监控指标和存储产品监控指标数据的功能。能够为用户实时地了解所拥有的存储服务状态以及业务的使用情况,并且能够及时的发现问题、诊断问题和解决问题。云平台存储服务监控通过监控面板支持通过自定义的方式建立丰富多样的图表查看产品的指标数据,并可配置告警,还能通过API拉取指标数据,进行进一步使用和分析。对用户而言,主要关注以下三类服务监控指标数据:
1) 用户计量数据监控:反映用户层面的资源使用状况和计量信息。例如存储产品已用/总空间、吞吐量、流入流出流量或吞吐量、带宽、请求数或IOPS等。
2) 服务性能数据监控:反映用户在使用服务时的体验感信息。主要是请求延时,它是衡量服务性能的重要指标。所以实时的延时信息监控和毛刺状态对用户评估业务需求和服务性能至关重要,而且请求延时包含网络延时和服务器延时两大部分,通过监端到端延时和服务器延时,能够快速帮助用户定位性能问题。
3) 服务水平数据监控:反映存储服务的稳定性以及用户的使用健康状态信息。例如服务可用性、内部错误数、返回错误情况、日志告警等。
3. 事件告警平台
云监控事件告警平台要求能够为用户提供及时、个性化的事件及告警服务,统一适用于云上各类计算、存储和网络的基础底座及云产品监控。
1) 事件服务:提供了事件类型数据上报和查询功能。方便用户将云上的各类重要事件或对云资源(包括云底座和云产品)的操作事件收集到云监控服务,并在事件发生时进行告警。事件服务保存并监控着云资源的关键操作,可通过事件了解到谁在什么时间对系统哪些资源做了什么操作。
2) 告警服务:提供了监控指标、事件的告警功能。用户对云资源的核心监控指标设置告警规则,当监控指标触发用户设置的告警条件时,支持以邮箱、短信、HTTP、HTTPS等方式通知用户,让用户在第一时间得知该云资源发生异常,迅速处理故障,避免因资源问题造成业务损失。另外,云监控告警服务使用消息通知服务向用户通知告警信息。首先,用户需要在消息通知服务界面创建一个主题并为这个主题添加相关的订阅者,然后在添加告警规则的时候,需要开启消息通知服务并选择创建的主题,这样在云资源发生异常时,云监控告警服务可以实时的将告警信息以广播的方式通知这些订阅者。告警规则支持企业项目,当选择了告警规则到某个企业项目时,只有拥有该企业项目权限的用户才可以查看和管理该告警规则。
4.多维度图表展示及报表
云监控需要支持用户通过丰富的多样的个性化图表查看已有的监控数据,并支持自定义报表导出能力。统一适用于云上各类计算、存储和网络的基础底座及云产品监控。
监控面板/大屏:能为用户提供自定义查看监控数据的功能。将用户关注的核心云资源监控指标集中呈现在一张监控面板里,为用户定制一个立体化的监控平台。
1) 用户可以在监控面板详情中便捷地查看和导出各个云资源的监控数据;
2) 用户可以在监控面板订阅重要的指标,个性化地定制不同指标的展现形式与运算规则,并通过列表与图表结合,对指标数据进行排序与对比展示,辅助异常排查与故障分析;
3) 用户可以查看和导出账号下所有云资源的监控数据与绑定的告警信息;
4) 监控面板支持在一个监控项内对不同资源、不同维度的数据进行对比查看和导出,帮助用户实现不同云资源间性能数据对比查看的需求;
5) 监控面板支持结合云资源的健康状态与告警数据,为用户提供了快速定位异常资源的功能,并支持用户结合具体数据与异常信息排查问题;
6) 能够通过监控面板自定义需要定期导出成报表的监控指标和告警数据,形成日报、月报等。
二、云平台存储全方位监控指标体系建设
云平台存储监控指标体系建设的重要性不言而喻,通过对云平台存储基础底座以及块存储、文件存储和对象存储等三大主要存储产品进行精细化监控,关注这三类云存储服务的可用性、安全性、服务质量等指标,直观展示各类云存储资源配置信息、使用状况、性能状况及健康状况,准确及时的发现云存储系统中的故障和问题所在,以智能多样化的方式进行报警、信息统计,及时响应、掌控以及处理系统突发故障,同时也可以进行问题预测。为了便于读者直观了解云平台存储监控指标体系建设内容,下面以阿里专有云存储基础底座-盘古(表1),以及三大知名公有或专/私有云平台存储产品监控体系为例,列举并对比三大云上存储产品各个方面监控重要指标(表2-表4):
表 1:阿里专有云存储基础底座监控指标
注:盘古Master服务器:盘古文件系统的元数据存储服务器;盘古Chunk Server(简称CS)服务器:盘古文件内容数据存储服务器。
表 2:块存储产品监控指标及对比
表 3:文件存储产品监控指标及对比
表 4:对象存储产品监控指标及对比