企业级监控和报警产品(2):IaaS层监控设计概述
浏览:407 时间:2021-5-23

本文是监控报警产品系列的第二篇,重点介绍IAAS层监控(服务器状态和性能,网络设备状态和性能,网络流量分析等),来自上述监控类型。 IAAS层通常是基本监控级别

上一篇评测:监控报警产品主题(1):企业级监控产品设计基础

垦丁Jieniu

IaaS的

每个人都必须熟悉IaaS,PaaS和SaaS这三个概念。实际上,它们是三层云计算。基础架构即服务(IaaS)基础架构即服务,平台即服务(PaaS)平台即服务,软件即服务(SaaS)软件即服务。

IaaS层实际上是一些明显的可见资源对象,例如运营和维护合作伙伴经常联系的服务器,网络设备和存储设备。在使用建筑物类比时,IAAS层负责最基本的水电通信能力。上层服务都依赖于IaaS层。假设IaaS层管理不好,PaaS和SaaS的高效可控管理实际上非常困难,甚至空谈。 IaaSI层的不稳定性将直接导致外部服务质量的显着降低。过去,当我负责移动QQ业务的运营和维护时,我的名字下有4k多台机器。如果没有高效且可衡量的管理平台,它几乎与噩梦一样。

IaaS监控

对于IaaS层的监控,实质上是监控构成IaaS层的各种资源对象。资源对象代表什么?例如,物理服务器,交换机,专用线路和公共网络IP都是资源对象。通常,资源对象的监视可以分为以下四个维度。

状态监控:指设备的状态,如设备的生存状态,网络设备端口状态,电源,风扇状态等。

性能监控:指设备内存大小,端口流量,CPU利用率等。

质量监控:丢包率,设备错误率,网络访问延迟等

容量监控:指设备的负载使用情况,租用线路的带宽占用率,网络设备的负载使用率,服务器的负载使用率等。

监控产品层次结构

对于大多数主流商业或开源监控和报警产品,通常采用这种类似的分层方法。当然,这是一个高度抽象的产品分层架构。

底部是数据收集,收集的原始数据是监控的初始输入。

数据收集

一般来说,企业级监控系统应该支持多种收集方法和多个收集对象。例如,它可以由代理主动报告,也可以支持各种协议,如SNMP,Xflow和IPMI。 IaaS层特别支持的集合对象应该不小于物理服务器,操作系统指示器(linux和windows),网络设备,网络内会话信息,物理线路,网络插座等。不同的集合对象使用不同的集合方法例如,可以通过代理报告服务器系统指示符,可以通过SNMP收集网络设备状态,流量和数据包大小。具体的收集方法取决于服务方案和所需的方案。数据量取决于类别。编织云还支持多种采集方法和多个采集对象。

在大数据时代,这部分数据收集表明特定对象的集合应该尽可能大和完整。某些数据可能不会直接用于临时收集,但数据量级与数据之间的相关性会发生变化。对于大量原始数据,清理,分析和处理可以生成更多数据消耗方案。

基本概念

监视警报是收集,存储,分析,显示,警告和处理某个对象的过程。

为了便于读者理解以下及后续系列文章,我在此集中讨论在编织云监控和报警平台设计中应用的一些概念。监视和照亮云的想法是首先监视监视对象中的对象,这也是大规模操作和维护的最佳实践。

报警(监控)对象

定义:CMDB中管理的特定资源对象或自定义逻辑CI

示例:物理服务器,三级业务和TDSQL实例,所有这些都是对象

注意:对象和对象之间也存在关联,例如关联,包含,继承等。

警报(监控)指标

定义:一个或多个属性id的集合(或属性之间的四个操作的结果)

示例:CPU使用率和内存使用率是属性ID;例如,成功率=(成功的请求总数/请求总数)* 100这是多个属性ID的四个操作。

注意:并非所有监测指标都可用于制作有效的警示指标,这些指标可根据需要使用。

报警(监控)类型

定义:确定报警对象的一些报警指标是通过一类算法计算的

示例:独立性能警报(包括服务器的多个监控警报指示器,如CPU使用率,内存使用率,应用程序内容使用情况等)

警报规则

定义:报警对象+报警指示+报警生成条件+报警通知收敛规则(阈值,发生次数,统计持续时间等),适用于报警策略

示例:例如,为具有cpu使用率>的交换机创建警报规则。 80

报警策略

定义:报警对象+报警类型+报警规则(多个)对应报警策略

示例:在三级服务下为全面服务器创建基本警报策略。以下每个图表都是警报规则,

备注:对于报警策略,编织云的概念是对象简化。为什么这么说?在实际生产环境中,一个操作和维护类负责几十个服务是正常状态,如果这几十个企业对应不同。有数百种报警策略,实际上在实际操作和维护过程中无法量化。因此,警报策略必须包含不同的警报类型和可继承性。

报警

定义:报警对象的报警指示符满足报警生成条件后生成的对象

示例:[腾讯编织云] [ping警报] [15: 38: 10] [Ping 192.192.192.192无法访问]

由于空间限制,首先介绍上述基本概念。随着讨论的逐步深入,将引入报警分级,报警收敛,报警恢复,报警事件,报警订阅和报警合并等概念。以下讨论侧重于网络设备监控。网络流量分析和服务器监控是业务运营和维护学生关注的运营和维护对象。

网络流量

有效监控和分析网络出口和网络专线可以有效地帮助企业运营和维护学生有效地定位业务异常并评估业务服务质量。它还可以有效地衡量业务的总体运营成本。毕竟,现在的带宽使用成本总体运营成本也在增加。我相信很多学生在操作和维护方面都会遇到以下场景

例如,该专用线的当前利用率是多少?

ip在使用的流量中使用了多少流量?

这些生成的流量基于什么协议和方向?

专用线路和网络出口的丢包率和延迟是多少?

每行的主要任务是什么?哪个是“<”房东客户&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&

等待更高频率的使用场景。对于网络流量的监控和分析,主要依靠FLOW。

什么是FLOW?

Flow是一种数据交换方法。其工作原理是:Flow使用标准交换模式处理数据流的第一个IP包数据,生成流缓冲区,然后根据缓存信息在同一数据流中传输相同的数据。相关访问控制的策略不再匹配,Flow缓存还包含后续数据流的统计信息。

流流被定义为在源IP地址和目的地IP地址之间传输的单向分组流,并且所有分组具有公共传输层源和目的地端口号。

相对于会话(  Session”),“Flow”具有更详细的识别功能,根据传统的TCP/IP五元组添加一些新的域值,至少包括以下字段:源IP地址|目标IP地址|源端口|目的港| IP层协议类型| ToS服务类型(dscp)|输入物理端口(ifindex)|上述七个字段可以唯一地确定特定分组属于哪个特定分组。换句话说,流量的任何差异意味着新流量的出现

FLOW的分析还基于多维,ip(目的地和来源),端口(目的地和来源),商业,网络架构,城市,IDC等。所需的具体尺寸取决于他们自己的业务场景。

FLOW是制造商的专有协议,业界也有各种Flow格式。例如,CISCO,华为,Juniper等主流厂商也有一定的差异和优缺点。因此,该部分的背景能力需要是异构的。编织云基于腾云复杂的网络运营和维护经验。目前,它是支持CISCO,华为和Juniper的不同流程。

网络设备

对于网络设备的监控,通常从设备性能,质量和状态的维度开始。对于每个网络设备,操作和维护的学生通常会注意以下场景:

监视和报警网络设备Syslog(设备运行日志)的运行状态

监视和报警设备堆叠状态(例如,交换机堆叠)

监控和警告网络设备上的每个物理端口,流量,数据包大小,错误数据包和端口状态。

网络设备上逻辑端口(物理端口组合)的性能和状态

……………

等待高频场景。

对于网络设备的系统日志告警,不同的供应商,设备类型和设备型号日志标准也不统一。因此,对于网络设备系统日志监控报警,首先是对多个网络设备进行逻辑分组,以方便组内的设备可以响应相同的告警关键字,并且该分组粒度推荐更精细,从而保证了网络设备的有效性和独立性。报警关键字。根据多年的运营和维护经验,建议syslog报警分组模型由四个维度组成:供应商+类型+型号+使用,如CISCO +交换机+ EX43000-24T +内部网接入层交换机,设备描述如下:这个公式逻辑分组。

服务器

服务器的监控也从状态,性能和容量的维度开始。虽然SNMP也可用于服务器监控,但报告指标和数据的代理要便宜得多。服务器的状态监控主要包括服务器是否被ping,代理是否报告超时和电源运行状态等。对于两种类型的性能和容量,它主要依赖于当前OS的数据捕获。一般来说,对于服务器监控,在一般情况下,主要关注的是cpu,内存,流量和数据包大小四个指标,但其他指标。也建议尽可能多地捕获。丰富单个被监视对象的数据具有以下好处。

避免对象监控的盲点

不同的监控数据点可以部分地对应于服务器承载的服务特征指示符。例如,存储类型服务还关注系统指标,如disk_total_read,svctm_time_max,await_time_max等。

生成的数据足够丰富,可以生成更丰富的消费和维护数据消费方案。

服务器监视是一种相对标准的监视模型,它具有物理服务器和虚拟机的通用指示器。该部分主要收集数据丰富和报告的准确性(算法准确)。

后续文章主题预览

数据库CMDB的构建

构建不同形式的公共云组件的通用监控模型

总结

IAAS层的监视可以分为独立的资源对象,以便从IAAS层的维度进行分类和监视。对于每种类型的物体,它可以与状态,性能,容量和质量的维度分开描述。数据被整合到统一的开发和运营视角中。监控和报警产品的建设是一个长期和长期的过程,有很多坑。有许多因素需要考虑,技术后端功能只是其中的一小部分。例如,在DevOps的文化中,有必要从更高层次(开发视角和操作和维护角度)统一视角,以避免监控(“监控”和“操作和维护的调整”。还需要更多的考虑因素。监视产品使用的双状态(用户模式和系统状态)以及不同权限(行业属性)的分类方式。