LOADING

Follow me

DCOS之监控简介(一)
七月 2, 2016|DCOS

DCOS之监控简介(一)

DCOS之监控简介(一)

第一章 现状与需求分析

一. 业务现状

    1.1. 业务背景

随着DCOS系统的逐渐成熟,DCOS系统平台上线业务逐渐增多,依靠过去人工巡检系统的方式发现系统故障、潜在风险及安全隐患的方式效率越来越低下且运维人员的工作强度及压力也在不断增加,为了提高发现系统故障的及时性、系统维护的专业性、规范化、科学性同时也能把运维人员从重复的工作中解放出来去做更多有意义的事情,因此我们亟需引入平台级的监控手段、工具来协助运维工程师解决当前的问题。

建设以应用监控为核心,集成集群监控、主机监控、弹性告警等功能的企业级监控系统,在DCOS系统中采用统一技术手段实现应用的智能运行管理。

    1.2. 主要建设目标与任务

为保证自有软件平台运行稳定性,对DCOS系统平台进行自动化监控,合理设置监控粒度及监控对象。尽可能的把潜在问题在萌芽状态解决及消除隐患,以此提高DCOS系统的安全性与稳定性。

监控模块的最终目标如下所示:

  1. 及时发现潜在的问题化被动为主动维护;
  2. 为平台性能优化提供直观参考依据;
  3. 提高系统维护的专业性和规范性;
  4. 提高用户体验,降低服务宕机时间。

 

二. 需求分析

    2.1. 监控需求

      2.1.1. 平台监控告警

①、集群监控指标

集群内部组件的信息采集,下面只是事例,不局限于此:

haproxy,采集Haproxy基础状态信息,比如qcur、scur、rate等

nginx,采集nginx正常请求、异常请求、异常请求比例、请求平均响应时间、upstream请求次数、平均响应时间等

单台物理机的监控信息目前所需如下:

CPU user 使用率、system使用率、空闲率、总量
Mem 总量、使用率
Swap 总量、使用率
Disk 总量、使用率、IO 读写的数、量与时间
Network 网卡进出流量、进出包数、进出错包数、丢弃包数
主机进程/以及进程之间的关系拓扑 CPU、Mem、耗时、状态、用户等数据
FileSystem 总量、使用率等

容器监控目前所需监控信息如下:

CPU user 使用率、system使用率、空闲率、总量
Mem 总量、使用率
Disk 总量、使用率、IO 读写的数、量与时间
Network 网卡进出流量、进出包数、进出错包数、丢弃包数
进程(容器内一般都为单进程) CPU、Mem、耗时、状态、用户等数据

②、集群数据聚合

单台机器的监控指标难以反应整个集群的情况,我们需要把整个集群的机器(体现为某个HostGroup下的机器)综合起来看。比如所有机器的qps加和才是整个集群的qps,所有机器的request_fail数量 ÷ 所有机器的request_total数量=整个集群的请求失败率。

同样,单容器无法反应整个应用的情况,需要将应用所属的所有容器综合分析。

③、集群监控配置

集群配置 和 策略配置

监控集群的节点可操作,监控策略可配置

④、监控性能

能够支持的监控集群大小以及采集间隔

⑤、平台级告警

告警触发条件可配、告警触发事件可配、提供告警级别设置、告警提示方式(邮件、短信等、最好有接口)等

    应用监控告警

以下所述为web应用实例,但应用监控不仅限于此:

  • 应用拓扑
  • 应用健康度

根据应用平均负载,应用平均访问延时,告警数量等指标进行综合评分后,计算出来的反映应用健康程度的分值。

  • 用户访问平均延时

用户访问平均时延。

  • 数据库概况

总占用空间:目前存储数据已使用的空间。

总查询数:包括增,删,改,查的总访问量。

慢查询数 :导致慢查询的访问量。

eplace请求量 :replace请求的数量。

insert请求量 :insert请求的数量。

delete请求量 :delete请求的数量。

select请求量 :select请求的数量。

update请求量 :update请求的数量。

当前连接数 :当前连接到该mysql实例的连接数。

连接使用率 :已建立的连接数占最大连接数的百分比,不同类型的实例的最大连接数不同

5、缓存概况

表空间 : 分配给当前业务的总空间
已使用空间 : 当前业务实际使用的空间
总记录数 : 当前应用存储的记录条数,key-value对数
GET次数 : 按5分钟查询时表示最近5分钟内的读访问量。按天查询时取当天的峰值(次/秒)
SET次数 : 按5分钟查询时表示最近5分钟内的写访问量。按天查询时取当天的峰值(次/秒)
DELETE次数 : 按5分钟查询时表示最近5分钟内的写访问量。按天查询时取当天的峰值(次/秒)
总次数 : 按5分钟查询时表示最近5分钟内的GET/SET/DELETE访问量。按天查询时取当天的峰值(次/秒)
超时次数 : 按5分钟查询时表示最近5分钟内的GET/SET/DELETE超时次数。按天查询时取当天的峰值(次/秒)

6、流量监控

提供实时流量以及近期流量查询、展示功能

7、用户体验监控

访问量、时延与页面停留时长等

 

2.2. 需求综合分析

2.2.1. 需求边界的界定

需求边界的界定主要是以上任务目标中的模块的范围内,但不限于网络通讯、网络设置、服务器安置、客户端访问地点、客户个性化使用习惯等。

项目需求的边界的界定,其主要功能范围有以下内容:

1、 监控数据的采集与发送,确保及时性与准确性

2、 监控数据的分析以及更新相关数据模型为其他模块提供数据信息

3、 可以进行历史数据的查询与维护工作

4、 人机界面的友好操作

5、 提供RestApi访问接口,便于客户端访问

6、 可以为其他系统提供实时数据、事项数据、历史数据等各类查询操作接口

7、 保证系统的健壮性与可靠性

8、 告警参数的可配置

9、 数据的备份与恢复

qrcode_for_gh_f74128c040ae_430(1)

no comments
Share

发表评论