用户您好!请先登录!

分类目录系统监控

如何应对随机杀死服务的“猴子”

Chaos Monkey:系统中的猴子

只要你有过在生产环境中实际运行过分布式系统的经历,你就应该清楚,各种不可预期的突发事件一定会发生。分布式系统天生包含大量的交互、依赖点,可以出错的地方数不胜数。硬盘故障、网络不通、流量激增压垮某些组件,我们可以一直列举下去。这都是每天要面临的常事儿,处理不好就会导致业务停滞,性能低下,或者是其他各种无法预期的异常行为。

在复杂的分布式系统中,人力并不能够阻止这些故障的发生,我们应该致力于在这些异常行为被触发之前,尽可能多地识别出会导致这些异常的,在系统中脆弱的,易出故障的环节。当我们识别出这些风险,我们就可以有针对性地进行加固,防范,从而避免故障发生时所带来的严重后果。我们能够在不断打造更具弹性(弹性:系统应对故障、从故障中恢复的能力)系统的同时,树立运行高可用分布式系统的信心。

阅读更多

业务监控平台(CAT)那点事

纵观我们部署在基础设施当中并始终保持运作的全部测量机制,监控系统无疑是重要性最高的机制之一,建立一套坚实的监控系统来针对可能发生的灾难加以警示,我们就有机会迅速启动灾难响应方案或者着手排除复杂的性能故障,这对于任何规模的企业而言都极具巨大的实际价值。

纵观国内,我们常使用的监测技术平台包括开源与商用运维两类(国外商用运维软件太贵,就不考虑了)

一、开源工具介绍

  • Zabbix
  • Nagios
  • Ganglia
  • Grafana
  • Zenoss
  • Open-falcon
  • Cacti
  • 天兔开源监控(只适用于mysql、redis、oracle)

二、商用运维监控系统篇

  • 监控宝
  • 听云
  • 360网站服务监控
  • 阿里云监控
  • 百度云观测

这里不是讨论这些开源工具或者平台如何如何,这不是重点,这些都是非常成熟化的产品,更重要的是公司发展到一定程度之后,不但对IT运维提出更强需求,越来越多的是对业务监控的需求,以前了解过一些CAT,但很遗憾没有在公司推行起来,整理一下相关资料,也算是对这件事情有个交待。

阅读更多