用户您好!请先登录!

分类目录系统监控

Dapper,大规模分布式系统的跟踪系统

概述

当代的互联网的服务,通常都是用复杂的、大规模分布式集群来实现的。互联网应用构建在不同的软件模块集上,这些软件模块,有可能是由不同的团队开发、可能使用不同的编程语言来实现、有可能布在了几千台服务器,横跨多个不同的数据中心。因此,就需要一些可以帮助理解系统行为、用于分析性能问题的工具。

Dapper–Google生产环境下的分布式跟踪系统,应运而生。那么我们就来介绍一个大规模集群的跟踪系统,它是如何满足一个低损耗、应用透明的、大范围部署这三个需求的。当然Dapper设计之初,参考了一些其他分布式系统的理念,尤其是Magpie和X-Trace,但是我们之所以能成功应用在生产环境上,还需要一些画龙点睛之笔,例如采样率的使用以及把代码植入限制在一小部分公共库的改造上。

阅读更多

如何应对随机杀死服务的“猴子”

Chaos Monkey:系统中的猴子

只要你有过在生产环境中实际运行过分布式系统的经历,你就应该清楚,各种不可预期的突发事件一定会发生。分布式系统天生包含大量的交互、依赖点,可以出错的地方数不胜数。硬盘故障、网络不通、流量激增压垮某些组件,我们可以一直列举下去。这都是每天要面临的常事儿,处理不好就会导致业务停滞,性能低下,或者是其他各种无法预期的异常行为。

在复杂的分布式系统中,人力并不能够阻止这些故障的发生,我们应该致力于在这些异常行为被触发之前,尽可能多地识别出会导致这些异常的,在系统中脆弱的,易出故障的环节。当我们识别出这些风险,我们就可以有针对性地进行加固,防范,从而避免故障发生时所带来的严重后果。我们能够在不断打造更具弹性(弹性:系统应对故障、从故障中恢复的能力)系统的同时,树立运行高可用分布式系统的信心。

阅读更多

业务监控平台(CAT)那点事

纵观我们部署在基础设施当中并始终保持运作的全部测量机制,监控系统无疑是重要性最高的机制之一,建立一套坚实的监控系统来针对可能发生的灾难加以警示,我们就有机会迅速启动灾难响应方案或者着手排除复杂的性能故障,这对于任何规模的企业而言都极具巨大的实际价值。

纵观国内,我们常使用的监测技术平台包括开源与商用运维两类(国外商用运维软件太贵,就不考虑了)

一、开源工具介绍

  • Zabbix
  • Nagios
  • Ganglia
  • Grafana
  • Zenoss
  • Open-falcon
  • Cacti
  • 天兔开源监控(只适用于mysql、redis、oracle)

二、商用运维监控系统篇

  • 监控宝
  • 听云
  • 360网站服务监控
  • 阿里云监控
  • 百度云观测

这里不是讨论这些开源工具或者平台如何如何,这不是重点,这些都是非常成熟化的产品,更重要的是公司发展到一定程度之后,不但对IT运维提出更强需求,越来越多的是对业务监控的需求,以前了解过一些CAT,但很遗憾没有在公司推行起来,整理一下相关资料,也算是对这件事情有个交待。

阅读更多