来自支付宝的运维监控经验
编辑:晓通宏志市场部
支付宝私有云中以业务为核心的监控经验:
支付宝,除了常规的运维监控和应用监控,还有更多其他的诉求,如业务监控、合作伙伴监控和SOA环境监控。
业务分析在支付宝的监控体系中起着至关重要的作用:
实时BI——有时不是为了排查故障,而是为了确认没有问题。
确定故障范围——不同的业务特征,代表了不同的故障影响范围;不同的影响范围,应急人员有不同的策略。
业务与合作伙伴——比如银行,单个银行下跌,可能是银行的问题;所有银行下跌,可能是支付宝的问题。
业务与应用的关系——通过监控不同的业务,可以快速定位故障。
业务与业务的关系——虽然没有系统间的直接关系,但业务之间确实有可能会存在相互的影响。
业务与运维策略的关系——例如,确定机房引流,流量的分配。
业务与管控策略的关系——管控策略有很多,比如分组、降级、限流和引流,管控策略的制定和业务是息息相关。
很多公司都会采用在系统中埋点的做法进行监控,而支付宝则采用了业务分析结合现象分析的做法来进行实时故障应急处理。埋点需要对所有服务器做埋点检查,而故障的原因是无穷的,往往可以从现象症状上来判断故障的原因。
此外,还有支付宝内部基于日志的监控解决方案。