首页下载资源服务器应用云计算IT基础设施与自动化运维—美团应用监控与分析实战—洪 丹

PDF云计算IT基础设施与自动化运维—美团应用监控与分析实战—洪 丹

happytofly4.49MB需要积分:1
文件:云计算IT基础设施与自动化运维—美团应用监控与分析实战—洪 丹 .pdf
云计算IT基础设施与自动化运维—美团应用监控与分析实战—洪 丹图片

资源介绍:

美团网作为国内领先的在线服务平台,在经历高速的业务增长和频繁的产品更新及新业务涌现时,面临了许多运维挑战。洪丹作为美团网的高级技术专家及SRE团队负责人,分享了在这样的背景下,美团如何构建和实践其应用监控理念。 美团面临的运维挑战主要包括: 1. 业务高速持续增长,产品更新周期短,新业务不断涌现,这对监控系统的要求越来越高。 2. 美团使用的开源组件繁多,业务架构变得越来越复杂。 3. 对资源和成本需要精细控制,尤其是在云计算资源的分配和成本管理方面。 为应对这些挑战,美团构建了完善的监控架构,涵盖了网络层面、系统层面、服务化层、NOSQL和SQL等多个层面。监控架构中的关键指标包括Hosts(主机)、Items(监控项)、Triggers(触发器)等,并且为了提升效率,他们消耗的资源数值控制在了相对低位,例如1W个Hosts、300万个监控项、23万个触发器。 美团应用监控理念可以概括为以下几点: 1. 全方位覆盖:监控应该覆盖所有业务层面,包括但不限于网络、系统、服务化、数据库等。 2. 数据全量保存:保留完整的监控数据历史,便于分析和回溯。 3. 精准的告警:告警需要基于真实现象而非仅仅基于原因,减少无谓的干扰。 4. dashboard全面聚焦:提供直观的仪表盘,便于快速定位问题和进行反馈分析。 5. 对业务形成有益反馈:监控数据用于优化业务流程和服务质量。 6. 结合业务架构的监控分析:分析依赖于业务架构的复杂拓扑关系,以便更好地理解和处理问题。 具体到监控实现,美团网的监控实践涉及以下方面: 1. 网络层面:监控IDC出口带宽和专线带宽,按IP或域名分解分析流量使用情况。 2. 系统层面:监控包括但不限于单机负载、CPU、内存、磁盘I/O、网络流量等指标,并与宿主机指标结合,如cpu_steal和nettraffic。 3. 应用层面:监控包括Nginx、JVM、日志等,以及逻辑层的HTTP服务、thrift服务、数据库连接池、消息队列等组件。 4. 数据库层面:对MySQL等SQL数据库和各种NOSQL数据库(如Redis、Memcache、Tair、HBase)进行性能监控,包括qps、响应时间、吞吐量、错误率等。 5. 服务化层:包括thrift服务、数据库连接池的监控。 6. 消息队列:监控Beanstalk、RabbitMQ、Kafka等消息队列的状态和性能。 7. 业务依赖关系的分析:通过拓扑分析服务间的依赖关系,比如基于TCP连接关系、thrift调用和http日志的拓扑。 在告警方面,美团的理念包括: 1. 告警原则:基于现象而非原因告警,并且避免对无需处理的事件发出告警。 2. 告警工具:使用告警订阅、合并、通道等多种工具来优化告警处理流程。 3. 告警分析:对告警的频次和趋势进行分析,致力于修复反复出现的问题,并精简告警数量。 4. 交叉事件分析:利用“时光机”等工具进行问题根源的深入分析。 在监控反馈方面,美团将监控数据用于触发服务降级策略和优化云主机分配: 1. 根据qps和失败率触发服务降级策略。 2. 根据VM资源占用率、业务特点(如CPU密集、IO密集、大流量)和资源竞争情况(如cpu_steal、traffic、diskio)优化云主机分配。 总结而言,美团的监控策略是在保证应用监控全面、快速、弹性的同时,注重反馈分析,使得监控能够高效稳定地服务于业务运营和维护。通过精细控制资源和成本,美团网能够在保障业务高速增长的同时,维护运维工作的高效性和稳定性。
100+评论
captcha