近10年研发和运维经验,期间非常有幸见证和参与了几个电信级和互联网产品从无到有的创造,从微量到海量的成长过程。
个人也随着产品的发展壮大,经历了多轮炼狱般的磨练和蜕变,积累了非常丰富的电信级和互联网业务研发和运维经验。
现在负责美丽联合集团(原蘑菇街、美丽说和淘世界)运维团队的管理以及运维体系建设工作,专注于运维创造价值,以及云计算时代运维的转型和突破。
在云计算遍及业界的趋势下,以及 DevOps 和 SRE 等先进运维理念的强势助推,运维已然成为驱动各大公司研发运维流程和理念变革的关键角色,如持续集成和发布、场景化的运维自动化、智能监控等理念的落地执行。
同时,运维所从事的工作角色定位也在悄然地发生着变化,从原来的末端被动响应,逐步转向技术产品、技术运营和平台建设者的角色。
我们很欣喜地看到,运维已经慢慢承担起了稳定性保障、流程效率改进、性能优化、用户体验提升以及成本控制等关键职责,但更高的要求必然带来新的挑战和机遇,我们将如何应对?
本专题将会邀请一线运维专家,在基于容器的持续集成和发布、智能监控和故障自愈、成本和性能优化几个方向上,分享他们的实践和思考,看看专家们在技术高速发展的趋势下,是如何应对这些新的挑战的。
从2011年到2014年,小米经历了快速成长,随着机器数量增加,IDC 环境越来越复杂,原有的监控系统已经无法满足需求,我们因此设计小米监控,追求易用、高可用,力求全程自动化。
小米每天都有百余台服务器交付或下线,上千次的业务变更,如果这些都靠 SRE 进行人工维护,将会消耗大量人力,管理效率低下的同时也容易出现遗漏、配错等问题。
本次分享将向大家介绍,小米监控系统是如何融入自动化体系,与各个系统协作,在业务运维的全生命周期中进行全自动管理。
腾讯社交业务规模庞大,历史悠久,架构复杂。从运维的全局角度来看,无论从运维技术还是监控难度都很大。
传统的监控手段和思想已经无法应对如此海量的场景,腾讯社交网络运营部历经十年的建设,在运维监控领域经过了多个建设阶段。
近几年通过创新的方法引入了多种技术手段并实践落地,将监控技术带入一个新的运维高度,本次将主要分享四个创新技术点。
携程从2016年开始开发容器云,并且在生产环境上线了基于容器的持续交付系统。容器的带来的标准化,轻量隔离,为应用的快速交付提供了可能,但是也对原有的运维体系带来了挑战。
在容器云的落地过程中,我们引入了新的日志,监控方式,并且通过 StackStorm,chatbot 的方式让 DevOps 的理念很好的落地。
阿里的电商业务系统基于微服务框架构建,其变更频繁,业务变化快,系统依赖关系错综复杂。基于全链路的稳定性保障、容量规划、性能优化、压测演练、业务故障排查定位等运维手段也逐步系统化、常态化。
从2010年的第一代“鹰眼”系统诞生以来,阿里的全链路监控系统不断升级、演进与创新,为 DevOps 和 SRE 在阿里的实际落地提供了行之有效的数字化支撑。
最新一代的阿里全链路监控系统鹰眼3.0,同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,鹰眼3.0日均处理万亿级别的分布式调用链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。