8年金融+电商+中间件工作经验,目前就职于阿里巴巴中间件技术部,整体负责中间件的监控与数据化运营工作,同时为阿里商品、菜鸟、安全、国际站等多个业务部门提供了完整监控方案。
参与了阿里近五年来监控体系的建设及演进。阿里云“业务实时监控(ARMS)”技术负责人。
兴趣是业务架构、分布式计算与数据存储技术。
阿里的电商业务系统基于微服务框架构建,其变更频繁,业务变化快,系统依赖关系错综复杂。基于全链路的稳定性保障、容量规划、性能优化、压测演练、业务故障排查定位等运维手段也逐步系统化、常态化。
从2010年的第一代“鹰眼”系统诞生以来,阿里的全链路监控系统不断升级、演进与创新,为 DevOps 和 SRE 在阿里的实际落地提供了行之有效的数字化支撑。
最新一代的阿里全链路监控系统鹰眼3.0,同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,鹰眼3.0日均处理万亿级别的分布式调用链数据,针对海量实时监控的痛点,对底层的流计算、多维时序指标与事件存储体系等进行了大量优化,同时引入了时序检测、根因分析、业务链路特征等技术,将问题发现与定位由被动转为主动。