2011 年加入百度,早期从事 Spider 系统架构相关研发,期间主持了百度第三代 Spider 系统的设计与实现。
当前主要研究方向为大规模分布式系统,是百度海量数据库 Tera、百度文件系统 BFS 和集群操作系统 Galaxy 的主要作者。
热衷开源,先后推动了百度多个重量级系统对外开源。
无论是计算系统、存储系统,都离不开分布式架构设计。
分布式系统是现代应用的标准形式,也是互联网架构的设计核心难点,复杂企业业务和海量数据等因素会让架构设计更加困难。
我们将探讨互联网应用中的分布式架构设计理念,看各位技术专家在设计大规模分布式系统上有何心得。
极致的可用性是所有分布式存储系统追求,业界从传统的主从复制,到现代的 Multi-Paxos / Raft 等基于分布式选举算法的日志复制状态机算法,而单一的 Raft 或者 Muti-Paxos 这些算法并没有描述如何在一个可弹性伸缩的存储系统上实现,这在全球范围内都是工业界和学术界的一个前沿的研究领域。
在 TiKV 这个依赖 Multi-Raft 的新一代的 KV 系统中,如何处理多 Raft 组间的动态分裂和合并,做到可用性,扩展性和高性能的平衡,在这些方面我们积累很多第一手的宝贵经验,本次演讲会分享给大家。
Pegasus 是一个小米云存储团队自主研发的分布式 K-V 存储系统,为小米内部的离线和在线业务提供了高可用、高性能、强一致的服务。我们采用了经典的中心化式的设计架构,并结合互联网业务的数据特点,使用了基于 hash 的 key schema;在实现语言上,我们使用 C++ 来做性能上的保障。现在 Pegasus 已经在公司内部对广告、视频等业务做了稳定的支撑,代码也已经全部开源。
本次分享从 Pegasus 实现的角度的出发,分享了我们在构建强一致的分布式存储系统上的经验总结。
演讲会首先介绍 Pegasus 的整体架构,以及我们在选型上的思考总结。然后我们还会介绍 Pegasus 背后的分布式框架 rDSN: 包括它的 IO 模型、RPC 框架,以及这些组件在分布式系统支持上的一些特点。我们也会着重介绍我们的 Deterministic 测试技术,以及它对我们一致性协议正确性上的帮助。另外,我们还会分享自己在项目开发上一些经验教训的总结。
本次演讲将主要分享从2006开始,腾讯内部从无存储平台到存储量达 EB 级别的 TFS2.0 存储平台这一过程中所经历的技术问题。
在社交图片和视频盛行的时代,存储系统的设计和运营如何进行适配,揭秘微信 C2C 图片和视频如何提升体验、降低成本,以及在云时代腾讯是如何开放内部的存储技术的。
电子客票系统作为特殊的服务与传统电商最大不同之处在于,它对数据一致性、可靠性及实时响应要求很高。本次分享将从国际机票入手介绍电子客票系统在数据对接、搜索、预定到下单等全链路过程中,如何在数据实时强一致性和可用性的权衡中取得平衡;