拥有10年从业经验,先后就职于 Oracle、人人网、Google、LinkedIn,体验过从传统软件行业到互联网行业的转变,也历经了从国内到硅谷的工作生活变迁。
曾任人人网高级架构师、技术委员会主席,负责基础架构部门,主导搭建了人人网大数据平台。
2015年加入 LinkedIn Data Infrastructure 部门,参与开发分布式 key-value 数据库 Voldemort。
现负责构建 LinkedIn 新一代 deserved data platform,整合了从批量计算和实时计算获取的多种数据源,并通过跨大洲的多机房备份,为上层系统提供全球范围内可靠的高性能的数据服务。
大数据框架从提起到流行不足20年,期间产生耳熟能详的 Hadoop、Spark 和 Storm 等框架。
如何利用大数据框架实现数据挖掘、预测分析、语义引擎和数据质量管理等功能?
如何选择并落地合适的大数据框架?让我们从不同的企业应用中探讨各种大数据框架的应用背景、实践以及教训。
Event processing is a race against time: a race where seconds or even milliseconds provide greater relevancy and accuracy of the results than hours or days.
To lead this race, we've been running 400+ Samza applications reliably in production over the past 5 years at LinkedIn, processing over 1 trillion events each day. So, what's the secret ingredients behind it?
In this talk we will inspect some of them:
a) a fluent API that allows the user to focus on the processing logic without worrying about the execution details;
b) versatile deployment models that allows us to run Samza applications in Yarn cluster, as well as clusters like AWS'EC2;
c) durable local state that can scale large stateful applications with ease;
d) asynchronous processing that enables remote data I/O to match the throughput of event consumption.
Finally, we will also explore patterns that allow us to run the same application in both nearline and offline.
参考翻译:
事件处理是场争分夺秒的比赛,需要在秒级甚至毫秒级内提供更好的关联性和精确性。
为了赢得这场比赛,在过去领英5年的生产环境中,我们已经稳定地运行了400+Samza 应用程序,每天处理超过万亿事件,在这一切背后,领英拥有怎样的秘籍呢?
在这次分享中,我们将观察 Samza 的以下特性:
a)一个流处理API,允许用户专注于处理逻辑,而不用担心执行细节;
b)灵活的部署模式,我们能够在Yarn集群或AWS'EC2集群中运行Samza应用;
c)在本地持久化中间状态,从而轻松应对大规模的有状态应用的扩展
d)支持异步处理,因此能够允许远程数据I/O支持整个事件消费产生的吞吐量。
e)最后,我们还会探索Samza作为一个平台如何兼容流处理和批处理两种模式。
网易历经了20年的发展,各业务线沉淀了丰富的数据。大数据平台在满足各业务线数据存储、计算的任务,同时承担着整合集团数据,为客户提供全方位的大数据服务。
在满足业务需求的过程中,对 Hadoop 各组件进行了定制优化(如分时调度,权限控制,元数据管理,Spark 多租户,Spark 高可用,流计算相关)。
同时,围绕大数据底层技术平台也孵化出了猛犸大数据开发平台,网易有数敏捷数据分析平台等产品。本次演讲重点介绍网易基于 Flink 研发的流计算服务化平台,以 SQL 为主要开发方式,支持 DDL,支持丰富的 DML,如 Stream join, Window,支持 UDF,提供丰富的 connector。为网易各业务线提供一站式的流计算解决方案。
a.网易数据平台架构
b.数据平台如何去支持各种产品线
c.Netease Hadoop 创新与改进
a.什么是增量计算
b.增量计算与流计算的关系
c.为什么需要使用增量计算的方式去处理流计算
d.Sloth 是如何 build 增量计算模型
a.业务背景
b.Sloth 整体架构
c.Streaming SQL 上是创新
a.统一计算模型,Apache Beam
b.离线在线混部
c.新硬件的应用,FPGA,GPU
d.TensorFlow on Hadoop
Airbnb 目前的大数据平台支撑了整个公司对数据收集和处理的需求,我们需要应对每天100亿条新增日志信息,350TB 新增数据,来自公司所有部门的10多万次大数据分析查询,而且还在快速增长中。
本演讲从数据处理需求、性能、系统容错以及服务等级协议(SLA)等各方面入手,重点讲解我们遇到的挑战和随之而生的平台解决方案,介绍我们研发的 ReAir 跨机群同步服务,AirStream 流处理平台以及实时数据注入和查询平台等。
a. 规模
b. 存在的问题
a. 数据流水线批处理
b. 即席(ad-hoc)查询
a. 多机群架构 (Gold/Silver)
b. 低延时跨机群数据同步 - ReAir
c. 采用 Spark Streaming/HBase 的 AirStream 流数据处理平台
d. 实时数据注入(data ingestion)
e. 实现 Presto/HBase connector 进行实时数据查询
f. HDFS + S3 混合存储架构
a. 加速 S3 元数据访问
b. 联合集群 (Federated Clusters)
美团点评两家公司合并以来,经历了组织架构融合、线上业务融合、数据与基础设施融合的三个大阶段。
本次分享主要介绍第三阶段,美团点评整个数据平台融合的项目推进经验,以及相关技术突破,期望能对于有大的数据平台技术产品重构或底层技术架构调整需求的架构师进行参考。
平台项目分为三个阶段:
融合之前,我们有异地双机房共4k节点,涉及万级别任务迁移与自动改写,整个融合过程持续提供数据生产与应用服务,要求对业务透明。
本次分享除了对于项目整体计划与实施的讨论,也会会涵盖 Hadoop 集群认证打通、Hadoop 多机房架构改造、大面积 SQL 任务重构的自动化方法等核心技术点的详细架构介绍。
其中,Hadoop 集群认证打通我们使用 Kerberos 跨域认证方案,Hadoop 多机房方案我们通过新增 Zone Tunnel 模块,操作 HDFS 文件块的分布,做到了集群的平滑迁移。
在 SQL 任务自动重构的场景下, 我们自研了一个 Hive 表映射的方案,使得任务的修改可以并行化,无需双写,也无需分层迁移,大大的提高了重构效率。