数据平台的全链路实践

745次阅读
没有评论

数据平台的全链路实践

数据平台的全链路实践现代数据栈是指组成云原生数据平台的一组技术,通常用于降低运行传统数据平台的复杂性,组件通常包括云数据仓库、数据集成服务、ELT 数据转换工具、BI 层和反向 ETL 工具。现代数据栈在海外方兴未艾,尤其是在美国,有很多创业公司和投资机构在这个领域布局。国内也有一些企业开始尝试使用现代数据栈,但还存在一些差距和挑战,比如云上数据安全合规、云成本控制、云上数据治理等。其应用挑战或门槛主要在于技术选型和集成的难度,以及应对数据分析的速度、质量和价值等方面的更高要求。在未来,现代数据栈将向着多模数据支持、模块化、协作优化、智能化等方向演进。

为推动国内现代数据栈技术普及与发展,DataFun将于10月28日9:00-17:00举办DataFunSummit2023:现代数据栈技术峰会,设立海量数据采集与集成论坛、数据仓库论坛、数据治理与资产管理论坛、大规模数据查询与分析论坛、DataOps 论坛、BI 智能分析论坛,欢迎广大从业者参与交流。数据平台的全链路实践扫码免费报名观看数据平台的全链路实践

峰会专家团(按字母排序 ):

郭炜 Apache Member

个人介绍:Apache 基金会成员, Apache 孵化器导师,ClickHouse 华人社区创始人, Apache Dolphin Scheduler PMC, Apache SeaTunnel 导师。郭炜先生毕业于北京大学,现任中国通信学会开源技术委员会委员,中国计算协会开源发展委员会委员,TGO鲲鹏会北京分会会长。郭炜先生曾任易观CTO,联想研究院大数据总监,万达电商数据部总经理,先后在中金、IBM、Teradata任大数据方重要职位,对大数据前沿研究做出卓越贡献。同时郭先生参与多个技术社区工作,Presto, Alluxio,Hbase等,是国内开源社区领军人物。

李潇 Databricks 工程总监、Apache Spark Committer & PMC

个人介绍:李潇,Databricks 工程总监、Apache Spark Committer 和 PMC 成员。他领导和管理七个团队,负责开发 Apache Spark、Databricks Runtime 和 DB SQL。他的主要兴趣是数据湖仓、数据复制和数据集成。此前,他是 IBM Master Inventor 荣誉的获得者,也是数据库异步复制和一致性验证方面的专家。他于 2011 年在佛罗里达大学获得博士学位。

王宇飞 字节跳动 开发套件研发负责人

个人介绍:曾任职于阿里巴巴,在大数据领域有10年的研发经验,包括大数据基础架构,数据平台产品等,目前专注于数据中台相关领域与商业化能力的探索与实践。

阎志涛 快用云科 联合创始人

个人介绍:毕业于北京大学,北京快用云科技术有限公司联合创始人。大数据独角兽企业 TalkingData 早期创始团队成员,历任研发副总裁、CTO 等职位。在 TalkingData 之前,在 IBM,Oracle 等国际知名企业担任资深架构师等资深技术职位。数据平台的全链路实践扫码免费报名观看直播

数据平台的全链路实践

大规模数据查询与分析论坛出品人:于帅 快手 资深大数据专家

个人介绍:快手资深大数据专家,11年大数据研发管理经验。在快手依次负责公司上市项目、电商基建数据团队、电商C端数据团队的搭建与管理,在数据的采建管用等方面有丰富经验。

崔振凯 快手 分析平台 开发工程师

个人介绍:快手分析平台开发工程师,在快手从事分析产品研发与性能优化工作,加入快手前从事数据服务化和大数据二次开发工作。在大数据和BI领域有较为丰富的开发和实践经验。

演讲题目:快手大数据分析场景性能优化实践

演讲提纲:本次分享介绍快手分析平台在大数据场景下查询性能面临的挑战与性能优化实践。

听众收益:

1. 了解快手分析平台的发展和架构

2. 分析产品在大数据场景下查询性能遇到的困难与挑战

3. 大数据分析性能优化实践经验

周渝豪 小米 大数据软件开发工程师

个人介绍:毕业于武汉科技大学,先后就职于深圳市同洲电子股份有限公司、武汉安天信息技术有限责任公司和小米科技(武汉)有限公司,此前主要负责基于 Hadoop 的大数据平台的开发和维护,主要是 Hive 和 Spark 相关的工作,目前在小米负责 OLAP 引擎 Trino 的开发和维护。

演讲题目:OLAP 引擎 Trino 在小米的实践

演讲提纲:主要介绍 OLAP 引擎 Trino 在小米的一些实践经验,Trino 在小米的发展历程,在整体架构上的定位,以及小米内部的一些主要工作,包括动态 Catalog 和 UDF 的加载、集群高可用性、Iceberg 数据湖查询性能优化、与 SparkSQL 兼容性问题的处理、集成测试的构建等等。

听众收益:

1. 如何让 Trino 变得更好用?

2. 如何处理 Trino 和 SparkSQL 的语法不兼容?

3. Trino on Iceberg 有哪些问题需要注意?

数据平台的全链路实践扫码免费报名观看直播

数据平台的全链路实践

 海量数据采集与集成论坛

出品人:乔超 字节跳动 DataSail & 数据集成负责人

个人介绍:10+大数据经验,任职于京东、阿里,多年百万亿级海量数据的数据采集和集成经验,目前致力于打造字节全域数据集成 DataSail 产品。

数据仓库论坛

出品人:罗亮 腾讯 PCG 数据专家

个人介绍:毕业于浙江大学。在互联网大数据领域有13年工作经验,先后就职于阿里巴巴和腾讯,是最早阿里onedata体系参与者与建立者。曾负责阿里本地生活数据研发团队,蚂蚁大数据部数字金融线(花呗,借呗,理财,保险,芝麻信用等)数据团队,腾讯 PCG 数据治理团队,有多年业务数据、业务数据中台、数据中台治理等经验,目前为腾讯数据专家。

邱盛昌 OPPO 互联网服务系统主管

个人介绍:十三年数据行业工作经历,曾就职于多家大型互联网公司,一直深耕数据体系建设领域,尤其擅长DW架构与维度模型的设计。目前就职于OPPO,先后负责广告业务、应用分发业务(软件商店、游戏)的数据内容建设及数据分析。

演讲题目:优雅的维度模型与多维分析设计实践

演讲提纲:一套抽象得极其通用、极致维度退化、指标口径统一的数据仓库模型;一张几百个字段、几千亿记录数、秒级出数据的报表,非常宽非常全非常多还非常快,这就是维度建模与多维分析设计的魅力。主要内容包括:

1. 维度模型设计的必要性

2. 极致分区表的数据仓库架构

3. 优雅的维度模型设计

4. 万能的多维分析模型与报表

听众收益:

1. 如何设计一个优雅的数据仓库架构?

2. 如何设计维度模型更通用更合理?

3. 如何建设多维分析体系以极大减少取数与报表需求?

马年圣 蚂蚁集团 实时数仓架构师,数据技术专家

个人介绍:马年圣,毕业于河海大学,先后就职于网易、阿里、蚂蚁等互联网公司,当前工作重心在实时数据研发和架构,负责蚂蚁集团广告、决策等领域实时数据。

演讲题目:金融级实时数仓建设实践

演讲提纲:实时数据在互联网公司中扮演的角色越来越重要,从最开始的实时数据大屏,发展到现在算法、工程级的应用数据,如何高效稳定的构建实时数仓来支撑业务的发展,是实时数据架构一直探索演进的命题,本次演讲将围绕如下几个模块来介绍本人在实时数仓领域的实践与思考。具体包括:

1. 蚂蚁实时数仓架构设计与落地

2. 实时数仓数据质量建设

3. 针对实时计算难题的多种解决方案(如关联类问题、长周期问题等)

4. 流批一体在实时数仓的应用

5. 数据湖落地展望

听众收益:

1. 实时数仓的架构和质量建设方案

2. 多种实时数据解决方案

3. 流批一体能力落地和实践案例数据平台的全链路实践扫码免费报名观看直播

数据平台的全链路实践


惠明 腾讯 在线视频数据科学部 Tech Leader

个人介绍:北京邮电大学硕士,先后在优酷,美团,腾讯有过10多年的数据仓库、治理和工具建设经验。

演讲题目:腾讯视频指标中台驱动湖仓一体建设实践

演讲提纲:

1. 腾讯视频数据业务介绍

2. 腾讯视频指标中台整体架构

3. 腾讯视频湖仓一体建设实践

4. 总结&规划

听众收益:

1. 指标中台的技术架构

2. StarRocks在指标服务的应用

3. 湖仓一体的技术实践

孟德斌 字节跳动 数据专家

个人介绍:美团、腾讯、字节10年+数据仓库经验,5年+业务数据团队管理经验,目前在字节负责业务安全数据仓库建设。

演讲题目:数据仓库工程的架构思维


数据治理与资产管理论坛

出品人:刘超 滴滴出行 专家工程师

个人介绍:刘超,硕士毕业于南京信息工程大学,一直从事数据领域相关工作。2018年加入滴滴。目前负责滴滴大数据治理的相关工作。通过持续地推动技术&产品能力建设,对滴滴大数据的数据引擎(hadoop、es、flink、olap等)&数据产品,进行全域治理。近期的工作重心为成本治理、安全治理两个方向。

王义忠 滴滴出行 资深软件开发工程师

个人介绍:四川大学计算机硕士毕业,先后加入百度、阿里、华为、滴滴等互联网公司,从事大数据相关工作,有丰富的大数据处理、大数据治理等经验。

演讲题目:滴滴大数据资产治理实践

演讲提纲:主要分享滴滴内部如何做数据资产治理,主要内容包括:

1. 滴滴数据资产治理体系介绍

2. Hadoop治理实践:治理项设计及推荐

3. Es治理实践

听众收益:

1. 针对Hadoop存储及计算治理如何设计治理项?

2. 滴滴内部如何做Es治理?

3. Hadoop健康分模型如何设计?

数据平台的全链路实践扫码免费报名观看直播

数据平台的全链路实践

 DataOps论坛

出品人:马欢 DAMA数据管理社区 主理人,全球数据要素50人论坛专家

个人介绍:《DAMA数据管理知识体系》《首席数据官管理手册》《DataOps实践手册》等数据领域畅销书的主译者,数据管理专家,CDMP。

BI智能分析论坛

出品人:赵灵宝 京东零售 数据工具产品负责人

个人介绍:目前专注于负责智能化数据工具产品方向,曾就职于百度、埃森哲、友邦,从事过互联网、金融、能源、生产制造、零售等多个行业IT规划、数据仓库、商业智能建设。数据平台的全链路实践扫码免费报名观看直播

数据平台的全链路实践

数据平台的全链路实践 点击关注,更多信息更新中

 

Read More 

正文完
可以使用微信扫码关注公众号(ID:xzluomor)
post-qrcode
 
评论(没有评论)
Generated by Feedzy