Apache Kylin是可扩展到PB规模的开源分布式大数据分析引擎,为Apache Hadoop等大型分布式数据平台之上的超大规模数据集提供标准SQL查询及多维分析(OLAP)能力,提供亚秒级的交互式分析能力。2014年11 月,Kylin加入Apache孵化器项目,经过不到一年的发展,于2015年11月顺利毕业成为Apache顶级项目之一。Apache Kylin是首个完全由中国团队设计开发,并贡献到Apache软件基金会(ASF)的顶级项目,开源一年左右的时间,已经在国内国际多个公司被采用作为大数据分析平台的关键组成部分,包括eBay、Expedia、Exponential、百度、京东、美团、明略数据、网易、中国移动、唯品会等。
本次Kyligence&Alluxio第二次联合主办线下活动。再次来到上海,主题围绕Apache Kylin和Alluxio的新特性,以及在云上的最佳实践来展开。
主办:
时间:2017年1月21日 13:00至17:30
地点:上海四行仓库创意园区
活动咨询:yun.xing@kyligence.io
合作伙伴(排名不分先后)
活动议程
(具体时间及安排请随时关注最新通知)
13:00 - 14:00 签到
14:00 - 14:40 Apache Kylin 2.x 新功能和重大改进介绍 (李扬,Kyligence)
14:40 - 15:20 使用开源分布式存储系统Alluxio来有效的分离计算与存储 (富羽鹏,Alluxio)
15:20 - 15:40 茶歇
15:40 - 16:20 Strikingly基于AWS的Kylin调度系统的设计 (张晨,Strikingly-上线了)
16:20 - 17:00 Alluxio -- 分布式系统的统一入口(郭业俊,苏宁云商)
17:00 - 17:30 会后交流合影
演讲内容及嘉宾介绍
主题一:Apache Kylin 2.x 新功能和重大改进介绍
李扬:Kyligengce联合创始人兼CTO,Apache Kylin 联合创建者及项目管理委员会成员(PMC), 主创团队架构师和技术负责人,专注于大数据分析,并行计算,数据索引,关系数学,近似算法,压缩算法等前沿技术。曾任eBay全球分析基础架构部大数据资深架构师、IBM InfoSphere BigInsights的技术负责人,负责Hadoop开源产品架构,“杰出技术贡献奖”的获奖者、摩根士丹利副总裁,负责全球监管报表基础架构。
主题摘要:在2017年,Apache Kylin连续发布了2.0,2.1和2.2,最新2.3也即将发布。本议题讲围绕新功能和一些重大改进进行分享,例如查询Push down,新的ACL控制,RDBMS做数据源,分布式构建字典, Spark cubing的改进等。
主题二:使用开源分布式存储系统Alluxio来有效的分离计算与存储
富羽鹏:Alluxio公司的创始成员与资深架构师,Alluxio开源项目的PMC成员。先后在Google、Palantir等公司工作,专注数据库与存储平台的搭建。本科与硕士毕业于清华大学,并在美国加州大学圣地亚哥分校进行数据库领域的博士研究。目前负责Alluxio项目的核心模块与整体架构。
主题摘要:本议题首先将整体介绍开源分布式存储系统Alluxio,以及其在大数据生态系统中的位置与设计理念。之后将介绍存储与计算分离这样一个大数据领域新的架构趋势,并从系统搭建、数据本地化、云部署等多方面分析Alluxio在这个架构上的优势,以及如何使用Alluxio搭建一个高效灵活的去耦大数据平台。最后,将讲解Alluxio的内部架构并分享在构建Alluxio过程中的关于分布式系统设计与实现的心得与思考。
主题三:Strikingly基于AWS的Kylin调度系统的设计
张晨:Strikingly 数据平台工程师,算法、分布式系统、函数式编程爱好者,Shanghai Linux User Group co-Op,上海交大学生技术社团 SJTUG 创始人。
演讲摘要:Strikingly是一家为用户提供建站服务的初创企业,目前的数据平台主要处理的是用户所建立网站的访问者信息统计。这套系统使用 Keen IO 收集访问者信息,使用 Kylin、Hadoop、Hive 等技术处理海量数据,整套系统都部署在 AWS 上, 深度使用了 EC2、ECS、ELB、EMR 等 AWS 服务。本议题将介绍为 Kylin 数据处理平台全新设计的集中式任务调度系统,从而满足数据平台调度器定制化、 自动化和健壮性的需求
主题四:Alluxio -- 分布式系统的统一入口
郭业俊:苏宁云商大数据存储工程师;4年的大数据Hadoop Ecosystem优化和开发经历;现在专注于HDFS的优化和开发,Alluxio的开发和应用
主题摘要:随着线上业务和集群的发展,HDFS的NameNode变成了HDFS集群的性能瓶颈,不利于集群的横向扩展。
社区的Federation + viewFs的方案解决了HDFS的横向扩展问题,但是此方案的配置是在Client端实现的,不利于大规模集群的运维和管理。利用Alluxio作多HDFS集群的统一入口,运维管理方便,同时提供分布式缓存能力。
更多关于Apache Kylin的信息,
请访问网站:http://kylin.apache.org及关注微信公众号
Kyligence Inc.联合创始人兼CTO
Alluxio公司的创始成员与资深架构师
Strikingly 数据平台工程师
时间:01-21 14:00 - 17:00
地点:(上海黄浦)上海黄浦区光复路195号2楼