Cloudera数据科学峰会—一场纯技术非商业的交流会视频回放

时间:2017年09月09日 09:30-17:00 主办方:
410 人观看 收藏
分享
扫一扫
大会议程
嘉宾介绍
资料下载

陆锋

Cloudera资深架构师

目前主要负责金融行业客户的大数据平台咨询,设计及实施的工作。拥有15年IT从业经验,13年年金融行业服务经验,8年企业级数据仓库及分析系统咨询和实施经验,5年大数据平台咨询和实施经验。长期从事大规模数据存储、处理和分析等相关工作,熟悉分布式系统开发及设计,精通大规模并行数据库(MPP)系统,精通Hadoop等开源大数据产品。在加入Cloudera公司之前,在Teradata,eBay,Tibco以及Microsoft公司担任大规模数据分析和处理相关的技术及管理职位。

张尧

英特尔机器学习和大数据软件工程师

也是基于Apache Spark之上的分布式深度学习库 – BigDL的主要贡献者之一: https://github.com/intel-analytics/bigdl 。牛津大学计算机科学硕士学位及荣誉学位,诺丁汉大学获学士学位及顶级奖学金。 擅长领域是java、Scala、Python、Torch、tensorflow,Haskell,MATLAB和 Spark

张星汉

瑞天欣实的创始人

20年金融行业服务经验,开源产品架构咨询服务专家,数据业务咨询专家。曾就职 ORACLE、REDHAT等跨国公司,拥有十多年的数据库、软件开发、咨询及项目管理经验。具有丰富的金融行业背景。精通ISO9000管理模式,参与并主导开发过建行/华夏/光大/银联及多家商业银行的中间业务系统和银行管理系统。在多家大型金融机构如中国人寿/中国人保/中国农业银行/中国银行/光大/华夏/民生/阳光财险有过商业服务及合作经历。拥有多年的数据/业务咨询经验,在咨询与交付管理过程中,善于解决客户业务痛点,并在其后的合作中实现多方共赢。

康祖令

博士,数据科学家

具备7年大数据项目实施经验,目前在 Cloudera担任解决方案架构师,主要负责大数据解决方案的设计、部署和实现,具备电信、金融、政府、制造业等多个行业多个客户的大数据项目实施经验。精通大数据平台架构设计与实施、实时流式数据处理、数据挖掘与机器学习、大数据应用开发与性能优化等。其实施的主要项目包括:飞贷网大数据系统架构设计与关键模块的实现,浙江移动千亿级 Storm 流计算平台的设计部署、优化、应用开发,浙江移动网管大数据平台的设计实现、基于运营商大数据的“模拟路测”系统的模型设计与开发等。

方育柯

数之联CTO

在计算机科学与大数据等交叉领域的有超过10年的工作经验,一直从事机器学习、集成学习和深度学习方向的技术研究和产业化,获得5项大数据应用相关的国家创新专利和软件著作权。曾担任华为大数据产品架构师,主导华为FusionInsight系列产品的研发,负责并参与金融、运营商、智能制造、政府等领域多个大数据挖掘项目的成功落地,具有丰富的大数据商业应用与工程实践经验。2015年和2016年,分别获得成都和四川人才计划顶尖创新创业团队,现任数之联CTO,负责公司战略核心产品以及重点行业大数据解决方案规划和研发。

金耀辉

上海交大国家重点实验室教授

上海交通大学光纤通信国家重点实验室教授, 感知城市数据科学研究院执行院长,网络信息中心副主任

2000年在上海交通大学获得博士学位,他曾在贝尔实验室基础科学研究院(中国)任高级研究员,后在美国总部任职,2002年被引进到上海交通大学,并破格晋升为教授。他的研究兴趣包括:云计算网络架构、数据管理与机器学习、时空数据挖掘与应用、公众参与的开放创新等。他领导了上海交通大学开源云计算、大数据及开放数据平台的建设和运营,参与筹建转化医学国家重大科技基础设施(上海)并负责其中数据分析与挖掘平台,与Intel、中标软件等联合发起成立了中国开放云计算软件联盟,参与组织了上海开放数据大赛(SODA)。先后负责和主研了973计划项目、国家863重点项目、自然基金重点项目和上海市以及国防项目等十余项。2007年获得上海市科技进步一等奖,2009年获教育部“新世纪优秀人才”计划。他创建了OMNILab开放创新实验室, OMNILab赢得2014年中国计算机学会大数据比赛全国冠军、2014年上海市开放数据创新大赛冠军、2015年阿里百川创业大赛冠军、2016年互联网金融数据应用大赛总冠军等。他担任了中国开源云联盟副理事长、中国计算机学会互联网专委会常委、新华社瞭望智库专家、上海市政府开放数据专家委员会成员等职务。他热心公益和科普事业,积极推动“公众参与的开放创新”,倡导数据技术与环境、健康、艺术和设计等多学科领域的跨界交叉合作研究。

汤人杰

浙江移动高级架构师

浙江移动大数据首席架构师,浙江大学硕士研究生,高级工程师

浙江大学硕士研究生,高级工程师,目前主要负责浙江移动大数据及人工智能平台的整体规划、建设、运维工作

何驾澍

小沃科技大数据架构师

小沃科技大数据架构师,负责数据可视化,及数据分析等板块。三次从零开始建立BI团队,有良好的数据敏感度与逻辑分析能力,能从海量数据提炼出有利于公司决策与营销的结果;较强的市场洞察力,尤其擅长互联网用户行为分析。

 

由Cloudera组织的Wrangle Conference 在硅谷湾区已经是第三年了。这是一个只关乎数据科学的社区会议,从原则到实践到应用,跨各行各业。近几年,中国的数据科学家牛人辈出,但尚无一个纯技术非商业的交流活动为大家分享这些牛人的新知心得,并提供一个同行间交流学习的平台。数据科学家都在做什么,如何减少数据整理中的繁复人工工作,金融业如何改进数据驱动,IoT采集的数据可以干什么,又新出现了哪些数据科学的工具,等等,Cloudera希望将Wrangle带到中国来讨论这些只关乎数据科学的问题。

本次活动由联通小沃科技和至顶网联合主办。

活动日期:2017年9月9日周六,9:00 – 17:00

活动地点:上海

联合主办:联通小沃科技      至顶网

 

 

 

会议日程
 

9: 30 - 10:10 - TensorFlow和Cloudera数据科学家工作台 (CDSW)

陆锋,Cloudera资深架构师

TensorFlow是目前主流的深度学习框架,Cloudera数据科学家工作台 (CDSW) 是基于Kubernate和Dock技术的交互式大数据分析工具。在本次演讲中讨论并演示了如何在Cloudera数据科学家工作台中配置使用TensorFlow做深度学习,包括基于GPU以及基于Spark的使用方式。

 

 

10:10 - 10:50 - 在Apache Spark之上以BigDL搭建可扩展的分布式深度学习框架

张尧,英特尔的机器学习和大数据软件工程师

BigDL是基于Apache Spark的开源分布式深度学习框架(https://github.com/intel-analytics/BigDL)。它为Spark提供了深入学习功能的原生支持,同时为现成的使用单节点志强Xeon CPU的开源深度学习框架(如Caffeh和Torch)带来了数量级的性能速度提升,并为它们提供了基于Spark架构的对深度学习任务的高效的水平扩展的能力;此外,它还允许数据科学家使用熟悉的工具(包括Python和Notebook等)来对大数据进行分布式深度学习分析。

在这次演讲中,我们将演示大数据用户和数据科学家如何使用BigDL以分布式方式对海量数据进行深度学习分析(如图像识别、对象检测、NLP等)。这可以让他们使用已有的大数据集群(例如Apache Hadoop和Spark)来作为数据存储、数据处理和挖掘、特征工程、传统的(非深度)机器学习和深度学习工作负载的统一数据分析平台。

 

 

11:00 - 11:40 - 数据风控的那些事儿

张星汉 瑞天欣实的创始人,首席市场战略咨询官

数据是决策的依据和基石,为战略方向的制定、运营管理提供可信任与可依赖的导引。目前国内金融行业对于数据的应用与发达国家的差距在哪里?哪些基础数据是我们应该重视和治理的?如何从业务发展的角度去积累数据的全面能力?金融零售信贷领域如何应用他们?我们与国外先进理念的差距在哪里?应用的实践应该从哪里做为突破口?如何可以做到可持续迭代升级?演讲者通过介绍国内外真实案例为大家分享零售信贷领域大数据的应用与体系。

 

 

11:40 - 12:00 - 自由讨论

 

 

13:00 - 13:40 - 在CDSW上用深度学习来训练推荐模型

康祖令博士,数据科学家

在这个专题报告中,我们将一方面从算法模型的角色论述深度学习在推荐领域的最新发展方向,另一方面同时向听众介绍如何在CDSW平台上实现这一基于深度学习的推荐模型。内容如下:
1)推荐系统的发展与演变;
2)基于Embedding技术和深度学习的推荐系统:综述与模型简介;
3)在CDSW中实现该模型:基本方法、统一的数据Pipeline与GPU的多租户技术。

 

 

13: 40 - 14:20 - 大数据时代下的智能制造创新实践

方育柯博士 数之联CTO

大数据技术助推制造型企业产业升级要通过数据深度分析发现业务隐藏关系,为生产企业提供业务流程改善的专业建议,从而实现提升人员工作效率、降低人员费用、提升投入产出、降低备品备件浪费等业务目标。并从富士康、五粮液、博世汽车等智能制造案例中分享数之联近几年在制造业(机加工领域、半导体生产等领域)的实践成果。

 

 

14:30 - 15:10 - 随巢:结合人工智能的数据治理工具

金耀辉 上海交通大学光纤通信国家重点实验室教授,感知城市数据科学研究院执行院长,网络信息中心副主任。

政府和企业信息化水平的不断提升,产生并积累了大量的数据,过去这些数据封闭、沉睡,孤岛现象严重。数据集成和共享可以充分利用已有数据资源,减少资料收集、数据采集等重复劳动和相应费用。然而,不同来源的数据内容、数据格式、数据质量差异巨大,传统数据治理往往利用人工的方法,据不完全统计数据准备已经占到数据分析80%的时间,严重阻碍了数据的有效利用。我们提出了一种新的“数据湖+人工智能”的数据治理工具——随巢,将不同来源的数据同步到数据湖Hadoop平台上,采用少量专家人工结合机器学习的方法,快速完成数据轮廓、数据理解、数据编目、数据治理、数据关联、数据集成和数据管护等工作。最后,我们展示了随巢在自贸区互联网金融风险监管、徐汇区互联网科创服务和浦东新区城市网格化管理数据分析等项目的成功案例,与传统的人工手段相比,随巢提升了3-5倍的数据治理效率。

 

 

15:10 - 15:50 - 大数据平台向AI云的演进

汤人杰 浙江移动大数据首席架构师,浙江大学硕士研究生,高级工程师。

主要讲了浙江移动大数据平台的基本情况以及其向人工智能云演进的思路,规划,及其如何支撑企业的智慧运营

 

 

15:50 - 16:30 - 运营商大数据能力介绍

何驾澍 小沃科技大数据架构师

基于联通运营商海量数据,如何提供快速、准确、高效的产品化数据服务?讲者将讲述基于运营商海量的用户的人口学属性、行为数据来帮助内外客户做出有效的经营决策决策:包括联通DMP平台,行业洞察报告,及风控服务。

 

 

16:30 - 活动结束

 

 

未上传任何附件