数据挖掘-大数据的启蒙认知课
课程下载
本课程供VIP会员免费学习。
下载途径:共204 MB,网盘转存下载。
课程介绍
讲师介绍
涂子沛
前阿里巴巴副总裁
涂子沛,本科毕业于华中科技大学计算机系。后在武警部队和政府部门工作十年,期间开发过全国第一个反偷渡遣返信息管理系统,担任过边防巡逻艇的指挥官。后辞去公职赴美读书,获卡内基梅隆大学公共管理硕士、信息科学硕士学位。在美期间,先后担任软件公司的数据仓库程序员、数据部门经理、数据中心主任、亚太事务总监、首席研究员等职务。
曾为《南方都市报》、《时代周报》、艾瑞网等多个报刊网站撰写专栏,着有《大数据》、《数据之巅》。
课搜搜名师讲座课程介绍
大数据 互联网 数据挖掘
数据和石油一样早就存在,但是人类开采使用石油后,才进入百年的石油时代;我们这个时代数据的采集、记录手段变多变廉价了,挖掘技术更加强大,数据的作用日益凸显,所以将要进入数据时代。
讲座:阿里巴巴涂子沛:大数据的启蒙认知课
1.1大数据的定义
1.2数据叠加可引发爆炸效果
1.3大数据帮助机器代替小二腐败
1.4业务数据化和数据业务
(1)数据调研
业务调研
整个阿里集团涉及的业务涵盖电商、数字娱乐、导航(高德)、 移动互联网服务等领域。各个领域又涵盖多个业务线,如电商领域就涵盖了 C 类(淘宝、天猫、天猫国际)与 B 类(阿里巴巴中文站、国际站 、速卖通)业务。数据仓库是要涵盖所有业务领域,还是各个业务领域独自建设,业务领域内的业务线也同样面临着这个问题。所以要构建大数据数据仓库,就需要了解各个业务领域、业务线的业务有什么共同点和不同点 ,以及各个业务线可以细分为哪几个业务模块,每个业务模块具体的业务流程又是怎样的。业务调研是否充分,将会直接决定数据仓库建设是否成功 。
需求调研
可以想象一下,在没有考虑分析师、业务运营人员的数据需求的情况下,根据业务调研建设的数据仓库无疑等于闭 门造车。了解了业务系统的业务后并不代表就可以进行实施了,此刻要做的就是收集数据使用者的需求,可以去找分析师、业务运营人员了解他们有什么数据诉求,此时更多的就是报表需求。需求调研的途径有两种: 一是根据与分析师、业务运营人员的沟通(邮件、 IM )获知需求: 二是对报表系统中现有的报表进行研究分析 。通过需求调研分析后,就清楚数据要做成什么样的。很多时候,都是由具体的数据需求驱动数据仓库团队去了解业务系统的业务数据,这两者并没有严格的先后顺序。举例 : 分析师需要了解大淘宝(淘宝、天猫、天猫国际) 一级类目的成交金额。当获知这个需求后,我们要分析根据什么(维度)汇总,以及汇总什么(度量),这里类目是维度,金额是度量:明细数据和汇总数据应该怎样设计?这是一个公用的报表吗?是需要沉淀到汇总表里面,还是在报表工具中进行汇总?
(2)架构设计
数据域划分
数据域是指面向业务分析,将业务过程或者维度进行抽象的集合。业务过程可以概括为一个个不可拆分的行为事件,如下单、支付、退款。为保障整个体系 的生命力,数据域需要抽象提炼,并且长期维护和更新,但不轻易变动。在划分数据域时,既能涵盖当前所有的业务需求,又能在新业务进入时无影响地被包含进已有的数据域中或者扩展新的数据域。
构建总线矩阵
在进行充分的业务调研和需求调研后,就要构建总线矩阵了。需要做两件事情 :明确每个数据域下有哪些业务过程;业务过程与哪些维度相关,并定义每个数据域下的业务过程和维度。
(3)规范定义
规范定义主要定义指标体系,包括原子指标、修饰词、时间周期和派生指标。
(4)模型设计
模型设计主要包括维度及属性的规范定义,维表、明细事实表和汇总事实表的模型设计。略。
(5)总结
OneData 的实施过程是一个高度迭代和动态的过程, 一般采用螺旋式实施方法。在总体架构设计完成之后,开始根据数据域进行迭代式模型设计和评审。在架构设计、规范定义和模型设计等模型实施过程中,都会引人评审机制,以确保模型实施过程的正确性。