《数据驱动:从方法到实践》是一本从理论到实践的全面且细致的企业数据驱动指南,作者见证并献身百度大数据的建设,毫无保留地将成败摸索实践的真实场景进行完整还原,并对近十年大数据从业经验与心得做了归纳和总结,同时详解大数据本质、理念与现状,并围绕数据驱动四环节采集、建模、分析、指标,深入浅出地讲述企业如何从零到一将完整的数据驱动方案落地,全面展示大数据在各领域内的应用情况与趋势展望。
Alistair Croll、宋星、曹政、车品觉、王淮、吕厚昌等业界大咖联合力荐!
本书以四大行业实践谈数据驱动如何交付业务价值,破解企业数据驱动实践中面临的困惑、幻想与失望,传递真正数据驱动价值!
推荐序 1
如果我们将企业比作人类,那么许多企业正处于壮年的巨大健康危机之中。曾经,世界500强企业的生命周期是65年,而现在仅有20年。近10年来,众多规模大、可靠的企业已被数据新贵企业所替代,例如苹果公司、亚马逊、腾讯、谷歌、百度、阿里巴巴等。
更糟糕的是,企业进行自我重塑的概率变得越来越低。公司战略委员会指出,95%的企业数字化的转变是失败的。《创新者的窘境》一书的作者克雷顿?克里斯滕森认为这一数字已达到99%。
当然也有好消息:科技赋予我们衡量一切事物的能力,我们能更好地认识自己。在这点上,曾经的任何时代都难以企及。
麻省理工学院的一项研究表明1,相比依靠直觉来实现决策的企业,那些通过数据驱动实现决策的企业拥有更高的生产效率和利润。这类企业的生产效率和利润普遍高于竞争对手5%~6%。显然,未来是否拥有数据分析能力,将决定一家企业是成功,还是逐渐销声匿迹。
我们经常说,数据是新石油。数据的准确性代替了意见的主观性,让我们更好地了解我们的供应商、我们的顾客以及我们自身。同时数据也是人工智能的基础,因为我们正是通过数据的运用来实现机器学习的。
对石油来说,一直被埋藏在地下的石油并无价值。它的价值在于应用,石油开采需要一个生态系统:炼油厂、加油站、汽车、规则、道路等。数据也是如此,仅仅收集数据并无价值,你需要提取、清洗、分析,让分析结果得以执行与运用,并反馈至生态系统中。
随着自动化操作和机器学习代替了部分传统工作,我们为此很疑惑:还有哪些工作需要人类来做?答案其实很简单:我们需要辩证地思考究竟人类需要机器来做什么。无论是初入职场的新人、分析师,还是企业管理者,提出正确的问题是他们最重要的能力。
但是,这实现起来很难。提问者既需要了解企业当前的商业模式、竞争格局以及可控资源,也需要意识到现有商业模式已经变得过时、不稳定,而且亟待改变。
信息随时随刻在产生,它为世界指出两条路:一条路布满着那些故步自封、因循守旧企业的尸体;另一条则为拥有数据思维和掌握数据驾驭能力的企业铺就康庄大道。而此时此刻,你正处于交叉路口,手中恰好握着一张指引正确路径的地图。
Alistair Croll
哈佛商学院访问执行官,Coradiant 公司联合创始人
《精益数据分析》一书作者
1 《数据驱动的决策是如何影响企业绩效的》社会科学研究网1819486(2011年)。
推荐序1
推荐序2
数据驱动的概念已经被各个行业广泛认同,但认同与落实之间,还是有相当的距离,这里最大的障碍是,技术人员缺乏对业务的理解,而业务人员又无法理解和充分利用技术,有数据却用不好、不会用是很常见的弊病。即便是一些有数据分析、研发实力的企业,也面临从需求到实现的巨大研发成本和时间周期等问题,导致决策效率低,对瞬息万变的市场情况,无法做出快速有效的应对。
百度早期的技术资源有限,主要技术资源优先考虑产品研发迭代,对数据分析的支持力度不足。2005年我参与创建百度的商业分析部门,因为无法得到充足的技术资源,只好自己动手,在产品部门架构内处理数据,解决业务诉求所需的数据分析,所幸那时候百度的业务数据规模有限,每日的部分业务数据日志尚处于GB级别,按照我们有限的技术能力,单服务器勉强可以应付。
2007年之后,百度的业务规模急速扩大,业务部门也越来越重视数据决策方向的诉求,幸而此时技术资源也得到了有效的扩充,在桑文锋同学的有力支持下,百度的数据分析能力和整体架构都得到了翻天覆地的革新和发展,针对诸多核心产品升级,数据决策的意义和价值也得到了充分的彰显。
能解决一个巨头公司数据分析领域的技术瓶颈,提升数据决策能力,已经是一项了不起的成就,但文锋的目标显然不止于此,搭建一套通用灵活的技术架构,显然有更广阔的应用场景。让一线业务人员在不需要充分理解技术的前提下,快速针对业务诉求完成数据分析,实现数据决策,这是神策数据(Sensors Data)项目的一个愿景。
我从百度出来后进入了游戏行业,后来辗转到海外发展,对国内行业的现状了解不多。说来也有意思,好几个游戏行业同行创业者,在不同场合主动跟我提及神策数据非常有价值,对他们的业务帮助很大,我才注意到文锋的创业项目,并钦佩于他们现在所取得的成就,这个成就,不是说这家公司收了多少服务费,赚了多少钱,而是他们真的有效提升了整个行业的数据决策能力,有效降低了数据决策的操作成本和门槛,这个价值是从业者们尤为要感谢的。
感谢文锋,提前让我阅读了这本书籍,我觉得,对于希望提升数据决策能力、了解数据决策真相的从业者,这本书是很好的读物,其内容并非晦涩难懂的技术描述,而更多是对数据驱动和数据分析的理解,并以亲身案例作为辅助讲解。建立正确的认识是做好数据决策的前提,而其中所提到的很多问题场景,相信也是很多从业者经常遇到和面对的。
以上,希望对您的阅读和选择,有所帮助。
曹 政
曾任百度商业分析部经理,现知名IT自媒体博主
互联网游戏出海领域创业者
推荐序2
推荐序3
我一直觉得数据分析是一种修行,修的是思考的能力,行的是落实成为方案的方法。经过多年的工作,正是不经一番寒彻骨,怎得梅花扑鼻香。回想我与文锋初次见面便谈到数据化的过程,阿里与百度都经历过这样的挑战,我想这便是他请我写推荐序的原因吧。
以前企业中只有一小部分人具备数据分析的能力,随着近几年数据平台的成熟,数据从收集到使用越来越方便,以往想要出一份分折报告可能要等上数周的日子已经一去不复返。曾经有一位业务方代表对我说过,在等候分析报告出来与拍脑之间,我选择了后者,因为时机更重要。可想而知决策的速度很关键。在后信息时代,DT1的普适度将变得更直接、简单。未来的智能时代,我很相信很多分析报告也将被自动化的智能决策所取代,届时智慧的人类也将要升级到神策的阶段,人更要学会驾驭决策上的决策、逻辑上的逻辑。
当然,理想归理想,在智能决策的路上还需要很多同行们努力,而文锋在书内的描述正是他这几年创业的发现与精华。
车品觉
红杉中国专家合伙人、全国信标委大数据标准工作组副组长
1 DT,Data Technology,数据处理技术。
推荐序4
当今物联时代,业界同仁都在谈大数据和人工智能。大数据已成众多公司的核心资产,大数据战略已成众多公司的核心战略。之所以如此,一是因为大数据技术的普及,二是因为大数据已经为无数企业带来了实打实的核心价值。大数据4V1中最重要的还是接地气的价值驱动Value。使用大数据技术,挖掘大数据价值,不断优化用户体验、客户体验、产品体验,已然成为当今企业成功的金科玉律。
1996年我在美国正式进入职场。我在职业生涯的早期就对数据情有独钟,那个时候还没有大数据这个提法。这不仅仅是出于对数据技术的喜好,也是因为我在做数据项目的时候,真正体会到了数据给业务带来的不同。1998年我加入Yahoo!,成为第一个专门做数据的工程师,用一句话总结我在Yahoo! 7年的工作,那就是使用大数据更好地理解用户,驱动用户产品创新,更好地服务用户。2005年我离开Yahoo!加入Google是源于好奇心,当时Google的流量是Yahoo!的1/10,但收益却跟Yahoo!一样多。为什么搜索会这么赚钱?用一句话总结我在Google 6年的工作,那就是使用大数据能更好地理解客户广告诉求,驱动广告产品创新,更好地服务广告主。
2011年我有幸加入百度带领数据团队。百度是一个对大数据工作非常重视的公司。大数据工作是百度的核心竞争力之一,其核心搜索业务也是建立在大数据
1 4V,Volume(大量)、Velocity(高速)、Variety(多样)和Value(价值)。
技术之上的。文锋是我在百度工作期间的爱将。在百度工作的几年中,我跟文锋、曹犟、力力、耀洲等聪明能干、充满活力的同学们一起,在实战中不断总结与学习,一同推进大数据技术的进步,这是一段非常享受并有成就感的经历。
我在百度大数据工作时,跟小伙伴们一起启动了不少项目,一切都围绕发挥大数据价值而发力。大数据价值从让数据说话开始,大数据驱动决策。几乎每一个产品都是一个闭环的生态。从产品上线的第一天起,用户就在不断用手或脚投票,告诉你哪里好用、哪里需要改进。用户越多,这个闭环正负反馈的信息量就越大。当我们可以快速地把这些信息以报表分析的形式,展现给我们的产品经理、产品研发工程师及各级决策者们的时候,就能不断地发现机会、迭代改进产品。当数据量达到一定规模后,数据所反馈的趋势就越清楚,这不仅体现在更好地理解现有需求上,也会不断挖掘新的需求,预测引导用户需求,不断改进创新产品。
搜索如此,广告如此,新领域创新也是如此。从预防疾病,提升百姓健康体验,到挖掘旅游热点,提供最佳出游体验,到因材施教,颠覆特权教育,到预测交通流量,改善交通拥堵,大数据驱动颠覆式创新。
大数据的另一个更重要的价值在于让数据为用户工作,驱动个性化服务。当数据量达到一定规模后,因人工智能算法已经普及,故对用户每一次产品使用背后意图的把握就会越来越精准,从而可以做到为用户提供有针对性的个性化服务。这种个性化可以从用户群组个性化开始,也就是对不同类型的受众提供不同的服务,可以做到针对每个用户的个性化服务,甚至细化到对每一个用户每一个动作的个性化服务。大数据价值在这一点上的发力可以真正引爆产品生态闭环的马太效应。
文锋在书中把他过去丰富的实践经验做了非常好的总结,干货满满,源于实践又高于实践。文锋一直想成为中国大数据产业兴旺的推动者,他创建了神策数据(Sensors Data),不断践行自己的理想。本书字里行间生动活泼,也体现出作者对大数据领域的理想情怀和脚踏实地的实干家精神。对大数据行业的每一位实践者和企业家来说,本书都非常值得一读。
吕厚昌(Alex Lu)
曾任百度高级总监,Pinterest大数据部负责人
第1章 从百度大数据工作的经历说开 / 1
百度数据板块:网页数据和用户行为数据 / 3
搜索引擎发展 / 4
用户行为分析践行:百度知道的回答量提升 7.5% / 5
从零到一构建百度大数据分析平台 / 6
数据源与 Event 模型的重要性 / 9
大数据是屠龙术 / 10
第2章 大数据思维与数据驱动 / 11
大数据的概念 / 14
大数据之大 / 14
大数据之全 / 15
大数据之细 / 16
大数据之时 / 16
大数据的本质 / 17
数据驱动理念与现状 / 20
数据驱动的价值 / 20
企业内部数据驱动现状 / 21
理想的数据驱动 流 / 23
大数据时代到来的条件 / 24
数据采集能力增强 / 25
数据处理能力增强 / 26
数据意识的提升 / 27
第3章 数据驱动的环节 / 29
数据采集与埋点 / 32
数据采集的现状 / 32
数据采集遵循法则 / 34
科学的数据采集和埋点方式 / 36
数据的准确性 / 40
数据建模 / 44
数据模型与建模 / 44
多维数据模型 / 46
多维事件模型 / 49
多维事件模型的探索经历 / 52
数据分析方法 / 55
行为事件分析 / 55
漏斗分析 / 58
留存分析 / 61
分布分析 / 64
点击分析 / 67
用户路径 / 73
用户分群 / 75
属性分析 / 80
指标体系构建 / 82
第一关键指标法 / 82
海盗指标法 / 86
第4章 数据驱动产品和运营决策 / 89
数据驱动运营监控 / 91
用户获取(Acquisition) / 91
激活(Activation) / 92
留存(Retention) / 97
引荐(Referral) / 99
营收(Revenue) / 101
数据驱动产品改进和体验优化 / 102
数据驱动商业决策 / 104
数据驱动落地企业,要从管理者做起 / 106
数据驱动商业决策的价值 / 108
第5章 数据驱动产品智能 / 109
数据平台及用户智能 / 114
如何计算热门榜单 / 114
客服系统中的行为数据 / 114
为什么需要数据平台 / 115
数据平台提供的能力 / 116
数据应用与用户智能 / 119
基于用户行为数据的用户智能应用 / 119
用户智能分类:基于规则与机器学习 / 123
用户智能应用用户画像 / 132
两种用户画像:User Persona与User Profile / 132
用户画像(User Profile)标签体系的建立 / 135
用户智能应用个性化推荐 / 139
个性化推荐的概念 / 139
架构实现 / 140
数据流 / 142
业务分析与模型选择 / 143
实验与迭代 / 144
第6章 各行业实践数据分析全过程 / 147
互联网金融数据驱动实践 / 149
实践案例 / 150
企业服务数据驱动实践 / 158
数据驱动能够为企业服务做什么 / 159
面临的挑战 / 160
数据应用的阶段 / 161
实践案例 / 168
零售行业数据驱动实践 / 175
实践案例 / 176
电子商务数据驱动实践 / 186
打破企业发展经营困局:从粗放式到精细化 / 186
电商企业数据驱动瓶颈 / 187
实践案例 / 187
写在最后的话 / 197