本书结合现实中的市场营销问题揭示了在市场研究分析中如何使用R。主要内容包含:R综述,数据描述,连续变量之间的关系,表格和可视化,统计检验,线性模型,如何降低复杂度,验证性因子分析和结构方程模型,聚类和判别,购物篮分析,模型选择等。
前 言
我们将会帮助你在市场研究和分析中使用R。
R是市场分析师的绝佳选择。它拟合统计模型的能力无与伦比,对于大型和小型数据集,它可扩展,能以不同形式分析来自不同系统的数据。R生态系统包括大量现存以及正在兴起的统计方法和可视化技术。但是R在市场营销中的应用程度不如其在统计、计量经济、心理和生物信息领域。希望通过大家的努力能改变现状!
本书是为两类人设计的:想要学习R的市场研究从业人员和分析师,想要了解如何将R应用于市场营销的其他领域的学生和研究人员。
阅读本书需要哪些预备知识?很简单,对R在市场营销中的应用感兴趣,对基础统计模型(如线性回归)有概念性的了解,并且愿意亲自动手实践学习。本书对已有一定编程经验并希望学习R的分析师特别有帮助。我们会在第1章中介绍另外一些使用R的原因(以及一些可能不需要使用R的原因)。
动手实践部分非常重要。我们将在前7章循序渐进地介绍(相关知识)并且让读者自行实践书中的案例(代码);本书不是食谱类型的参考书。我们会在第一部分花一些时间(尽量少)介绍R基础知识,然后在第二部分介绍现实中的市场营销问题以及如何应用R。第三部分包含一些高阶市场营销问题。每章都展示了R的分析能力。希望读者在每章中都能学到新鲜有趣的知识。
本书有如下特点:
本书围绕市场营销组织内容。不是给出泛泛的示例,而是结合介绍的方法给出市场营销案例。
我们假定读者有基础统计知识和少量的数学知识。本书是为分析实践者设计的,因此并不会过多地介绍方程和统计模型背后的数学细节(但我们会给出相应参考书目)。
这是一本讲解统计概念和R代码的教科书。它旨在让读者明白我们在干什么以及学会如何避免在应用统计和R时的问题。对比市面上其他参考书和“食谱类”指南,我们的目标在于让本书具有可读性并且能够满足不同读者的需求。
应用章节阐明了渐进的建模过程。我们并没有提供“答案”,而是展示一个分析师在现实工作中可能按何种方式逐步展开分析。其中比较了不同模型的统计可靠性和实用性。
可视化内容是核心分析的一部分。我们并没有将可视化当作独立的话题,而是相信它是数据探索和建模的一个部分。
你从中学到的不仅仅是R。除了核心模型外,本书还涵盖了一些或许对有经验的分析师来说也很陌生的有用模型,如结构方程模型、交易分析。
本书同时介绍了传统方法和贝叶斯方法。核心模型和传统(频率学派)模型一起介绍。但在后面的章节中会介绍线性模型和联合分析中的贝叶斯方法。
大部分分析用模拟数据实践R,并额外提供了关于市场数据结构的信息。根据个人意愿,可以改变模拟数据,看其对统计模型的影响。
在合适的时候我们会给出选学的编程内容或模型知识,读者可根据自身情况选择阅读或跳过。这些小节用* 标注。
本书没有包括什么?首先,本书介绍R在市场营销中的应用但并不讲述市场营销方面的研究。我们会讨论很多市场营销话题但会忽略R中那些重复用到相同分析方法的话题。如前所述,我们从概念上介绍统计模型且并不关注数学细节。由于篇幅原因,本书省略了一些复杂的话题,包括顾客终身价值模型和计量经济时间序列模型。总之,本书全面展示了市场营销研究示例和分析方法。如果掌握了本书,你将能在许多市场营销领域应用R。
为什么我们可以教这些知识?从1997年开始,我们使用R及其前身S语言近30年,这是我们主要的分析平台。我们用R做各种市场分析,从简单的数据总结到复杂的分析(需要自己编写成千上万行的代码)和新模型。
我们也有丰富的R教学经验。本书源自于笔者在美国营销协会(AMA)、埃默里大学市场营销学院和高级研究方法论坛(ART Forum)几年来的课程讲义。我们也在Sawtooth软件会议上和沃顿商学院对学生和业界人士进行R教学。感谢许多学生的反馈意见,我们相信他们的经验会对你们有益。
关于下载数据本书对应的.R代码文件中的下载数据使用的是短链接地址,如“http://goo.gl/UDv12g” 。在一些国家和地区可能无法访问该链接,会出现这样的错误提示:“Error in file(file, "rt"): cannot open the connection”。如果出现这种情况,请尝试对应的完整链接地址,如“http://r-marketing.r-forge.r-project.org/data/rintro-chapter2.csv”。下面是短链接和对应完整链接的表格。
章 号 完整链接地址 短链接地址2 http://r-marketing.r-forge.r-project.org/data/rintro-chapter2.csv http://goo.gl/UDv12g3 http://r-marketing.r-forge.r-project.org/data/rintro-chapter3.csv http://goo.gl/QPDdMl4,9 http://r-marketing.r-forge.r-project.org/data/rintro-chapter4.csv http://goo.gl/PmPkaG5、6、11、12 http://r-marketing.r-forge.r-project.org/data/rintro-chapter5.csv http://goo.gl/qw303p7 http://r-marketing.r-forge.r-project.org/data/rintro-chapter7.csv http://goo.gl/HKnl748 http://r-marketing.r-forge.r-project.org/data/rintro-chapter8.csv http://goo.gl/IQl8nc9 http://r-marketing.r-forge.r-project.org/data/rintro-chapter9.csv http://goo.gl/J8MH6A9 http://r-marketing.r-forge.r-project.org/data/rintro-chapter9conjoint.csv http://goo.gl/G8knGV10 http://r-marketing.r-forge.r-project.org/data/rintro-chapter10pies.csv http://goo.gl/yT0XwJ10 http://r-marketing.r-forge.r-project.org/data/rintro-chapter10sat.csv http://goo.gl/MhghRq12 http://fimi.ua.ac.be/data/retail.dat http://goo.gl/O495RV12 http://r-marketing.r-forge.r-project.org/data/retail.dat http://goo.gl/FfjDAO13 http://r-marketing.r-forge.r-project.org/data/rintro-chapter13conjoint.csv http://goo.gl/5xQObB致谢我们特别感谢为本书的问世做出贡献的人。首先是这些年来我们教过的所有学生,他们提供了有价值的反馈。我们希望他们的经验对你们有益。
在市场营销学术领域和实践者社区, Ken Deal、Fred Feinberg、Shane Jensen、Jake Lee、Dave Lyon和 Bruce McCullough提供了宝贵意见。
Chris在谷歌科研社区的同事对本书的一些部分提供了许多建议。我们感谢如下人的鼓励和建议:Mario Callegaro、Marianna Dizik、Rohan Gifford、Tim Hesterberg、Shankar Kumar、Norman Lemke、Paul Litvak、Katrina Panovich、Marta Rey-Babarro、Kerry Rodden、Dan Russell、Angela Sch鰎gendorfer、Steven Scott、Bob Silverstein、Gill Ward、John Webb 和 Yori Zwols。
Springer的员工和编辑帮助我们顺利展开工作,其中尤其要感谢Hannah Bracken、Jon Gurstelle和“Use R!”系列丛书编辑。
本书的大部分是在公共图书馆和大学图书馆完成的。我们感谢其为我们提供场所以及大量的文献资源。本书部分是在晴朗的日子里于新奥尔良公共图书馆、纽约公共图书馆、纽约神学院的小克里斯托弗·凯勒图书馆、加州大学圣地亚哥分校的吉赛尔图书馆,华盛顿大学苏塞罗和艾伦图书馆、森尼维尔公共图书馆完成的,尤其是东京都中心图书馆,我们在那里写下了第一句话、第一行代码、全书大纲以及后续许多内容。
家人对我们在周末和夜晚编写本书给予了支持,他们还忍受了对门外汉来说关于R的过多讨论。谢谢Cristi、Maddie、Jeff和Zoe。
最重要的是,我们感谢各位读者。很高兴你们决定研究R,且希望你们的努力有所收获。让我们开始吧!
—Chris Chapman、Elea McDonnell Feit
中 文 版 序我们非常高兴看到本书中文版面世。本书英文版的主要目的是深入介绍R在市场研究中的应用。中文版是本书英文版之外的第一个版本,中文版和英文版上市的时间只相隔1年,所以书中的知识都是最新的。感谢译者的翻译!
R的应用在不断飞速发展。如本书第1章提到的,在写书时已经有6000多个R包可供使用。时至今日,R包的数目已经增长到8000个—平均每天增加3个包以上。与此同时R在市场营销方面的学术论文、会议报告以及工业界的使用也在不断增长。R的前景非常广阔,现在是时候学习这门语言了。
我们特别感谢本书的译者林荟和所有为本书中文版问世做出努力的人!我们还要感谢机械工业出版社的工作人员。如果本书能对你们有所帮助,便是对所有这些努力最好的回报。
最重要的是,希望你们能像我们一样喜欢R并且将其用于自己的工作。学习R这样的语言并不容易,我们希望本书能使你的学习轻松些,帮助中国的市场营销人员掌握R。
—Chris Chapman,Elea McDonnell Feit2016年2月译 者 序本书适合寻找R入门书籍的读者以及那些想将数据科学应用到市场研究分析中的读者。书中说明了如何载入数据,通过可视化技术探索数据,用统计模型分析数据,并且对模型结果给出了商业解释。书中涉及了基础的分析技能、可视化和一些高级别的分析,所以对普通读者和专业读者而言,本书都是绝佳的指南。2013年我从研究生物统计转而进入杜邦公司从事专门的市场分析,从一个商业数据分析从业者的角度看,这本书确实给我非常大的帮助。
本书有以下特点:
这是第一本成功介绍将一些现代统计分析技术应用到市场研究分析的书。它不同于之前那些介绍市场分析中用到的传统多元技术的书。虽然近年来有几本和模型应用相关的非常优秀的书籍问世,如James、Witten、Hastie 和Tibshirani的《统计学习导论》,Kuhn 和Johnson的《应用预测建模》,但是这些书并不是专门针对市场研究的。本书的针对性是其一大优点。
作者并非从学术的角度解决一些虚假的市场问题。书中的例子都是现实市场分析中经常遇到的问题。作者使用的是模拟数据集,乍一看让人感觉本书可能会脱离实际,毕竟用一些伪造的数据可以很容易给出模型效果很好的假象。其实不是这样的。由于两位作者在此之前都有着数十年的商业分析从业经验,因此书中数据集的抽取都非常巧妙,能够很好地反映作者在实践中遇到的真实问题。
除了传统的多元模型之外,书中还介绍了近年来逐渐流行的贝叶斯方法。虽然贝叶斯方法在市场分析中当前还不是主流,但我相信该方法的应用会越来越广泛。书中还专门介绍了相对较新的分析技术,如随机森林和朴素贝叶斯。
作者还在适当的地方对模型的应用进行了延伸。比如在讲到因子分析时,作者讨论了如何使用因子分析结果来绘制消费者“认知图”,这在很多讨论因子分析的文献中极少看到。这也充分反映了作者丰富的实践经验,以及本书以具体实践为导向的特点。
本书覆盖的方法比较全面。基本涉及了市场分析中从初级数据探索到高级数据建模过程中可能用到的各种技术。
本书没有很多数学公式,深入浅出。这使得本书适合于那些没有很强的数学基础但又想学习一些高级分析方法的市场研究人员。
对于R新手来说,本书是一本很好的入门指南。和单纯的R指南不同,本书提供了一个应用的语境,使得读者能够在应用中学习,极大地增强了学习效果。本书不仅讲到了基本的R数据操作,还介绍了一些常用的有效可视化方法。
书中没有过多介绍现在流行的有效机器学习模型,关于这点,之前讲到的两本书《统计学习导论》和《应用预测建模》是极好的补充,如果能系统学习这3本书,就具备成为一个数据科学家的硬性技术条件了。
机械工业出版社的王春华编辑对本书的翻译工作给予了支持和帮助。在此对所有为本书中文版问世做出努力的人表示感谢!限于译者水平,书中难免有错误和不妥之处,恳请读者批评指正。
—林荟
中文版序
译者序
前言
第一部分 R语言基础知识第1章 欢迎使用R2
1.1 R是什么2
1.2 为什么用R2
1.3 为什么不用R3
1.4 什么时候用R4
1.5 如何使用本书4
1.6 关键点6
第2章 R综述7
2.1 开始7
2.2 R用途快速指南8
2.3 R命令基础11
2.4 基础对象12
2.5 数据框21
2.6 载入和存储数据24
2.7 编写函数*27
2.8 清理30
2.9 知识拓展*30
2.10 关键点31
第二部分 数据分析基础知识第3章 数据描述34
3.1 模拟数据34
3.2 关于变量的函数38
3.3 概括数据框41
3.4 单变量可视化45
3.5 知识拓展*54
3.6 关键点55
第4章 连续变量之间的关系56
4.1 零售数据56
4.2 用散点图探索变量间关系60
4.3 把多张图合并为一张图65
4.4 散点图矩阵67
4.5 相关系数70
4.6 探索问卷调查回复间的相关性*76
4.7 知识拓展*78
4.8 关键点78
第5章 组比较:表格和可视化80
5.1 模拟客户分组数据80
5.2 各组对应的描述统计量87
5.3 知识拓展*96
5.4 关键点97
第6章 组比较:统计检验98
6.1 用于比较的数据98
6.2 频数检验:chisq.test()98
6.3观测比例检验:binom.test()101
6.4 组均值检验:t.test()103
6.5 多组均值检验:ANOVA104
6.6 初识贝叶斯ANOVA *109
6.7 知识拓展*113
6.8 关键点114
第7章 识别结果变量的驱动因子:线性模型115
7.1 游乐场数据115
7.2 用lm()函数拟合线性模型117
7.3 拟合多元线性模型125
7.4 因子自变量129
7.5 交互效应131
7.6 避免过度拟合134
7.7 建议的线性模型拟合过程134
7.8 贝叶斯线性模型:MCMCregress()*135
7.9 知识拓展*136
7.10 关键点137
第三部分 高级营销应用第8章 降低数据复杂度140
8.1 消费者品牌评分数据140
8.2 主成分分析和感知图144
8.3 探索性因子分析151
8.4 高维标度化简介157
8.5 知识扩展*160
8.6 关键点160
第9章 线性模型相关的其他话题162
9.1 处理高度相关的变量162
9.2 二项结果变量的线性模型:逻辑回归166
9.3 分层线性模型175
9.4 贝叶斯分层线性模型*182
9.5 频率学派和贝叶斯学派HLM模型的简单比较*187
9.6 知识拓展*190
9.7 关键点191
第10章 验证性因子分析和结构方程模型193
10.1 结构模型的出发点193
10.2 量级评估:CFA195
10.3 更一般的模型:结构方程模型204
10.4 PLS模型209
10.5 知识拓展*215
10.6 关键点216
第11章客户分组:聚类和判别217
11.1 客户分组的思想217
11.2 客户分组数据219
11.3 聚类219
11.4 判别分析234
11.5 预测:识别潜在客户*242
11.6 知识拓展*244
11.7 关键点245
第12章 关联法则:购物篮分析247
12.1基础关联法则247
12.2零售交易数据:购物篮249
12.3搜寻并且可视化关联法则252
12.4非交易数据中的规则:再次探索客户分组259
12.5知识拓展*263
12.6关键点263
第13章 选择模型264
13.1基于选择的联合问卷调查分析264
13.2模拟选择数据*266
13.3拟合选择模型269
13.4在选择模型中加入消费者个体差异278
13.5分层贝叶斯选择模型281
13.6基于选择的联合问卷调查设计*287
13.7知识拓展*289
13.8关键点289
结论291
附录A R版本和相关软件292
附录B 纵向扩展298
附录C 使用的包306
附录D 在线资源和数据文件310
参考文献312