像数据达人一样思考和沟通:数据科学、统计学与机器学习极简入门
定 价:¥68
中 教 价:¥40.12 (5.90折)促销
库 存 数: 0
《像数据达人一样思考和沟通:数据科学、统计学与机器学习》是一本完备的数据科学指南,尤其适用于职场人。本书既包括了职场中应用数据的场景介绍,也包括了算法背后的数学知识。两位作者在数据科学普及领域深耕多年,立志打造一本有趣、贴近生活,且非常具有可读性的数据科学入门书。每个人都能成为数据达人,积极地参与与数据科学、统计、机器学习相关的工作。本书适合作为商务专业人员、工程师、行政人员,以及有志成为数据科学家的研究人员的自学参考读物,也可以作为数据科学相关培训机构的教材。
在我们如今的生活和职场中,无可避免地要接触大量的数据。数据是怎样被用来讲故事的?它又是如何说服,乃至有时欺骗我们的?资深数据科学家在《像数据达人一样思考和沟通》中给你答案。
对于许多旁观者而言,传统数据分析、大数据和人工智能是全然不同,且毫不相关的事物。然而,《像数据达人一样思考和沟通》这本书将要匡正这样的认知,并指出这3个领域事实上是高度相关的。它们都涉及统计思维,而一些传统的分析方法,例如回归分析、数据可视化技术等,对这3个领域同样适用。统计学中的预测分析与人工智能领域的监督式机器学习基本上就是一回事。而且,大多数的数据分析技术也适用于各种规模的数据集。简而言之,一位优秀的数据达人可以高效地处理好这3方面的工作,而花费大量时间去细究它们之间的差异则往往是无用功。固有观念2: 只有专业的数据科学家才能成为数据热潮中的弄潮儿。人们有时对数据科学家盲目崇拜,认为只有他们才有可能有效地处理和分析数据。然而,近来兴起了一阵全新的、极为重要的潮流,旨在让数据思维变得更加全民化。越来越多的机构开始注重培养普通员工的数据思维和数据分析能力。自动化机器学习工具使得人们可以更轻松地建立数学模型,并利用模型出色地完成预测工作。当然,我们仍需要专业的数据科学家负责开发新算法,并为那些进行复杂数据分析工作的普通员工把关。但是,一些单位选择把与数据分析相关的工作交给单位中那些非科班出身的数据达人负责,这样做往往能够让数据科学家专注更重要的工作。固有观念3: 数据科学家无所不能,他们掌握着从事数据活动所需的全部技能。数据科学家是受过专业训练,从事模型开发和代码编写工作的人。人们往往想当然地认为,数据科学家同样能够包揽模型的实际应用工作。换句话说,人们认为数据科学家是无所不能的。但实际上这样的人凤毛麟角。对于一个数据科学项目来说,那些不仅了解数据科学的基础知识,而且了解所处行业、能够有效地管理项目,并擅长建立业务关系的数据达人才是无价之宝。他们不但能够胜任数据科学工作,还能提升数据科学项目的商业价值。固有观念4: 人们需要具有非常高的数学天赋,并经受大量训练,才有可能在数据和分析方面取得成功。一个相关的假设是,为了从事数据科学工作,人们必须在该领域接受过良好的培训,因此一个数据达人也必须非常擅长和数字打交道。数据方面的天赋与训练固然对从事数据科学相关工作有帮助,但《像数据达人一样思考和沟通》这本书中的一个观点令我深感认同: 一个拥有动力的学习者能够掌握数据和分析知识,并在数据科学项目中贡献力量。部分原因是,统计分析的基本概念远没有那么深奥;同时,想要参与数据科学项目,也并不需要极高水平的数据和分析能力。与专业数据科学家协作,或是参与自动化人工智能项目,需要的只是提出关键问题的能力和好奇心、在业务问题和定量结果之间建立联系并识别出可疑假说的能力而已。固有观念5: 如果你在大学或研究生阶段的主要研究方向并非定量(quantitative)领域,那么现在学习数据和分析方法所需的知识就为时已晚。这一观念甚至得到了调查数据的支持: 在Splunk公司于2019年对全球约1300名高管的调查报告中,几乎所有受访者 (98%) 都认为数据技能对他们未来的工作很重要。81%的高管认同数据技能是成为高级领导者所必需的,而85%的人认为掌握数据技能会让他们在公司中变得更有价值。尽管如此,仍有67%的人表示他们不习惯自己获取或使用数据,73%的人认为数据技能相较于其他业务技能更难习得,53%的人认为自己年纪太大,已经错过了学习数据技能的黄金时期。这种数据失败主义(data defeatism)对个人和组织都是有害的,而本书作者和我都认为这不过是无稽之谈。仔细阅读本书正文,你会发现其中不涉及任何艰深难懂的知识!因此,抛开这些固有的观念吧,让自己成为一个数据达人。你将成为职场上更有价值的员工,并帮助你所在的机构变得更加成功。这就是世界的发展方向,是时候开始加入浪潮,更加深入地了解数据及其分析方法了。我相信,阅读《像数据达人一样思考和沟通》,探索数据科学,你将会收获一段富有价值且充满乐趣的旅程。前言对于本书的读者来说,无论主观意愿如何,数据或许已经成为你工作中最重要的一部分,没有之一。而你之所以翻开这本书,大概是因为希望能够了解数据究竟是怎么一回事。首先,有必要重复一个老生常谈的问题: 在这个时代,每个人创造和接收的信息比以往任何时候都多。毫无疑问,现在是一个数字的时代。而这个数字时代也催生了一个充斥着承诺、行话和产品的行业,其中许多是翻开本书的你,你的经理、同事和下属正在或将要接触的。但是,尽管与数据相关的承诺和产品不断涌现,数据科学方面的商业项目却往往会很快就陷入失败。美国科技博客VentureBeat在2019年进行了一个调查,其中显示87%以上的数据项目以失败告终。这里需要澄清一下,我们并非暗示所有关于数据的承诺都言之无物,或所有的产品都糟糕透顶。相反,要真正了解这个领域,必须首先接受一个基本事实: 事情远比我们想象的要复杂。从事数据方面的工作意味着与数字、细微差别和不确定性打交道。数据至关重要,这毫无疑问,但与此同时,它并不简单。然而,有一个行业却在试图让人们忽视这一点这是一个在不确定的世界中试图承诺确定性,并利用公司对落伍的恐惧而牟利的行业。我们在本书中将其称为数据科学工业复合体(Data Science Industrial Complex)。数据科学工业复合体对于身处其中的每个人来说,数据科学工业复合体都是一个有待关注的问题。企业不断买入产品,期待它们能代替自己进行思考;经理们雇佣名不副实的专家;各种机构都在招聘数据科学家,却并没有做好迎接他们的准备;高管们不得不聆听无穷无尽的行业黑话,并假装理解。这样的现状造成了大量数据项目的停滞和资金的浪费。
第1篇掌握数据达人的思维第1章定义问题31.1数据达人应该掌握的问题41.2了解数据项目失败的原因101.3解决重要的问题14本章小结15第2章何为数据162.1数据与信息172.2数据类型192.3数据的收集与组织方式202.4基本汇总统计23本章小结24第3章统计学思维253.1学会质疑263.2无处不在的随机波动293.3概率与统计34本章小结41像数据达人一样思考和沟通目录第2篇掌握数据达人的语言第4章质询数据454.1你会怎么做?474.2数据的来源是什么?534.3数据是否具有代表性?564.4是否缺少某些数据?574.5数据集的大小59本章小结60第5章探索数据615.1探索性数据分析625.2培养探索心态645.3数据是否能解答问题?655.4你是否能从数据中发现某些相关性?715.5你是否从数据中发现了新的机会?76本章小结77第6章检查概率786.1猜概率: 笔记本电脑是否感染病毒796.2游戏规则806.3概率思想实验876.4谨慎做出独立性假设906.5一切概率都是条件概率926.6保证概率数字有意义96本章小结99第7章质疑统计1007.1统计推断的简短讨论1017.2统计推断的过程1087.3用于质疑统计结果的问题109本章小结118第3篇理解数据科学家的工具箱第8章寻找未知分组1218.1无监督学习1238.2数据降维1238.3主成分分析法(PCA)1268.4聚类1318.5k均值聚类133本章小结137第9章理解回归模型1399.1监督学习1409.2线性回归能做些什么1429.3线性回归带给我们什么1469.4线性回归的隐患1499.5其他回归模型155本章小结156第10章理解分类模型15710.1分类模型介绍15810.2逻辑回归16010.3决策树16510.4集成方法16910.5谨防陷阱17210.6准确性的误解174本章小结178第11章理解文本分析17911.1文本分析的期望18011.2文本如何变成数字18211.3主题建模19211.4文本分类19411.5实际处理文本分析的细节200本章小结203第12章解析深度学习概念20412.1神经网络20612.2深度学习的应用21312.3深度学习的实践22312.4人工智能与你227本章小结230第4篇确 保 成 功第13章注意陷阱23513.1数据中的偏差和怪象23613.2陷阱大清单242本章小结247第14章知人善任24814.1沟通中断的7个场景24914.2数据个性255本章小结257第15章未完待续259术语表263