《深入浅出数据分析》以类似"章回小说”的活泼形式,生动地向读者展现出色的数据分析人员应知应会的技术:数据分析基本步骤、实验方法、优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理、相关数据库、数据整理技巧;正文之后,意犹未尽地以三篇附录介绍数据分析十大要务、R工具及ToolPak工具,在充分展现目标知识以外,为读者搭建了走向深入研究的桥梁。
《企业级大数据项目实战:用户搜索行为分析系统从0到1》基于真实业务场景,以项目导向为主线,从0到1全面介绍“企业级大数据用户搜索行为分析系统”的搭建过程。全书共6章,第1章讲解项目需求与架构设计,详细阐述项目数据流与系统架构;第2章介绍大数据项目开发环境配置,手把手带领读者配置操作系统、Hadoop集群与相关工具,为后续项目实施打下基础;第3~5章逐步实现项目需求,第3章讲解“用户行为数据采集模块”的开发,第4章讲解“用户行为数据离线分析模块”的开发,第5章讲解“用户行为数据实时分析模块”的开发
对于任何依赖经常性收入和重复销售的企业来说,让客户保持活跃并持续购买是必不可少的。客户流失(或“流失”),这种代价高昂且令人沮丧的事情是可以预防的。通过使用本书中介绍的技术,你可以识别客户流失的预警信号,并学会在客户离开之前识别并挽留他们。《客户留存数据分析与预测》向开发人员和数据科学家传授经过实践证明的技术与方法,可以在客户流失发生之前阻止其发生。本书包含很多来自现实中的示例,介绍如何将原始数据转换为可衡量的行为指标、计算客户生命周期价值,并使用人口统计数据改进客户流失预测。通过遵循
《Pandas数据分析》详细阐述了与Pandas数据分析相关的基本解决方案,主要包括数据分析导论、使用Pandas DataFrame、使用Pandas进行数据整理、聚合Pandas DataFrame、使用Pandas和Matplotlib可视化数据、使用Seaborn和自定义技术绘图、金融分析、基于规则的异常检测、Python机器学习入门、做出更好的预测、机器学习异常检测等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相
《数据科学对社会科学转型的重大影响研究》从数据科学发展引致的科研范式转换视角,研究数据科学驱动社会科学转型的问题,重点研究数据科学驱动下的社会科学将具有何种全新的特征,探索社会科学研究在数据科学驱动下的转型路径。《数据科学对社会科学转型的重大影响研究》主要研究内容包括:数据科学的知识体系与方法工具、社会科学研究范式演化与数据科学在社会科学中的应用、社会科学研究的现实环境变迁与突出问题、数据科学驱动的社会科学认知体系重构、数据科学作用下的社会科学研究特征、数据驱动的社会科学转型的条件与保障等。
本书主要围绕数据权利体系,梳理数据及其权利内涵,把握全球数据主权发展态势,关切国际数据权利体系演进、数据权利保护模式,并梳理我国数据权利发展现状与建构路径;分别围绕主权视角下数据权利规制的关键场景——数据跨境、关键挑战——数据垄断、关键工具——数据产权,探讨数据主权风险、国际治理进展、我国治理现状,思考主权视角下我国数据权利治理进路与具体方案,并从个人数据、政府数据角度展开主权视角下数据权利治理实证研究。
大数据资源规划与统筹发展是新技术背景下提出的重大命题。本书围绕这一重大命题,将大数据置于国家战略高度,详细阐述了大数据资源规划理论模型,以及如何建设大数据资源规划与统筹发展保障体系。本书作为专著,具有很强的专业型、理论性和时代性,本书以“大数据资源规划理论与统筹发展研究”为主题,以规划理论与应用为切入点,形成大数据资源规划理论,建立大数据资源规划模型,理顺基于规划的大数据资源统筹发展路径,并以面向公共文化服务的大数据资源规划与统筹发展应用为案例进行剖析,促进大数据资源的多场景综合应用、
Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。《Apache Spark大数据分析:基于Azure Databricks云平台》详细介绍基于Azure Databricks云平台来使用Apache Spark完成大规模数据处理和分析的方法。本书总计11章,首先介绍大规模数据分析相关的概念;然后介绍受管的Spark及其与Databricks的关系,以及Databric
本书基于大数据研究系统的能力评估框架与方法,针对传统的能力评估理论和方法主要存在的缺陷,从大数据中挖掘有价值的信息来辅助评估,以提高评估的客观性、科学性、可信性。本书借助鲁棒有序回归方法,构建了基于大数据的交互式能力评估新型框架;通过特征选择算法分析了行动效果关键影响要素;将鲁棒有序回归方法用于确定评估模型的参数,并提出了认知最优最劣方法、区间认知网络过程和区间最优最劣方法3种新的基于两两比较的方法,用于辅助专家提供评估的参考信息。本书提出的能力评估框架和方法可以推广到多种评估
本书从博弈论基础开始,系统地介绍了博弈论在数据安全中的应用,汇集了近年来基于博弈论研究数据安全的最新成果,重点探讨了秘密共享的可公开验证模型及博弈论分析、数据外包情况下的博弈模型、激励相容机制和抗共谋机制以及隐私保护的博弈分析、基于信息论的理性委托攻防模型,为数据外包更新提出了有效策略。本书观点新颖独到,研究内容均为作者原创科研成果,对制定正确的数据安全策略,提高数据安全保障能力具有重要的参考价值。 本书概念清晰、结构合理、内容深入浅出、通俗易懂,不仅阐述了博弈论与数据安全的基本理论,同