本书的编写目的是向读者介绍大数据治理与安全的基本概念和相应的技术应用。本书共9章,内容分别为数据治理概述、数据采集与数据道德、数据质量与数据管理、数据交换与数据集成、数据库设计与治理、架构设计与治理、数据仓库设计与治理、大数据安全与治理及综合实训。本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据治理的相关技术,并对书中重要的、核心的知识点加大练习的比例,以达到帮助读者熟练应用的目的。本书可作为高等院校大数据专业、人工智能专业、软件技术专业、云计算专业、计算机
复杂性是大数据区别于小数据的本质特性,也是当前大数据质量控制与数据治理面临的核心挑战。本书围绕大数据的复杂性开展研究,旨在探索当前数据资源建设与利用过程中面临的挑战和技术难题,促进数据价值的充分释放。全书分为6部分,共24章。第1部分概述(第1、2章),综述所研究数据控制技术的基本概念和任务定位,以及国内外的研究进展; 第2部分实体分辨技术(第3~13章),研究了高维数据实体分辨、名称分辨、XML数据实体分辨和跨模态数据实体分辨等; 第3部分真值发现技术(第14~18章),研究了
本书分为10章,其中第1~9章探讨了排序、推荐系统、聚类、线性回归等内容,每章都以一个具体的实际问题开始,其主要目的是激发对某一特定大数据分析技术的研究。接下来探讨其背后的数学原理——包括重要的定义、辅助陈述和得出的结论。案例研究有助于将所学知识应用于跨学科的环境中,包括对逐步任务的描述和有用的提示。每章之后都配有习题,作为自学中不可缺少的一部分,有助于提高对基础理论的理解。第10章提供了前9章的习题答案,以及Python代码中的算法描述作为补充材料。本书适合作为大数据分析、应用数学及相关专业的
近几年,数据分析、人工智能、大数据平台等概念十分火爆,有些人感叹:虽然学会了调用软件算法库文件,在面对真实的业务问题时却不知道从哪里下手;虽然接触了一个又一个能做数据分析的软件工具,真要处理一个业务问题时,却发现自己需要什么样的数据反而成了第一道门槛……“道不远人”,好的东西不应该只作为高深莫测的内容让人敬而远之。本书将数据分析的思维作为主干,衔接数据分析的各个环节,辅之以案例,帮助读者建立体系化的数据分析知识,使数据分析成为一个普通技能,在工作和生活中发挥分析并解决问题的作用,最终实现“人人可
本书从初学者的角度详细介绍大数据的核心技术。全书共11章,包括绪论、Linux的基础操作、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、YARN资源管理器、HBase分布式数据库、Hive数据仓储、PySpark数据处理与分析及综合案例。此外,本书还提供了相应的示例代码,以帮助读者进一步理解相关方案的实现过程。
本书以项目实践作为主线,结合必需的理论知识,以任务的形式进行内容设计,每个任务都包含任务描述及任务实施的步骤,读者按照实施步骤进行操作就可以完成相应的学习任务,从而不断提升项目实践能力。本书主要内容涉及Spark基本原理、基于IDEA搭建Spark开发环境、RDD基本原理、Spark SQL基本操作流程、电商业务系统的基本流程、电商用户行为分析的基本指标以及分析过程、通过不同的维度对销售数据进行分析、通过不同的维度对订单数据进行分析以及常用的可视化分析图表的应用场景等。 本书适合需要使用Spar
数据是人类共同的财富数据是现代科学研究的基石。在当今这个大数据的时代,如何强调数据的重要性似乎都不为过。随着互联网及其应用的普及,传统关系数据库越来越难以满足计算机应用对数据存储、访问和安全的需要,非关系数据库和新兴数据库应运而生。本书主要面向新一代数据库系统,详细介绍数据库发展史、数据库设计原则、NoSQL和NewSQL的基本原理与设计思想。本书选取了新一代数据库发展历程中具有代表性的数据库展开讲解,如键值数据库实例的Redis与DynamoDB、列族数据库的HBase与Cassandr
要想在数据科学领域取得成功,你需要精通数学。但不仅仅是数学。这本指南提供了一个清晰的、简单的答案,你需要了解,包括概率、统计、假设测试、线性代数、机器学习和微积分的知识。使用Python代码的实际示例将帮助您了解数学如何应用于您将要做的工作,在将概念连接到机器学习等应用程序时,提供了对概念在底层如何工作的清晰理解。你会得到一个坚实的基础,但更重要的是,你将能够使用它。书中内容包括:认识到概率数学的细微差别和缺陷;掌握统计和假设测试(并避免常见的陷阱);探
本教材立足“大数据”的时代背景,面向企业数字化转型升级对数字化人才的需求,坚持大数据通识教育核心理念,采用理论与实践相结合的方式,选取了六个项目,助力读者提升大数据分析相关的数字技能与数字素养,培养学生的大数据意识、大数据思维、大数据安全和大数据基本处理能力。本教材根据行业企业大数据的实际应用和高职学生认知规律,选取了走进大数据、数据采集与预处理、数据存储与管理、数据分析与挖掘、数据可视化、数据安全与隐私防护六个教学项目,每个教学项目设计若干学习任务。通过采用“任务清单—知识必备—学习感悟—任务
本书以项目任务为载体串联知识与技能,介绍基于 Spark SQL 技术的大数据分析方法,培养 学习者使用 Spark SQL 技术解决实际数据分析问题的能力,主要内容有大数据分析概述、实践环 境准备、学生信息处理分析、房产大数据分析与探索、电商大数据分析与探索、Zepplin 数据可视 化。在实现任务的过程中详细阐述了 Scala 语言基础、Spark SQL 编程分析、Spark SQL 数据分 析与探索、数据可视化等知识。本书适合作为高等职业院校计算机、大数据、人工智能及相关专业的教材或参考