本书是一本关于如何清洗、整理和理解数据的手册,还介绍了围绕构建更可靠的数据系统的最佳实践、技术和流程,并在此过程中培养团队和利益相关方对数据的信任。本书首先引入“数据宕机”的概念,然后介绍如何跨多个关键数据管道技术构建更具弹性的数据系统。还介绍了数据可靠性工作流中的主动异常检测与监测,并设置SLA、SLI和SLO,以及构建由新鲜度、容量、分布、模式和沿袭这5个关键支柱组成的优化数据质量的数据平台。之后深入探讨在生产环境中实际应对和解决数据质量问题所需的步骤,包括数据事件管理、根因分析、
数据要素作为继土地、劳动力、资本、技术之后的第五大生产要素,在2020年4月国务院《关于构建更加完善的要素市场化配置体制机制的意见》首次出现并明确提出"加快培育数据要素市场”后,中共中央关于制定国民经济和社会发展第十四个五年规划和二〇三五年远景目标的建议》中也提出了"发展数字经济,推进数字产业化和产业数字化,推动数字经济和实体经济深度融合,打造具有国际竞争力的数字产业集群”。2022年底,中共中央、国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(即"数据二十条”)以文件形式明确了建立数
Hive是大数据领域的一个重要开发工具。本书基于Hive3.1.3版本进行编写,首先,简单介绍了Hive的起源和发展,以及Hive的安装和部署;其次,分别介绍了Hive的数据定义语言、数据操作语言、查询语言,以及各种函数,其中穿插安排了大量的综合案例练习;再次,讲解了分区表和分桶表,以及文件的压缩;最后,重点讲解了Hive在使用不同执行引擎时的企业级性能调优手段。本书广泛适用于大数据的学习者和从业人员、Hive初学者,以及高等院校大数据相关专业的学生,同时可作为大数据学习的必备书籍。
本书是一本全面关注数据资产管理体系、方法与实践的工具书,主要内容分为数据资产管理概述、数据资产管理体系、数据资产管理技术、数据资产管理实践、数据资产管理未来共5章。第1章概要介绍数据资产管理的定义与内涵、数据资产管理关注的焦点、数据资产化的战略意义等; 第2章介绍数据资产管理体系,涵盖数据管理组织、战略规划、保障机制、运营体系等内容,涉及数据盘点、数据开发、数据质量、数据安全、数据服务、数据价值等工作; 第3章介绍数据资产的数据采集、存储、建模、处理等技术,阐述数
作为近十几年来大数据、人工智能行业飞速发展最重要的驱动技术之一,大数据分析与挖掘已经成为各个行业商业决策的必备技术。本书紧跟数据科学前沿,旨在帮助读者建立大数据分析与挖掘的思维框架,培养其使用数据驱动的方法解决商业决策问题的能力。本书秉承经典、主流和发展的理念,重点介绍了大数据分析与挖掘的主要步骤,关联分析、分类和聚类等经典算法的原理以及文本挖掘和深度学习等**算法和应用。本书内容设计采用“算法原理+商业案例”的方式,突出课程的实践性和应用性特点。本书适合作为开设数据挖掘、机器学
本书共分8章,主要内容如下: 第1章介绍数据的认知与研究任务,大数据概念特征及技术挑战等。 第2章介绍大数据内容、知识和结果表达概念,以及元数据和知识图谱技术。 第3章介绍数据存储基础、大数据存储要求以及应对技术和典型系统。 第4章介绍数据管理基础,新型数据管理模型及其相应大数据管理系统。 第5章介绍数据计算基础,大数据计算特点,大数据的批量、流、图等新计算模型和特点,以及计算引擎的工作原理等。 第6章介绍大数据分析概念、分类聚类等数据分析的基本方法,以及深度学习等数据分析的高级方法。 第7章介
利用这本书,你将学习以下内容:了解如何选择Spark转换实现优化的解决方案。探索强大的转换和归约,包括reduceByKey()、combineByKey()和mapPartitions()。理解数据分区以实现优化查询。使用PySpark设计模式构建和应用模型。对图数据应用motif查找算法。使用GraphFrames API分析图数据。对临床医学和基因组数据应用PySpark算法。学习如何在ML算法中使用和应用特征工程。了解并使用实用的数据设计模式。
本书以Flink 1.16.0为主线,全面介绍了Flink的核心概念和常用功能。全书共9章,分别讲解了Flink概述,Flink部署与应用,DataStream API,DataSet API,时间与窗口,状态和容错机制,Table API&SQL和Flink CEP。本书附有配套视频、教学课件、教学设计、测试题等资源,同时,为了帮助初学者更好地学习本书内容,还提供了在线答疑,欢迎读者关注。本书可作为高等教育本、专科院校数据科学与大数据技术及相关专业的教材,还适合大数据开发初学者
本书是中国特色高水平高职学校电气自动化技术专业的CDIO系列教材之一,是应CDIO课程改革的需要,校企合作编写的新形态教材。本书重视学生职业能力和工匠精神的培养,知识点和技能点紧密结合过程控制工程项目的实际应用,配有大量立体化教学资源,学生通过扫描二维码即可获得在线资源进行学习。本书共3个项目,项目设置结合工程实际,内容系统、简洁,图文并茂,实用性较强。项目一主要讲述过程控制系统的概念、构成与要求,基本控制规律、控制器参数整定,单回路控制系统的设计、安装、运行与调试;项目二重点介绍了串级、比值等
本书先带领读者了解工业网络技术的发展脉络,再以三菱iQ-FX、iQ-R、MELSEC-Q系列PLC为主控CPU,通过项目形式全面学习以太网通信、简单CPU通信、串行通信、CC-Link通信、CC-Link IE Field通信、CC-Link IE Control通信、CC-Link IE TSN通信、Modbus通信和综合网络通信技术。每个项目从认知网络特点到网络拓扑连接,从系统构建到参数设置,从程序编写到网络诊断,这样一条循序渐进的认知主线,用任务串起每个网络通信的应用。本书采用主教材+工作