2022年12月19日,《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》是党的二十大之后推动数字经济开新局的基础性政策文件,备受各方关注。本书是清华大学社会科学学院经济学研究所结合近年来在数字经济、数据要素方面所做的研究和取得的成果,从数据产权制度、数据要素流通和交易制度、数据要素收益分配制度、数据要素治理制度、数据的宏观与生态价值等五个维度带领大家解读“数据二十条”中的经济与法律问题,了解数据基础制度建设、数据要素赋能实体经济所面临的机遇与挑战。
随着时代的发展和信息技术的进步,信息技术已经是社会发展的动力之一,尤其是大数据技术对社会的发展起到促进作用。在人们的生活、生产中,大数据的应用能够给人们带来便利性,同时在大数据中也会存储人们的个人信息。随着科技的发展和进步,我们逐渐进入大数据时代。本书首先对大数据相关概念和应用问题进行了简述,进而论述了大数据的异化分析;然后介绍了大数据的影响因素,以及云计算技术与算法分析;最后介绍了大数据在不同方面的应用。 大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。大数据应用就是利用数
Spark数据处理引擎是一个惊人的分析工厂:输入原始数据,输出洞察。PySpark用基于Python的API封装了Spark的核心引擎。它有助于简化Spark陡峭的学习曲线,并使这个强大的工具可供任何在Python数据生态系统中工作的人使用。 《Python和PySpark数据分析》帮助你使用PySpark解决数据科学的日常挑战。你将学习如何跨多台机器扩展处理能力,同时从任何来源(无论是Hadoop集群、云数据存储还是本地数据文件)获取数据。一旦掌握了基础知识,就可以通过构建机器学习管道,
数字化转型是企业在数字经济时代面对的重大战略选择,其本质是通过有效地使用数据资源对业务进行全面的升级和优化,提高企业的综合产业竞争力。本书将数据科学作为出发点,结合大数据、人工智能技术,以数据分析的方法和理论为观察视角,介绍了企业数字化转型的核心知识概念及主要的应用实践策略。 本书共8章,分为数据科学原理、数据科学技术、数字化业务实践,以及数字化产业目标四个主要部分。 数据科学原理部分(第2章)主要讨论数据要素的核心价值体系及数据科学的基本理论范畴;数据科学技术部分(第3~6章)主要介绍数
本书共分为六个部分:基础入门、研究设计和基础工具、文本挖掘基础、人文社会科学与文本分析、计算机科学与文本挖掘、写作和展示,在内容安排上由浅入深、循序渐进。相较于单一且详尽的方法教程,本书的目的更多是在于指导学生运用社会世界的文本数据来设计一项可行的社会科学研究。本书涵盖了文本挖掘研究多个方面的关键问题,包括网络抓取和爬虫、策略性数据选择、数据抽样、特定的文本分析和文本挖掘方法以及研究报告的撰写。除了技术性内容,本书还讨论了基于文本的社会科学研究设计面临的伦理和哲学问题。同时,书中还提供了各
本书的编写目的是向读者介绍大数据治理与安全的基本概念和相应的技术应用。本书共9章,内容分别为数据治理概述、数据采集与数据道德、数据质量与数据管理、数据交换与数据集成、数据库设计与治理、架构设计与治理、数据仓库设计与治理、大数据安全与治理及综合实训。本书将理论与实践操作相结合,通过大量的案例帮助读者快速了解和应用大数据治理的相关技术,并对书中重要的、核心的知识点加大练习的比例,以达到帮助读者熟练应用的目的。本书可作为高等院校大数据专业、人工智能专业、软件技术专业、云计算专业、计算机
复杂性是大数据区别于小数据的本质特性,也是当前大数据质量控制与数据治理面临的核心挑战。本书围绕大数据的复杂性开展研究,旨在探索当前数据资源建设与利用过程中面临的挑战和技术难题,促进数据价值的充分释放。全书分为6部分,共24章。第1部分概述(第1、2章),综述所研究数据控制技术的基本概念和任务定位,以及国内外的研究进展; 第2部分实体分辨技术(第3~13章),研究了高维数据实体分辨、名称分辨、XML数据实体分辨和跨模态数据实体分辨等; 第3部分真值发现技术(第14~18章),研究了
本书分为10章,其中第1~9章探讨了排序、推荐系统、聚类、线性回归等内容,每章都以一个具体的实际问题开始,其主要目的是激发对某一特定大数据分析技术的研究。接下来探讨其背后的数学原理——包括重要的定义、辅助陈述和得出的结论。案例研究有助于将所学知识应用于跨学科的环境中,包括对逐步任务的描述和有用的提示。每章之后都配有习题,作为自学中不可缺少的一部分,有助于提高对基础理论的理解。第10章提供了前9章的习题答案,以及Python代码中的算法描述作为补充材料。本书适合作为大数据分析、应用数学及相关专业的
近几年,数据分析、人工智能、大数据平台等概念十分火爆,有些人感叹:虽然学会了调用软件算法库文件,在面对真实的业务问题时却不知道从哪里下手;虽然接触了一个又一个能做数据分析的软件工具,真要处理一个业务问题时,却发现自己需要什么样的数据反而成了第一道门槛……“道不远人”,好的东西不应该只作为高深莫测的内容让人敬而远之。本书将数据分析的思维作为主干,衔接数据分析的各个环节,辅之以案例,帮助读者建立体系化的数据分析知识,使数据分析成为一个普通技能,在工作和生活中发挥分析并解决问题的作用,最终实现“人人可
本书从初学者的角度详细介绍大数据的核心技术。全书共11章,包括绪论、Linux的基础操作、Hadoop大数据处理架构、HDFS分布式文件系统、MapReduce分布式计算框架、ZooKeeper分布式协调服务、YARN资源管理器、HBase分布式数据库、Hive数据仓储、PySpark数据处理与分析及综合案例。此外,本书还提供了相应的示例代码,以帮助读者进一步理解相关方案的实现过程。