《大数据概论》主要介绍大数据概论,内容包括大数据概述、科学研究第四范式、
分布系统设计的CAP 理论、NoSQL 数据库、复杂网络、MapReduce 分布编
程模型、大数据存储、大数据分析、大数据挖掘、大数据可视化、大数据安
全、大数据机器学习、大数据推荐技术,以及数据科学与数据思维。《大数据概论》对
上述内容概念性地介绍,语言精练、内容全面。
目录
前言
第 1章大数据概述 1
1.1 问题的提出 2
1.1.1 电子数据迅速增加 2
1.1.2 数据孕育巨大的经济价值 3
1.1.3 数据是国家的核心资产 4
1.2 大数据的产生源泉 4
1.2.1 互联网世界 5
1.2.2 物理世界 6
1.3 大数据的概念 7
1.3.1 数据容量巨大 7
1.3.2 数据类型多 8
1.3.3 价值密度低 8
1.3.4 数据传播迅速 9 目录
前言
第 1章大数据概述 1
1.1 问题的提出 2
1.1.1 电子数据迅速增加 2
1.1.2 数据孕育巨大的经济价值 3
1.1.3 数据是国家的核心资产 4
1.2 大数据的产生源泉 4
1.2.1 互联网世界 5
1.2.2 物理世界 6
1.3 大数据的概念 7
1.3.1 数据容量巨大 7
1.3.2 数据类型多 8
1.3.3 价值密度低 8
1.3.4 数据传播迅速 9
1.3.5 真实性 9
1.4 大数据的特性 9
1.4.1 价值 9
1.4.2 非结构性 9
1.4.3 不完备性 10
1.4.4 时效性 10
1.4.5 安全性 10
1.4.6 可靠性 10
1.5 大数据技术概述 10
1.5.1 大数据技术的主要内容 11
1.5.2 大数据的处理过程 12
1.5.3 大数据技术的特征 13
1.5.4 大数据的关键问题与关键技术 14
1.6 大数据应用趋势 16
1.6.1 大数据细分市场 17
1.6.2 大数据推动企业发展 17
1.6.3 大数据分析的新方法出现 17
1.6.4 大数据与云计算高度融合 17
1.6.5 大数据一体设备陆续出现 17
1.6.6 大数据安全日益重视 18
1.7 大数据应用 18
1.7.1 判断大数据应用成功的指标 18
1.7.2 大数据技术的应用 19
1.8 大数据的展望 22
1.8.1 资源与投入 23
1.8.2 工程技术 23
1.8.3 复杂网络分析 23
1.8.4 涉及众多领域
第 1章大数据概述本章主要内容
大数据概述问题的提出电子数据迅速增加数据孕育巨大的经济价值数据是国家的核心资产
大数据的产生源泉互联网世界物理世界大数据的概念
数据容量巨大数据类型多价值密度低数据传播速度
大数据的性质
价值非结构性不完备性时效性安全性可靠性
大数据技术概述
大数据技术的主要内容大数据的处理过程大数据技术的特征大数据关键问题与关键技术大数据应用趋势大数据细分市场大数据推动企业发展大数据分析的新方法出现大数据与云计算高度融合大数据一体设备陆续出现大数据安全日益重视
大数据应用判断大数据应用成功的指标大数据技术的应用
大数据的展望
资源与投入工程技术复杂网络分析涉及众多领域构建大数据生态环境
需求是科学技术发展的原动力。目前,大数据问题的出现与研究已经成为了计算机科学与技术研究的新热点,并显示出日益强大的吸引力,科学大数据的出现催生了数据密集型知识发现的科学研究第四范式的出现。对于信息领域,大数据带来的不仅是机遇,还有一系列的困难和挑战。目前,大数据技术与应用展现出锐不可当的强大生命力,科学界与企业界寄予无比的厚望。大数据成为继 20世纪末、21世纪初互联网蓬勃发展以来的又一轮 IT工业革命。
1.1 问题的提出
在全世界范围内,以电子方式存储的数据(又简称为电子数据)总量空前巨大。在 2011年电子数据总量已达到 1.8ZB(1ZB=1024PB),较 2010年同期提高超过 1ZB,统计结果表明,每经过 2年就可以增加 1倍,预计到 2020年可达到 35ZB,如图 1-1所示。面对数据增长的速度迅猛提升,数据量的飞速增加,对大量电子数据的高效存储、高效传输与快速的处理是必须面对的研究问题。
图 1-1 全球数据创建及复制的数据总量预测
1.1.1 电子数据迅速增加
物联网、云计算、移动互联网、车联网、手机、平板电脑、个人计算机( PC)、气候信息、公开的信息,如杂志、报纸和文章、交易记录、网络日志、病历、军事监控、视频和图像、档案及大型电子商务,以及遍布地球各个角落的各种各样的传感器是数据来源或者承载的方式不断更新与发展、大型科学研究设备产生的数据,以及社交媒体的快速发展,构成了大数据持续产生的生态环境。尤其是近年来,随着互联网技术的发展,来自人们的日常生活,特别是来自互联网服务而产生的大量数据迅猛增加。据不完全统计,互联网当前包含 93亿多个页面,80%~85%的数据是存储在数据库的文本中。互联网一天产生的全部内容可以刻满 1.68亿张 DVD,发出的邮件有 2940亿封之多,发出的社区帖子达 200万个(相当于《时代》杂志 770年的文字量),卖出的手机为 37.8万台,高于全球每天出生的婴儿数量 37.1万……从数据统计角度来看,电子数据量迅速增加。预计中国数据技术和服务市场未来 5年的复合增长率将达 51.4%,其中增长率最高的是存储市场,将达 60.8%,服务器市场的增长率则是 38.3%,远远高于其他产品相关的市场。
1.1.2 数据孕育巨大的经济价值
数据本身是无意义的,而通过统计、分类、萃取、特征抽取等一系列技术手段,可以从数据中产生信息与知识。数据是重要的战略资源,隐含巨大的经济价值,因此已经引起科学界和企业界的高度重视。有效地组织和使用数据,将对经济发展产生巨大的推动作用。大数据出现孕育着前所未有的机遇。对大数据的交换、整合和分析,可以发现新的知识,创造新的价值。
越来越多的企业等机构意识到数据正在成为最重要的资产,数据分析能力正在成为核心竞争力。经过了由 PC成功转向了软件和服务,而这次将远离服务与咨询,更多地专注于因数据分析而带来的全新业务增长点。数据将成为各行业中决定胜负的根本因素,最终数据将成为人类至关重要的自然资源。各著名的大型公司已经致力于开发自己的大数据处理和存储系统,目前已经到了数据化运营的黄金时期,如何整合这些数据成为未来的关键任务。
在互联网、电信、金融等行业,几乎已经到了数据就是业务本身的地步。物联网、社交网络等新的互联网技术在为人们带来便利的同时,也产生了大量的数据。如何有效地存储和查询这些数据,如何通过数据挖掘,从数据中获得有用的信息,为用户提供好的用户体验,增强企业的竞争力,是一个挑战。研究表明,数字领域存在着 1.8万亿 GB的数据,企业数据正在以 55%的速度逐年增长。目前,两天就能创造出自人类文明诞生以来到 2003年所产生的数据总量。大数据已经成为重要的时代特征,充分利用大数据可帮助全球个人定位服务提供商增加 1000亿美元的收入,帮助欧洲公共部门的管理每年提升 2500亿美元产值,帮助美国医疗保健行业每年提升 3000亿美元产值,并可帮助美国零售业获得 60%以上的净利润增长率。由此可见,充分使用大数据和挖掘大数据商业价值将为行业企业带来强大经济效益与竞争力。
大数据既是对信息技术发展的高度抽象和概括,同时也体现了信息技术服务于数据蕴藏的巨大价值。大数据给数据的采集、存储、维护、共享带来了具有研究意义的现象和挑战,但更多的意义是可以处理、分析并使用大量数据,通过这些数据的处理、整合和分析,可以发现新知识、创造新价值,带来大知识、大科学和大发展,逐渐走向创新社会化的新信息时代。
大数据全生命周期可以划分为“数据产生—数据采集—数据传输—数据存储—数据处理—数据分析—数据发布、展示和应用—产生新数据”等阶段。已经形成了大数据的“生产与集聚层—组织与管理层—分析与发现层—应用与服务层”的产业链,而 IT基础设施为这各环节提供基础支撑。
据统计, 2012年市场规模达到 4.5亿元, 2016年估计可达到百亿规模,如图 1-2所示。
图 1-2 中国大数据应用市场规模与增长
1.1.3 数据是国家的核心资产
一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,对数据的占有和控制,甚至将成为陆权、海权、空权之外的另一种国家核心资产。联合国也在 2012年发布了大数据政务白皮书,指出大数据对于联合国和各国政府是一个历史性的机遇,通过使用极为丰富的数据资源,对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
数据为王的大数据时代已经到来,对数据的占有和控制也将成为国家间和企业间新的争夺点。大数据技术的专业人才,特别是数据分析复合型人才的稀缺将会影响该市场的发展。
在技术层面上,大数据、海量数据与超大规模数据并无本质的区别,它们都是指用传统处理方法无法处理的大量数据。通过对大数据的高速有效处理,可以发现数据中蕴藏的规律与规则,进而为各种关键决策提供依据与指导,正确的预测与决策将导致巨大财富的产生。技术与工具密不可分,目前常用的数据处理技术与工具是小数据处理技术与工具,一些海量数据处理方法与工具是一种过度性的方法与工具,大数据处理技术与工具的研究是一项有理论意义和实际价值的工作。简言之,大数据技术就是从各种各样类型的数据中,快速获得智慧的技术。信息要能转化成智慧,至少要满足以下三个标准。
1.可破译性
可破译性是大数据时代特有的问题,但非结构化的数据不是一定都可破译。例如,记录了某客户在网站上三次翻页的时间间隔分别是 5s、4s、15s,却忘记标注这三个时间代表什么,也就是说,知道这些数据是信息,却不可破译,所以不可能成为知识。
2.关联性
关联性即是相关性。无关的信息可以被看成噪声。
3.新颖性
新颖性是指无法仅仅根据拥有的数据和信息进行判断。例如,某电子商务公司通过一组数据/信息,分析出了客户愿意为当天送货的产品多支付 10元钱,然后又通过另一组完全独立的数据/信息得到了同样的内容,这样的情况下,后者就不具备新颖性。但是,很多时候,只有在处理了大量的数据和信息以后,才能判断它们是否具有新颖性。
1.2 大数据的产生源泉
大数据是人类活动的产物,来自人们改造客观世界的过程中,是生产与生活在网络空间的投影。信息爆炸是对信息快速发展的一种逼真的描述,形容信息发展的速度如同爆炸一般席卷整个地球。在 20世纪 40~50年代,信息爆炸主要指的是科学文献的快速增长;而经过 50年的发展,到 20世纪 90年代,由于计算机和通信技术广泛应用,信息爆炸主要指的是所有社会信息快速增长,包括正式交流过程和非正式交流过程所产生的电子式的和非电子式的信息,而到 21世纪的今天,信息爆炸是由于数据洪流的产生和发展所造成的。在技术方面,新型的硬件与数据中心、分布式计算、云计算、大容量数据存储与处理技术、社会化网络、移动终端设备、多样化的数据采集方式使大数据的产生和记录成为可能。在用户方面,日益人性化的用户界面、信息行为模式都容易作为数据而记录,用户既可成为数据的制造者,也可以成为数据的使用者。可以看出,随着云计算、物联网计算和移动计算的发展,世界上所产生的新数据,包括位置、状态、思考、过程和行动等产生的数据都能够汇入数据洪流,导致数据洪流席卷互联网。
归纳起来,大数据主要来自物理世界与互联网世界。
1.2.1 互联网世界
大数据时代,需要更加全面的数据来提高预测的准确度,因此需要更多廉价、便捷、自动的数据生产工具。
大数据是计算机和互联网结合的产物,计算机实现了数据的数字化,互联网实现了数据的网络化;两者结合才赋予了大数据生命力。随着互联网如同空气、水、电一样无处不在地渗透到我们的工作和生活,加上移动互联网、物联网、可穿戴联网设备的普及,新的数据正在以指数级别的速度产生,目前世界上 90%的数据是在互联网出现以后迅速产生的。
大数据来自人类社会,尤其互联网的发展为数据的存储、传输与应用创造了基础与环境。依据基于唯象假设的六度分割理论而建立的社交网络服务( Social Network Service,SNS),以认识朋友的朋友为基础,扩展自己的人脉。基于 Web 2.0网站建立的社交网络,用户既是网站信息的使用者,也是网站信息的制作者。社交网站记录人们之间的交互,搜索引擎记录人们的搜索行为和搜索结果,电子商务网站记录了人们购买商品的喜好,微博网站记录了人们所产生的即时想法和意见,图片视频分享网站记录了人们的视觉观察,百科全书网站记录了人们对抽象概念的认识,幻灯片分享网站记录了人们的各种正式和非正式的演讲发言,机构知识库和开放获取期刊记录了学术研究成果等。归纳起来,来自互联网的数据可以划分为下述六种类型。
1.视频
视频图像是大数据的主要来源之一,电影、电视节目可以产生大量的视频图像,各种室内外的视频摄像头昼夜不停地产生巨量的视频图像。视频图像以每秒几十帧的速度连续记录运动着的物体,一个小时的标准清晰视频经过压缩后,所需的存储空间为 GB数量级,对于高清晰度视频所需的存储空间就更大了。
2.图片与照片
图片与照片也是大数据的主要来源之一,截至 2011年 9月,用户向脸谱( Facebook)上传了 1400亿张以上的照片,脸谱是美国最大的一个社交网站,类似于中国的新浪微博。如果拍摄者为了保存拍摄时的原始文件,平均每张照片大小为 1MB,则这些照片的总数据量就是 140G×1MB=140PB,如果单台服务器磁盘容量为 10TB,则存储这些照片需要 14000台服务器,而且这些上传的照片仅仅是人们拍摄到的照片的很少一部分。此外,许多遥感系统一天 24小时不停地拍摄并产生大量照片。
3.音频
DVD光盘采用了双声道 16位采样,采样频率为 44.1kHz,可达到多媒体欣赏水平。如果某音乐剧的长度为 5.5min,计算其占用的存储容量为
存储容量 =(采样频率 ×采样位数 ×声道数 ×时间) / 8
= (44.1×1000×16×2×5.5×60)/8
= 12.6MB
4.日志
网络设备、系统及服务程序等,在运行时都会产生 log的事件记录,每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。Windows网络操作系统设有各种各样的日志文件,如应用程序日志、安全日志、系统日志、 Scheduler服务日志、 FTP日志、WWW日志、DNS服务器日志等,并且根据系统开启的服务的