语义网技术体系_瞿裕忠，胡伟，程龚　著_9787030422132

语义网技术体系

定价：¥59

中教价：¥46.02 (7.80折）

库存数： 0

丛书名：普通高等教育“十三五”规划教材

购买数量：

　　《语义网技术体系》简要回顾万维网的发展历史及体系结构,系统介绍语义网的基本理念及技术体系,包括 RDF数据、Web本体、语义网推理技术和 RDF数据查询技术等方面的基本概念和前沿研究;详细阐述语义网应用中的基础技术,包括语义网搜索技术、语义网本体匹配技术和语义网浏览技术,并介绍作者在语义网搜索、语义网本体匹配和语义网浏览方面的研究成果.

第1章绪论
本章首先回顾万维网的发展历史及体系结构，简述万维网应用开发技术；接着，概述语义网及其技术体系，并简要介绍语义网应用现状；*后说明本书内容框架是如何组织的。
1.1 万维网简介
1990年，蒂姆伯纳斯-李(Tim BrnersgLeee )在欧洲粒子物理实验室(CERN)成功地实现了万维网(World Wide Web，WWW 或 Web)的一个原型系统。按照蒂姆的*初设想，万维网是一个包含互相链接的超文本文件的系统，这些文件可以通过互联网(Internet)访问。1993年，美国国家超级计算应用中心(NCSA)发布了一个称为“Mosaic”的万维网浏览器，它是**个能够在同一窗口中显示图像和文本的浏览器。同年，CERN 宣布万维网技术可以被任何人自由地使用，无需付费。1994年，万维网联盟(World Wide Web Consortium，W3C)宣告成立，它致力于开发高品质的技术标准，以引领万维网充分发挥其潜力。从此，万维网很快发展成为人类有史以来*庞大的信息系统，并改变着人类社会的方方面面。
在万维网出现之前，历***著名的超文本/超媒体系统为道格拉斯恩格尔巴特(Douglas Engelbart)于1968年演示的在线系统(oNLine Sstemy ，NLS)。该系统首次向公众展现了计算机鼠标、超媒体和屏幕上的视频会议等多项崭新技术。而超文本(hypertext)和超媒体(hypermedia)这两个技术名词是由西奥多纳尔逊(Theodor Nlsone )于1963年定义的。在20世纪60年代，随着计算机文字处理系统的发展，诞生了多种标记语言，包括国际商业机器公司(IBM)的通用标记语言(General izedmarkup language，GML)，它的基本思想是把文档的内容结构与样式分开，推崇描述型标记，提倡标记的严格性和使用的灵活性。标准的通用标记语言(standard generalized markup language，S-ML)正是以-ML为蓝本制定的，于1986年成为国际标准化组织的一个标准(ISO8879：1986)。也正是在20世纪80年代，以 TCP/IP(传输控制协议/互联网协议)为基础的互联网逐步形成并快速发展起来。
在发明万维网时，蒂姆伯纳斯-李的出发点是将超文本嫁接到互联网上，并提出一个互相链接的超文本文件系统的设想，这些文件可以通过“浏览器”来查看，为此，他设计了超文本标记语言(hypertext markup language，HTML)用来书写万维网中的文件。事实上，HTML是一个基于 S-ML的标记语言，可提供有限种标记，支持超链接并注重文本的呈现效果。为了统一地标识万维网中的文件，蒂姆又提出了通用文件标识符(universal document identifier，UDI)。后来，UDI演变为统一资源定位符(uniform resource locator，URL)，逐渐地 URL 被统一资源标识符(uniform resource identifier，URI)所替代。URI可以用来标识任何需要标识的资源。由于 URI被限制在 ASCII字符集的一个子集，因此国际化资源标识符(internationalized resource identifier，IRI)被提出来。IRI可以容纳通用字符集(ISO/IEC10646)，其中包括汉字、韩文和斯拉夫字母等。目前，绝大部分的IRI仍然是URI，因此本书是以 URI替代IRI来阐述相关技术。
为了让互联网用户能够按照一种规范的方式访问万维网中的文件，蒂姆及其合作者设计了超文本传输协议(hypertext transfer protocol，HTTP)。HTTP是一种建立在TCP之上的应用层协议，是一种请求/响应式的协议。通常，一个Web站点(简称网站)是指互联网上的某个计算机系统，实现了 HTTP服务端接口，并提供诸多网页，包括 HTML文件以及其他可访问的文件，供互联网用户使用Web浏览器(简称浏览器)来查看。而一个浏览器不仅要实现 HTTP客户端接口，而且能够对接收到的网页按照其格式呈现出来。至1990年年底，蒂姆伯纳斯-李在CERN实现了世界上**个浏览器(称为“World Wde Wi eb”，后来改名为“Nextus”)和**个 HTTP服务器软件(称为“CERNhttpd”)，并开发了世界上**个网站(网址：http：//info.cern.ch)，这也标志着万维网的诞生。
作为互联网上的一个分散式信息系统，万维网具有跨平台和开放等特性，并具备优异的易用性和易扩展性，这使得万维网很快发展成为人类有史以来*庞大的超媒体信息系统。作为互联网上**影响的一种应用，万维网也反过来拉动了互联网的发展壮大。紧接着，万维网的商业化应用掀起了互联网经济的浪潮。
关于万维网的原创设计及终极命运，建议读者阅读文献(Berners-Lee& Fis-chetti，2000)。该文献能够帮助大家理解万维网的本质，充分利用万维网发挥效用。在该文献中，万维网创始人蒂姆伯纳斯-李不仅指出了在万维网上找到商业和社会力量之间理想平衡的需要，而且还对万维网当前状态提出了一些批评意见。*后，蒂姆伯纳斯-李就万维网的未来给出了他自己的计划，并呼吁程序员、计算机制造商以及社会组织积极支持和参与，使其成为现实。
1.2 Web应用开发技术
根据万维网体系结构(Jacobs&Walsh，2004)，万维网的基础技术包括URI、HTML和 HTTP。其中，HTTP规范了浏览器和 Web服务器之间的交互行为，这样万维网用户只需一个浏览器(比如 Mozilla Frefoxi )就能自如地浏览有关网站的内容，而网站建设者在安装某个 Web服务器(比如 Apache HTTPserv-er)之后就可以轻松地部署一个站点，包括配置有关文件的 URI(俗称“网址”)，当然，网页的制作通常会借助某个 HTML文档写作工具来完成。
早期，万维网上的内容大部分是静态的网页。为了生成能够反映用户输入的动态网页，通用网关接口(C-I)技术就诞生了。它是 Web服务器与外部应用之间的交互接口，也打开了 Web应用的大门。Web应用通常是指在计算机网络上可以使用浏览器访问到的应用系统，通常会使用 HTTP、HTML和 URI等基本的Web技术以及数据库管理技术。后来，以Java Srvlete 为代表的 Web应用服务器技术逐渐兴起。与此同时，以Java Sric pt脚本语言为代表的客户端技术为Web应用的用户界面和人机交互带来了动态性。特别地，Ajax(asynchronous Java Sricpt and XML)技术能够进一步增强Web应用的互动能力。
关于可扩展标记语言(extensible markup language，XML)，它可以粗略地看作SGML(标准通用标记语言)的一个子集。S-ML 的基本思想是把文档的内容结构与样式分开，推崇描述型标记，提倡标记的严格性和使用的灵活性。需要指出的是，SGML是一个元语言，可以用来定义特定的标记语言。事实上，HTML就是一个用SGML定义的标记语言。作为一个特定的标记语言，HTML只提供有限种标记，且注重于文本的呈现效果，难以满足万维网上数据表示和交换的发展要求。XML比SGML简洁很多，并继承了SGML的大部分优点，也是一个元语言，可以用来定义应用领域中所需的标记。目前，XML 已成为万维网上数据表示和交换的一个重要语言。
伴随着Web应用的发展，Web应用之间的互操作问题逐渐显现。为解决这一问题，Web服务(Webservice)及相关技术被提出。Web服务是这样的一个软件系统，它有一个用 WSDL(Web services de******ion language)描述的接口，以便在互联网上被其他程序或者Web服务所调用。通常，一个 Web应用可以被包装成一个Web服务，而服务的调用大多采用基于 HTTP之上的 XML消息格式。随着Web服务逐渐增多，Web服务的发现及组合技术逐渐受到关注。
万维网的快速发展带来了信息爆炸，如何帮助用户快速地找到他们所需的信息则成为一个重要问题。很自然地，众多 Web搜索引擎相继出现，而基于关键词的全文检索很快成为一种常规的搜索模式。Web搜索引擎的基础技术主要包括页面获取、索引和排序等，在这些基本技术日益成熟的同时，Web搜索领域的新技术层出不穷，比如 Web广告模型、查询扩展和语义搜索等。另外，Web上大量的数据来自背后的关系数据库，这就引发了对于深网(deepWeb)数据的探究，从而也推动了包括 Web信息抽取和数据挖掘在内的 Web数据管理技术的深入发展。
1.3 语义网简介
经典的万维网是一个互相链接的超媒体文件系统，这些文件(文本、图像或视频)是供人们直接浏览的，而计算机却难以理解这些文件中的内容，从而就难以复用和集成万维网中的数据来提供更有用的信息服务。为此，W3C于2001年开始建立语义网(Semantic Web)行动计划(http：//www.w3。or/2001/sw/)，共同开发一套技术规范，使得符合语义网技术规范的数据容易地被计算机所理解，让不同的应用之间能够更方便地共享和复用彼此的数据。也就是说，语义网是W3C进一步发展万维网的一个愿景，它提供这样的一个公共框架，使得数据的共享和复用可以跨越应用系统、企业和社区的边界；而在传统万维网上只有文档的交换和共享。图1-1是 W3C给出的语义网技术栈。
图1-1 语义网技术栈
语义网以资源描述框架(resource de******ion framework，RDF)作为基石。RDF是一个公共的数据模型，它以 RDF三元组(RDFtriple)作为基本的数据单元来描述资源的类型和属性，而一个 RDF 三元组由主语(subject)、谓语(predigcate)和宾语(object)3部分组成。其中，URI(统一资源标识符)可以出现在三元组中的任何位置，而空白节点(blanknode)不能作为谓语，字面量(literal)只能作为宾语出现。URI用来标识任何需要标识的资源，包括信息资源(比如一个网页)、现实世界中的事物(比如一本书)或者人们在社会实践中形成的概念(比如书和作者)等；空白节点只能作为局部的资源标识，不具备 URI的全局标识能力；字面量通常用来表示基本类型的数据，如字符串、整数和实数等。
本体(ontology)在语义网中扮演着重要的角色。在哲学领域，本体论主要探讨事物的基本特征及其分类体系。在人工智能及信息技术领域，本体论的概念被用在知识表示上，按照gruber(1993)的定义，一个本体是一个共享概念模型的显式的形式化规约。在语义网中，RDF 数据中使用到的类型和属性也需要给出一个明确的形式化规约，只有这样，应用程序才能理解数据的含义。通常，某个应用领域中一组相关的类和属性(统称术语)称为一个词汇表(vocabulary)。W3C在语义网技术体系中采用本体来规约词汇表。作为一个规约，本体需要通过某种语言表达。为此，W3C开发了 RDF词汇描述语言 RDFSchema和 Web本体语言OWL。这样，各个组织或机构可以使用 RDFSchema或 OWL 表示各自领域的本体，并发布在万维网上以共享。领域本体中的类型和属性可以用来描述相应领域中的事物及其联系，形成 RDF数据。基于共享本体的 RDF数据不仅能够实现语义的共享，而且使推理成为可能。事实上，RDFSchema和 OWL均定义了若干推理规则。例如，如果已知一个对象的类是“人”，又已知“人”是“动物”的一个子类，那么通过推理规则可以得知该对象也是一个“动物”，尽管这个事实可能在原始的数据中并未出现。运用推理技术使得信息提供者不必对所有信息全部罗列出来，应用

你还可能感兴趣

我要评论

您的姓名	验证码：
留言内容