《语义网技术体系》简要回顾万维网的发展历史及体系结构,系统介绍语义网的基本理念及技术体系,包括 RDF数据、Web本体、语义网推理技术和 RDF数据查询技术等方面的基本概念和前沿研究;详细阐述语义网应用中的基础技术,包括语义网搜索技术、语义网本体匹配技术和语义网浏览技术,并介绍作者在语义网搜索、语义网本体匹配和语义网浏览方面的研究成果.
《语义网技术体系》适合于语义网及相关领域的研究人员语义网应用开发者以及想要深入了解语义网技术体系的读者.《语义网技术体系》也可作为信息技术类学科的研究生与高年级本科生相关课程的参考用书.
前言
第1章 绪论
1.1 万维网简介
1.2 Web应用开发技术
1.3 语义网简介
1.4 语义网应用
1.5 本书组织
参考文献
第2章 RDF数据
2.1 RDF数据模型
2.2 RDF语法
2.3 RDFa
2.4 链接数据
2.5 链接数据平台
2.6 语义网链接结构分析
参考文献
第3章 Web本体
3.1 本体
3.2 RDFS
3.3 OWL
3.4 本体构建
3.5 本体维护
参考文献
第4章 语义网推理技术
4.1 RDFS推理
4.2 描述逻辑简介
4.3 OWL1DL
4.4 OWI2DL
4.5 基于规则的推理
参考文献
第5章 RDF数据查询技术
5.1 SPARQL查询语言
5.2 RDF数据存储技术
5.3 SPARQL查询处理技术
5.4 基于规则的查询应答技术
参考文献
第6章 语义网搜索技术
6.1 实体搜索技术
6.2 关联搜索技术
6.3 SPARQL查询的生成技术
6.4 本体搜索技术
参考文献
第7章 语义网本体匹配技术
7.1 本体匹配
7.2 语义网对象的共指消解
7.3 本体与关系数据库间的匹配
参考文献
第8章 语义网浏览技术
8.1 典型的语义网浏览器
8.2 语义网浏览器的基本功能
8.3 语义网浏览系统SView
8.4 语义网浏览技术的发展方向
参考文献
第9章 总结与展望
附录 常用缩略词及中文译名
第1章 绪论
本章首先回顾万维网的发展历史及体系结构,简述万维网应用开发技术;接着,概述语义网及其技术体系,并简要介绍语义网应用现状;*后说明本书内容框架是如何组织的。
1.1 万维网简介
1990年,蒂姆 伯纳斯-李(Tim BrnersgLeee )在欧洲粒子物理实验室(CERN)成功地实现了万维网(World Wide Web,WWW 或 Web)的一个原型系统。按照蒂姆的*初设想,万维网是一个包含互相链接的超文本文件的系统,这些文件可以通过互联网(Internet)访问。1993年,美国国家超级计算应用中心(NCSA)发布了一个称为“Mosaic”的万维网浏览器,它是**个能够在同一窗口中显示图像和文本的浏览器。同年,CERN 宣布万维网技术可以被任何人自由地使用,无需付费。1994年,万维网联盟(World Wide Web Consortium,W3C)宣告成立,它致力于开发高品质的技术标准,以引领万维网充分发挥其潜力。从此,万维网很快发展成为人类有史以来*庞大的信息系统,并改变着人类社会的方方面面。
在万维网出现之前,历***著名的超文本/超媒体系统为道格拉斯 恩格尔巴特(Douglas Engelbart)于1968年演示的在线系统(oNLine Sstemy ,NLS)。该系统首次向公众展现了计算机鼠标、超媒体和屏幕上的视频会议等多项崭新技术。而超文本(hypertext)和超媒体(hypermedia)这两个技术名词是由西奥多 纳尔逊(Theodor Nlsone )于1963年定义的。在20世纪60年代,随着计算机文字处理系统的发展,诞生了多种标记语言,包括国际商业机器公司(IBM)的通用标记语言(General izedmarkup language,GML),它的基本思想是把文档的内容结构与样式分开,推崇描述型标记,提倡标记的严格性和使用的灵活性。标准的通用标记语言(standard generalized markup language,S-ML)正是以-ML为蓝本制定的,于1986年成为国际标准化组织的一个标准(ISO8879:1986)。也正是在20世纪80年代,以 TCP/IP(传输控制协议/互联网协议)为基础的互联网逐步形成并快速发展起来。
在发明万维网时,蒂姆 伯纳斯-李的出发点是将超文本嫁接到互联网上,并提出一个互相链接的超文本文件系统的设想,这些文件可以通过“浏览器”来查看,为此,他设计了超文本标记语言(hypertext markup language,HTML)用来书写万维网中的文件。事实上,HTML是一个基于 S-ML的标记语言,可提供有限种标记,支持超链接并注重文本的呈现效果。为了统一地标识万维网中的文件,蒂姆又提出了通用文件标识符(universal document identifier,UDI)。后来,UDI演变为统一资源定位符(uniform resource locator,URL),逐渐地 URL 被统一资源标识符(uniform resource identifier,URI)所替代。URI可以用来标识任何需要标识的资源。由于 URI被限制在 ASCII字符集的一个子集,因此国际化资源标识符(internationalized resource identifier,IRI)被提出来。IRI可以容纳通用字符集(ISO/IEC10646),其中包括汉字、韩文和斯拉夫字母等。目前,绝大部分的IRI仍然是URI,因此本书是以 URI替代IRI来阐述相关技术。
为了让互联网用户能够按照一种规范的方式访问万维网中的文件,蒂姆及其合作者设计了超文本传输协议(hypertext transfer protocol,HTTP)。HTTP是一种建立在TCP之上的应用层协议,是一种请求/响应式的协议。通常,一个Web站点(简称网站)是指互联网上的某个计算机系统,实现了 HTTP服务端接口,并提供诸多网页,包括 HTML文件以及其他可访问的文件,供互联网用户使用Web浏览器(简称浏览器)来查看。而一个浏览器不仅要实现 HTTP客户端接口,而且能够对接收到的网页按照其格式呈现出来。至1990年年底,蒂姆 伯纳斯-李在CERN实现了世界上**个浏览器(称为“World Wde Wi eb”,后来改名为“Nextus”)和**个 HTTP服务器软件(称为“CERNhttpd”),并开发了世界上**个网站(网址:http://info.cern.ch),这也标志着万维网的诞生。
作为互联网上的一个分散式信息系统,万维网具有跨平台和开放等特性,并具备优异的易用性和易扩展性,这使得万维网很快发展成为人类有史以来*庞大的超媒体信息系统。作为互联网上**影响的一种应用,万维网也反过来拉动了互联网的发展壮大。紧接着,万维网的商业化应用掀起了互联网经济的浪潮。
关于万维网的原创设计及终极命运,建议读者阅读文献(Berners-Lee& Fis-chetti,2000)。该文献能够帮助大家理解万维网的本质,充分利用万维网发挥效用。在该文献中,万维网创始人蒂姆 伯纳斯-李不仅指出了在万维网上找到商业和社会力量之间理想平衡的需要,而且还对万维网当前状态提出了一些批评意见。*后,蒂姆 伯纳斯-李就万维网的未来给出了他自己的计划,并呼吁程序员、计算机制造商以及社会组织积极支持和参与,使其成为现实。
1.2 Web应用开发技术
根据万维网体系结构(Jacobs&Walsh,2004),万维网的基础技术包括URI、HTML和 HTTP。其中,HTTP规范了浏览器和 Web服务器之间的交互行为,这样万维网用户只需一个浏览器(比如 Mozilla Frefoxi )就能自如地浏览有关网站的内容,而网站建设者在安装某个 Web服务器(比如 Apache HTTPserv-er)之后就可以轻松地部署一个站点,包括配置有关文件的 URI(俗称“网址”),当然,网页的制作通常会借助某个 HTML文档写作工具来完成。
早期,万维网上的内容大部分是静态的网页。为了生成能够反映用户输入的动态网页,通用网关接口(C-I)技术就诞生了。它是 Web服务器与外部应用之间的交互接口,也打开了 Web应用的大门。Web应用通常是指在计算机网络上可以使用浏览器访问到的应用系统,通常会使用 HTTP、HTML和 URI等基本的Web技术以及数据库管理技术。后来,以Java Srvlete 为代表的 Web应用服务器技术逐渐兴起。与此同时,以Java Sric pt脚本语言为代表的客户端技术为Web应用的用户界面和人 机 交 互 带 来 了 动 态 性。特 别 地,Ajax(asynchronous Java Sricpt and XML)技术能够进一步增强Web应用的互动能力。
关于可扩展标记语言(extensible markup language,XML),它可以粗略地看作SGML(标准通用标记语言)的一个子集。S-ML 的基本思想是把文档的内容结构与样式分开,推崇描述型标记,提倡标记的严格性和使用的灵活性。需要指出的是,SGML是 一个元语言,可以用来定义特定的标记语言。事实上,HTML就是一个用SGML定义的标记语言。作为一个特定的标记语言,HTML只提供有限种标记,且注重于文本的呈现效果,难以满足万维网上数据表示和交换的发展要求。XML比SGML简洁很多,并继承了SGML的大部分优点,也是一个元语言,可以用来定义应用领域中所需的标记。目前,XML 已成为万维网上数据表示和交换的一个重要语言。
伴随着Web应用的发展,Web应用之间的互操作问题逐渐显现。为解决这一问题,Web服务(Webservice)及相关技术被提出。Web服务是这样的一个软件系统,它有一个用 WSDL(Web services de******ion language)描述的接口,以便在互联网上被其他程序或者Web服务所调用。通常,一个 Web应用可以被包装成一个Web服务,而服务的调用大多采用基于 HTTP之上的 XML消息格式。随着Web服务逐渐增多,Web服务的发现及组合技术逐渐受到关注。
万维网的快速发展带来了信息爆炸,如何帮助用户快速地找到他们所需的信息则成为一个重要问题。很自然地,众多 Web搜索引擎相继出现,而基于关键词的全文检索很快成为一种常规的搜索模式。Web搜索引擎的基础技术主要包括页面获取、索引和排序等,在这些基本技术日益成熟的同时,Web搜索领域的新技术层出不穷,比如 Web广告模型、查询扩展和语义搜索等。另外,Web上大量的数据来自背后的关系数据库,这就引发了对于深网(deepWeb)数据的探究,从而也推动了包括 Web信息抽取和数据挖掘在内的 Web数据管理技术的深入发展。
1.3 语义网简介
经典的万维网是一个互相链接的超媒体文件系统,这些文件(文本、图像或视频)是供人们直接浏览的,而计算机却难以理解这些文件中的内容,从而就难以复用和集成万维网中的数据来提供更有用的信息服务。为此,W3C于2001年开始建立语义网(Semantic Web)行动计划(http://www.w3。or/2001/sw/),共同开发一套技术规范,使得符合语义网技术规范的数据容易地被计算机所理解,让不同的应用之间能够更方便地共享和复用彼此的数据。也就是说,语义网是W3C进一步发展万维网的一个愿景,它提供这样的一个公共框架,使得数据的共享和复用可以跨越应用系统、企业和社区的边界;而在传统万维网上只有文档的交换和共享。图1-1是 W3C给出的语义网技术栈。
图1-1 语义网技术栈
语义网以资源描述框架(resource de******ion framework,RDF)作为基石。RDF是一个公共的数据模型,它以 RDF三元组(RDFtriple)作为基本的数据单元来描述资源的类型和属性,而一个 RDF 三元组由主语(subject)、谓语(predigcate)和宾语(object)3部分组成。其中,URI(统一资源标识符)可以出现在三元组中的任何位置,而空白节点(blanknode)不能作为谓语,字面量(literal)只能作为宾语出现。URI用来标识任何需要标识的资源,包括信息资源(比如一个网页)、现实世界中的事物(比如一本书)或者人们在社会实践中形成的概念(比如书和作者)等;空白节点只能作为局部的资源标识,不具备 URI的全局标识能力;字面量通常用来表示基本类型的数据,如字符串、整数和实数等。
本体(ontology)在语义网中扮演着重要的角色。在哲学领域,本体论主要探讨事物的基本特征及其分类体系。在人工智能及信息技术领域,本体论的概念被用在知识表示上,按照gruber(1993)的定义,一个本体是一个共享概念模型的显式的形式化规约。在语义网中,RDF 数据中使用到的类型和属性也需要给出一个明确的形式化规约,只有这样,应用程序才能理解数据的含义。通常,某个应用领域中一组相关的类和属性(统称术语)称为一个词汇表(vocabulary)。W3C在语义网技术体系中采用本体来规约词汇表。作为一个规约,本体需要通过某种语言表达。为此,W3C开发了 RDF词汇描述语言 RDFSchema和 Web本体语言OWL。这样,各个组织或机构可以使用 RDFSchema或 OWL 表示各自领域的本体,并发布在万维网上以共享。领域本体中的类型和属性可以用来描述相应领域中的事物及其联系,形成 RDF数据。基于共享本体的 RDF数据不仅能够实现语义的共享,而且使推理成为可能。事实上,RDFSchema和 OWL均定义了若干推理规则。例如,如果已知一个对象的类是“人”,又已知“人”是“动物”的一个子类,那么通过推理规则可以得知该对象也是一个“动物”,尽管这个事实可能在原始的数据中并未出现。运用推理技术使得信息提供者不必对所有信息全部罗列出来,应用