本书以Fillmore的框架语义学为核心,在吸收和借鉴已有成果的基础上,提出“面向领域的多语框架语义表示”(DOMLFSR)模式作为研究的理论模型。越-英-汉时事新闻框架网络构建是该理论模型的具体实践,探讨了具有一定普适性的领域多语框架网络构建方法,构建了较为丰富的越-英-汉框架语义资源。本书较为系统地将框架语义学思想运用于越南语词汇语义分析,提出了越南语框架语义核心依存图模型,设计并开发了多语种Web新闻语料抓取软件,探索了框架语义标注在事件抽取中的应用。
林丽,1979年6月生,四川成都人,外国语言学及应用语言学博士。现为解放军外国语学院讲师,主要从事语义知识库、越南语语言信息处理等方面的研究。公开发表学术论文30篇,其中被EI检索2篇,在《中文信息学报》《山东大学学报(理学版)》《解放军外国语学院学报》《山西大学学报(自然科学版)》《模式识别与人工智能》等核心期刊发表9篇。参与编写网络信息检索、越南语教学方面的教材3部。参与多项国家自然科学基金重大项目、教育部重大项目、河南省社科规划项目研究。
第一章 绪论
第一节 研究背景
第二节 研究内容
第三节 研究思路
第四节 学术创新
第五节 研究意义
第六节 使用资源
第二章 框架语义研究综述
一、相关语义理论模型
二、框架语义学的特点与优势
第三节 FrameNet述评
第四节 小结
第三章 面向领域的多语框架语义表示(DOMLFSR)模式
第一节 FrameNet语义表示模式
第二节 DOMLFSR对FrameNet语义表示模式的改进
第三节 DOMLFSR模式整体架构及核心内容
第四节 小结
第四章 越-英-汉时事新闻框架网络的体系构建
第一节 越-英-汉时事新闻框架网络语料制备——主题域层面的对应
第二节 领域词元集的采集和分类——语义域层面的整合
第三节 框架体系构建及其关系描述——框架层面的复用、整合及新建
第四节 框架元素的定义和描述——框架元素层面的整合
第五节 小结
第五章 越-英-汉时事新闻框架网络例句标注与词元库构建
第一节 待标注例句库构建
第二节 例句框架语义标注
第三节 词元库构建
第四节 小结
第六章 越-英-汉时事新闻框架网络应用实验
第一节 框架语义标注在事件抽取应用中的可行性论证
第二节 基于核心依存图(KDG)的事件信息抽取
第三节 基于框架元素格标(FK)的事件信息抽取
第四节 小结
第七章 结语
第一节 本书已经取得的研究进展和成果
第二节 存在的问题和下一步研究计
查看全部↓
第一章 绪 论
第一节 研究背景
据2014年3月12日统计数据①,Internet内容语种(Content languages for websites)世界排名前十位中包括联合国七种通用语种(英语、俄语、德语、西班牙语、法语、汉语、阿拉伯语)中除阿拉伯语外的六种。非通用语种中的日语、葡萄牙语、意大利语、波兰语也进入排名前十。这表明,一方面Internet内容语种呈多语化发展趋势,另一方面,除英语外,其余各通用语和非通用语之间发展差距并不显著。
图1—1 2014年3月12日Internet内容语种统计
当前,多语种大数据信息呈现出爆炸增长态势,不论是否为通用语种,各语种网页绝对数量都相当庞大。如何利用现代语言学方法和信息处理技术对巨量的多语种新闻文本进行知识表示、知识获取,及时、准确地追踪和发现有效信息具有重要的理论价值和实践意义。
根据图灵机模型,现代计算机通常采用线性符号识别与转换对语言信息进行处理。当前脑科学研究认为,人脑处理语言信息时一般依赖存储的语义和情景知识进行并行扩散多路搜索。因此,计算机对文本的语义理解和知识表示成为目前制约语言信息处理发展的重要瓶颈之一。
对纷繁复杂的语义和情景知识进行形式化,将其表示为计算机可操作的符号,采用词汇语义知识库(Lexical Semantic Knowledge Database,LSKD)②的形式进行存储,是解决信息处理中语义问题的主流方法。LSKD构建已经成为语言信息处理的核心工程,基于LSKD的语义分析方法对各种语言信息处理应用(信息检索、信息抽取、自动文摘、自动问答、机器翻译、词义消歧)都不可或缺。
通过研究人们理解情景和故事时的思维过程,Minsky于1975年根据相应的心理学模型提出框架理论(Frame Theory)③,引起了学术界的广泛重视;“框架”随后成为人工智能界常用的一种知识表示方法;格语法的创立者Fillmore④借鉴“框架”概念,提出了框架语义学(Frame Semantics),将研究重点确定为对概念结构和句法-语义映射关系的描写,以此对句法-语义接口问题进行探索(林丽,毕玉德,2012:42-46)。可见,框架语义学研究方法符合语义知识表示的需求,其实质是一种语义知识的形式化表示方法。基于框架语义学理论构建的FrameNet⑤以事件框架的方式确定词汇化编码的语义信息(可转化为DAML+OIL语言)并预测这些信息如何在句法上得到投射。(俞士汶,黄居仁,2005:1-20) FrameNet以语义框架⑥作为基本描述单元,并建立了框架与框架之间的网状层级联系,具备完善的语义表示与描述体系,是LSKD中设计合理、构建完备、应用广泛的典型工程。
从具体应用上看,由于框架语义学和FrameNet以人的认知经验作为基础,对“概念结构”,即人类关于现实世界的语义知识进行阐释和描写,因此在一定程度上具有普适性。截至目前统计,各国研究学者基于框架语义学,以FrameNet为蓝本构建了19个语种⑦的平行框架网络资源。除我国民族语言维吾尔语和藏语外,其余17种外语均在有具体排名的Internet内容语种前36位之列(各语种具体排名见脚注中括号内数字)。也就是说,Internet内容语种前36位中,已研究构建FrameNet的语种比重为47.2%。由此可见,FrameNet的多语种扩展趋势与Internet内容语种的发展是一致的。可以据此推断FrameNet对于巨量网络信息处理是必要的。
基于以上背景,本书认为,一方面对巨量的多语种网络新闻文本知识表示、知识获取进行研究有迫切需求,而各语种,特别是非通用语在领域语料库构建、面向语言信息处理的语义研究方面尚显滞后和薄弱;另一方面,框架语义学和FrameNet在理论和实践两方面都可作为语义知识形式化表示的典范,在研究深度和广度上都有突出的贡献。
因此,充分发挥框架语义学和FrameNet的已有优势,以多语种网络新闻文本知识表示、知识获取为应用导向,探索更加高效、通用的框架语义表示模式并进行框架网络构建和应用探索具有较为重要的理论和现实意义。
第二节 研究内容
本书的研究目标是将框架语义学理论应用到非通用语(特别是缺乏严格意义上形态变化的孤立语)语义分析中,参照FrameNet工程构建面向领域的多语框架网络并基于此进行事件抽取应用探索,研究内容主要分为理论研究、工程实践和应用探索三个方面。
理论研究方面:通过系统研究框架语义学作为语义分析理论模型的的特点和优势,深入探究FrameNet作为语义知识工程所具有的多语种可扩展性和领域延伸性,分析其针对自然语言处理(NLP)⑧方面的不足之处,提出面向领域的多语框架语义表示(Domain-oriented Multilingual Frame Semantic Representation,DOMLFSR)⑨模式,确定该模式的整体架构及核心内容。
基于框架语义学的越南语词汇语义研究也是本书的研究内容之一。由于越南语和汉语同为孤立语的典型代表,本书也将从语言类型特点角度着重分析其在框架语义构造式系统方面的共性。
工程实践方面:将“越南语-英语-汉语”作为“非通用语-中介语-通用语”多语模式的一个研究实例,以时事新闻语料作为特定领域开展研究。设计并开发多语种Web新闻语料抓取软件,构建了越-英-汉语领域语料库;对各语种语料进行预处理并统计出高频动词词元;采集领域词元并进行语义分类,根据《同义词词林》(扩展版)为每一词元进行语义分类赋码,由此建成三语领域高频动词词元库;提出基于FrameNet 1.5数据的半自动框架库映射方法,通过三语领域高频动词词元库中的英语动词词元激活FrameNet相应框架进行复用和整合;设计并实现辅助建库、标注工具,构建领域越-英-汉框架网络(Domain-oriented Vietnamese-English-Chinese FrameNet,DOV-E-CFN)⑩,其主要工作包括搭建一定规模的时事新闻领域框架体系,确立框架关系,构建标注例句库和词汇库,统计词元配价模式等。
另一方面,基于FrameNet的越南语句法-语义基础资源构建也是工程实践的重要目标之一。原因在于越南语在Internet内容语种世界排名中列第19位11,目前使用人数超过9000万12,其重要性在亚洲,特别是东南亚地区更为明显。越南语信息处理在2000年后才正式开始起步,面向NLP的基础资源的建设还较为滞后。
应用探索方面:基于越-英-汉时事新闻框架网络(DOV-E-CFN),将框架语义分析方法与传统事件抽取方法进行对比,论证了框架语义标注方法在事件抽取中应用的可行性及优势,并分别基于核心依存图(kernel dependency graph,KDG)13和框架语义格标(frame element kasus,FK)探索其在新闻文本事件信息抽取中的应用。
本书的具体章节安排如下:
第一章为绪论,主要对本书的研究背景、研究内容及方法、学术创新、研究意义、结构和使用资源进行介绍;
第二章为框架语义研究综述;
……
查看全部↓