随着格式化全文数据的出现,基于全文数据的引文分析,或全文引文分析,变得更加方便。全文引文分析方法,通过识别和分析引文在施引文献正文中的具体引用位置、引用次数和引用语境,从而在微观上揭示引用的特征和规律,发现引用背后的动机和机理,识别引文在施引文献中的功能和作用。在对基于全文的引用行为研究进行综述的基础上,本文提出一种由引用位置、引用强度和引用语境组成的全文引文分析的研究框架,可以系统而全面地对科学论文正文中的引用信息进行分析和研究。
这可能是世界上第一部叫做“全文引文分析”的著作。当然,从学术的角度来看,这未必是一件值得骄傲的事情。一个选题如果过于小众,也可以以所谓的“新颖性”和“开拓性”自居。选一个别人还没有涉足的研究领域并非难事,难的是押中的这个领域将来是否能够脱离小众、成为主流,是否能够得到同行专家和学者的认可和肯定。否则,一项“开拓性”的研究选题就会陷入自娱自乐的尴尬境地,在坚持和放弃之间进退两难。这当然不是我愿意看到的局面。
当然,我也不相信这样的局面会发生在全文引文分析领域。虽然这-领域还处在研究范式形成的初期阶段,但我有着远超于此的信心和乐观。正如我的博士导师刘则渊教授在为本书所写的序言里所说,“全文科学文本蕴藏的丰富引文空间信息,是一片尚待开垦的处女地,为拓荒者提供了大展宏图的机遇与场所”。对于文献分析和科技评价领域有所涉足的同行专家来说,洞察基于全文数据的引文分析所能带来的研究前景并非难事。因此,我并不想在这里浪费读者的时间去论述全文引文分析这-领域的研究意义和学术价值,虽然在这方面我其实很有经验-在我博士论文的创新点和国家自然科学基金的申请书中,都有大量的论证全文引文分析是如何重要和前沿的段落。我更愿意借此机会回顾一下自己是如何进入全文引文分析这-领域的。
2011年,我最早进入全文引文分析领域的时候,并没有“全文引文分析”这个术语。那年秋天,我正以大连理工大学联合培养博士生的身份,在美国费城的德雷塞尔大学跟随陈超美教授进行为期18个月的学习。时间已经过半,但是我关于科学家新陈代谢规律的研究还是没有大的突破,于是陈老师建议我换一个方向。那时候,他刚刚获得了Elsevier Consyn数据库的试用权限,可以批量下载Elsevier收录的期刊论文的XML格式的全文数据,他让我试试能不能从这些全文数据中挖掘出一些有意义的东西。多番尝试以后,我们都认为最有价值的信息是正文中出现的引用信息,比如引用的位置和引用的语境等。于是,我试着编写程序从中抽取并索引所有关于引用的信息,同时也对全文的章节结构进行解析和切分,以便判断引用所在的章节位置。
程序的编写持续了数周,以Journal of Informetrics期刊所载论文为案例而做的引用信息抽取工作终于完成,这些引用信息被分别存放到MySQL数据库的几个表中,等待随后进行的分析和解读。这时候,设计一个全面而系统的分析和解读框架,以确定我接下来的研究边界,是首先需要完成的任务。在大量文献研读的基础上,我最终选择引用位置、引用强度和引用语境这样三个“完备正交”的研究维度,作为我这一研究的总纲领。
胡志刚(1984-),男,山东济宁人,大连理工大学科学学与科技管理研究所讲师、博士后。2006年本科毕业于北京师范大学管理学院,2009年硕士毕业于中国科学院研究生院人文学院,2014年博士毕业于大连理工大学科学学与科技管理研究所并留校任教。2010~2012年间在美国德雷赛尔大学做联合培养博士生。
主持国家自然科学基金青年项目1项,中国博士后基金资助项目1项,参与其他国家、省市级和其他委托项目10余项。参与编写或翻译出版学术专著3部,在Journal of Informetrics、Scientometrics、《情报学报》、《国书情报工作》、《科学学与科技管理》等期刊发表论文30余篇。
序迈向引文分析4.0时代
前言
全文引文分析:引文分析的新阶段
1.1 引文分析的诞生和发展
1.2 对引文功能和引用动机的探索
1.3 全文引文分析应运而生
1.4 全文引文分析:新的开始
位置、强度和语境:全文引文分析的三个维度
2.1 引用位置:where to cite
2.2 引用强度:how to cite
2.3 引用语境:why to cite
从引文到引用:全文引文分析的研究进路
3.1 引文和引用:两个不同的概念
3.2 引用:全文引文分析的对象
3.3 引文特征与引用特征:全文引文分析的框架
学术论文文本:全文引文分析的数据基础
4.1 学术论文的历史演变
4.2 PDF文档:学术论文的电子化
4.3 HTML/XML文档:学术论文的结构化
4.4 常见的全文数据库
4.5 XML格式学术论文的典型架构
引用信息抽取:搭建一个全文引文分析的系统
5.1 全文中学术信息的提取
5.2 构建面向XML格式全文的引文分析系统
5.3 数据层:引用信息的提取
5.4 数据层:引用信息的存储
5.5 用户层:引用信息的检索
5.6 用户层:引用信息的可视化
5.7 全文引文分析的案例分析
引用位置分析:可视化的展现
6,1学术论文的正文结构
6.2 引用在学术论文中的位置分布
6.3 引用位置与引文特征之间的关系
6.4 引用位置的基本特征
引用强度分析:正文中的多引现象
7.1 引文的引用强度分布分析
7.2 引用强度与引用位置的关系
7.3 引用强度与引文特征的关系
7.4 引用强度的基本特征
引用语境分析:内容词与线索词
8.1 引用语境的基本特征
8.2 引用语境与引用特征的关系
8.3 引用语境与引文特征的关系
8.4 引用语境的基本特征
断章取义:引用位置在科学知识图谱构建中的应用
9.1 科学知识图谱方法及其功能
引新吐故:引用强度在论文评价中的应用
寻词摘句:引用语境在文献检索中的应用
参考文献
附录
彩图