本书基于金融领域的另类数据, 提供了机器学习方法和数据源的实用概述。首次对另类数据进行了全面阐述, 为另类数据价值研究能够系统地呈现在读者面前提供了完美体验。全书分为另类数据基础与理论、另类数据的实际应用两个部分。作者多方阐述了另类数据的发展与挑战, 提供了大量有价值的案例研究和实际例子。为读者提供利用另类数据获益的理论与方法, 同时也是读者避开另类数据中复杂的理论与技术陷阱的指南。
目录
第一部分 简介与理论
第1章 另类数据:现状 3
1.1 引言 3
1.2 什么是“另类数据”? 5
1.3 另类数据的分类 6
1.4 另类数据的特征 8
1.5 为什么选择另类数据? 10
1.6 谁在用另类数据? 13
1.7 策略容量与另类数据 15
1.8 另类数据的维度 17
1.9 谁是另类数据的供应商? 21
1.10 买方对另类数据集的使用 23
1.11 小结 24
第2章 另类数据的价值 25
2.1 引言 25
2.2 投资价值的衰减 25
2.3 数据市场 27
2.4 数据的货币价值(第一部分) 29
2.5 评估(另类)数据策略,包括或不包括回溯测试 33
2.6 数据的货币价值(第二部分) 36
2.7 成熟另类数据集的优势 42
2.8 小结 43
第3章 另类数据的风险与挑战 44
3.1 数据中的法律问题 44
3.2 使用另类数据的风险 46
3.3 使用另类数据的挑战 47
3.4 汇总数据 53
3.5 小结 54
第4章 机器学习技术 55
4.1 引言 55
4.2 机器学习:定义和技术 55
4.3 选择哪种技术? 77
4.4 机器学习技术的假设和局限性 79
4.5 结构化图像 83
4.6 自然语言处理 87
4.7 小结 97
第5章 另类数据的使用过程 99
5.1 引言 99
5.2 进行另类数据之旅的步骤 100
5.3 组建使用另类数据的团队 108
5.4 数据供应商 110
5.5 小结 112
第6章 因子投资 113
6.1 引言 113
6.2 因子模型 114
6.3 横截面和时间序列交易方法之间的区别 120
6.4 为什么要进行因子投资? 120
6.5 使用另类数据输入的智能Beta指标 121
6.6 ESG因子 122
6.7 直接和间接预测 123
6.8 小结 125
第二部分 实 际 应 用
第7章 缺失数据:背景 129
7.1 介绍 129
7.2 缺失数据的分类 130
7.3 缺失数据处理的文献综述 132
7.4 小结 143
第8章 缺失数据:案例研究 144
8.1 引言 144
8.2 案例研究:在多个CDS时间序列中插补缺失值 145
8.3 案例研究:卫星图像 166
8.4 小结 170
8.5 附录:MICE程序概述 171
8.6 附录:本章使用的软件库 172
第9章 离群值(异常值) 174
9.1 简介 174
9.2 异常值定义、分类和检测方法 174
9.3 时间结构 176
9.4 全局与局部离群值、点异常和微簇 176
9.5 异常值检测问题的设置 177
9.6 异常值检测算法的比较评估 177
9.7 异常值解释方法 180
9.8 案例研究:联邦通信指数的离群值检测 185
9.9 小结 192
9.10 附录 193
第10章 汽车行业基本数据 196
10.1 引言 196
10.2 数据 197
10.3 方法一:间接法 201
10.4 方法二:直接法 213
10.5 高斯过程举例 228
10.6 小结 230
10.7 附录 230
第11章 调查和众包数据 236
11.1 引言 236
11.2 另类数据:调查数据 236
11.3 数据 238
11.4 产品 239
11.5 案例研究 240
11.6 关于调查的一些技术性考虑 245
11.7 众包分析师估计调查 245
11.8 Alpha获取数据 246
11.9 小结 247
11.10 附录 247
第12章 采购经理人指数 248
12.1 引言 248
12.2 PMI表现 249
12.3 GDP增长的即时预测 251
12.4 对金融市场的影响 252
12.5 小结 254
第13章 卫星图像和航空摄影 255
13.1 引言 255
13.2 美国出口增长的预测 257
13.3 汽车数量和零售商每股收益 258
13.4 利用卫星数据测算中国制造业PMI 264
13.5 小结 266
第14章 位置数据 268
14.1 引言 268
14.2 利用航运数据实现原油追踪 268
14.3 利用手机定位数据了解零售活动 271
14.4 出租车出行数据和纽约联储会议 278
14.5 公司商务机位置数据和并购 279
14.6 小结 281
第15章 文本、网页、社交媒体和新闻 282
15.1 引言 282
15.2 收集网络数据 282
15.3 社交媒体 283
15.4 新闻 292
15.5 其他网络来源 302
15.6 小结 303
第16章 投资者关注度 304
16.1 引言 304
16.2 度量投资者关注度的指标—工资单的读者群体 304
16.3 度量市场主体的指标—谷歌趋势 306
16.4 度量投资者焦虑情绪的指标—投资百科的搜索数据 308
16.5 运用维基百科了解加密货币的价格走势 311
16.6 通过各国网上关注度来了解外汇交易 311
16.7 小结 314
第17章 消费者交易 316
17.1 引言 316
17.2 信用卡和借记卡的交易数据 317
17.3 消费者收据 318
17.4 小结 320
第18章 政府、行业和公司数据 321
18.1 引言 321
18.2 使用创新性度量指标进行股权交易 321
18.3 量化货币危机风险 324
18.4 模拟中央银行干预货币市场 326
18.5 小结 328
第19章 市场数据 329
19.1 引言 329
19.2 机构外汇流量数据与外汇现货之间的关系 329
19.3 使用高频外汇数据理解流动性 333
19.4 小结 335
第20章 私募市场中的另类数据 337
20.1 引言 337
20.2 什么是私募股权公司和风险投资公司 337
20.3 私募股权数据集 339
20.4 理解私营企业的表现 340
20.5 小结 341
参考文献 342
原书作者介绍和中文版译者介绍 353
(1)原书作者介绍 353
(2)中文版译者介绍 354
第一部分 简介与理论
第1章 另类数据:现状
1.1 引言
另类数据这一话题在金融领域引发了热议。在本书中,我们力图详细讨论这一话题,展示如何利用另类数据来加强对金融市场的理解、提高收益和更好地进行风险管理。
本书的目标读者是通过非传统方法来寻求超额收益的投资者。这些方法与基本面分析以及单纯依靠金融市场中广泛存在的数据进行的定量(研究)方法不同。同时,本书也面向那些想要通过现有标准化和广泛应用的数据集中未出现的信息来识别会造成负面影响事件的早期信号的风险管理师 。
在编写本书时,对于另类数据是否能在投资过程中在更标准化的数据源之上增加价值,业内意见不一。报刊上有一些关于对冲基金和银行的新闻,它们已经尝试使用另类数据,但未能从中获取价值。然而,我们必须强调,另类数据中缺乏预测信号只是潜在失败的原因之一。实际上,我们将试图通过实际案例说服读者,在许多情况下,可以从另类数据中收集有用的信号。与此同时,我们还会解释为什么任何旨在提取和成功应用这些信号的策略都是算法、流程、技术和严谨的成本效益分析的结合。如果不能正确处理其中任一个,都会导致无法从另类数据中提取出有用的见解。因此,证明数据集中存在信号并不足以从卓越的投资策略中获益,这是因为还有许多其他微妙的问题在起作用,而这些问题大多是动态的,我们将在后面解释。
在本书中,我们将详细讨论可以使另类数据有效达到我们之前提到的目的的技术方法。这些技术属于机器学习(machine learning,ML)和人工智能(artificial intelligence,AI)领域。然而,我们不想用这些“深奥”的术语给人不必要的复杂印象。因此,我们采用一些更简单、更传统的方法,比如线性回归和逻辑回归 这些在金融界早已熟悉的方法。实际上,在许多情况下,使用更简单的方法从金融领域的另类数据集中获取信号往往非常有用。然而这并不是一本关于机器学习的教材,因此我们不会钻研每种方法的细节,我们只提供简练的介绍。必要时,我们会向读者推荐合适的参考文献。
这也不是一本关于技术和基础设施的书,尽管技术和基础设施是另类数据在现实世界中使用的基础。当然,这些包含数据工程的主题仍然非常重要。实际上,对于任何在数据中发现的信号,要在现实生活中发挥作用,这些主题都是必要的。然而,考虑到详细处理这些问题需要广泛和深入的专业知识,因此这些主题本身就值得被写成一本书。不过,必须强调的是,现实生活中我们所应用的提取信号的方法往往会受到技术的限制。我们是否需要一种算法来快速工作并实现实时交付,还是可以忍受一些延迟?因此,我们选择的算法类型在很大程度上取决于这样的技术限制。尽管本书不是严格意义上的技术性书籍,但我们还是会自始至终在这些重要的方面进行提示。
在本书中,我们会通过实际案例研究,展示如何利用不同的另类数据源来实现在金融领域中的不同目的。这些案例研究将包含各种数据源,并针对每个数据源详细讨论如何解决特定的问题,如通过基本行业数据来预测股票收益,或从调查指数来预测经济变量。这些案例研究是独立的,且能代表现实世界应用中可能出现的各种情况,涉及多个不同的资产类别。
最后,这本书不会成为所有现存另类数据源的目录簿。我们认为为现存另类数据源形成目录簿是徒劳的,因为在动态世界中,这种数据集的数量和种类每天都在增长。在我们看来,更重要的是如何使现有数据变得有用的过程和方法。在探索如何有效使用另类数据的过程中,我们也会非常务实地检查在筛选数据集时出现的常见问题,以及任何实际应用程序都可能出现的失误和错误。
本书的结构如下。第一部分是另类数据的概况,以及使其应用在投资决策中的过程和方法。第1章将定义另类数据并创建一个分类法。第2章将讨论如何为数据集定价这一微妙的问题。这一主题目前在业内正受到热烈讨论。第3 章将讨论另类数据相关的风险,尤其是法律风险,我们还将研究实施另类数据策略面对的技术性问题的细节。第4章介绍与理解另类数据相关的机器学习和结构化技术。同样,为了更深入地理解这些技术,我们将向读者推荐一些合适的参考文献。
第5章将研究测试背后的过程和以另类数据信号为基础的策略的实施。我们将推荐一种快速故障方法来解决问题。在一个数据集众多且进一步激增的世界里,我们相信这是一种较好的方法。
第二部分重点关注一些真实世界中的用例。第6章介绍了因子投资,并对如何将另类数据整合到分析框架中进行讨论。其中一个用例与投资策略没有直接关系,但在任何项目一开始的时候都是一个问题,必须在尝试其他事情之前予以处理。这个问题就是数据缺失(见第7章和第8章)。第9章解决了另一个在数据中普遍存在的异常值问题。之后,本书将研究投资策略和经济预测的用例,这些用例基于广泛的不同类型的另类数据集,它们存在于许多不同的资产类别中,包括公开市场,如股票和外汇。本书还研究了另类数据在理解私募市场方面的适用性(第20章),由于缺乏公开信息,私募市场通常是更加不透明的。本书还将讨论包括汽车供应链数据(第10章)、卫星图像(第13章)和机器可读新闻(第15章)的另类数据集。在许多情况下,本书还将通过针对不同资产类别的交易策略来对用例进行说明。
那么,在开启这段旅程之前,让我们再解释一下金融界所谓“另类数据”的含义,以及它为什么会成为如此热门的一个话题。
1.2 什么是“另类数据”?
众所周知,信息可以提供优势。因此,金融从业者历来试图收集尽可能多的数据。然而,随着时间的推移,这些信息的性质会发生变化,尤其是大数据革命 开始以来。从市场价格和资产负债表等“标准”来源发展到其他来源,特别是那些严格意义上不属于金融范畴的来源。例如,卫星图像、社交媒体、船舶移动和物联网。这些来自“非标准”源的数据被称为另类数据。
在实践中,另类数据有多个特征,我们在下面尝试列举出来。通常,它至少具有以下一个特征。
?相对来说,不常被市场参与者使用
?收集成本更高,因此购买(成本)价格也更高
?通常在金融市场外
?历史较短
?使用起来更具挑战性
我们必须注意到,构成另类数据的内容可能随着时间推移发生显著变化,这取决于它的可获得性,以及它在流程中的嵌入程度。显然,今天大多数金融市场的数据比几十年前更商品化也更容易获取。因此,它通常不被称为另类的。例如,股票收盘价的每日时间序列可以从许多途径轻易获取,因此它被认为是非另类的。相比之下,非常高频的外汇数据,尽管是金融数据,但更加昂贵、专业而小众。综合性的外汇交易量和流量数据也是如此,这些数据相对不易获取。因此,这些市场衍生的数据集可以被认为是另类的。数据集的成本和可用性很大程度上取决于几个因素,如资产类别和频率。因此,这些因素决定了是否给数据集贴上“另类”的标签。当然,我们不可能给出明确的定义,“另类”和“非另类”的界限也有些模糊。同样有可能的是,在不久的将来,我们认为“另类”的数据将会更加标准化和主流化。因此,它可能会失去“另类”的标签,而仅仅被称为数据。
近年来,另类数据的领域有了显著扩张。其中一个主要原因是产生数据的设备和流程激增。此外,与手动操作相比,许多数据可以自动记录。数据存储的成本也在降低,从而使将数据更长久地保存在磁盘上变得可行。世界上还充斥着“废气数据”,这些数据是由那些主要目的不是收集、生成和出售数据的流程产生的。从这个意义上讲,数据具有“副作用”。金融市场中废气数据最明显的例子就是市场数据。交易者在交易所和场外交易的基础上进行交易。每当他们发布报价或同意与交易对手按某个价格交易时,他们就创建了一个数据点。这个数据是作为交易活动的废气而存在的。发布市场数据的概念并不新鲜,多年来一直是市场的重要组成部分,也是交易所收入的重要组成部分。
然而,还有其他类型的废气数据被相对较少地使用。以一家大型新闻专线机构为例。作为日常工作的一部分,记者们不断地撰写新闻来将信息告知读者。这样每天会生成大量的文本,这些文本可以存储在磁盘上并进行结构化处理。像谷歌、Facebook和Twitter这样的公司,它们的用户产生了大量的数据,包括搜索、帖子和点赞。这些废气数据是用户活动的副产品,通过向用户投放广告来实现盈利。此外,我们每个人每次使用手机都会创建废气数据,创建我们的位置记录,并在网上留下数字足迹。
产生并记录这些废气数据的公司开始越来越多地考虑在本身组织之外通过数据获利的方法。然而,大多数废气数据仍未得到充分利用。此类数据被称为“暗数据”。它是内部的、通常被存档、一般无法访问,且其结构化不够完善,较难进行分析。它可以是已归档的电子邮件、项目通信等。一旦这些数据被结构化,这些数据对于生成内部见解以及外部获利方面更加有用。
1.3 另类数据的分类
正如已提到过的,我们不会描述所有另类数据的来源,但尝试提供一个足以涵盖实践中遇到的大多数情况的简洁分类。首先,我们可以将另类数据源划分为以下高级类别的生成体 :个人、机构 和传感器,以及这些生成体的派生或组合。后者很重要,因为它会导致数据集实际上的无限增长。例如,从数据中提取的一