《高等分层分位回归建模理论》全面、系统、严格地阐明分层分位回归建模理论与方法,并尽力反映复杂分层数据分析国际前沿研究. 内容涉及分层线性分位回归模型、分层广义线性分位回归模型、分层非线性分位回归模型、分层半参数分位回归模型等该领域前沿课题。
适读人群 :《高等分层分位回归建模理论》可作为统计学及其相关领域的本科生、研究生的教学参考书,也可供教师和科技人员参考.
《高等分层分位回归建模理论》用严格的数学语言对分层分位模拟的现代面貌做较为详细的介绍。
《高等分层分位回归建模理论》的特点之一是内容全新、理论性强,介绍近年来国际上关于分层分位回归建模理论与方法的许多新成果。其中不乏作者在该领域研究中取得的一些成果。另一个特点是取材全部来自于国际一流学术期刊杂志上的代表性文章,信息量大、内容权威。
上篇 分层结构数据均值建模理论、方法
第1章 分层线性模型
1.1 引言
1.1.1 背景
1.1.2 复杂数据概念
1.1.3 传统模型
1.1.4 主要参考文献
1.2 极大似然法
1.2.1 引言
1.2.2 EM算法的定义
1.2.3 一般性质
1.2.4 主要参考文献
1.3 EM算法
1.3.1 介绍
1.3.2 协方差已知情况下的理论
1.3.3 方差和协方差估计
1.3.4 计算
1.3.5 主要参考文献
1.4 迭代广义最小二乘法
1.4.1 引言
1.4.2 基本模型
1.4.3 估计
1.4.4 误差方差、协方差及误差协方差矩阵逆
1.4.5 随机系数
1.4.6 参数限制
1.4.7 解释变量有测量误差的估计量
1.4.8 讨论
1.4.9 主要参考文献
1.5 得分算法
1.5.1 引言
1.5.2 模型
1.5.3 对数似然函数
1.5.4 二水平嵌套
1.5.5 期望信息阵、雅可比行列式以及对数似然
1.5.6 EM算法
1.5.7 多于两水平嵌套
1.5.8 主要参考文献
1.6 Newton-Raphson算法
1.6.1 引言
1.6.2 计算方法
1.6.3 对数似然的导数
1.6.4 矩阵分解
1.6.5 参数σ与D的估计
1.6.6 讨论与延伸
1.6.7 主要参考文献
1.7 贝叶斯法
1.7.1 引言
1.7.2 三种情况
1.7.3 协方差结构未知时的估计
1.7.4 协方差结构未知的例子
1.7.5 多元回归方程间的可交换性
1.7.6 多元回归方程中的可交换性
1.7.7 主要参考文献
第2章 分层广义线性模型
2.1 模型
2.1.1 介绍
2.1.2 分层广义线性模型
2.1.3 典则连接模型
2.1.4 对数连接模型
2.1.5 典则连接模型
2.1.6 对数连接模型
2.1.7 最大h似然估计的性质
2.1.8 估计过程
2.1.9 推广
2.1.1 0 讨论
2.1.1 1 主要参考文献
2.2 抽样方法
2.2.1 引言
2.2.2 随机效应广义线性模型
2.2.3 贝叶斯公式
2.2.4 Gibbs抽样
2.2.5 条件分布
2.2.6 讨论
2.2.7 主要参考文献
第3章 分层非线性模型
3.1 二阶广义估计方程
3.1.1 引言
3.1.2 模型
3.1.3 估计
3.1.4 条件方差一协方差的结构
3.1.5 惩罚尾似然和惩罚扩展最小二乘的关系
3.1.6 渐近性质
3.1.7 讨论
3.1.8 主要参考文献
3.2 混合估计
3.2.1 引言
3.2.2 3个估计量
3.2.3 混合估计
3.2.4 渐近理论
3.2.5 推广
3.2.6 讨论
3.2.7 主要参考文献
第4章 分层半参数模型
4.1 分层半参数非线性模型
4.1.1 引言
4.1.2 半参非线性混合效应模型
4.1.3 估计
4.1.4 计算
4.1.5 统计推断
4.1.6 结论
4.1.7 主要参考文献
4.2 联合模型
4.2.1 背景
4.2.2 模型与估计方法
4.2.3 渐近性质
4.2.4 稳健性
4.2.5 讨论
4.2.6 主要参考文献
下篇 分层结构数据的分位回归模型理论、方法
第5章 分位回归引论
5.1 引言
5.1.1 分位数
5.1.2 分位回归
5.1.3 分位回归方法的演变
5.2 估计方法和算法
5.2.1 参数分位回归模型
5.2.2 Box-Cox变换分位数模型
5.2.3 非参分位回归模型
5.2.4 窗宽选择
5.2.5 半参分位回归模型
5.2.6 两步法
5.3 应用领域
5.3.1 报酬与市场价值
5.3.2 分位数Engel曲线
5.3.3 婴儿体重的决定因素
5.3.4 医学中参考图表
5.3.5 生存分析
5.3.6 风险值与分布尾部
5.3.7 经济
5.3.8 环境
5.3.9 异方差性检测
5.4 其他方面的进展
5.4.1 时间序列
5.4.2 拟合优度
5.4.3 贝叶斯分位回归
5.5 主要参考文献
第6章 分层样条分位回归模型
6.1 引言
6.2 非参估计
6.3 Wald型检验
6.4 实际应用
6.4.1 第一层:时间序列模型
6.4.2 第二层:横截面模型
6.4.3 条件分位数分层模型
6.5 结论
6.6 主要参考文献
第7章 分层线性分位回归模型
7.1 引言
7.2 模型界定
7.3 EQ算法
7.3.1 Q步
7.3.2 E步
7.3.3 迭代
7.3.4 初始值选取
7.4 大样本性质
7.5 主要参考文献
第8章 分层半参数分位回归模型
8.1 分层半参数分位回归
8.2 引言
8.3 模型和估计
8.4 渐近结果
8.5 结论
8.6 主要参考文献
第9章 复合分层线性分位回归模型
9.1 复合分层线性分位回归
9.2 引言
9.3 模型
9.4 估计
9.5 大样本性质
9.5.1 误差项为正态分布情形
9.5.2 误差项分布非正态情形
9.6 讨论
9.7 主要参考文献
第10章 复合分层半参数分位回归模型
10.1 复合分层半参数分位回归
10.2 引言
10.3 模型
10.4 估计与算法
10.5 大样本性质
10.6 讨论
10.7 主要参考文献
第11章 分层空间模型的逆问题
11.1 分位耦合
11.2 引言
11.3 分位耦合
11.4 分层序列空间模型
11.4.1 模型
11.4.2 耦合步骤
11.4.3 自适应齐性诊断
11.5 非渐近神谕不等式
11.5.1 估计
11.5.2 权重序列的神谕性质
11.5.3 数据驱动的权重序列的选择
11.6 主要参考文献
参考文献
索引
《高等分层分位回归建模理论》:
上篇
分层结构数据均值建模理论、方法
第1章 分层线性模型
1.1 引言
1.1.1 背景
1.分层结构数据很普遍
数据存在于特定的时间和空间中,其表现形式通常是复杂的分层结构,这是一种非常普遍的现象.比如,公司在制定决策以便提高劳动生产率方面,显然工人和公司都是分析的对象.对这两个层次的变化都必须进行考量.其实这样的数据就有着一种分层结构:工人嵌套在公司里.又如,在研究国家经济的发展与影响生育率的教育时,家庭和国家都是研究的对象,前者嵌套在后者之中,这基本的数据结构也是分层的.再给出一个例子:关于教育方面的数据,学生被分成班级,班级嵌套在学校里,学校上面有社区,社区上面还有市、省、国家等。具有分层结构的数据是一种普遍现象.随着科学技术的飞速发展,当今世界许多科学研究领域主要面临的挑战是急剧增长的高维多元复杂分层数据,这种类型的数据普遍存在.有关这种类型的数据的有效分析无论是在理论研究方面还是在经验研究方面都引起了广泛的关注.本书着力研究如下6大类型的高维空间里的分层结构数据:①空间分层数据(hierarchical data);②时间纵向数据(longitudinal data);③重复测量数据(repeated measurement data);④广义聚类数据(generalized clustered data);⑤名义分类数据(nominal categorical data);以及⑥有序分类数据(ordinal categorical data)等.如何从中挖掘出有用的信息,找出数据掩盖下的事物存在与发展的基本规律,促进统计学学科的发展,推动若干重要的相关领域及某些科学前沿取得突破,这些正是本书研究的目的。2.模型名称
由于分层数据分析在各学科领域越来越受到重视,所以相关的研究显得异常活跃,文献中出现了各种各样的称谓.在社会学研究方面,这些模型指分层线性模型(Goldstein,1995; Mason et al.,1983);在生物测定学方面,这些术语普遍指混合型效应模型和随机效应模型(Elston和 Grizzle,1962; Laird和 Ware,1982; Singer,1998);在计量经济学文献中,也称之为随机系数模型(Rosenberg,1973; Longford,1993);而在统计文献中则称之为协方差成分模型(Dempster et al.,1981; Longford,1987).本书之所以采用分层线性模型这个术语,是因为它表达了数据的一个重要结构特点,这种数据使用范围广,常见于增长性研究、机构效应和综合研究.这个术语是由 Lindley和 Smith(1972), Smith(1973)引进的.在这种前提下, Lindley和 Smith详细阐述了复杂的误差结构嵌入数据的普遍框架.不过后续的研究曾经一度衰落,因为这些模型的使用需要对不平衡的数据进行协方差成分的估计.除了一些非常简单的问题之外,在20世纪70年代早期没有一种全面的估计方法行得通. Dempster等(1977)研究了 EM的算法,结果使之有了必要的突破:一种概念上的可行和协方差成分估计的广泛应用方法. Dempster等(1981)证明了这种分层数据结构方法的合理性. Laird和 Ware(1982), Strenio, Weisberg和 Bryk (1983)把这种方法应用到增长性研究方面,而 Mason等(1983)则把它应用到多层结构横截面数据方面.后来,通过对最小二层重新反复地广泛使用和一种 Fisher得分算法,其他的多种协方差成分估计方法也就应运而生了(Goldstein,1986)。贝叶斯方法在这种情况下提供一种有意义的可选择方法.标准误差比在 ML(极大似然)下将趋向于更实际.而且,通过提供感兴趣的每个参数的后验分布,贝叶斯方法提供有关研究问题的多种有兴趣的图表与数量证据的总结.贝叶斯方法的出现并不新鲜.比较新鲜的是较为方便的计算方法的出现,尤其是在分层数据和模型的背景下.这些新方法的进展是关于使用 Monte Carlo方法来估计在先前被当作难处理的背景下后验分布的规则系统族.这方法包括数据增广(Tanner and Wong,1987)和 Gibbs取样(Gelfand et al.,1990; Gelfand and Smith,1990)。3.分位回归
关于传统的分层模型所用的统计分析方法主要是均值回归.该方法有许多不足之处. Koenker和 Bassett (1978)提出了分位回归,它可以看成是将经典的最小二乘方法从估计条件均值模型扩展到估计条件分位函数组合的模型.一个重要特殊的情况就是中位数回归估计量,它是最小化绝对误差的和.其他的条件分位函数的估计方法是通过最小化绝对误差的非对称的加权和.简单地讲,均值回归研究的是给定解释变量后响应变量的平均变化趋势,而分位回归则试图全面刻画条件随机变量的各分位点随解释变量的变化情况,另外,它能估计出来的系数向量,即边际效应,对响应变量的离群观测值来说,是稳健的;给出在不同分位点上潜在的不同解,这具有很有用的解释意义。1.1.2复杂数据概念
众所周知,随着现代科学技术的飞速发展,许多科学研究领域产生了多种复杂数据.当然复杂数据的统计建模涵盖了许多当代统计分支,推动了当代统计学理论方法的进步与发展,并且其应用层面涉及生物信息学、流行病学和金融风险等,意义十分重大深远。概念界定:本书所研究的复杂数据的明显特征之一是:高维、高频、多元、复杂的“时空”分层等性质.数据分析方面的主要挑战来自:①在高维空间中直接进行系统收缩变得非常困难; ②一般高维函数的精确逼近很棘手; ③高维函数积分的实现变得不可能; ④对感兴趣的高维多元条件随机变量分布的全面刻画尚无先例可循; ⑤如果没有考虑普遍存在的复杂“时空”分层数据的特征,常常使得传统的统计方法表现不佳,甚至失效。高维多元复杂数据的统计分析是目前全世界统计学界面临的最大挑战,这无疑是当前统计学中的研究热点问题.本书以此选题,针对复杂数据相关问题开展研究。……
……