本书基于SPSS 24.0编写,在修正并完善第2版的基础上完成的;每章均有大量分析案例,结合案例对SPSS各模块的统计分析功能和图形功能进行详细讲解。本书具体内容为SPSS简介、SPSS数据挖掘系统介绍、数据文件管理、数据预处理、基本统计分析、多重反应分析、均值的比较与检验、统计图制作、参数检验、回归分析、方差分析、相关分析、聚类分析、判别分析、因子分析、对应分析、信度分析、生存分析、对数线性模型、时间序列分析、缺失值分析,以及SPSS在财务智能、数据预测、股市分析、社会经济分析、金融数据分析等方面的数据挖掘应用。 本书*特点是抛弃了其他同类书籍中只介绍理论用法、缺乏案例分析的弊端,全书给出大量数据挖掘分析案例,并配有视频讲解,为读者展示SPSS在数据分析、信用风险管理、直销分析、社会经济分析等实际项目中的应用。
原版图书多年畅销,并改正第2版的错误,具有以下特点: ① 直观易懂性。 ② 先进性。 ③ 实用性。 ④ 结构清晰,讲解详尽。 ⑤ 全部的案例数据、程序与多媒体示范相结合。
再版前言
SPSS(Statistical Product and Service Solutions,统计产品和服务解决方案)是当今国际上最流行的统计分析软件之一,具有界面友好、统计功能强大、前后处理功能完善等优点。SPSS提供了广泛的数据收集、分类、分析和处理技术,揭示了数据模式、异常,以及关键变量和关系,帮助企业深入洞察企业信息,做出更好决策。本书从SPSS窗口操作出发,用案例的形式介绍SPSS数据分析在各个领域的广泛应用。
本书集作者多年使用SPSS的工作经验,并在改正第2版错误的基础上编写,在编写过程中,突出了以下特点。
① 直观易懂性。全书以图解实例的形式介绍基础知识和实例操作,所有的知识模块和案例分析都尽可能详细,模块操作采取中英文介绍的方式进行,直观易懂,使读者能够在最短的时间内获取最多的知识。
② 先进性。以最新的SPSS 24.0中文版为蓝本进行讲解,中英文并用,广泛吸收国内外优秀教材的成果进行内容编排,在系统介绍基本理论和基本方法的同时,注意介绍新的成熟的内容,以及统计学在实际问题中的应用。
③ 实用性。全书采用了基础知识介绍和实例操作相结合的方法,互相补充,书中的实例大多来源于经济生活之中,使读者在学完本书后能够快速将知识应用于实践。
④ 结构清晰,讲解详尽。全书采用基础知识窗口操作综合实例分析的循序渐进的讲解方法,一步一步地提高读者的SPSS操作知识,而且每个知识点和实例都尽可能详细地讲解,使读者学习起来轻松自如。
⑤ 全部的案例数据、程序与多媒体示范相结合。本书的配套光盘 中提供了所有实例的数据、SPSS窗口操作视频,读者可以在观看录像中增强对知识点的理解。
本书共24章,依次介绍SPSS基本文件管理、基本统计分析、高级统计分析、决策树模型、神经网络模型、信用风险、社会经济评价,以及各章节中的案例分析等内容。
第 1 章 SPSS软件概述。包括SPSS软件简介、SPSS操作入门、SPSS各个模块,以及SPSS帮助系统。
第 2 章 SPSS数据挖掘系统。包括数据挖掘概述、SPSS数据挖掘过程的介绍,以便掌握数据挖掘基本概念、流程等知识。
第 3 章 数据文件、变量与函数。包括SPSS的变量类型、SPSS数据文件的打开和保存,最后介绍SPSS的函数。
第 4 章 数据预处理。包括最基本的数据文件的整理和数据变量的变换和计算。
第 5 章 基本统计分析。包括基本概念、频数过程、描述性统计分析过程、数据探索性分析过程,以及交叉表分析过程。
第 6 章 参数检验。包括参数估计和假设检验的概述、平均值过程、单样本t检验、独立样本t检验以及成对样本 t 检验。
第 7 章 基本图形的绘制。包括统计图概述、条形图、折线图、面积图、饼图、高低图、质量控制图、箱图、散点图、直方图、P-P图和Q-Q图,以及时间序列图。
第 8 章 非参数检验。包括非参数检验概述、?2检验、二项分布检验、游程检验、K-S检验、两独立样本分布位置检验、多个独立样本分布位置检验、两个相关样本分布位置检验、多个相关样本分布位置检验。
第 9 章 方差分析。包括方差分析的基本原理、单因素方差分析、多因素方差分析和协方差分析。
第 10 章 回归分析。包括线性回归、非线性回归,以及Logistic回归过程。
第 11 章 相关分析。包括相关分析概述、双变量相关过程、偏相关分析过程,以及距离过程。
第 12 章 聚类分析。包括聚类分析的原理、快速聚类的分析过程、系统聚类的分析过程、二阶聚类的分析过程,以及实例分析。
第 13 章 判别分析。包括判别分析的基本原理、一般判别分析过程和逐步判别分析过程。
第 14 章 因子分析。包括因子分析概述以及SPSS中因子分析的操作过程。
第 15 章 对应分析。包括对应分析的基本原理、对应分析过程、最优标度分析过程。
第 16 章 可靠性和多维尺度分析。包括可靠性和多维标度的概述、分析过程及实例。
第 17 章 生存分析。包括生存分析概述、寿命表分析过程、Kaplan-Meier分析过程、Cox模型回归分析过程。
第 18 章 对数线性模型。包括对数线性模型概述、常规模型分析过程、分对数分析过程以及选择模型分析过程。
第 19 章 时间序列分析。包括时间序列概述、时间序列数据的预处理、指数平滑方法、ARIMA模型、季节性分解模型分析过程。
第 20 章 缺失值分析。包括SPSS中的缺失值理论概述、SPSS缺失值分析的操作过程,以及缺失值实例分析。
第 21 章 决策树模型。包括决策树模型概述、SPSS中决策树的参数设置,以及利用实例分析来介绍决策树模型的应用过程。
第 22 章 神经网络。包括神经网络概述、神经网络模型分析参数的设置及实例分析。
第 23 章 信用风险分析。包括主要信用风险概述,以及利用SPSS解决信用风险的各种实例分析。
第 24 章 SPSS在社会经济综合评价中的应用。包括SPSS的各种分析案例,包括沿海省市经济综合指标的主成分分析、中国城镇居民消费结构的聚类分析研究,以及我国内地可支配收入和消费性支出之间的回归分析。
本书主要由谢龙汉、蔡思祺完成,参与编著和光盘开发的还有林伟、魏艳光、林木议、王悦阳、林伟洁、林树财、郑晓、吴苗、李翔、朱小远、唐培培、耿煜、邓奕、张桂东、鲁力、于斌、尚涛、黄海等。由于时间仓促,书中难免有疏漏之处,请读者谅解。读者可通过电子邮件xielonghan @aliyun.com.cn与我们交流。
注:本书在介绍软件应用时,命令、选项等包含英文注释,有助于使用英文版软件的读者学习。
编著者
谢龙汉,华南理工大学机械与汽车工程学院,副院长。2002年毕业于浙江大学过程装备与控制工程专业本科,在浙江大学华工过程机械研究所取得硕士学位,之后在广州本田汽车有限公司研发中心工作过两年,2010年获得香港中文大学机械与自动化工程系的博士学位。国内外学术期刊上发表30多篇学术论文,在CAE方面出版过多部著作,写作经验丰富,作品技术含量高,实用性强。
目 录
第1章 SPSS软件概述1
1.1 SPSS简介1
1.2 SPSS操作入门2
1.2.1 软件安装、启动及退出3
1.2.2 操作环境4
1.2.3 系统参数的设置7
1.3 SPSS的帮助系统15
第2章 SPSS数据挖掘系统17
2.1 数据挖掘概述17
2.1.1 数据挖掘的含义17
2.1.2 数据挖掘与OLAP18
2.1.3 数据挖掘和统计学18
2.1.4 数据挖掘的目的19
2.1.5 数据挖掘应用19
2.1.6 数据挖掘流程19
2.2 成功的数据挖掘20
2.2.1 CRISP-DM方法论21
2.2.2 选择数据挖掘工具25
2.2.3 SPSS数据挖掘26
2.3 SPSS数据挖掘的过程29
2.3.1 商业理解29
2.3.2 数据理解29
2.3.3 数据准备29
2.3.4 数据模型30
2.3.5 评估30
2.3.6 部署31
第3章 数据文件、变量与函数33
3.1 SPSS的变量类型33
3.1.1 数据的输入34
3.1.2 变量的编辑35
3.2 数据文件的打开和保存36
3.2.1 打开SPSS数据文件37
3.2.2 打开其他格式的数据文件37
3.2.3 数据文件保存38
3.3 SPSS函数38
3.3.1 算术函数39
3.3.2 统计函数39
3.3.3 逻辑函数40
3.3.4 日期和时间函数40
3.3.5 随机变量函数42
3.3.6 反分布函数43
3.3.7 累计分布函数44
3.3.8 缺失值函数46
3.3.9 字符串函数47
第4章 数据预处理49
4.1 数据文件的整理49
4.1.1 个案排序(Sort Case)过程
50
4.1.2 转置(Transpose)过程50
4.1.3 合并文件(Merge File)过程
51
4.1.4 汇总(Aggregate)过程53
4.1.5 拆分文件(Split File)过程
55
4.1.6 选择个案(Select Cases)
过程55
4.1.7 个案加权(Weight Cases)
过程56
4.2 数据变量的变换和计算56
4.2.1 计算变量(Compute
Variables)过程57
4.2.2 计数(Count)过程59
4.2.3 重新编码(Recode)过程60
4.2.4 个案排秩(Rank Cases)
过程61
4.2.5 自动重新编码(Automatic
Recode)过程63
第5章 基本统计分析65
5.1 基本概念65
5.1.1 基本的统计概念65
5.1.2 描述性统计分析67
5.2 频率分析68
5.2.1 频率分析过程的操作界面68
5.2.2 实例分析70
5.3 描述性统计分析过程72
5.3.1 描述性统计分析过程参数设置72
5.3.2 实例分析72
5.4 数据探索性分析过程74
5.4.1 数据探索性分析过程参数设置74
5.4.2 实例分析75
5.5 交叉表分析过程78
5.5.1 交叉表过程的参数设置78
5.5.2 实例分析81
第6章 参数检验84
6.1 参数估计和假设检验概述84
6.1.1 参数估计84
6.1.2 假设检验87
6.2 平均值(Means)过程92
6.2.1 SPSS的平均值过程参数的设置92
6.2.2 平均值过程实例93
6.3 单样本t检验94
6.3.1 单样本t检验过程的参数设置94
6.3.2 实例分析95
6.4 独立样本t检验97
6.4.1 独立样本t检验过程的参数
设置97
6.4.2 实例分析98
6.5 成对样本t检验100
6.5.1 成对样本t检验过程的参数
设置100
6.5.2 实例分析100
第7章 基本图形的绘制103
7.1 统计图概述103
7.2 条形图104
7.3 折线图108
7.4 面积图110
7.5 饼图111
7.5.1 饼图参数设置111
7.5.2 实例分析112
7.6 高低图113
7.7 质量控制图114
7.8 箱图119
7.8.1 箱图参数设置119
7.8.2 实例分析120
7.9 散点图121
7.9.1 散点图参数设置122
7.9.2 实例分析122
7.10 直方图124
7.11 P-P图和Q-Q图124
7.12 时间序列图126
7.12.1 时间序列图参数设置126
7.12.2 实例分析130
第8章 非参数检验133
8.1 非参数检验概述133
8.2 检验134
8.2.1 检验的参数设置135
8.2.2 检验实例分析137
8.3 二项分布检验139
8.3.1 二项分布检验的参数设置
139
8.3.2 实例分析139
8.4 游程检验141
8.4.1 游程检验的参数设置142
8.4.2 实例分析142
8.5 单样本K-S检验144
8.5.1 单样本K-S检验的参数设置144
8.5.2 实例分析145
8.6 两独立样本分布位置检验147
8.6.1 两独立样本分布位置检验的
参数设置148
8.6.2 实例分析148
8.7 多个独立样本分布位置检验150
8.7.1 多个独立样本分布位置检验的参数设置150
8.7.2 实例分析151
8.8 两个相关样本分布位置检验153
8.8.1 两个相关样本分布位置检验的参数设置153
8.8.2 实例分析154
8.9 多个相关样本分布位置检验155
8.9.1 多个相关样本分布位置检验的参数设置156
8.9.2 实例分析156
第9章 方差分析159
9.1 方差分析的基本原理159
9.1.1 自由度与平方和分解160
9.1.2 F检验162
9.1.3 多重比较163
9.2 单因素ANOVA检验164
9.2.1 单因素ANOVA检验步骤165
9.2.2 判断与结论166
9.2.3 单因素 ANOVA检验过程的
参数设置167
9.2.4 实例分析169
9.3 多因素方差分析170
9.3.1 只考虑主效应的多因素方差
分析171
9.3.2 存在交互效应的多因素方差
分析173
9.3.3 单变量过程参数设置175
9.3.4 实例分析179
9.4 协方差分析183
9.4.1 协方差分析概述183
9.4.2 实例分析184
第10章 回归分析187
10.1 线性回归187
10.1.1 线性回归模型188
10.1.2 最小二乘估计188
10.1.3 回归方程的显著性检验189
10.1.4 预测问题191
10.1.5 SPSS线性回归分析设置
192
10.1.6 回归分析模型的实例分析
196
10.2 非线性回归199
10.2.1 非线性回归分析的基本原理
200
10.2.2 非线性回归参数设置200
10.2.3 实例分析203
10.3 Logistic回归205
10.3.1 Logistic回归模型概述206
10.3.2 二元 Logistic回归模型参数
设置207
10.3.3 实例分析210
第11章 相关分析215
11.1 相关分析概述215
11.1.1 相关关系215
11.1.2 相关图形和相关系数216
11.1.3 SPSS的相关分析功能简介
218
11.2 双变量(Bivariate)过程218
11.2.1 双变量相关分析简介218
11.2.2 双变量过程的参数设置220
11.2.3 实例分析222
11.3 偏相关(Partial)过程224
11.3.1 偏相关过程的参数设置224
11.3.2 实例分析225
11.4 Distances(距离)过程227
11.4.1 Distances过程的距离分析
参数设置227
11.4.2 实例分析230
第12章 聚类分析232
12.1 聚类分析的原理232
12.1.1 一般原理233
12.1.2 聚类分析步骤236
12.1.3 系统聚类方法237
12.2 快速样本聚类过程240
12.2.1 快速聚类简介240
12.2.2 SPSS快速聚类的设置240
12.2.3 实例分析242
12.3 系统聚类过程246
12.3.1 系统聚类简介246
12.3.2 SPSS系统聚类设置246
12.3.3 实例分析249
12.4 二阶聚类分析252
12.4.1 二阶聚类简介252
12.4.2 SPSS二阶聚类的设置253
12.4.3 实例分析254
第13章 判别分析257
13.1 判别分析的基本原理257
13.1.1 判别分析简介257
13.1.2 判别分析的数学模型与判别
方法258
13.2 一般判别分析265
13.2.1 一般判别分析的参数设置
265
13.2.2 实例分析267
13.3 逐步判别分析272
13.3.1 逐步判别的参数设置272
13.3.2 实例分析273
第14章 因子分析279
14.1 因子分析简介279
14.1.1 因子分析的基本原理280
14.1.2 因子分析的基本步骤和过程
282
14.2 SPSS因子分析283
14.2.1 SPSS因子分析的参数设置
283
14.2.2 实例分析286
第15章 对应分析291
15.1 对应分析的基本原理291
15.2 对应分析293
15.2.1 对应分析过程的参数设置
293
15.2.2 实例分析296
15.3 最优标度过程299
15.3.1 最优标度过程的参数设置
299
15.3.2 实例分析306
第16章 可靠性和多维标度分析310
16.1 可靠性分析310
16.1.1 可靠性分析的基本原理310
16.1.2 可靠性分析的参数设置312
16.1.3 实例分析314
16.2 多维标度分析316
16.2.1 多维标度分析简介316
16.2.2 多维标度过程的参数设置
317
16.2.3 实例分析320
第17章 生存分析323
17.1 生存分析简介323
17.1.1 生存分析的基本概念323
17.1.2 生存资料的特点325
17.1.3 生存分析方法326
17.1.4 SPSS中的生存分析过程
326
17.2 寿命表(Life Tables)过程327
17.2.1 寿命表分析过程的参数设置
327
17.2.2 实例分析328
17.3 Kaplan-Meier分析332
17.3.1 Kaplan-Meier分析过程的参数
设置332
17.3.2 实例分析334
17.4 Cox模型回归分析337
17.4.1 Cox回归模型337
17.4.2 Cox模型分析过程的参数设置
339
17.4.3 实例分析343
第18章 对数线性模型348
18.1 对数线性模型概述348
18.2 常规模型(General)过程349
18.2.1 常规模型分析过程的参数
设置349
18.2.2 实例分析351
18.3 分对数(Logit)过程354
18.3.1 分对数分析过程的参数设置
354
18.3.2 实例分析357
18.4 选择模型(Model Selection)过程360
18.4.1 选择模型分析过程的参数
设置360
18.4.2 实例分析362
第19章 时间序列分析365
19.1 时间序列概述365
19.1.1 时间序列的组成部分3