第1章 什么是统计学
【学习目标】
l 解答初学者最关注的5个问题。
l 通过解读实例来掌握统计术语。
l 通过解读热帖来认识统计运用。
统计学是一门充满智慧和乐趣的学问。要不然,才懒得让生命在这儿漫游呢!
统计的语言是数据,统计是助人为乐的常用法宝。统计,让生活实在而精彩!
1.1 你来问我来答
许多学生学习统计是因为他们知道,老板在看一份求职者材料时会对统计学课程留下印象,还因为事实上,任何研究领域都会从统计方法的应用中获益。
——[美]特里奥拉
学统计,教统计,用统计,这已成了我生活中的一部分。每当站在讲台上,开始第一堂统计课的时候,我就想知道:你最想问的一个问题是什么?于是,用写小纸条的形式,我搜集到了这类信息。有意思的是,经过归类,我发现,他们提到的问题,基本上大同小异,主要集中在3个方面——统计学是什么、有什么用、怎么学,只是表达的风格不同而已。
下面就是精选出来的5个提问,在漫谈式的一问一答中,让我们轻松步入统计学的世界吧!
(1) 问:统计学就是所谓的调查报告吗?
答:统计学是用数据来认识外界和内心世界的一门学问。统计学是通过搜集、整合、分析数据,以提交和管理统计成果。而调查报告只是统计成果中的一种。
统计成果的形式多着呢!除了调查报告的形式,还有电视剧本的形式,如电视剧《数说北京》等;有统计论文的形式,如《统计研究》、《中国统计》、《管理世界》、《经济研究》等中文核心期刊上的论文;还有网上调查的问卷形式,如有的网上调查并不形成文字成果,只是即时表达网民的一种意向意愿而已。
不过,可别小瞧了调查报告这种形式。调查报告可也是值钱的,有人因此求职成功,有人以此经营谋生。调查报告有免费的,也有明码标价的。调查报告怎么看、怎么写,可参看本书第9章“数据文章的写法”。
(2) 问:是不是数学没学好,统计学也学不好?
答:如果数学没学好,只要如此这般,基础统计学照样可以学好。
瞧,1 1=2,这是数学算式,却不是统计学算式。因为统计学与数据打交道,探讨的都是实际问题,自然,每个数据都是带计量单位的,数据是多少都有原因。统计学的数据来源于生活,又服务于生活,选例做题的资料都取材于实际,你置身其间,犹如漫游花园,看得到园中花,闻得到园中香,尝得到园中果。统计学带给你的就是实在的享受和感觉。
同时,我们的学习目标是懂得解读统计结果,这可以靠计算机帮忙,跳过繁琐的公式推导。本书用的是一款最简单的软件——Excel,计算作图等,只在点击之间。
其实,求职市场上,很多招聘单位在职务描述中都提到:要求熟练使用计算机常用办公软件(Word、Excel、PowerPoint等)。关于Excel,有位实习生发来邮件说:“到了实际工作中需要的太多,我们有的没有学好甚至是没学过,要不是您在统计课上教会了我们一些Excel,现在我恐怕连Excel都不知道怎么使用,外面对Excel 的要求很高也很精,昨天应聘回来,我自己在计算机上操作了近两个小时,才终于把那些函数什么的弄清楚了,以后肯定还会有很多不知道的地方要向老师请教,到时候又要麻烦老师了。”
当然,要精钻统计学,数学必定是顶级优秀的。例如,1969年,第一届诺贝尔经济学奖就是奖给了两位喜欢统计学的专家:计量经济学创始人拉格纳·弗里希(挪威人)和宏观计量模型创始人简·丁伯根(荷兰人)。
(3) 问:您能告诉我学统计学的诀窍吗?
答:成绩优秀=诚实 自信 勤学勤练 活学活用。这是主旋律,统计学也不走调。
统计学学什么呢?举例来讲,长假来了,想去旅游。可世界之广,往哪儿去呢?于是,先得有个设想,再查找资料,整合信息,待准备就绪,就欣然出行。统计学以量化的认识帮助人,这个认识过程,一般也是先全盘设计,再搜集和整合信息,最后提交分析的结果。
统计学学习的内容,也就是量化的认识过程。运用统计认识主观、客观,不论规模大小,一般都有这样一个程序:统计设计→数据搜集→数据整理→数据分析→数据传播。
(4) 问:有与本课程相关的有趣的书籍和网站吗?
答:当然有啊。以下提供的是一些网络信息。
l 在线测试:;。
l 统计学人:;;;;。
l 统计学习:;;。
l 统计应用:;;;;;。
统计书籍:相关书目参见图1-1。
由于数据无所不在,而统计学又与数据打交道,这就注定了统计学大有用武之地。
(5) 问:想想看,还有什么与数据无关呢?有人笑笑说,情感呀,难道情感也能量化?
答:当然能。《心理统计学》早就上架了,早就成为大学里研读的课本了。
统计学的科目,分为统计学原理和专业统计学。《心理统计学》属于专业统计学,本书讲述的是统计学原理部分,统计学原理是专业统计学的基础。如果你发现所学的专业或其他方面,还有什么没被加上统计学后缀的话,那么,恭喜你,你有了新发现,你要赶快把新发现变成新成果,也写一本什么统计学。哈哈,其实,有所发现,有所创造,原来并不遥远。只要有心,只要有趣,只要有益,何乐而不为?
每年,都有专业统计学教材新鲜上市,如《体育统计学》、《心理统计学》、《旅游统计学》、《传播统计学》、《医学统计学》、《生物统计学》、《物流统计学》、《财务统计》、《货币与金融统计学》、《统计学原理与营销统计》、《统计学:以Excel为分析工具》等。
每年,还有大量的统计读物可供漫游,如《数海临风》、《看漫画,学统计》、《爱上统计学》、《统计,让数字说话》、《统计使人更聪明》、《统计如何“表达”统计》、《统计思想》、《统计学的世界》、《世界统计名人传记》、《漫游数据王国》、《生活中的统计学》、《统计连着我和你》等。下面,展示几本统计读物的封面(见图1-1),以增加一点观感。
图1-1 统计读物的封面
1.2 统计语言初步
统计的思维方法,就像读和写的能力一样,有一天会成为效率公民的必备能力。
——[英]威尔斯
人很聪明,为了交流,创造了语言;为了研究,创造了术语。每门学科,都有自己独特的语言,比如音乐中豆芽菜式的五线谱。统计学也有自己的术语,这些术语充满了生命力,因为它们来源于生活,提炼于生活,又施惠于生活。
讲到概念,有人常喜欢咬牙切齿地去记。其实,这是不得要领。本节是用一个实例来解读一串统计学基本概念,1.3节是用现学的这些知识来解读生活中的热门话题。学了就用,就这么简单。
漫游统计王国,掌握了统计学的几个基本概念就如同拿到了入场券,有了它,就可以慢慢享受和发现其中的乐趣了。
1.2.1 统计、统计学和数据
由于统计学是与数据打交道的科学,那么统计、统计学和数据这三者之间的关系,也有必要挑明一下。
1. 什么是统计
“统计”一词有名词和动词之分。有人说:“把这个或那个给统计一下。”这里说的统计用作动词,表示算一算的意思。有人讲:“我专业学的是统计呀。”这里说的统计用作名词,表示统计这个领域的学问。
什么是统计呢?从狭义上看,动词上的统计,常称为统计实践;名词上的统计,视同于统计学。从广义上看,统计是统计数据、统计实践和统计学三者的统一体。统计学与统计实践是理论与实践的关系,统计学与统计实践都离不开数据。统计数据是统计学研究的依据,是统计实践最后的成果。离开了数据,统计和统计学就成了无源之水。
从“算一算”的统计到形成统计学,其间经历了许多年。“算一算”含义上的“统计”,可以追溯到人类结绳记事的时代了。从那时起,统计一直都在延续着它的薪火。古代埃及为了建造金字塔,古代中国为了修建长城,都对本土当时的田亩、人口等做了调查,掌握了相应的数据。统计实践的历史是很悠久了,而统计学还很年轻,系统研究统计实践并将其上升到统计理论,距今只有300多年。
2. 统计实践的简史
人类的统计实践是随着计数活动而产生的。因此,对统计实践发展的历史可追溯到人类社会初期的打绳结、画道道计数,这可算是最初的统计。而统计实践的真正萌芽是在古代奴隶社会。当时的统治阶级为了满足治理国家的需要,常常进行征税、征兵等统治活动,因此有了了解社会基本情况的需要。
中国在公元前2000多年的夏朝,就有了人口与土地数字的记载,当时全国分为九州,人口13 553 923人;埃及在公元前3000年,已经有人口与居民财产统计;罗马在公元前400年,建立了人口普查和经常性人口出生、死亡登记制度。这些是原始形态的统计。
进入封建社会后,随着人类社会生产的发展,统计的范围逐渐由人口、土地发展到社会经济生活的各个方面。但由于自给自足的自然经济占主导地位,生产力低下,经济落后,长期的封建生产关系阻碍了社会生产力的发展,相应地也阻碍了统计实践的发展。
统计实践的广泛发展始于资本主义社会。17世纪以来,资本主义国家由于工业、商业、农业、贸易、交通的发展,统计实践从国家管理领域扩展到社会经济活动的许多领域。从18世纪起,各资本主义国家先后设立专业的统计机关,搜集各方面统计资料,定期或不定期举行人口、工业、农业、贸易、交通等项调查,出版统计刊物,建立国际统计组织,召开国际统计会议。
3. 统计学说的简史
统计学源于统计实践。统计学诞生于17世纪中叶,创始人是英国的威廉·配第。翻开统计学的典籍,有以下这么几个很牛的学派载入了史册。
第一个时期:独立的统计学派(17世纪中叶—19世纪中叶)。
统计学说源于以下两个学派的贡献:记述学派、政治算术学派。
记述学派——有名无实的统计学派。17世纪中叶,记述学派诞生于严谨的德国,代表人物是康令(1606—1682)等。他们主张用记述的方法记录国家的重大事项,诸如政治、军事、经济等,希望从中理出历代兴亡之迹,从而为统治者效劳。后来,德国人阿亨瓦尔(1719—1772)首次在大学开讲《国势学》课程,首次提出了“统计学”这个学名,并将“统计”定义为记述国家显著事项的学问。记述学派也称国势学派,它以社会经济现象作为研究对象,以社会调查作为研究基础,因其只注重文字分析,而被称为有名无实的统计学派。
政治算术学派——有实无名的统计学派。17世纪中叶,政治算术学派诞生于风雅的英国,代表人物是威廉·配第(1623—1687)等,代表作有《政治算术》。他们主张用数量对比分析的方法,对英国与法国、荷兰的国情进行比较,以明确英国的国际地位。由于最早提出并实践了数量分析的方法,威廉·配第被尊称为“政治经济学之父”和“统计学的创始人”。后来,威廉·配第的朋友约翰·格朗特(1620—1674)写出了第一本关于人口统计的著作,即《死亡率报告》,对伦敦50多年的人口出生和死亡资料进行了计算和分析。政治算术学派以社会经济现象作为研究对象,以社会调查作为研究基础,注重数量分析,为统计学的创立奠定了方法论基础,但由于在其所有著述中并没有提到“统计学”3个字,因此这个学派也被称为有实无名的统计学派。
现在,《统计学原理》、《人口统计学》、《保险统计学》已成了大学里常开的课程。而“中国人寿保险业经验生命表”,即反映社会平均年龄及不同年龄人群的生存概率和死亡概率的数据表格,已广泛应用于寿险产品定价、风险管理等各个方面,是保险行业防范风险的重要手段和条件。
第二个时期:融而不合的统计学派(19世纪中叶—20世纪中叶)。
社会经济统计学派——迅速发展的统计学派。19世纪,社会经济统计学派兴起于德国,是政治算术学派的延伸,代表人物是恩格尔(1821—1896)和梅尔(1841—1925)。他们主张统计学是研究社会现象的社会科学,融会了记述学派和政治算术学派的观点,并把政府统计和社会调查融合起来,进而形成社会经济统计学。社会经济统计学派在理论上比政治算术学派更加完善,在时间上比数理统计学派提前成熟,因此在国际统计学界影响很大。
数理统计学派——融合却走偏的统计学派。19世纪,数理统计学派诞生于美丽的比利时,代表人物是阿道夫·凯特勒(1796—1874)等,代表作有《统计学的研究》、《关于概率论的书信》。他们主张将概率论应用于人口、人体测量和犯罪等问题的研究,创建了抽样理论、相关和回归理论等,完成了统计学和概率论的结合。数理统计学派把记述学派、政治算术学派、概率统计学派的分析方法,融合为一门统计学,但主张概率论就是统计学,否认社会经济统计学的存在。
1851年,第一届国际统计学会议由凯特勒组织,在比利时首都召开。从1855年起,这个学会改名为国际统计学会。
1979年,中国统计学会成立,同年经国务院批准参加国际统计学会第42届会议,并被接纳为该会的团体会员。1995年,在北京成功举办国际统计学会第50届大会,出席这次会议的有来自85个国家、地区和国际机构的1070名代表,中国统计学界代表380多人,特邀企业界列席代表近200人,规模超过国际统计学会历届会议。2013年,国际统计学会第59届世界统计大会在中国香港举行。
图1-2所示为统计学的创始人威廉·配第和他的著作,图1-3所示为中国统计学会创始人李成瑞和学会的网站。
图1-2 统计学的创始人威廉·配第和他的著作
图1-3 中国统计学会创始人李成瑞和学会的网站
第三个时期:合流的统计学派(20世纪中叶至今)。
这一时期,社会经济统计学派和数理统计学派出现了融合的趋势,强调相互借鉴,共同发展。这一时期,统计学界人才辈出,方法层出不穷。比如,英国人费希尔(1890—1962)提出了假设检验、方差分析等方法,中国人薛暮桥(1904—2005)创新了划类选典等调查方法。同时,非参数统计、多元统计分析、时间序列分析等方法也应运而生并蓬勃发展。
在我国,1949年以前,统计工作无序,统计学基本上是照抄西方统计理论,传播的主要是数理统计学派的观点。1949年以后的近30年,统计学基本上是照搬苏联的统计理论,传播的是社会经济统计学派的观点,而数理统计学派遭到批判。1979年以后,全国思想大解放,百家争鸣,统计学界经过激辩,终于达成了共识,认为数理统计学与社会经济统计学一样,都是独立的统计学科。现在,社会经济统计学和数理统计学出现了融合的趋势,数理统计方法在社会经济统计中得到了广泛的应用。目前,统计学已划入国家一级学科,随着大统计学学科体系的建立,统计学作为一门独立的科学,其运用已渗透到了各个领域。
诺贝尔经济学奖大多授予了计量经济学领域的领军人物。计量经济学研究的是统计学在经济学中的应用。2003年,诺贝尔经济学奖由美国人恩格尔和英国人格兰联手获得,奖金为130万美元,获奖理由是在处理“时间序列”变量的研究方法上取得了重大突破。2008年,诺贝尔经济学奖得主以数据为基础预言经济危机而摘冠。2009年,诺贝尔经济学奖得主以经济治理分析方面的贡献而折桂。2011年,诺贝尔经济学奖得主以解答了许多有关经济政策与宏观经济变量之间的关系问题而夺魁。2012年,诺贝尔经济学奖颁给了从事“预期”研究的学者。2014年,诺贝尔经济学奖颁给了研究“对市场力量和监管的统计分析”的学者。本书第6章将介绍时间序列即动态数列的基本知识。
未来统计学将是怎样的走势,笔者预计,统计学将更具全球化、人性化和生活化(参见图1-4)。随着电子网络的存在与发展,全球统计学将应运而生,以地球为村落进行统计,各国统计界的交往和合作将更为频繁。同时,个体统计学也将会走俏。统计学将青睐个人领域,如《幸福统计学》、《爱情统计学》、《网络统计学》、《个人理财统计学》等,个人将因此而受惠更多。可以满怀自信地憧憬,随着新生活的丰富多彩,随着时日的不断推移,新的统计方法也将不断被发现,这些新发现将为人们带来新惊喜,并将为新生活带来更多的充实和愉悦。
图1-4 首届“世界统计日”和“中国统计开放日”宣传展板(制作:中国国家统计局)
4. 统计学的定义
《不列颠百科全书》的定义:统计学是搜集、分析、表述和解释数据的科学。
全国中级统计师考试用书中的定义:统计学是一门研究数据的科学。任务是有效地搜集、整理和分析这些数据,探索数据内在的数量规律性,为决策提供依据。
本书的定义:统计学是一门设计、搜集、整理、分析和传播数据的艺术和科学。
说统计学是科学,具有科学性,这个没问题。说统计学是科学,具有艺术性,是科学性和艺术性的二合一,这个嘛,自然也没有问题。
关于统计学的艺术性,由于说的人比较少,平常关注得也不多,所以一旦挑起这个话头,就自觉还有一点儿新奇。其实,统计学的艺术性早就存在了,它与统计学的科学性一样,和统计学相伴而生,并和统计学的科学性相辅相成。打个比方,统计学的艺术性就好像大地的鲜花,哪怕在无人抵达的幽谷里,哪怕在人迹罕至的僻静处,它都一样开得蓬勃旺盛,开得花团锦簇、满面春风。统计学既是一朵平常的花,也是一朵艺术的奇葩。统计学艺术上的美需要更多的发现和挖掘,在信息时代,可以预见,统计学的艺术性必将大放异彩。
1) 统计学艺术性的基础是科学性
统计学是设计、搜集、整理、分析和传播统计数据的学问。统计学的科学性,表现在科学的思维、科学的计算、科学的表达和传播。统计活动的全过程,都要用科学来支撑。
统计学作为一门科学,其科学性主要表现在3个方面,即科学的规律性、严密的程序性、先进的技术性。现分述如下。
其一,统计学具有科学的规律性,这是指统计学理论来源于统计实践,是对统计活动规律的总结,统计科学中的原理,包括基本程序、原则、方法等,对统计活动有普遍的指导意义,而统计活动的发展,又不断催生统计理论的升华。
其二,统计学具有严密的程序性,是指从一次认识过程来看,统计活动必然经历设计、搜集、整理、分析和传播数据这5个环节,而统计理论对统计活动的指导也是严格按照这个程序,对各环节予以探讨和更新的,统计设计要全盘考虑,其他环节要落在实处。
其三,统计学具有先进的技术性,是指要获得准确、真实、及时、全面的数据,必须要有先进的方法和技术。为了获得优质的数据,为了透过数据看到事物的外貌、内核和未来,智慧的人们总在不断地寻求更好的途径。各种统计方法在不同领域广泛运用,各种统计软件在提升统计效能方面神通广大,可以这么说,只有科学的统计,才能赢得统计的信誉。
统计活动如果不讲科学,不按统计规律办事,而是随心所欲地安排统计活动,随随便便地估摸那么几下,随意率性地向外张扬和吹嘘,那么得到的统计结果即数据,可想而知就是不科学的,就是有百害而无一利的数据垃圾。是遵循统计学的科学性,还是违反统计学的科学性,得到的结果完全不同。
遵循统计学的科学性,统计学才会有进步,才会充满生机活力。这方面的例子俯拾即是,各领域的统计学纷纷兴起就是实证。违反统计学的科学性,统计学将会遭到灭顶之灾。20世纪50年代,中国大地上刮起的那股浮夸风,不管何时提起,都一样令人胆寒。“人有多大胆,地有多大产”、“只怕想不到,不怕做不到”之类的狂言甚嚣尘上。按理,有合适的天时、地利、人力和科技,才会达到相对较高的产量,而盲目夸大人的力量,不按统计的科学办事,不遵循自然规律,想有多少就有多少,想是多少就是多少,这种攀比和浮夸,结果自然是害人误国。提起当年的荒唐闹剧,过来人更深有感触。笔者的父亲,一位老实本分的知识分子,经历了那个年代,并被下放到“五七干校”劳动改造。在“五七干校”,分派他去猪棚喂猪,每头猪每天长了多少都要上报。笔者的父亲坚持说,就算把猪每天吃的喝的加一块,也长不了那么多啊。因为上报的生猪增重的数字远远大于它吃喝的数字。听父亲讲非常年代的事儿,我们都还有些后怕,因为那年月,谁说实话谁倒霉。浮夸风的年代,是反科学的年代,是人性扭曲的年代。在那样的年代,和其他科学一样,统计学也被窒息得喑哑无声。
到如今,尊重科学、科学发展,已成共识。统计学不仅要严守科学性,还要大力倡导其艺术性。大体上讲,统计学的科学性是内容,统计学的艺术性是形式。统计学的科学性和统计学的艺术性,这两者是内容与形式的关系,好的内容离不开好的形式来表现,好的形式需要有好的内容作基础。统计学的科学性和艺术性同时并重,将能更好地传播统计学,能化刻板的数据为灵动的数据,能化抽象为具体,能以鲜活的形式走入寻常百姓家,让人乐于理解和接受,让人感受到数据之美和有用。
2) 统计学的艺术性无所不在
统计学的艺术性是指统计作品通过各种艺术手段反映生活,表现数据所达到的鲜明、准确、生动的程度。主要包括艺术形象的鲜明具体性和典型性、艺术情节的生动性和曲折性、艺术语言的准确性和鲜明性、艺术手法的精当性和多样性。
科学性注重实实在在,艺术性讲究艺术表现,这两者在统计学中能融合到一起吗?这里,不妨到统计活动的现场走一趟,感受一下统计学中艺术的魅力。统计活动的现场,也就是常说的统计活动的基本过程:设计→搜集→整理→分析→传播数据。现分述如下。
其一,在统计设计的起始阶段,统计学的艺术性主要表现在设计统计指标体系结构的完整性和严谨性上。和其他设计一样,统计设计也是一个思维创造的过程。统计设计是为统计活动的全程勾勒出一幅蓝图,其中心要务就是设计统计指标体系。在家居设计中,可以根据住宅的风格设计相应的情调,或淡然雅致,或浓墨重彩,或浓淡相宜,尽可别具一格。但在统计设计中,既要有科学的才情来捕捉主题,也要有艺术的眼光来洞察整体。以设计统计指标为例,一系列统计指标怎么选择,统计指标体系是怎样的构架,其中必有人文情怀,必有独特品位。可以这么说,优质的统计指标体系的结构,本身就是科学和艺术联手创作的绝妙蓝图,体现了艺术结构的完整性和严谨性。
其二,在搜集数据的基础环节,不论是搜集一手数据,还是搜索二手数据,统计学的艺术性也是融入其间、无所不至,表现在搜集数据过程中的灵动性上。在搜集一手数据的时候,常用问卷的方法,问卷的版面设计需要讲求艺术,问卷的语言和结构也要讲究艺术。尤其是把问卷放到网上时,更给统计艺术的发挥提供了极好的平台。比如,动态设计的问卷、植入相应音乐和视频的问卷,问卷语言的生动化,优美高雅的互动环境的布置,凡此种种,都闪耀着艺术的光辉。可以说,新颖独特又风格实在的问卷,才会吸引上网游逛者飘忽的目光,才更有可能获得更多鲜活的数据,才更有可能让问卷之旅不虚此行。爱美之心人皆有之,好奇之心人皆有之,问卷的外在美与内在美兼修,将会美不胜收。在搜索二手数据的时候,同样的道理,权威的并辅之以艺术性表达的数据,才更容易为人们所采用并津津乐道。
其三,在整理数据的中间环节,统计学的艺术性主要表现在图表的风貌上。统计图和统计表是显示整理数据结果的两种形式。统计图表不管是在制作还是在显示方面,都饱含着艺术的元素。当世间出现了网络和统计软件以后,统计图表的艺术品位也越来越浓。统计图表本身就具有直观生动、一目了然的特性,当有了网络以后,原来手工绘制的图表变成了计算机绘制的,这一转变,使得一般统计图表的绘制也能被人们广为接受和操作,使得专业统计图表的绘制更为精良和美妙。动态的统计图、象形的统计图,点缀和丰富着我们的生活。统计图表色泽的选择和搭配,离不开色彩学等艺术的理念和实践。制作成的精美的统计图表,自然是艺术品,是统计科学和艺术的完美结晶。当然,不论何时,统计的科学性必须摆在首位,如果打着艺术的幌子,歪曲真实的数据,那么,就算统计图表做得再好看,那也是诱人上当、遮人眼目的骗局。这样的例子很多,比如,生拉硬扯统计折线图,把死水微澜的业绩画得直冲云霄,或者偷偷截去纵轴上的数据,不从0开始显示,而是任选一个自己喜欢的起点,这些不为人所见的小动作,都是违反统计科学性的。显然,统计图表的艺术性可以为统计数据的传播增色,但如果没有统计科学性的强力支撑,那些艺术性就算挥洒得再好,也不过是伪装得更高明罢了。看来,要欣赏统计图表,还要有鉴赏的能力。主题鲜明的、货真价实的、风格迷人的统计图表,才是统计艺术中的珍品。
其四,在分析数据出成果的阶段,统计学的艺术性表现在数据文章的语言所具有的鲜活性。在不辞劳苦,当然也是乐在其中地搜集和整理好数据以后,接下来就是写作数据文章,将所思所想和所经所历,把来之不易的各种形式的数据,用文字语言和数字语言交织成一篇文章,这个阶段是出成果的阶段。打个比方,有了气鼓鼓的篮球,有了打篮球的所有行头,还得要有技术,投篮一出手,就知有没有。要把数据文章写好,写得好看耐看,需要艺术的修炼和功底。艺术的表达同样需要以数据的科学性为前提,如果不真不实不准的数据,偏要生硬地添上艺术的光环,就会落个华而不实、哗众取宠的名声。艺术感强的数据文章,表现在文章的数字标题醒目、给数字打比方生动有趣、穿插的图表整体风格一致、文字语言与数字语言的有机融合、全篇结构的张弛有度等方面。
这里拿几个实例来窥其一斑。
例如,《市民春节消费刷卡额增近五成》一文,来源于2010年2月23日的《信息时报》,文章写道:“中国银联日前发布最新统计数据,大年三十至正月初六(2月13—19日),境内银行卡跨行交易达569亿元,比去年春节增长47%。”在这里,数字标题的提炼就很到位,将“47%”替换成“近五成”,既简化了读音,又让人看得顺眼。适当地用成数取代百分数作标题,就是一种遵循科学的艺术性表达。当然,如果统计数据为42%,表达为近五成就失真了。
又如,《趣谈中西文化之差异》这篇文章,发布在山东外事的网站上,文中提到,“中国人喜欢讲数字,西方人喜欢讲故事”,并建议“在对外宣传时,我们要善于把数字和故事结合起来,以便让西方人更好地了解中国”。摆数字是实,讲故事是虚,将虚、实结合,在入情入理的描述中传扬数据,做到了这一层,估计不管东方还是西方,肯定普天下的人都会鼓掌欢迎、拍手叫好。这讲故事,就需要艺术。要以准数为基础,讲得活灵活现,讲得深入人心,讲得头头是道,这是需要下功夫的。而那种一味铺陈数字的做法,只会让人感到枯燥。其实,以数字为依据讲故事,这故事不是杜撰出来的,而是讲数字背后的真人真事,让人明白数字的来历和背景,让人珍惜眼前数字的来之不易。要讲好数字的故事,就要有科学的精神,还要有艺术的情怀。
至于用打比方的艺术手法来解读数字,或者用数字打比方来解读世理,这样的例子就太多了。“健康是1,其他是0。”这就是用简单的数字来解说“健康最重要”这样一个道理。“中国以8亿件衬衫换1架飞机”,这一度触目惊心的事实,现已成为过去式了。
其五,在传播数据的最后环节,统计学的艺术性表现在传播手法的精当性和多样性上。统计的数据成果出来以后,一般是需要通过相应的平台进行传播的,这样才能发挥其效用。在计算机出现以前,统计数据成果的发布或发表,渠道比较单一,主要是通过报纸杂志,受众面有限,传播也不快,统计服务的对象主要是政府。全球网络化以后,凡有点知识、有点条件的人都成了网民,统计数据的传播速度空前加快,统计的服务对象既有政府也有民众。统计数据影响政府决策,政府决策影响民众生活,民众以前所未有的热情关注着统计数据的发布,关注着股市、房市、车市、物价等统计数据的走势,关注着与自己生活息息相关的统计数据的来龙去脉。在这种情势下,统计数据的传播不讲求多样化的精当表达就跟不上时代需求,那种程式化的千篇一律的套话和官腔已经混不下去了。
官方统计数据的传播,现在已是丰富多彩,走多部门合作的路子,建立共存共赢的模式已成现实。比如,2005年开始由北京市统计局与北京电视台合作拍摄的《数说北京》,近年国家统计局与新华网等联手调查“全国最受关注的统计数据”,统计官员来到新华网等网站以现场解读人们关注的数据,等等这些,反响都很好。统计传播的渠道,由原来单一的纸质传播到现在利用网络的多样化传播,统计传播的对象由政府机关到人民大众。
统计传播的手段和受众等的变化,使得统计传播中讲求艺术的氛围越来越浓。《数说北京》是以轻喜剧的形式来讲读统计数据对京城生活的影响,统计官员来到门户网站是以通俗易懂的语言形式来解说大家关注的数据变化。如果统计数据没有吸引力和生命力,如果发布统计数据的平台没有一定的艺术表现力和感染力,那么,《数说北京》就不会登上城市公交的移动电视一播再播,统计官员就不会被央视等主流媒体频繁邀请并潇洒上镜侃侃而谈。
关于统计的传播,在实践中早就开始了,但理论上的探讨却很少,这从教科书和百科全书给统计学的定义就可以看到。现成的关于统计学的定义,最后一个环节都是分析或者提交,没有明确指出统计传播。随着统计实践的发展,统计理论滞后的现状必须正视。可以预见,统计传播的重要性,统计学的艺术性,将会越来越为人们所重视,并不断被开拓出新意和美的境界。
3) 统计学是科学性和艺术性的统一
统计学是科学性和艺术性的统一,也就是客观规律与主观能动性的统一。统计学的科学性反映了统计活动的规律,统计学的艺术性反映了人的主观能动性。
在信息社会,如何把数据搞准,如何让民众把数据搞懂,还真不是一件容易的事。官方统计数据的权威性,首先取决于数据的准确性,这需要科学的理念和方法、科学的态度和行动。要让民众把数据搞懂,就要特别注重艺术形式的调用,尤其在统计产品的花样和传播上,要讲究方式方法,要找到生动活泼、通俗易懂的形式,接近贴近民众,满足人们对数据日益增长的需求。
网络时代,是崇尚科学、追求艺术、数据化管理的时代。统计学与生俱来的艺术性,必将在统计科学的沃土上,绽放出更加芬芳迷人的花朵。
围绕统计设计的目标,将搜集的数据经过整理和分析以后,所传播的数据是统计信息。政府统计信息的传播,常见的有统计公报、统计年鉴、资料汇编等形式。非政府统计信息的传播,常见的有幻灯片演示、调研报告的发布等。
1.2.2 统计学中的基本概念
统计学是研究什么的?统计学的研究对象是现象总体的数量方面。那么,什么是总体?在步入统计学世界时,遇到的第一个统计学的基本概念就是总体。
统计的魅力在数据,数据生生不息。芸芸数据,可以从多个角度来分类,按调查范围来看,可分为个体数据和总体数据,总体数据来源于个体数据。
下面用一个简单的例子,把常用的统计术语串联在一起。
【例1-1】“班长的小报告”。统计专业这个班有30名同学,男女各半,平均年龄18岁。同学们爱好广泛,平常喜欢上网呀,运动什么的。我们每一位都有特长:帅哥陈帅19岁,是计算机高手;班花李美18岁,天生喜欢涂鸦……噢,换个形式说吧,下面是两份清单(参见表1-1和表1-2),请过目。
表1-1 个体数据表
学 号 | 姓 名 | 性 别 | 年 龄 | 爱 好 |
1 | 陈帅 | 男 | 19 | 计算机 |
2 | 李美 | 女 | 18 | 画画 |
| | | | |
↓汇总
表1-2 总体数据表
性 别 | 人数(人) | 各组人数所占比例(%) | 平均年龄(岁) |
男 | 15 | 50 | 18 |
女 | 15 | 50 | 18 |
合计 | 30 | 100 | 18 |
↑ ↑ ↑
总量数 相对数 平均数
由以上两个清单,可得到该班学生的基本情况,如表1-3所示。
表1-3 某班学生的基本情况
认识 目的 | 个体 | 个体数据(标志):说明个体 | 总体 | 总体数据(统计指标): 说明总体 |
品质标志 (文本型数据) | 数量标志 (数值型数据) | 数量 指标 | 质量指标 |
名称 | 表现 | 名称 | 表现 | 总量数 | 相对数 | 平均数 |
学生 情况 | 每个 学生 | 学号 性别 爱好 | 1,2…… 男、女 计算机、画画…… | 年龄 | 19岁、 18岁…… | 全部 学生 | 总人数 30人 | 男女各占50% | 平均年龄18岁 |
例子在上,以下各统计术语之意,请对号入座。
1. 个体和个体数据
个体是指构成总体的单位,又叫总体单位。个体由个体名称和个体表现构成。在例 1-1中,每一个学生是个体,都是这个班集体中的一员。姓名是个体的名称,“陈帅”等是个体名称的表现。
个体数据是指说明个体的数据,又叫标志。标志由标志名称和标志表现构成。标志按说明个体特征的不同,分为品质标志和数量标志。
品质标志是指说明个体的属性特征。品质标志的取值就是品质标志表现。在例 1-1中,每个学生的性别是品质标志的名称,男、女是品质标志的表现。
数量标志是指说明个体的量化特征,数量标志的取值叫标志值。在例 1-1中,年龄是数量标志的名称,19岁是数量标志的取值,陈帅19岁,19岁就是标志值。
请注意,品质标志又叫文本型数据,数量标志又叫数值型数据。
文本型数据是指不能相加,或加起来没意义的数据,常用文字、序号等表示。在例 1-1中,每个学生的学号、性别、爱好,这些品质标志的表现是不能相加的。
数值型数据是指可以计算、计算结果有意义的数据,用数值表示。在例 1-1中,由全班每个学生的年龄,可以算出全班学生的平均年龄。
2. 总体和总体数据
总体是由许多具有共同性质的个体所构成的。总体又叫统计总体。总体的形成必须具备一定的条件,主要有3条。其一,客观性,即总体和个体必须是客观存在的,可以实际观察和计量的;其二,同质性,即组成总体的所有个体必须在某些性质上是相同的;其三,差异性,即组成总体的每个个体在某些方面是有差异的。成语“求同存异”,有助于理解和记忆总体的三性。
在例1-1中,总体是全班学生,全班学生是由每一个学生所组成的集体。每一个学生,既有共性又有个性。共性表现在他们都是同一年级、同一专业的,这些共同点使他们有缘成为同班同学。而每一个学生又有个性,又存在个体差异,如果每个学生各方面都一模一样,那就不需要统计了。同时,要了解全班的特点,只用两三个学生的情况来说明显然是不够的。
总体数据是指说明总体的数据,术语叫统计指标,又叫统计数据。统计的语言是统计指标。统计指标的表现形式有3种,即总量指标、相对指标和平均指标。总量指标表示总体的总量规模,相对指标表示总体的对比程度,平均指标表示总体的一般水平。总量指标、相对指标和平均指标,分别又称总量数、相对数和平均数。总量数、相对数和平均数,简称“三数”。在例1-1中,说明全班学生这个总体的“三数”有总人数30人(即总量数)、男女各占50%(即相对数)、平均年龄18岁(即平均数)。
统计指标由八要素构成,这八要素缺一不可,模糊一个也不行。举例说明如下:
2008年,中国 奥运健儿 获金牌数量 达51 枚。(中国奥委会官方网站提供)
↓ ↓ ↓ ↓ ↓ ↓ ↓
时间 空间 总体 指标名称 计量单位 资料来源
读写数据文章,任何一条总体数据,都要分清楚总体与个体、总体数据与个体数据的关系。记住总体数据的基本结构都必须具备八要素:时间、空间、总体、指标名称、指标数值、计算方法、计量单位、资料来源。
统计指标八要素中,时间和空间这两个要素是最基本的,获得数据的时间必须挑明,调查范围必须讲清,这说明统计的数据都是实在的,不是虚空的假设。同时,说明的对象是谁,即总体要明确。指标名称这个要素,它所代表概念的含义必须界定清楚,定义不同,取得的结果就不一样。根据指标的概念,指标数值可按相应计算方法得到,这些指标数值是具体的,当然都有相应的计量单位来表示。也有这样的情况,同是权威机构发布的同样的指标,结果却不一样,这时,与其盲目起哄,还不如关注一下它们对指标的定义是否相同,调查方法是否一样。资料来源必须写明,数据的来源是否权威,可不可信,读者都很在乎。
如果一个统计指标中的八要素缺少了一个,就可以一票否决,对它不予理睬。还有一点要注意的就是,一个统计指标只能说明总体的一个方面,要全面认识总体,就要用多个相联系的指标来说明。
3. 统计指标体系
统计指标体系是指由若干相互联系的统计指标构成的有机整体。设计统计指标体系时,要遵循以下原则。
1) 总则
依据哲学、经济学等学科知识,深入分析现象之间的内在联系,结合统计调研目的,将其中的重要特征量化为指标,再从整体上搭建完整的统计指标体系,以全面反映现象的数量特征及其相互关系。
2) 细则
其一,整体性。即统计指标体系的设计,是从整体出发,把调查总体与相关总体视为一个大的系统,通过若干指标全方位反映总体的各层次结构。在指标体系中,要有中心指标,注意各指标之间的内在联系与主次关系,要尽力避免简单、孤立地罗列指标。
其二,可比性。统计指标体系的设计内容,并不是固定不变的。这是因为统计指标体系的设计,一方面受人们认识的限制,需要不断修改和完善;另一方面,受现象本身变化特点的制约,需要不断调整和改进。当然,在调整中,要注意保持统计指标体系中前后资料的衔接与可比。不管什么地区、国家、时期、群体,选择的指标性质要相同,并且指标口径要统一,以便和国内外相同指标进行横向或纵向对比。
其三,协调性。统计指标体系中所需要的资料,有不少是来源于会计核算和业务技术核算等。例如:有关固定资金和流动资金等资料,大部分来源于会计核算;有关设备和技术经济、教育、科技、文化、艺术等资料,大部分来源于业务核算。因此,在设计统计指标体系时,要注意本部门内部与相关部门之间的协调关系。
其四,可操作性。要求大多数指标可从统计部门直接或间接获取。依据社会的发展可以推出一些新指标,但计算尽可能简单易行。
值得一提的是,变量这个概念来自数学领域。变量为统计所用之后,用得很乱。变量是指什么?目前流行三派意见:一派认为变量是指个体数据;一派认为变量是指总体数据;一派认为变量既指个体数据,又指总体数据。每一派都摊出一堆理由。我们觉得,统计已有了自己的术语,外面来的,欢迎。对于变量,不妨采取包容之心,让它代表个体数据和总体数据。在运用变量时,只要对个体和总体、个体数据和总体数据的关系进行留意就好了。
与统计术语过招,还行吧。行不行,练一下就知道了。
【例1-2】选择题。
(1) 构成统计总体的每一个事物称为( )。
A. 标志 B. 标志值 C. 调查单位 D. 总体单位(个体)
(2) 以某单位全体职工为总体,每个职工为总体单位,则下列选项中属于统计指标的是( )。
A. 职工总人数 B. 职工性别 C. 职工工龄
D. 职工平均工资 E. 男女职工人数比例
(资料来源:全国统计师考试真题)
答案:
(1) D。知识点:总体与个体的关系。
说明:总体是由个体构成的,总体数据是由个体数据汇总而成的。标志说明个体的特征,标志值是指数量标志的取值。
(2) ADE。知识点:标志和统计指标的关系。
说明:标志和统计指标的区别有两点。一是说明的对象不同,标志说明个体,统计指标说明总体;二是表现的形式不同,标志可用文字和数值表示,统计指标一般只用数值表示。两者的联系在于,总体数据来源于个体数据。
本题中,A、D、E选项,分别表示职工总人数、职工平均工资、男女职工人数比例,这3项都是说明总体的,都是统计指标,从统计指标的表现形式来看,这3项分别是总量指标、平均指标、相对指标。而B、C两项都是说明个体的,职工性别属于品质标志,职工工龄属于数量标志。