2)回归分析相关变量间的关系一般分两种:因果关系和平行关系。前者指一个变量的变化受另一个或另几个变量的影响,如鱼的生长速度受温度、水质、遗传特性、营养水平等因素的影响;后者的变量之间互为因果或共同受到其他因素的影响,如鱼类体长和体重、生长和繁殖之间的关系。统计学上采用回归分析(regression analysis)研究呈因果关系的相关变量间的关系。回归分析是处理变量之间具有相关关系的一种数理统计方法。表示原因的变量称为自变量,表示结果的变量称为因变量。回归分析的任务是揭示呈因果关系的相关变量间的联系,建立它们之间的回归方程,利用所建立的回归方程,用自变量(原因)来预测、控制因变量(结果)。回归分析的主要内容可概括如下:
① 一组空间数据出发,确定这些变量间的定量数学表达式,即回归方程。
②根据一个或几个变量的值来预测或控制另一个变量的取值。
③从影响某一现象的许多变量中,找出哪些变量是主要的,哪些变量是次要的,这些变量之间又有什么关系。
根据变量的多少,可以把回归分析分为一元回归分析和多元回归分析。一元回归分析是研究“一因一果”,即一个自变量与一个因变量的回归分析。多元回归分析研究“多因一果”,即多个自变量与一个因变量的回归分析,又分为多元线性回归分析与多元非线性回归分析两种。下面将对一元线性回归模型作较为详细的介绍,并对多元线性回归模型、逐步回归模型和基于动态数据处理的自回归模型作简单的介绍。
(1)一元线性回归模型
假定有两个相关变量x和y,通过实验或调查获得两个变量的n对观测值:(x1,y1),(x2,y2),…,(xn,yn)。为了直观地看出x和y间的变化趋势,将每一对观测值在平面直角坐标系描点,作出散点图,在此基础上根据最小二乘法得出直线回归方程(straight line regression equation)。
从散点图可以看出:①两个变量间是有关或无关,若有关,两个变量间的关系类型是直线型还是曲线型。②两个变量间直线关系的性质(是正相关还是负相关)和程度(是相关密切还是不密切)。因此,散点图直观、定性地表示了两个变量之间的关系。
为了探讨变量之间关系的规律性,还必须根据观测值将变量间的内在关系定量地表达出来。
(2)多元线性回归模型
一般情况下,生态学研究对象具有多要素性,而且各要素之间相互联系、相互影响和相互制约。此时,就需要利用多元回归模型对空间对象进行研究。同样,多元回归模型也有线性和非线性之分。
(3)逐步回归模型
逐步回归方程的实质是根据变量的重要性,利用相关检验方法,把不显著的变量删除,只选取那些重要变量进入回归方程。逐步回归模型的表达式与多元线性回归模型相同,只是最终的表达结果不一样。
3)相关分析与回归分析的关系
实际上,回归分析和相关分析都是研究和处理变量之间的相互关系的数理统计方法,它们之间既有联系又有区别。在研究对象和内容上两者是相同的,但相关分析主要是研究要素之间的密切程度,并没有严格的自变量和因变量之分。例如,以x、y分别记小学生的数学与语文成绩,相关分析感兴趣的是两者的关系如何,而不是由X去预测y。而回归分析则主要是研究变量之间的数学表达形式,因而有自变量和因变量之分,可以通过自变量的值来预测因变量的取值。从这里可以看出,回归分析有预测的性质。
1.2.2生态学数据处理相关软件的介绍与使用
上述统计学方法的具体运算基本都可使用相应的计算机软件。在生态学研究中,使用较多的数据处理软件主要有SAS、SPSS和Stata等统计分析软件。每个软件都有自己独特的风格,也有自己的优缺点。下面将对这些软件作简单的介绍。
1.SAS
SAS是美国SAS(赛仕)软件研究所研制的一套大型集成应用软件系统,具有比较完备的数据存取、数据管理、数据分析和数据展现的系列功能。尤其是它的统计分析系统部分,由于具有强大的数据分析能力,在数据处理方法和统计分析领域被誉为国际上的标准软件和最具权威的优秀统计软件包。
SAS系统是一个组合的软件系统,它由多个功能模块配合而成,其基本部分是BASE SAS模块。BASE SAS模块是SAS系统的核心,承担着主要的数据管理任务,并管理用户使用环境,处理用户语言,调用其他SAS模块和产品。也就是说,SAS系统的运行,首先必须启动BASE SAS模块,它除了本身所具有数据管理、程序设计及描述统计计算功能以外,还是SAS系统的中央调度室。它除了可单独存在外,也可与其他产品或模块共同构成一个完整的系统。各模块的安装及更新都可通过其安装程序比较方便地进行。
SAS系统具有比较灵活的功能扩展接口和强大的功能模块。在数据管理方面,SAS是非常强大的,能让使用者任何可能的方式来处理数据。它包含SQL(结构化查询语言)过程,可以在SAS数据集中使用SQL查询。但是要学习并掌握SAS软件的数据管理需要很长的时间,在Stata或SPSS中,完成许多复杂数据管理工作所使用的命令要简单的多。然而,SAS可以同时处理多个数据文件,使这项工作变得容易。它可以处理的变量能够达到32768个,以及你的硬盘空间所允许的最大数量的记录条数。
在统计分析方面,SAS能够进行大多数统计分析(回归分析、logistic回归、生存分析、方差分析、因子分析、多变量分析),每个过程均含有极丰富的任选项。用户还可以通过对数据集的一连串加工,实现更为复杂的统计分析。此外,SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。SAS的最优之处可能在于它的方差分析、混合模型分析和多变量分析功能,而它的劣势主要是有序和多元logistic回归(因为这些命令很难),以及稳健方法(它难以完成稳健回归和其他稳健方法)。尽管它支持调查数据的分析,但与Stata比较仍然是相当有限的。
另外,在所有的统计软件中,SAS有最强大的绘图工具,由SAS/Graph模块提供。然而,SAS/Graph模块的学习也是非常专业而复杂,图形的制作主要使用程序语言。SAS 8虽然可以通过点击鼠标来交互式地绘图,但不像SPSS那样简单。
SAS由于功能强大而且可以编程,很受高级用户的欢迎。然而,由于SAS系统是从大型机上的系统发展而来,其操作至今仍以编程为主,人机对话界面不太友好,是最难掌握的软件之一。使用SAS时,你需要编写SAS程序来处理数据,进行分析。系统地学习和掌握SAS,需要花费一定的精力。SAS软件已成为专业研究人员进行统计分析的标准软件。
2.SPSS
SPSS原名社会科学统计软件包(statistical package for social science),现已改名为统计解决方案服务软件(statistical product and service solutions)。它是世界著名的统计分析软件之一。20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的SPSS,同时成立了SPSS公司,于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年,SPSS总部首先推出了世界第一套统计分析软件微机版本SPSS/PC+,开创了SPSS微机系列产品的先河,从而确立了SPSS在个人用户市场第一的地位。
SPSS for Windows是一个组合式软件包,它集数据整理、分析功能于一身。SPSS非常容易使用,故最为初学者所接受。它有一个可以点击的交互界面,能够使用下拉菜单来选择所需要执行的命令,可通过拷贝和粘贴的方法来学习其“句法”语言,但是这些句法通常非常复杂而且不是很直观。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等。
在数据管理方面,SPSS有一个类似于Excel界面的数据编辑器,可以用来输入和定义数据(缺失值、数值标签等),但它不是功能很强的数据管理工具。SPSS主要用于对一个文 件进行操作,难以胜任同时处理多个文件的任务。它的数据文件有4096个变量,记录的数量则是由你所拥有电脑的磁盘空间来限定。
SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、logistic回归、Probit回 归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS的优势在于方差分析(能完成多种特殊效应的检验)和多变量分析(多元方差分析、因子分析、判别分析等),SPSS 11.5版本还新增了混合模型分析的功能。其缺点是没有稳健方法(无法完成稳健回归或得到稳健标准误),缺乏调查数据分析。
SPSS也有专门的绘图系统。SPSS绘图的交互界面非常简单,一旦你绘出图形,你可以根据需要通过点击来修改。这种图形质量极佳,还能粘贴到其他文件中(Word文档或Power point等)。SPSS也有用于绘图的编程语句,但是无法产生交互界面作图的一些效果。这种语句比Stata语句难,但比SAS语句简单。
SPSS for Windows的分析结果清晰、直观。该软件易学易用,而且可以直接读取Excel及DBF数据文件,现已推广到多种操作系统上,最新的版本采用DAA(distributed analysis architecture,分布式分析系统),全面适应互联网,支持动态收集、分析数据和HTML格式报告,领先于诸多竞争对手,但高级用户易对它丧失兴趣。原因是SPSS是制图方面的强手,由于缺少稳健和调查的方法,处理前沿的统计过程是其弱项。对于每项功能详细的使用方法可参考《SPSS统计分析基础教程》。
3.Stata
Stata是一套提供数据分析、数据管理以及绘制专业图表的整合性统计软件。它提供许多功能,包含线性混合模型、均衡重复反复及多项式普罗比模式。Stata以其简单易懂和功能强大的特点受到初学者和高级用户的普遍欢迎。使用时可以每次只输入一个命令(适合初学者),也可以通过一个Stata程序一次输入多个命令(适合高级用户)。这样的话,即使发生错误,也较容易找出并加以修改。新版本的Stata采用最具亲和力的窗口接口,使用者自行建立程序时,软件能提供具有直接命令式的语法。Stata提供完整的使用手册,它是包含统计样本建立、解释、模型与语法、文献等超过1600页的出版品。除此之外,Stata软件可以透过网络实时更新功能,更可以得知世界各地的使用者对于STATA公司提出的问题与解决之道。使用者也可以透过Stata Journal获得许多的相关讯息以及书籍介绍等。另外一个获取庞大资源的途径就是Statalist,它是一个独立的listserver,每月交替提供使用者超过1000个信息及50个程序。
在数据管理方面,尽管Stata的数据管理能力没有SAS那么强大,它仍然有很多功能较强且简单的数据管理命令,能够让复杂的操作变得容易。Stata主要用于每次对一个数据文 件进行操作,难以同时处理多个文件。随着Stata/SE的推出,现在一个Stata数据文件中的变量可以达到32768个,但是当一个数据文件超越计算机内存所允许的范围时,你可能无法分析它。
Stata的统计功能很强,能够进行大多数统计分析(回归分析、logistic回归、生存分析、方差分析、因子分析,以及一些多变量分析)。另外,它还收集了近20年发展起来的新方法(如Cox比例风险回归、指数与Weibull回归、多类结果与有序结果的logistic回归、Poisson回归、负二项回归及广义负二项回归、随机效应模型等)。Stata最大的优势在回归分析(包含易于使用的回归分析特征工具)、logistic回归(附有解释logistic回归结果的程序,易用于有序和多元logistic回归)。Stata也有一系列很好的稳健方法,包括稳健回归、稳健标准误的回归,以及其他包含稳健标准误估计的命令。此外,在调查数据分析领域,Stata有着明显优势,能提供回归分析、logistic回归、泊松回归、概率回归等的调查数据分析。它的不足之处在于方差分析和传统的多变量方法(多变量方差分析、判别分析等)。
正如SPSS—样,Stata也能提供一些命令或鼠标点击的交互界面来绘图。与SPSS不同的是,它没有图形编辑器。在三种软件中,它的绘图命令的句法是最简单的,功能却最强大。图形质量也很好,可以达到出版的要求。另外,这些图形很好地发挥了补充统计分析的功能,例如,许多命令可以简化回归判别过程中散点图的制作。
由于Stata在分析时是将数据全部读入内存,在计算全部完成后才和磁盘交换数据,因此计算速度极快(一般来说,SAS的运算速度要比SPSS至少快一个数量级,而Stata的某些模块的运行速度比执行同样功能的SAS模块快将近一个数量级)。Stata也是采用命令行方式来操作,但使用上远比SAS简单。其生存数据分析、纵向数据(重复测量数据)分析等模块的功能甚至超过了SAS。