二、回归分析(regression analysis)

医学上,不少娈量间虽存在一定关系,但这种关系不象函数关系那样十分确定。例如正常人的血压随年龄而增高,但这只是总的趋势,有些高龄人的血压却不一定偏高;一群正常人按年龄和血压两个变量在坐标上的方位点,并非集中在一条上升直线上,而是围绕着一条有代表性的直线上升。

直线回归分析的任务在于找出两个变量有依存关系的直线方程,以确定一条最接近于各实测点的直线,使各实测点与该线的纵向距离的平方和为最小。这个方程称为直线回归方程,据此方程描绘的直线就是回归直线。

(一)直线回归方程式(linear regression equation)的计算

直线回归方程的通式为:

=a+bX 公式(22.3)

式中Y为自由变量X推算因变量Y的估计值,a为回归直线在Y轴上的截距,即X=0时的Y值;b为样本回归系数(regression coefficient),即回归直线的斜率(slope或称坡度),表示当X变动一个单位时,Y平均变动b个单位。如果已知a与b,用以代入公式(22.3),即可求得直线回归方程。求a和b的公式分别为:

(一)直线回归方程式(linear regression equation)的计算

公式(22.4)

公式(22.5)

对样本中两个变量分析,不但可作相关分析,还可进一步作直线回归分析。仍以表22-1为示范,该例经过直线相关分析,r=0.6097,两变量间有直线关系,从相关系数计算时,已求得:

Σ(X-x)(Y-Y)=41.2000

Σ(X-x)2=677.4194

而Y=ΣY/n=99.2/31=3.2000

x=ΣY/n=534/31=17.2258

代入公式(22.4)

b=41.2000/677.4194=0.0608

代入公式(22.5)

a=3.2000-0.0608×17.2258=2.1527

代入公式(22.3)

=2.1527+0.0608X

(二)样本回归系数的假设检验

样本回归系数也有抽样误差问题,故需对b作假设检验,以评估b是否可能从回归系数为零(即β=0)的总体中随机抽得的。

检验步骤:

H0:β=0 即b是由β=0的总体中随机抽样的样本回归系数。

H1:β≠0

α=0.05

t检验:检验公式为

tb=|b|/sb公式(22.6)

式中sb是回归系数的标准误,计算公式为

(二)样本回归系数的假设检验

公式(22.7)

式中sy.x为各观察值Y距回归直线(Y)的标准差,是当X的影响被扣除后Y方面的变异指标。可用以下公式计算:

(二)样本回归系数的假设检验

公式(22.8)

公式(22.9)

本例上述已算得

Σ(X-x)2=677.4194

Σ(Y-Y)2=6.7400

Σ(X-x)(Y-Y)=41.2000

分别代入公式(22.9),(22.8),(22.7)和(22.6)得

Σ(Y-Y)=6.7400-41.20002/677.4194=4.2343

(二)样本回归系数的假设检验

tb=0.0608/0.01468=4.1417

分析评价 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05检验水准,拒绝无效假设,可以认为待产妇24小时尿中雌三醇含量与初生儿体重之间存在直线回归关系。

(三)描绘回归直线

根据以上求得回归方程Y=2.1527+0.0608x,可以在自变量X的实测范围内(本例为7~27)任取X1和X2两值代入上式求得在图22-2中的P1(X1,Y1)和P2(X2,Y2)两坐标点,将两点连结为一直线,就属该方程的回归直线。作图要注意的是P1、P2两点最好距离远些,绘出的直线在坐标上误差就小些。

《预防医学》