线性回归分析的数学模型
摘 要
在实际问题中常常遇到简单的变量之间的关系,我们会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约.这些问题中最简单的是线性回归.线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究.由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述,故本篇论文在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等.全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动.以提高预测和控制的准确度.
本文中详细的阐述了线性回归的定义及其线性模型的简单分析并应用了最小二乘法原理.具体介绍了线性回归分析方程参数估计办法和其显著性检验.并充分利用回归方程进行点预测和区间预测.
但复杂的计算给分析方法推广带来了困难,需要相应的操作软件来计算回归分析求解操作过程中的数据.以提高预测和控制的准确度.从而为工农业生产及研究起到强有力的推动作用.
关键词:线性回归;最小二乘法;数学模型
目 录
第一章 前言…………………………………………………………………1
第二章 线性模型……………………………………………………………2
第一节 一元线性模型……………………………………………………2
第二节 多元线性模型……………………………………………………4
第三章 参数估计 ……………………………………………………………5
第一节 一元线性回归方程中的未知参数的估计………………………5
第二节 多元线性回归模型的参数估计…………………………………8
第四章 显著性检验……………………………………………………………13
第一节 一元线性回归方程的显著性检验 ………………………………13
第二节 多元线性回归方程的显著性检验 ………………………………20
第五章 利用回归方程进行点预测和区间预测………………………………21
第六章 总结……………………………………………………………………26
致谢 ……………………………………………………………………………27
参考文献 …………………………………………………………………………
第一章 前 言
回归分析是对客观事物数量依存关系的分析.是数理统计中的一个常用的方法.是处理多个变量之间相互关系的一种数学方法.
在现实世界中,我们常与各种变量打交道,在解决实际问题过程中,我们常常会遇到多个变量同处于一个过程之中,它们之间互相联系、互相制约.常见的关系有两种:一类为“确定的关系”即变量间有确定性关系,其关系可用函数表达式表示.例如:路程s,时间t,与速度v之间有关系式:s=vt 在圆体给与半径r之间有关系式v=
线性回归分析是对客观事物数量关系的分析,是一种重要的统计分析方法,被广泛的应用于社会经济现象变量之间的影响因素和关联的研究.由于客观事物的联系错综复杂经济现象的变化往往用一个变量无法描述, 故本篇论文在深入分析一元线性回归及数学模型的情况下,又详细地介绍了多元线性回归方程的参数估计和其显著性检验等.全面揭示了这种复杂的依存关系,准确测定现象之间的数量变动.以提高预测和控制的准确度.
第二章 线性模型
第一节 一元线性模型
在工农业生产及科研中最常遇到的配直线问题,就是回归分析的统计推断方法来求经验公式(线性回归)的问题.如:
例1 今有某种大豆脂肪含量x(%)与蛋白质含量y(%)的测定结果如下表所示:试求它们之间的关系(检验公式).
x
16.5
17.5
18.5
19.5
20.5
21.5
22.5
y
43.5
42.6
42.6
40.6
40.3
38.7
37.2
首先将这组数据在直角坐标系上描成点,如下图:
一般的,按此方法描点所得的图成为散点图.
从图上可以看出:这些数据描出的点分布在一条直线附近.于是推出他们大致可以表示为线性关系
这里再y上加“ ^ ”是为了区别于他的实际值y,因为y与x一般不具有确定的函数关系,这样,在散点图的启发下,我们选定了回归方程是线性的.然后根据统计推断方法来估计出未知数
来表示.这里x是试验或观察中可以控制或精确观测的变量.即非随机变量,y是可观测的随机变量
通过实验观测可得到关于变量x和Y的一组数据(
其中
如果两个变量间的关系用上述线性模型描述,则它们之间存在线性相关关系由(1)有: E(Y)=
我们希望根据观测的数据
去估计随机变量Y的数学期望E(Y).也就是说,将
对于(1)和(2)所确定的线性模型,所考虑的统计推断主要问题是:未知参数
第二节 多元线性模型
一般来讲,影响结果Y的因素往往不止一个.设有
式中
(
于是由(4)式可知
其中各个
对于(4)所确定的模型.统计推断的主要问题是:根据样本去估计未知参数
第二章 参数的估计
第一节 一元线性回归方程参数的估计
有多种确定回归方程也就是确定未知参数
我们将采用“最小二乘法原理”来求出
Q=
为最小的
由(7)知Q是
这个方程组称为正规方程组
即:
解此方程组.由(9)的第一式得
因此
其中
将(10)式代入(9)中的第二式可解得
这样:利用(10)和(11)确定的
这里
由(10)可得回归方程的另一种形式:
由此可知,回归直线通过点(
根据观测数据,利用 (10)和(11)来求回归直线时,常把(11)中的分子和分母分别记为
所以(10)和 (11)两式可记作:
又有公式:
然而,对总体中的未知参数进行估计,其主要目的还是建立一元线性回归方程.虽然有一个正规方程组存在实际上并不研究它.以下是建立一元线性回归方程的具体步骤:
(1) 计算
(2) 计算
(3) 计算
序号
1
16.5
43.5
272.25
1892.25
717.75
2
17.5
42.6
306.25
1814.76
745.50
3
18.5
42.6
342.25
1814.76
788.10
4
19.5
40.6
380.25
1648.36
791.70
5
20.5
40.3
420.25
1624.09
826.15
6
21.5
38.7
462.25
1497.69
832.05
7
22.5
37.2
506.25
1383.84
837.00
8
23.5
36.0
552.25
1296.00
846.00
9
24.5
34.0
600.25
1156.00
833.00
184.5
355.5
3842.25
14127.75
7217.25
从而可求得
所求回归方程为
例2 设两个变量x与Y由某种相关关系,测得它的一组数据如下表所示,试求其回归方程.
x
49.2
50.0
49.3
49.0
49.0
49.5
49.8
49.9
50.2
50.2
Y
16.7
17.0
16.8
16.6
16.7
16.8
16.8
17.0
17.0
17.1
解:根据计算得
所以回归方程为
第二节 多元线性回归模型的参数估计
设
=
所以只要求偏离平方和
达到最小的
为书写方便以下把“
根据微积分中值原理和最小二乘法估计
经整理即得关于
……………………… (17)
此方程组(17)称为正规方程组.借此方程组就可求得参数
X= 1
… … … … … … …
1
记(17)式的系数矩阵为A,常数项矩阵为B,则A恰为
即:
… … … … … … … …
=
… … … …
… … … … … …
因此用矩阵的形式可表式为
当我们求出了
例 3 某地区所产原棉的纤维能力Y与纤维的公制支数
i
i
1
5415
1.58
4.03
15
6208
1.70
3.81
2
5700
1.38
4.01
16
5798
1.59
4.00
3
5674
1.57
4.00
17
5551
1.61
4.19
4
5698
1.55
4.09
18
6059
1.57
3.81
5
6165
1.52
3.73
19
6060
1.53
3.96
6
5929
1.60
4.09
20
6059
1.55
3.93
7
7505
1.14
2.95
21
6370
1.45
3.72
8
5920
1.50
3.90
22
6102
1.49
3.84
9
7646
1.18
2.89
23
6245
1.50
3.88
10
6556
1.27
3.48
24
6644
1.45
3.38
11
6475
1.50
3.60
25
6191
1.58
3.76
12
5907
1.50
3.77
26
6352
1.50
3.79
13
5697
1.54
3.94
27
5999
1.59
3.79
14
6618
1.2
3.66
28
5815
1.7
4.09
解:先求出方程组的系数矩阵及常数向量,再求
求
-1509.8857
解得
所以 Y的关于
第四章 显著性检验
第一节 一元线性回归方程的显著性检验
由上面的讨论知,对于任何的两个变量x和Y的一组观测数据(
然而事前并不知道Y和x之间是否存在线性关系,如果两个变量Y和x之间并不存在显著的线性相关关系,那么这样确定的回归方程显然是毫无实际意义的.因此,我们首先要判断Y和x是否线性相关,也就是要来检验线性假设
根据现行假设对数据所提的要求可知,观察值
一、离差平方和的分解公式
观察值
因为
=
其中:
=2
=2
=2
=2
所以
=
由于
=
于是得到了总离差平方和的分解公式:
其中
而
它正是前面讨论的
二、
由以上分析可知,要解决判断Y和x之间是否存在线性相关关系的问题,需要通过比较回归平方和和剩余平方和来实现.为了更清楚地说明这一点,并寻求出检验统计量,考察估计量
(一)
由(14)式可知
在
因为
这说明
所以
即:
同样可证,对于任意给定的
(二) 方差
因为
=
=
=
由
又由于
从而,说明了
在假设成立时有偏大倾向,也就是说,如果F取得值相当大,则没有理由认为x和Y之间有线性相关关系,也就是下面我们将采用F作为检验统计量的原因.另外,由于
这表明
三、F检验
由以上讨论可知,当
因此可用这个统计量F作为检验假设
对给定的显著性水平
这种采用F检验法来对回归方程来进行显著性检验的方法称为方差分析.
在F检验中,
其中
例4 对例1进行线性关系显著性检验.
解:n=9
具体检验在如下的方差分析表上进行
方差来源
平方和
自由度
平均平方和
F值
回归
82.84
1
82.84
218.00
剩余
2.66
7
0.38
总和
85.48
8
查下表对
说明线性关系极显著,即回归方程是有意义的.[9]
例5 某种物质在不同的温度下可以吸附另一种物质,如果温度x(单位:℃)与吸附重量Y(单位:mg)的观测值如下表所示:
温度
1.5
1.8
2.4
3.0
3.5
3.9
4.4
4.8
5.0
重量
4.8
5.7
7.0
8.3
10.9
12.4
13.1
13.6
15.3
试求其回归方程并作显著性检验.
解:根据上述观测值得到 n=9
所求线性回归方程为
因为
由n-2=7
所以回归方程极显著
第二节 多元线性回归方程的相关性检验
由于
得到
这里
检验假设
在
因此可利用F检验法检验线性相关关系的显著性
如果F〉
例6 对例1 的回归方程进行显著性检验.
解:经过计算得
所以所求二元线性回归方程线性极其显著.[10]
第五章 利用回归方程进行点预测和区间预测
若线性回归方程作显著性检验的结果是拒绝
(1)当x=
得
(2)当x=
若
因此
与一元线性回归一样,当给定
亦可求出区间估计,还可以给出相应的
影响预测精度的主要因素有:
(1)
(2) n,n越大精度越高.因此,要尽量扩大样本容量.
(3)自变量取值
例7 一些夏季害虫的盛发期与春季温度有关,现有1956-1964年间3月下旬至4月中旬平均温度的累计数x和一代三螟蛾盛发期Y(以
温度
35.5
34.1
31.7
40.3
36.8
40.2
31.7
39.2
44.2
盛发期
12.
16
9
2
7
3
13
9
-1
试求线性回归方程并进行F检验;若
解:根据上述观测值得到的 n=9
所以所求的线性回归方程为
当
检验说明当3月下旬至4月下旬平均温度的累计数为40时,应该预测一代螟蛾盛发期为
例8 下表列出在不同挂重x下,弹簧长度y的测量值,设测量值y对给定的x服从正态分布.
挂物的重量
50
100
150
200
250
300
弹簧的长度
7.25
8.12
8.95
9.90
10.9
11.8
(1) 求线形回归法方程
(2) 检验假设
(3) 若回归效果显著,求b的置信度为95%的置信区间;
(4) 求在x=160(牛)时,y的置信度为0.95的预测区间.
解:(1)
n=6,
所以
(2)
所以 ,拒绝
(3)
b的置信度为0.95的置信区间为(0.01769,0.01893)
(4)
所以,y的置信度为0.95的预测区间为(9.0709,9.3533)
例9 假设儿子的身高y与父亲的身高x适合一元线性回归模型,观察了10对父子的身高(英寸)得数据如下:
X
60
62
64
65
66
67
68
70
72
74
y
63.6
65.5
66
65.6
66.9
67.1
67.4
63.3
70.1
70
(1) 建立y与x的回归方程.
(2) 对线性回归方程作假设检验(
(3) 当
解:(1)设回归方程为:y=
所以
线性回归方程为:
(2)需检验假设
检验统计量
因为
于是F=23.6592(10-2)/24.4698=7.735
而
(3)
当
所以预测区间的一个观测值为(63.0432,71.6106)
第六章 结论
本篇论文从基础的一元线性回归入手深入的分析了多元线性回归方程的参数性质及其显著性检验,并对一元线性回归方程进行点预测和区间预测,并给出实例进行解析.但复杂的计算给分析方法推广带来了困难,需要相应的软件来简化回归分析求解的操作过程.