记得去年夏天,我在咖啡店和好友聊天,她问我:“你知道回归方程里的b是怎么来的吗?”我随口一说:“那得看是哪种表达了。”她好奇地看着我,我于是给她解释了两种b的表达式。
一种是从最小二乘法来的,它长这样:( b = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(yi - \bar{y})}{\sum{i=1}^{n} (x_i - \bar{x})^2} ),这里的n是样本数量,( x_i )和( y_i )分别是自变量和因变量的观测值,( \bar{x} )和( \bar{y} )是它们的均值。
另一种是从协方差和方差来的,公式是:( b = \frac{Cov(x, y)}{Var(x)} ),这里的Cov是协方差,Var是方差。
等等,我突然想到,我记得有一次在做项目时,我们用协方差和方差的表达式来计算,结果更直观,因为直接反映了变量之间的关系。
那你们觉得,在具体应用中,哪种表达式的b更方便呢?
经验回归方程公式b的两种表达式,其实很简单。先说最重要的,第一种是利用最小二乘法计算斜率b,公式是这样的:[ b = \frac{n(\sum xy) - (\sum x)(\sum y)}{n(\sum x^2) - (\sum x)^2} ]。这里,n是样本数量,x和y分别是自变量和因变量的值。
另外一点,第二种表达方式是直接基于样本数据计算斜率。这个公式是:[ b = \frac{\sum (y_i - \bar{y})(x_i - \bar{x})}{\sum (x_i - \bar{x})^2} ]。这里的( y_i )和( x_i )是每个样本点的值,( \bar{y} )和( \bar{x} )是y和x的样本均值。
我一开始也以为这两种方法会得到不同的结果,但后来发现不对,只要数据无误,两种方法计算出的b值是一样的。等等,还有个事,当样本量很大时,第二种方法可能更直观,因为它直接反映了每个样本点对斜率的贡献。
所以,如果你在做回归分析,记得这两种公式都可以用,根据你的数据量和喜好选择即可。这个点很多人没注意,但我觉得值得试试。
b = Σ(y_i - β_0 - β_1x_i) / Σx_i^2 b = (Σy_i - nβ_0 - β_1Σx_i) / (Σx_i^2 - nΣx_i^2)
时间:2023年 地点:不确定 数字:无具体数字