“发布证券研究报告业务教材by北京燕山出版社(第四章 数理方法)”

第一节 概率基础

一、概率与随机变量的含义,计算和原理

  1. 概率

(1)概率的定义

在数学上 ,概率测度 P 是定义在样本空间子集族上的函数。样本空间 S 上的概率测度 P满足以下概率公理:

① 对于任意的事件 $A \subset S,0 \leqslant P(A) \leqslant 1$ ,表示一个事件的概率必定在0 和1 之间;

② $P(S) =1$,表示样本空间 S 包含所有可能的结果,事件 S 是必然事件,概率为 1;

③ 如果 $A \cap B=\emptyset $,则表示事件 A 和事件B 互斥 ,那么两个事件至少有一个发生的概率等 于两个事件的概率和,即 $P(A \cup B) =P(A) +P(B) $

(2)条件概率与事件独立

① 条件概率

在给定事件 B 已经发生的条件下事件 A 发生的概率为条件概率,记为 $P(A|B) = \frac{P(A \cap B)}{P(B)}$

②事件独立

如果$P(A \cap B) =P(A|B)P(B) =P(A)P(B)$ ,那么事件 A 和事件B 是相互独立的。否则,事件A和事件 B 是相互依赖的。

  1. 随机变量

随机变量是从样本空间到实数集的一个函数。

(1) 离散型随机变量及其概率分布函数

设随机变量X取值为有限个或者可列无限多个,则随机变量X 为离散型随机变量,$P(X=x_i,) =p_i,i=1,2,...n$ 称为随机变量X的(概率)分布。

(2)连续型随机变量与概率密度函数

①连续型随机变量

如果对于随机变量X的分布函数 $F(x)$ ,存在非负可积函数 $f(X)$ ,使对于任意实数 $x$ 有:

$$F(x)=\int_{-\infty}^{x}f(t)dt$$

则称X为连续型随机变量,$f(X)$ 称为X 的概率密度函数,简称概率密度。

②概率密度函数的性质

a. 对于所有的 $x \in R$,有$f(X) \geq 0$

b. $ \int_{-\infty}^{+\infty}f(x)dx =1$

c. 对于任意两个实数a,b , $ -\infty <a \leqslant b < + \infty $ ,有$P(a<X\leqslant b) =\int_{a}^{b}f(x)dx$$

d.若$f(x)$ 在点 $x$处连续,则有 $f(x) = \frac{dF(x)}{dx}=F\prime(x)$

  1. 随机变量的数字特征

(1)数学期望

①定义

如果X为离散型随机变量, 它的分布为$P(X=x_i) =p_i=1,2,…,n$,它的期望值为$E(X) =\sum_{i=1}^n x_ip_i$

如果X是一个连续型随机变量, 它的概率密度函数为$f(x)$ ,那么它的期望值为$E(X)= \int_{-\infty}^{+\infty}f(x)dx$

②性质

a. 如果a 和b 是两个常数,那么$E(aX+b) = aE(X) +b $

b. 对于X的某个函数 g(X) 的数学期望, 如果X是一个离散型随机变量, 那么$E[g(X)] = \sum_{i=1}^\infty g(x_i)p_i$, 如果X是一个连续型随机变量,那么 $E[g(X)] = \int_{-\infty}^{+\infty}g(x)f(x)dx$

(2)方差与标准差

X 的方差记为 $\sigma ^2$ 或 $Var(X)$ ,则有:

$$\sigma ^2 = E{[X-E(X)]^2}= E(X^2) - [E(X)]^2$$

方差的平方根称为标准差 ,标准差可用于衡量随机变量波动程度。

二、多元分布函数及其数字特征

  1. 多元分布函数

(1)离散型随机变量的分布

如果X和Y是两个离散型随机变量,其所有可能取值为$(x_i ,y_j),i,j=1,2,…$,记$P{X=x_i,Y=y_j}=p_{ij},i,j=1,2,…$,则由概率的定义有:$p_{ij}>0,\sum_{i=1}^\infty \sum_{j=1}^\infty p_{ij}=1$,称 $P{X=x_i,Y=y_j}=p_{ij},i,j=1,2,…$为二维离散型随机变量$(X,Y)$ 的分布律,或称为随机变量X和Y的联合分 布律。

离散型随机变量X和Y的联合分布函数为 $F(x,y) =\sum_{x_i \leqslant x} \sum_{y_j \leqslant y} p_{ij} $ ,其中和式是对一切满足 $x_i \leqslant x,y_j \leqslant y$ 的$i,j$ 来求和的。

(2)连续型随机变量的分布

① 如果X和Y是两个连续型随机变量 ,那么满足下列性质的二元函数$f(x,y)$被称为X和Y的联合概率密度函数:

a. $f(x,y) \geq 0$

b.设A是$xOy$平面上的区域,点$(X,Y)$落在A 内的概率为: $P{(X,Y) \in A} = \underset{A}{\iint}f(x,y)dxdy$

c. $\int_{-\infty}^{\infty}\int_{-\infty}^{\infty}f(x,y)dxdy=1$

② 相应的联合累积分布函数为:

$$F(x,y)=P(X\leqslant x,Y \leqslant y) =\int_{-\infty}^{x}\int_{-\infty}^{y}f(x,y)dxdy $$

③ 如果$F(x,y)$ 的偏导数存在,那么联合密度函数为:

$$f(x,y)=\frac{\partial^2F(x,y)}{\partial x\partial y}$$

④ X 和 Y的边际概率密度函数为:

$$g(x)=\int_{-\infty}^{\infty}(x,y)dy$$ $$h(y)=\int_{-\infty}^{\infty}(x,y)dx$$

⑤ 当两个随机变量相互独立时,联合概率密度是各个边际概率密度的乘积,即$f(x,y)=g(x)\cdot h(y)$

2.多元分布函数的数字特征

(1)协方差

协方差用于描述两个随机变量之间的相关程度。 两个实数随机变量X 与Y之间的协广 差 $Cov(X,Y)$ 定义为:

$$Cov(X,Y) ={E[X-E(X)][Y-E(Y)]} =E(XY) - E(X)E(Y)$$

如果X和Y是相互独立的,那么$Cov(X,Y)=0$

(2)相关系数

X 和Y之间的相关系数记为$\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} $

相关系数的性质有 :

① $\rho_{XY}$的取值一定在-1和1之间;

②若X和Y相互独立,则 $\rho_{XY} =0$;

③如果$Y=aX+b,(a,b \not=0)$ ,那么$\rho_{XY} =1$,此时X和Y是完全相关的。X和Y的值越接近线性关系,$|\rho_{XY}|$越大。

(3)协方差移阵

对于多元随机变量而言,用X表示随机变量组成的向量,即:

$$X=\begin{Bmatrix} X_1\\ X_2\\ \vdots\\x_n \end{Bmatrix}$$

其中$E(X_i)=\mu_i,Var(X_i)=\sigma_i^2,Cov(X_i,X_j)=\sigma_{ij}$

Wemrerie

三随机变量的函数

一个随机变量经过函数变换后仍是一个随机变量,并且通过原始随机变量的分布可得到新随机变量的概率分布。

  1. 随机变量的线性组合

如果 $a_1,a_2,...,a_n$是常数 ,$X_1,X_2,...,X_n$ 是随机变量,那么有:

$$Var [a_0 + a_1X_1+...+a_nX_n]=\sum_{i=1}^na_i^2Var(X_i) + 2\sum \underset {i<j} {\sum} a_i a_j Cov(X_i,X_j)$$

特别地有:

$$Var [a_0 + a_1X_1]=a_1^2Var(X_1)$$

$$Var(X_1 \pm X_2)=Var(X_1) + Var(X_2) \pm 2Cov(X_1,X_2)$$

  1. 随机变量的加权和

如果 $\alpha' = (\alpha_1,\alpha_2,...\alpha_n)$ 是常数向量,那么有:

$$E(\alpha'X) = \alpha'\mu = \alpha_1\mu_1+ \alpha_2\mu_2 + ... + \alpha_n\mu_n$$

$$Var(\alpha'X) = \sum_{i=1}^n\alpha_i^2\sigma_j^2 + 2\sum \underset{i<j}{\sum}\alpha_i\alpha_j\sigma_{ij}$$

如果 $\alpha$ 是资产组合的权重,$\mu$ 是资产组合收益率,$\sigma_i$是资产组合波动率,上述结果就是 资产组合收益率的期望和方差的计算公式,可用于计算组合风险价值。

  1. 随机变量的积

对于随机变量乘积 $Y=X_1X_2$ ,其期望为:

$$E(X_1X_2)=E(X_1)E(X_2) + Cover(X_1,X_2)$$

  1. 随机变量变换(函数)的分布

假设X是一个连续随机变量,概率密度函数为$f(x)$,$g(X)$是一个单调函数,那么$Y=g(X)$是一个新的随机变量。

把X表述成Y的函数为$X=w(Y)$,那么Y的概率密度函数$h(y)$为:

$$h(y)=f[w(y)]\cdot[\partial w(y)/\partial y]$$

四、对数正态分布等统计分布的特征和计算

正态分布是最重要的一类连续型随机变量分布,当一个随机变量的取值受到大量不同 因素作用的共同影响,并且单个因素的影响都微不足道的时候,这个随机变量就服从或近似 服从正态分布。

在概率论与统计学中,对数正态分布是对数为正态分布的任意随机变量的概率分布。 如果X是服从正态分布的随机变量,则 $$exp(X)$服从对数正态分布;同样,如果Y服从对数正态分布,则 $In(Y)$ 服从正态分布。如果一个变量可以看作是许多很小独立因子的乘积,则这个变量可以看作是对数正态分布。

第二节 统计基础

一.总体.样本和统计量的含义

  1. 总体与样本

把研究对象的全体称为总体X,把组成总体的每个成员称为个体。X的分布函数称为总 体分布函数。

在实际中,总体的分布一般是未知的,或只知道它具有某种形式而其中包含着未知参数。在数理统计中,人们都是通过从总体中抽取一部分个体 ,根据获得的数据来对总 体分布作出推断的,被抽出的部分个体称为总体的一个样本。从总体抽取一个个体 ,就 是对总体下进行一次观察并记录其结果。在相同的条件下对总体式进行$n$次重复的、 独立的观察。将$n$次观察结果按试验的次序记为$X_1,X_2,...,X_n$ 忆 ,寻,…,筷。这样得到的 $X_1,X_2,...,X_n$称为来自总体下的一个简单随机样本,$n$ 称为这个样本的容量,$X_1,X_2,...,X_n$ 称为样本观测值。

  1. 统计量

(1)定义

设 $X_1,X_2,...,X_n$ 是从总体X中抽取的容量为 $n$的一个样本,如果由此样本构造一个函数$T(X_1,X_2,...,X_n) $,不依赖于任何未知参数,则称函数$T(X_1,X_2,...,X_n) $是一个统计量。

(2)常用统计量

① 样本均值: $\overline{X}= \frac{1}{n}\sum_{i=1}^nX_i$

②样本方差:$S^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \overline{X})^2 = \frac{1}{n-1}(\sum_{i=1}^nX_i^2 - n\overline{X^2}) $,用来估计总体方差 $\sigma^2$。

二、统计推断的参数估计

参数估计是用样本统计量去估计总体的参数。统计推断的参数估计包括点估计和区间估计.

  1. 点估计

设$X_1,X_2,...,X_n$是来自总体X的样本,$\theta$是总体的未知参数,若用一个统计量$\hat{\theta}=\hat{\theta}(X_1,X_2,...,X_n)$来估计$\theta$,则称 $\hat{\theta}$为参数 $\theta$的估计量。 这种估计称为点估计,常用方法包括矩阵估计和最大似然估计.

(1)矩估计 基本思路是利用样本矩去估计对应总体的各阶矩。

①原点矩

记样本的$i$ 阶原点矩为 $m_i=\frac{1}{n}\sum_{j=1}^nX_j^i$,记总体的$i$ 阶原点矩为 $\mu_i=E(X^i)$,则$\mu_i=m_i$。

②中心矩

样本的$k$阶中心矩为$A_k=\frac{1}{n}\sum_{i=1}^n(X_i-\overline{X})^k $,总体$k$阶中心矩$M_k=\frac{1}{n}E$$\begin{Bmatrix} [X_i - E(X)^k]\end{Bmatrix}$ 。

最常用的矩估计法是用一阶样本原点和矩来估计总体的期望,用二阶样本中心矩来估计总体的方差。

(2)最大似然估计

最大似然估计的基本思想是:当从模型总体中随机抽取 $n$组样本观测值后,最合理的参 数估计量应该使得从模型中抽取该$n组样本观测值的概率最大。

(3)点估计的优良性评判准则

①无偏性。设$\hat{g} =\hat{g}(X_1,X_2,...,X_n)$是$g(\theta)$的一个估计量,若 $E(\hat \theta) = g(\theta)$ ,对每一个$\theta \in \Theta$ 成立,则称$\hat{g}(X_1,X_2,...,X_n)$是$g(\theta)$的一个无偏估计。

② 有效性。设 $g_1$ 和$g_2$ 是$g(\theta)$ 的两个无偏估计,如对每一个个$\theta \in \Theta$,有$ Var(g_1 ) \leqslant Var(g_2 )$ ,且至少对某个 $\theta$ 使不等式严格成立,则称$(g_1 ) 比(g_2 )有效$。

③ 一致性。一致性是指随着样本量的增大,估计量的值越来越接近被估计总体的参数。即一个大样本给出的估计量要比一个小样本给出的估计量更接近总体的参数。样本均值是总体均值的一个一致估计量.

  1. 区间估计

(1)区间估计中的统计思想

区间估计是在点估计的基础上,给出总体参数估计的一个区间范围,该区间通常由样本 统计量加减估计误差得到。与点估计不同,进行区间估计时,根据样本统计量的抽样分布可 以对样本统计量与总体参数的接近程度给出一个概率度量。

(2)区间估计的数学定义

设$X_1,X_2,...,X_n$是来自总体$f(X,\theta)$ 的样本, $\theta \in \Theta$未知,对于任意$0 <\alpha <1$,若统计量$\underline{\theta} = \underline{\theta}(X_1,X_2,...,X_n) < \overline{\theta}(X_1,X_2,...,X_n)=\overline{\theta}$, ,使得$P_{\theta}(\underline{\theta}\leqslant \theta \leqslant \overline{\theta})\geq 1-\alpha,\theta \in \Theta$,则称$[\underline{\theta},\overline{\theta}]$为 $\theta$的双侧$1 - \alpha$置信区间,$1 - \alpha$为置信水平。

三、统计推断的假设检验

(1) 原假设与备择假设

原假设($H_0$ ) :如果提出一种想法,要检验这种想法是否正确,那么这种想法或假设称为“原假设"(又称零假设) 。一般零假设经过长期检验被认为是正确的,在现在的新情况下希望望检验它是否仍然正确。

备择假设($H_1$ ) :当 $H_0$ 被否定后作为备用选择的假设就是正确的,称这种备用选择的假设为对立假设或备择假设。

否定论证是假设检验的重要推理方法,其要旨在于:先假定原假设成立,如果导致观察 数据的表现与此假定矛盾,则否定原假设。通常使用的一个准则是小概率事件的实际推断原理。

(2) 两类错误

第一类错误(概率):弃真概率 $\alpha$ 指原假设成立 ,而错误地加以拒绝。

第二类错误(概率): 取伪概率 $\beta$ 指原假设不成立 ,而错误地接受它。

(3)显著性水平($\alpha$)

在样本容量给定的情况下 ,犯两类错误的概率不可能同时小,只有增加样本容量,才能 使它们同时减小。一般在控制弃真概率的条件下 ,使得取伪概率尽量小,简化为控制第一类 错误的概率$\alpha$。

(4)假设检验的基本步骤

① 根据实际问题的要求 ,提出原假设 $H_0$ ,及备择假设$H_1$;

②给定显著性水平$\alpha$以及样本容量 $n$;

③确定检验统计量以及拒绝域的形式;

④按$P\{当H_0为真拒绝H_0\} \leqslant \alpha$ 求出拒绝域;

⑤取样 ,根据样本观察值作出决策 ,是接受 $H_0$ 还是拒绝$H_0$。

第三节 回归分析

一、一元线性回归模型的含义和特征

一元线性回归是对两个具有向关系的数量指标进行线性拟合获得最佳直线回归方程,从而在相关分析的基础上进行指标预测。

  1. 总体回归函数

(1 ) 模型形式

对于具有线性关系的两个变量,可以用一个线性方程来表示它们之间的关系。描述因变量如何依赖于自变量和误差项的方程称为回归模型。只涉及一个自变量的一元线性回归 模型可表示为:

$$y_i=\alpha + \beta x_i + \mu_i,(i=1,2,3...,n)$$

其中 $y$ 称为因变量或被解释变量; $x$称为自变量或解释变量; $\mu$是一个随机变量,称为随机(扰动)项; $\alpha 和 \beta$ 是两个常数,称为回归参数;下标 $i 表示变量的第$i$ 个观察值或者随机项。

(2)随机项 $\mu$和自变量 $x$满足的统计假定

①每个$\mu_i(i=1,2,3,…,n)$均为独立同分布,服从正态分布的随机变量。且 $E(\mu_i) =0 (i=1,2,3,,…,n) ,Var(\mu_i) =\sigma_{\mu}^2 =常数$

②随机项 $\mu_i$ 与自变量的任一观察值 $x_i$ 不相关,即 $Cov(\mu_i,x_i)=0 (i=1,2,3,,…,n)$

  1. 样本回归函数

从总体中抽取一定样本数据进行观测 ,对于解释变量$x$ 的一定值,取得的被解释变量 $y$的样本观测值也可计算其条件均值,$y$ 的样本观测值的条件均值随解释变量 $x$而变动的轨迹,称为样本回归线。样本回归函数如为线性函数,可表示为:

$$y_i = \hat{\alpha} + \hat {\beta} x_i + \varepsilon_i$$

式中,$\hat{\alpha} , \hat {\beta}$是$\alpha,\beta$ 的估计量;$\varepsilon_i$称为剩余项,或称为残差,是实际观测的被解释变量值 $y_i$与样本条件均值二者之差,即$\varepsilon_i = y_i - \hat{y_i}$ .$\varepsilon_i$在概念上类似于总体回归的随机扰动项 $\mu_i$,作为 $\mu_i$ 估计量的残差 $\varepsilon_i$是可以观察的。

  1. 回归参数的 OLS 估计

为了使样本回归函数“尽可能接近”总体回归函数, 就是要使样本回归函数估计的$ \hat{y_i}$与实际的$y_i$的误差尽量小,即使得残差$\varepsilon_i $ 越小越好。可是 $\varepsilon_i $ 有正有负,其简单代数和会相互抵消而趋于零。为了在数学上穗于处理, 可采用剩余平方和 $\sum {\varepsilon_i}^2 $ 最小的准则,这就是最小二乘准则, 即

$$min \sum_{i=1}^n{\varepsilon_i}^2 = min \sum_{i=1}^n({y_i - \hat{y_i}})^2= min \sum_{i=1}^n[y_i - (\hat{\alpha} + \hat{\beta}x_i)]^2$$

利用最小二乘准则估计回归参数的方法称为普通最小二乘法(简记 OLS,Ordinary Least Square) ,$\hat{\alpha} 和 \hat{\beta}$ 称为普通最小二乘估计量。

根据微积分的极值定理,对上式求相应于$\hat{\alpha} 和 \hat{\beta}$ 的偏导数, 并令其等于0,便可求出$\hat{\alpha} 和 \hat{\beta}$,即

$$y =\begin{cases} \hat{\beta} = \frac{n \overset{n}{\underset{i=1}{\sum}}x_iy_i - \overset{n}{\underset{i=1}{\sum}}x_i\overset{n}{\underset{i=1}{\sum}}y_i}{n\overset{n}{\underset{i=1}{\sum}}x_i^2 - (\overset{n}{\underset{i=1}{\sum}}x_i)^2} \\ \hat{\alpha}=\overline {y} - \hat {\beta} \overline {x} \end{cases}$$

  1. 回归参数显著性检验和回归参效区间估计

获得模型的参数$\hat{\alpha} 和 \hat{\beta}$ 之后,需要对模型是否稳健和有效做出判断,为此,还需进行:

(1) 对回归参数进行显著性检验,并对参数做区间估计;

(2) 对回归模型的有效性做出判断。

  1. 回归方程显著性检验与拟合优度

(1)总离差平方和的分解

$y$的 $总离差 =y_i -\overline y$。总离差平方和(TSS) 及其分解详情如表4 -1 所示

表4-1 总离差平方和的分解

类别 公式
总离差平方和(TSS) $TSS=\overset{n}{\underset{i=1}{\sum}}(y_i-\overline{y})^2$,是反映全部总离差变化的量,$TSS = RSS + ESS$
回归平方和(ESS) $ESS =\overset{n}{\underset{i=1}{\sum}}(\hat{y_i}-\overline{y})^2$ ,反映 TSS 中被$y$对$x$ 回归说明的部分
残差平方和(RSS) $RSS =\overset{n}{\underset{i=1}{\sum}} \varepsilon_i^2$,是 TSS 中除了$y$ 对 $x$ 回归之外的一切随机因素构成的部分

参考: https://en.wikipedia.org/wiki/Explained_sum_of_squares

  • total sum of squares ( TSS )
  • explained sum of squares (ESS)
  • residual sum of squares (RSS)

(2)拟合优度(样本决定系数)

样本决定系数 $R^2$ 是综合度量回归模型对样本观测值拟合优度的指标,其公式为:

$R^2 = \frac{ESS}{TSS} = \frac{\sum (\hat{y_i}-\overline{y})^2}{\sum(y_i-\overline{y}^2)} = 1- \frac{RSS}{TSS}$

拟合优度越大,表示回归直线与样本观察值拟合的越好,反之,越差.通过分析可知,$0 \leqslant R^2 \leqslant 1$ ,越接近 1 ,拟合效果越好。

多元线性回归模型的含义和特征

  1. 模型定义

(1)总体回归函数

如果总体回归函数描述了一个被解释变量与多个解释变量之间的线性关系,由此而设定的总体回归函数就是多元线性回归模型。多元线性回归模型的一般形式可表示为:

$$y_i=\alpha + \beta_1 x_{1i} + \beta_2 x_{2i} + ... + \beta_k x_{ki} + \mu_i,(i=1,2,3...,n)$$

(2)样本回归函数

多元样本线性回归函数可表示为:

$$\hat{y_i}=\hat{\alpha} + \hat{\beta_1} x_{1i} + \hat{\beta_2} x_{2i} + ... + \hat{\beta_k} x_{ki} + \varepsilon_i,(i=1,2,3...,n)$$

多元总体线性回归函数的矩阵形式可表示为:

$$Y=X\beta + U$$

其中:$Y=\left[ \begin{matrix} y_1 \\ y_2 \\ ... \\ y_n \end{matrix} \right]$,$\beta=\left[ \begin{matrix} \beta_1 \\ \beta_2 \\ ... \\ \beta_k \end{matrix} \right]$,$U=\left[ \begin{matrix} \mu_1 \\ \mu_2 \\ ... \\ \mu_n \end{matrix} \right]$,$X=\left[ \begin{matrix} 1 & X_{11} & X_{21} & ... & X_{k1} \\ 1 & X_{12} & X_{22} & ... & X_{k2} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & X_{1n} & X_{2n} & ... & X_{kn} \end{matrix} \right]$

类似地,多元样本线性回归函数的矩阵表示为:

$$Y=X\hat{\beta} + \varepsilon$$

2.模型假定

(1)被解释变量和解释变量之间具有一种线性关系。

(2解释变量之间不存在线性关系

(3) 随机扰动项的期望值为零,即 $E(\mu_i) =0$。

(4)所有随机扰动项的方差都相等,为 $\sigma^2$,不同的随机扰动项互不相关,且服从标准正 态分布,即$\mu_i \sim N(0,\sigma^2)$ 。

(5)随机扰动项与解释变量不相关。

  1. 参数的最小二乘估计

多元线性回归方程中的 $\hat{\alpha},\hat{\beta}_1,\hat{\beta}_2,...,\hat{\beta}_k$ 仍然是根据最小二乘法求得,也就是使残差平方和最小:

$$min \sum_{i=1}^n{\varepsilon_i}^2 = min \sum_{i=1}^n({y_i - \hat{y_i}})^2= min \sum_{i=1}^n[y_i - (\hat{\alpha} + \hat{\beta}1x + \hat{\beta}2x + ... + \hat{\beta}kx )]^2$$

通过求解,可得多元线性回归模型参数向量 $\hat{\beta}$ 的最小二乘估计式的矩阵表达式为:

$$\hat{\beta} = (X^TX)^{-1}X^TY$$

其中,$X^T$表示$X$的转置矩阵,$(X^TX)^{-1}$ 表示$(X^TX)$的逆矩阵。

  1. 拟合优度检验
  2. (1)可决系数

和简单线性回归类似, 为了说明多元线性回归线对样本观测值的拟合情况,也可以考察 在$y$ 的总变差中由多个解释变量作出了解释的那部分变差的比重,即"回归平方和" 和 "总离差平方和" 的比值。在多元回归中这一比值称为多重可决系数,用 $R^2$ 表示

$$R^2=\frac{ESS}{TSS}$$

$$R^2 = \frac{TSS-RSS}{TSS}=1-\frac{RSS}{TSS}$$

多重可决系数是介于0 和1 之间的一个数,$R^2$ 越接近1,模型对数据的拟合程度就越好。

(2))修正的可决系数

多重可决系数有一个重要性质,即它是模型中解释变量个数的不减函数,在样本容量不变时,随着模型中解释变量的增加,总离差平方和TSS 不会改变,而回归平方和 ESS 可能增 大,多重可决系数$R^2$的值会变大。当被解释变量相同而解释变量个数不同时, 这给运用多重可决系数去比较两个模型的拟合程度带来缺陷。可决系数只涉及变差,没有考虑自由度. 如果用自由度去校正所计算的变差,可以纠正解释变量个数不同引起的对比困难,从而引入修正的可决系数 $\hat{R}^2$,其计算公式为,

$$\hat{R}^2 = 1 - (1-R^2)(\frac{n-1}{n-k-1})$$

$\hat{R}^2$ 的解释与 $R^2 类似,不同的是:$\hat{R}^2$同时虑了样本量$n$ 和模型中自变量的个数$k$ 的影响,这就使得$\hat{R}^2$ 的值永远小于 $R^2$ ,而且$\hat{R}^2$ 的值不会由于模型中自变量个数的增加而越来越接近 1。因此,在多元回归分析中, 通常用修正的可决系数。

三、非线性模型线性化的原理

当变量$y$ 与$x$ 之间可能不存在线性关系时,有一部分可以通过变量的替换,转化为线性的回归模型处理。线性关系只是要求参数和随机扰动项是线性的, 而并不要求变量之间是线性关系。典型的对数线性模型是经常使用的一个模型。它的表达式为:

$$y=e^{\beta_1}X_2^{\beta_2}X_3^{\beta_3}...X_K^{\beta_K}e^{\varepsilon}$$

两边取自然对数可得:

$$Iny=\beta_1 + \beta_2InX_2 + \beta_3InX_3 + ... + \beta_KInX_K + \varepsilon$$

四、回归模型常见问题及处理

  1. 多重共线性

(1)概念

回归模型的基本假设之一是解释变量是相互独立的. 如果解释变之问存在严格或者近似的线性关系,就会产生多重共线性问题,本质为解释变量之间高度相关。

(2)产生原因

① 滞后变量的引入;

②样本数据的限制;

③自变量之间具有某种类型的近似线性关系等。

(3)后果

① 多重共线性使得估计值不稳定,并对于样本非常敏感;

② 使得参数估计值的方差增大;

③ 由于参数估计的方差增加,使得统计量$t$减小,从而$|t|< t_{\alpha/2}$ 出现的机会变大,即$t$值落在零假设范围内的可能性增加,可能会出现舍去对因变量有显著影响的变量,从而导致模型错误; 1 ④ 由于参数估计值的方差增大,作预测时,会导致预测的置信区间过大,降低预测精度.

(4)检验

判断多重共线性的方法主要有简单相关系数检验法、逐步回归检验法等。

①简单相关系数检验法

简单相关系数检验法是利用解释变量之间的线性相关程序去判断是否存在严重多重共线性的一种简便方法.一般而言,如果每两个解释变量的简单相关系数比较高,如大于0.8,则可认为存在着严重的多重共线性.但要注意,较高的简单相关系数只是多重共线性存在的充分条件,而不是必要条件. 特别是在多于两个解释变量的回归模型中,有时较低的简 单相关系数也可能存在多重共线性。因此并不能简单地依据相关系数进行多重共线性的准确判断.

②逐步回归法

以$y$ 为被解释变量, 逐个引入解释变量,构成回归模型,进行模型估计.根据拟合优度的变化决定新引入的变量是否独立.如果拟合优度变化显著,则说明新引入的变量是一个独立解释变量,如果拟合优度变化很不显著,则说明新引入的变量与其他变量之间存在共线性.

(5) 消除多重共线性影响的方法

①排除引起共线性的变量。使用逐步回归法找出引起多重共线性的解释变量,将它排除。

② 差分法。对于时间序烈数据,将原模型变换为差分模型

$$\Delta y_i = \beta_1 \Delta x_{1i} + \beta_2 \Delta x_{2i} + ... + \beta_k \Delta x_{ki} + \Delta \mu_i$$

差分模型可以有效地消除原模型中的多重共线性。

③通过增加样本容量或者使用岭回归技术降低参数估计的方差。

  1. 异方差问题

(1)异方差的概念与后果

对于线性模型 $y_i = \beta_1 x_{1i} + \beta_2 x_{2i} + ... + \beta_k x_{ki} + \mu_i$, 如果出现 $Var(\mu_i) = \sigma^2$ 不为常数,即对于不同的样本点,随机误差项的方差互不相同,这就是异方差性。

对于存在异方差性的模型,采用 OLS 估计模型参数会产生下列不良后果:

①参数估计量非有效, 无偏的 OLS 估计量不再具有有效性。

②变量的显著性检验失去意义:异方差性导致$t$检验失去意义,其他检验也如此.

③ 模型的预测失效:当模型 出现异方差性时,参数 OLS 估计值的变异程度增大,从而造成对 $y$ 的预测误差变大, 降低预测精度,预测功能失效。

(2)异方差的检验方法 AN

①散点图判断

可利用 $x - \varepsilon^2$ 残差图判断异方差性,以是否形成斜率为零的直线作为判断基础。

②统计检验方法

这里主要介绍 $G_Q$ 检验法。$G_Q$ 检验的思想为:先将样本一分为二,对子样 1 和子样 2 分别作回归,然后利用两个子样的残差平方和之比构造统计量进行异方差检验。该统计量服从$F$分布,因此假定存在递增的异方差,则$F$远大于 1;反之,就会等于1(同方差)或者小于1(递减方差) 。

(3)异方差问题的处理 人 人

模型检验出存在异方差性,可用加权最小二乘法(WLS,Weight Least Square) 进行估计。 加权最小二乘法是 对原模型加权, 使之变成一个新的不存在异方差性的模型, 然后采用OLS 估计其参数。

  1. 序列相关性问题

(1)序列相关的概念及后果

序列相关又称自相关 ,是指总体回归模型的随机误差项 $\mu_i$ 之间存在相关关系。在回归模型的古典假定中是假设随机误差项无自相关的,即 $\mu_i$ 在不同观测点之间是不相关的,即

$$Cov(\mu_i,\mu_j) = E(\mu_i\mu_j)=0 , i \not= j $$

如果该假定不能满足,就称$\mu_i,\mu_j$存在自相关。

自相关往往可写成$\mu_i = \rho\mu_{i-1} + v_i$,其中,$\rho$为自相关系数, $-1 <\rho<l$,$v_i$ 满足标准(正态)随机干扰项的假定。

模型一旦出现序列相关性 ,如果仍采用 OLS 法估计模型参数,会产生下列不良后果:

①不影响参数估计量的线性和无偏性,但是参数估计量失去有效性;

②变量的显著性检验失去意义;

③模型的预测失效。

(2)序列相关性的检验思路和常用方法

①序列相关性检验的思路

首先采用 OLS 对模型做估计,获得随机干扰项的近似估计量。然后,通过分析这些"近似估计量"之间的相关性,以判断随机误差项是否具有序列相关性。

②常用检验方法

序列相关性检验的常用方法包括图示法、回归检验法、杜宾 - 瓦森(Durbin - Watson ) 检验法、拉格朗日乘数检验等。其中,图示法简单,回归检验法可以满足任何类型序列相关性检验,拉格朗日乘数检验适用于高阶序列相关以及模型中存在滞后变量的情形。

DW检验的假设条件为解释变量 $x$ 为非随机, 随机干扰项满足一阶自回归形式,解释变量中不包含滞后的被解释变量, 截距项不为零,数据序列无缺失项。DW检测的判断如 4一1所示。

当DW值在2左右时,模型不存在一阶自相关。

(3) 消除自相关影响的方法

最常用的方法是广义最小二乘法(GLS,general least square) 和广义差分法。

广义最小二乘法(GLS)是一种常见的消除异方差的方法,它的主要思想是为解释变量加上一个权重,从而使得加上权重后的回归方程方差是相同的。然后再用 OLS 对变换后的 回归方程进行估计。

广义差分法的思想是将原模型转化为对应的差分形式 ,消除序列相关性,然后用普通最小二乘法估计。多元回归模型与一元回归模型的广义差分法原理相同。广义差分法得以实 施的关键是计算出自相关系数$\rho$的值。

第四节 时间序列分析

一 时间序列的基本概念

  1. 定义

从统计意义上讲,时间序列是将某一个指标在不同时间上的不同数值,按照时间的先后序排列而成的数列。数列由于受到各种偶然因素的影响 ,往往表现出某种随机性,之间存在着统计上的依赖关系.依赖参数时间 $t$ 的随机变量集合就是随机过程,记为$\{y_t\}$ 。元素$y_t$为该随机过程的观察值,称之为时间序列。

  1. 时间序列的平稳性

时间序列的平稳性,是指时间序列的统计规律不会随着时间的推移而发生变化。也就是说,生成变量时间序列数据的随机过程的特征不随时间变化而变化。

从理论上,有两种意义的平稳性,一种是严格平稳,另一种是弱平稳。严格平稳是指随机过程$\{y_t\}$ 的联合分布函数与时间的位移无关。 弱平稳是指随机工程$\{y_t\}$ 的期望、 方差和协方差不随时间推移而变化。

若 $\{y_t\}$ 满足:

$$E(y_t)=\mu$$

$$Var(y_t)=\sigma^2$$

$$Cov(y_t,y_{t+k}=\lambda_k$$

$\lambda_k$ 为只与时间间隔$k$ 有关, 而与$t$无关的常数, 则称以 $\{y_t\}$ 为若平稳随机过程.

  1. 白噪声

如果随机过程$\{\varepsilon_t\}_{t=-\infty}^{+\infty}$,满足$E(\varepsilon_t)=0,Var(\varepsilon_t)=\sigma^2$, 当$t\not ={T}$ 时,有 $E(\varepsilon_t,\varepsilon_T)=0$,则称这个随机过程为白噪声过程。

白噪声过程是一个平稳的过程。如果当$t\not ={T}$时,$\varepsilon_t 与 \varepsilon_T$是相互独立的,则称之为独立白噪声过程。

如果随机过程$\{y_t\}_{t=-\infty}^{+\infty}$是常数$\mu$ 与一个白噪声过程的和,即 $y_t=\mu+\varepsilon_t$,

那么$\{y_t\}_{t=-\infty}^{+\infty}$是一个平稳的随机过程。

二.平稳时间序列 ARMA 模型的含义和应用

ARMA模型是一种常用的随机时序模型,是精度较高的时序短期预测方法,其基本思想是:除极个别情况外,几乎所有的时间序列中按照时间顺序排列的观察值之间具有依赖关系或者自相关性,这种自相关性体现了变量发展的连续性.因此,一旦时间序列的这种自相关性被定量描述出来, 即可根据其过去值预测将来值.

ARMA模型(英语:Autoregressive moving average model,全称:自回归滑动平均模型), 参考: https://zh.wikipedia.org/wiki/ARMA%E6%A8%A1%E5%9E%8B

  1. 移动平均(MA)过程

设 $\{\varepsilon_t\}_{t=-\infty}^{+\infty}$ 是白噪声过程,

如果一个随机过程满足两个白噪声的加权和 $y_t=\mu + \varepsilon_t + \theta \varepsilon_{t-1}$, $\mu 和 \theta$ 是任意常数,则称它为一阶移动平均过程,记为 MA(1)。

记$(\theta_1 ,\theta_2 ,…,\theta_q)$是任意实数,一个$q$ 阶移动平均过程,记为 $MA(q)$ ,可表示为:

$y_t=\mu + \varepsilon_t + \theta_1 \varepsilon_{t-1} + \theta_2 \varepsilon_{t-2} + ... + \theta_q \varepsilon_{t-q}$

$MA(q)$过程是平稳的。

  1. 自可归(AR)过程

一个$P$阶自回归过程可表示为:

$$y_t = c + \phi_1y_{t-1} +\phi_2y_{t-2} + ... + \phi_py_{t-p} + \varepsilon_t $$

将其记为 $AR(p)$ 。如果其特征根都在单位圆外面,则$AR(p)$ 过程是平稳的。

  1. ARMA 模型

实际上 AR 模型和 MA 模型都是自回归移动平均过程的特例。

阶数为$(p,q)$的自回归移动平均过程可表示为:

$$y_t = c + \phi_1y_{t-1} +... + \phi_py_{t-p} + \varepsilon_t + \theta_1 \varepsilon_{t-1} +... + \theta_q \varepsilon_{t-q} $$

这里 $\{\varepsilon_t\}_{t=-\infty}^{+\infty}$ 是一个白噪声过程。将这个过程记为 ARMA$(p,q)$ 。常用的过程是 AR-MA(1,1) 。利用滞后算子可以证明 ARMA$(p,q)$ 过程是平稳的。ARMA 模型的估计需要使用非线性估计方法,实务中常使用数学软件进行估计。

三、非平稳时间序列 ARIMA 模型的含义和应用

  1. 平稳过程与非平稳过程 考虑下列过程:

$$y_t = y_{t-1} + x_t$$

这里 $x_t$ 是一个平稳过程,均值为 $\mu \not ={0}$ ,假设$y_0=0$,那么有:

$$ y_t = (y_{t-2} + x_{t-1}) + x_t =... = x_1 + x_2 +... + x_t $$

故$E(y_t) = \mu \not ={0}$。因此 $\{y_t\}$ 有一个时间趋势,它不是一个平稳过程。为了消除这个时 间趋势,考虑 $y_t$ 的一阶差分 $\Deltay_t = y_t -y_{t-1},它是一个平稳过程。作差分是把非平稳过程转换 成平稳过程常用的方法。

差分的这种操作类似导数的导数.

如果上述模型中 $\Delta y_t$ 是一个 ARMA$(p,q)$过程,则称上述模型的 $y_t$是一个自回归融合移 动平均过程,记为 ARIMA$(p,1,q)$。如果 $\Delta y_t$ 是 $y_t$ 经过$d$阶差分后的一个 ARMA$(p,q)$过 程,那么$y_t$ 是一个ARIMA$(p,d,q)$。

  1. 非平稳时间序列模型的特点

(1)不具有特定的长期均值;

(2)方差和自协方差不具有时间不变性;

(3) 理论上,序列自相关函数不随滞后阶数的增加而衰减。

四 协整分析和误差修正模型

  1. 协整的概念

协整是指某些时间序列是非平稳时间序列,但其线性组合却存在长期的均衡关系。具 体来讲,对于两个时间序列$\{x_t\} 和 \{y_t\}$均为一阶单整序列(一阶单整序列是指非平稳时间序 列经过一阶差分之后变为平稳序列) ,即 $x_t \sim ~I(1) ,y_t \sim I(1)$ ,若存在一组非零常数$\alpha_1 和 \alpha_2$ , 使得 $\alpha_1x_t + \alpha_2y_t \sim I(0)$ ,则称 $x_t 和y_t$ 之间存在协整关系。

虽然两个经济变量有各自的长期波动规律 ,但是如果它们是协整的,则它们之间存在着一个长期稳定的比例关系。

  1. 误差修正模型

(1)误差修正模型的基本思想

若变量间存在协整关系,则表明这些变量间存在着长期均衡关系,而这种长期均衡关系是在短期波动过程的不断调整下得以实现的。

(2) 误差修正机制

由于大多数金融时间序列的一阶差分是平稳序列,受长期均衡关系的支配,这些变量的 某些线性组合也可以是平稳的。即所研究变量中的各长期分量相互抵消,产生了一个平稳 的时间序列,这是由于一种调节机制一一误差修正机制在起作用,它防止了长期均衡关系出 现较大的偏差。因此,任何一组相互协整的时间序列变量都存在误差修正机制 ,通过短期调 节行为,达到变量间长期均衡关系的存在。

建立误差修正模型的步骤:

第一步 ,建立长期关系模型,即通过水平变量和 OLS 法估计 出时间序列变量间的关系。

第二步,建立短期动态关系,即误差修正方程。将长期关系模型 中各变量以一阶差分形式重新加以构造,并将长期关系模型所产生的残差序列作为解释变 量引入 ,在一个从一般到特殊的检验过程中,对短期动态关系进行逐项检验,不显著的项逐 渐被剔除,直到最适当的表示方法被找到为止。

下面以建立货币需求函数为例,说明误差修正模型的建模过程。

假设当前实际货币需求余额是关于实际货币需求余额滞后值、实际国民收入和机会成本等变量的回归。依据交易方程设定的模型可作为长期关系模型 ,其一般形式为:

$$(\frac{M}{P})t = \beta_0 + \beta_1Y_t + \beta_2 \pi_t +\beta_3 (\frac{M}{P}) + \varepsilon_t $$

式中,$M$ 为相应的名义货币余额;$P$ 为物价指数(通常用 GDP 的平减指数表示) ;$Y$为实 际的国内生产总值(GDP) ;$\pi$ 为季度通货膨胀率( 根据综合物价指数衡量) 。

第二阶段误差修正方程的一般形式是:

式中,EC 为长期关系模型中的残差。

第五节 常用统计软件及其运用

一常用统计软件

常用的统计软件有 Excel、 SPSS、 SAS 、Minitab 、Statistica、Eviews。

  1. Excel

Excel 是微软办公套装软件的一个重要的组成部分,它可以进行各种数据的处理、统计 分析和辅助决策操作,广泛地应用于管理统计财经金融等众多领域。

  1. SPSS(社会科学统计软件包)

SPSS 的基本功能包括数据管理、统计分析,图表分析、输出管理等等。

SPSS 统计分析过程包括描述性统计、均值比较、一般线性模型,相关分析、回归分析、对数线性模型.聚类分析、数据简化.生存分析 时间序列分析、多重响应等几大类,每类中又分好几个统计过程。

3.SAS

SAS 是一套大型集成应用软件系统,具有完备的数据存取、数据管理、数据分析数据展 现功能。尤其是其创业产品一一统计分析系统部分,具有强大的数据分析能力。

  1. Minitab

Minitab 提供了对存储在二维工作表中的数据进行分析的多种功能,包括:基本统计分 析、回归分析 方差分析、多元分析、非参数分析、时间序列分析、试验设计`、质量控制、模拟、 绘制高质量三维图形等。

从功能来看,Minitab 除各种统计模型外,还具有许多统计软件不具备的功能---矩阵 运算。

5; Statistica

Statistica 为一套完整的统计资料分析,图表、资料管,\应用程式发展系统,由美国 Stat-Soft 公司开发。

此系统不仅包含统计上一般功能及制图程序,还包含特殊的统计应用。

  1. Eviews

Eviews 是专门从事数据分析、回归分析和预测的工具。使用 Eviews 可以迅速地从数据中寻找出统计关系,并用得到的关系去预测数据的未来值。

应用范围包括:科学实验数据分析与评估、金融分析,宏观经济预测、仿真、销售预测和 成本分析等。

二、不同统计软件的特征

不同统计软件的特征如表所示。

统计软件 优缺点
Excel 优点:功能强大 ,容易操作,插件 XLSTAT 能进行数据统计分析。
缺点:运算速度慢 ,统计方法不全
SPSS 优点:操作比较方便,统计方法比较齐全,绘制图形、表格比较方便,输出结果比较直观,数据分析深人,功能齐全。
缺点:处理前沿的统计过程是其弱项,很难与一般办公软件直接兼容
SAS 优点:有比较完备的数据存取、数据管理数据分析和数据展现的系列功能,数据分析能力强大。
缺点:需要编写程序,比较适合统计专业人员使用
Minitab 优点:简单易懂,方便进行试验设计及质量控制功能,界面直观、隐含操作少。
缺点:功能相对有限
Statistica 优点:能提供使用者所有需要的统计及制图程序,制图功能强大,能够在图表视窗中显示各种统计分析和作图技术
缺点:用法复杂
Eviews 优点:入手容易,具有现代 Windows 软件可视化操作的优良性,拥有强大的命令功能和批处理语言功能。
缺点:①不灵活,当需要使用订制的模型分析数据时就无能为力;②拓展性\可持续性较弱

单选

( b)表示两个事件共同发生的概率。

A. 条件概率 B.联合概率 C. 测度概率 D. 边缘概率

( A)是用来衡量数据取值的中等水平或一般水平。

A 中位数 B. 分位数 C. 标准差 D.方差

寻找实际值与拟合值的离差平方和最小的回归直线是( C ) 的基本思想。

A.点估计 B. 区间估计 C,最小二乘估计 D.总体估计

相关系数是反映两个随机变量之间线性相关程度的统计指标,如果两个随机变量 x 和 y之间协方差为 0.031 ,方差分别为0.04 和 0. 09 ,据此可以判断x和y之间是( c )。

A.极弱相关 B. 相互独立 C. 中度相关 D,高度相关

X 和Y之间的相关系数记为$\rho_{XY} = \frac{Cov(X,Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} $, 这里$\rho = \frac{0.031}{0.2 \times 0.3} = 0.52 $

经检验后,若多元回归模型中的一个解释变量是另一个解释变量的 0. 95 倍,则该模型中存在( a)。

A,多重共线性 B.异方差 C. 自相关 D. 非正态性

组合选择

统计假设检验决策结果可能包括的情形有( 34 )。

1 原假设是真实的,判断结论接受原假设

2 原假设是不真实的,判断结论拒绝原假设

  1. 原假设是真实的,判断结论拒绝原假设

4 原假设是不真实的,判断结论接受原假设 ,

下列关于回归平方和的说法,正确的是(13)

1 总的离差平方和与残差平方和之差 2 无法用回归直线解释的离差平方和

  1. 回归值$\hat{y}$ 与均值 $\overline {y}$ 的离差平方和 4 实际值 y 与均值均值 $\overline {y}$ 的离差平方和

在用普通最小二乘法估计回归模型时,存在异方差问题将导致(123 ) 。

  1. 参数估计量非有效 2.变量的显著性检验无意义

3 模型的预测失效 4参数估计量有偏

A. 工工、亚 B. 工IIV C. 工亚、IV 人 亚、IV

下列关于$t$检验与$F$检验的说法正确的有( 14 ) 。

1.对回归方程线性关系的检验是$F$检验.

2 对回归方程线性关系的检验是$t$检验

3对回归方程系数显著性进行的检验是$F$检验

4对回归方程系数显著性进行的检验是$t$检验

回归方程的显著性检验方法有:

① 对回归方程线性关系的检验,采用$F$检验;

②对回归方程系数显著性进行的检验,采用$t$检验。

线性关系的检验主要是检验因变量同多个自变量的线性关系是否显著,回归系数显著性检验则是对每一个回归系数分别进行单独的检验,它主要用于检验每个自变量对因变量的影响是否都显。

变量和变量之间通常存在( 23 )关系。

1因果 2 确定性函数 3 相关 4 线性

当研究经济和金融问题时往往需要探寻变量之间的相互关系,变量和变量之间通常存在两种关系:确定性函数关系或相关关系。

确定性函数关系表示变量之间存在一一对应的确定关系;

相关关系表示一个变量的取值不能由另外一个变量唯一确定,即当变量$t$取某一个值时,变量 $y$ 对应的不是一个确定的值,而是对应着某一种分布,各个观测点对应在一条直线上。

© Licensed under CC BY-NC-SA 4.0

640K对每一个人来说都已足够 —— 比尔盖茨

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!