文章目录

随机过程
regression analysis
- - multiple regression
- General Linear Model(GLM)

随机过程

随机过程定义非常简单如下
collection of time functions with assciate probability distribution
换句话说
random process is collection of random variables in time

此时random process定义为如下
$X_0,X_1,X_2...X_n$ aka discrete-time
or
${X_t\}_{t>=0}$ aka continued-time

随机过程是描述多个random vairable的工具,多个random variable随着时间排序组成random process,
random process中的random variable也可以有关系,组成样本函数，我们下面有3个random process的sample function，其描述了随着时间的变化,样本的变化
1. $f (t) = t$ with prob 1

$f (t) = t$ for all t with prob 1/2
$f (t) = - t$ for all t with prob 1/2

for each t, $f (t) = t, or - t$ ,with prob 1/2

这里注意因为有1/2的概率出现在t上,有1/2概率出现在-t上,所以我们的样本函数在y=-t和y=t之间来回震荡

我们为了能狗预测未来,可以通过随机过程预测未来的情况,假设上述三个式子和图片代表的是股票价格,那么
第一个毫无疑问后续都是上升的
第二个式子有1/2的可能一直上升或者有1/2的可能一直下降,这个我们通过前面的趋势判断就行
第三个式子就不好判断了,他的意思是后续的时间内有1/2可能在y=t上,有1/2可能在y=-t上,所以他是一个上下震荡的模型

simple random walk

首先我们有非常多random variable Yi
且 $Y_i$ 是i.i.d的,random variable中只有2个数字分别是1和-1,每个prob各占1/2
for each t $X_t=\sum_{i=1}^tY_i$ , $X_0=0$
$X_0,X_1,X_2X_3,...$ is called simple random walk，当我们画出图就非常的有意思了(我们假设是离散的情况)
首先 $X_0=0$ 毫无疑问, $X_1=Y_0+Y_1$ ,因为 $Y_1$ 有百分之50的可能为1,百分之50的可能是-1,所以 $X_1=-1or1$ ,随后的 $X_2$ 到 $X_n$ 直接类似,要注意的是 $Y_i$ 有50%的可能为1,百分之50的可能为-1( $X_i$ 加上1或者减去1),所以我们画出的图片也是一个random walk的可能上升可能下降如下
在这里插入图片描述
上图图片是 $X_1=1$ , $X_2=1$ , $X_3=-1$ , $X_4=1$ …然后累加,每一个 $X_i$ 都是一个random variable,百分之50的可能为1，百分之50的可能为-1,这样累加后组成我们的随机过程,这也是随机过程的本质(时间离散情况)
还记得中心限制定理吗(CLT)，当我们的random variable加在一起越来越多,的时候会是Normal distribution的,既然提到Normal distribution那么我们就要求其mean和variance
假设 $S_t=X_1+X_2+...+X_t$ ，那么mean(S_n)= $tE[X_1]$ ，因为 $X_t$ 不是-1就是1，且各占百分之50,那么 $E[X_1]=0$ ，且mean(S_n)= $tE[X_1]=0$
对于方差 $\sigma(S_t)^2=tVar[X_1]$ ,因为Var[X1]= $\frac{1}{2}(-1-0)^2+(1-0)^2=1$ ，所以标准差 $\sigma=+-\sqrt{t}$ ,因为标准差是表示random vairable波动频率的,所以换句话说我们的random process开始波动小后面波动越来越大，但是不超过y=t和y=-t 2个边界值
在这里插入图片描述

马尔可夫链

首先我们一些量化策略都是通过所有的过去数据去预测未来数据，而马尔可夫链只需要用最近的数据去预测未来的数据
马尔可夫链的定义如下,假如t是当前的时间,t之前的 $X_{t-1}$ , $X_{t-2}$ 等都是历史数据，那么我们的未来数据 $X_{t+1}$ 为 $P(X_{t+1}=S|Xt)=P(X_{t+1}=S|X_0,X_1...X_t)$ ，满足这样的random variable才是马尔可夫链

如果通过所有的历史数据去预测未来数据公式是这样的 $P(X_{t+1}=S|X_0,X_1...X_t)$
simple random walk是马尔可夫链因为在时间节点t的时候我们只有2个选择分别是 $S=X_t+1$ 或者 $S=X_t-1$ ,所以无论你在只有t这个当前时间点的数据还是有前面历史所有时间点的数据t+1这个未来的时间点结果都一样，要么加一要么减一

Stochastic Matrices

Stochastic Matrices aka probability matrix，transition matrix
首先概率矩阵是一个二阶矩阵每一行都是一个概率向量,概率P如下
$\begin{bmatrix} P_{1,1} & P_{1,2} & ... &P_{1,j}&...&P_{1,a}\\ P_{2,1} & P_{2,2} & ... &P_{2,j}&...&P_{2,a}\\ P_{3,1} & P_{3,2} & ... &P_{3,j}&...&P_{3,a}\\ ...\\ P_{i,1} & P_{i,2} & ... &P_{i,j}&...&P_{i,a}\\ ...\\ P_{a,1} & P_{a,2} & ... &P_{a,j}&...&P_{a,a} \end{bmatrix}$
其中每一行都是一个概率向量,相加为1(想一下二重random variable)
且 $P(j|i)=P_{i,j}$ ，例如 $P (1, 2)$ 为 $P (2∣1)$ 已知1求2的概率
$\sum_{j=1}^aP_{i,j}=1$

i可能比j大也可能比j小,用这个概率矩阵的目的是为了观察从i到j( $P (j ∣ i)$ )的概率变化

而概率矩阵是先验统计得到的

关于有Stochastic Matrices的马尔可夫链的另一个例子如下
假如我们的城市有3个共享单车的停车点(A,B,C),我们通过观察统计了解到
A点的车百分之30留在了A点,百分之50去了B点,百分之20去了C点
B点的车百分之10留在了A点,百分之60留在了B点,百分之30去了
C点的车百分之10去了A点,百分之10去了B点，百分之80留在了C点
此时我们根据上述的观察,可以得到Stochastic Matrices T如下
$\begin{bmatrix} 0.3 & 0.5 & 0.2\\ 0.1 & 0.6 & 0.3\\ 0.1 & 0.1 & 0.8\\ \end{bmatrix}$
假设我们随机过程的函数的t是按照天数来衡量的
那么我们第一天的A，B，C三个站点自行车分布情况如下
$V_0=[0.3 ,0.45,0.25]$
经过一天后我们估算其后一天的自行车分布情况如下
$V_1=V_0T=[0.16,0.445,0.395]$
假设我们从 $V_0$ 开始估算后天自行车分布的情况(这里跨度2天,一天一个step,这里是2个step)公式如下
$V_2=V_1T=V_0TT=V_0T^2$
所以我们如果是T+2那么我们的概率矩阵要平方

记住！概率矩阵要求样本空间是有限的！！！,比如上述例子中样本空间就3个，A，B，C，而random walk样本空间是无限的,因为样本空间的样本不断地从0开始在加一减一(random walk中的样本从0到-n或者+n )，所以他没有概率矩阵

stationary distributions

stationary就是stationary矩阵(概率矩阵)中的那个stationary ,他是马尔可夫链中的一个概率分布

在了解stationary distribution之前我们先说一个概念叫做Π，这个Π不是圆周率中的3.141592…而是一个向量,他表示马尔可夫链中所有的状态(space sample中所有样本)的一个状态(概率),比如上面共享单车车站的例子，我们的Π是一个向量,这个向量包含了站点A，B，C各自目前拥有自行车的比例,那么stationary distributions表示什么呢?假设概率矩阵(transition matrix)为T那么， $Π T = Π$ ，侧面证明Π这个向量是稳定的，经过概率矩阵后不变，换句话说假如我们共享单车站点A，B，C三个站点目前单车的比例正好构成一个Π，那么他就是stationary distributions的

如何计算Π呢？还是共享单车的例子，站点的transition matrix T如下
$\begin{bmatrix} 0.3 & 0.5 & 0.2\\ 0.1 & 0.6 & 0.3\\ 0.1 & 0.1 & 0.8\\ \end{bmatrix}$
向量Π的三个元素分别为 $Π_A$ ， $Π_B$ ， $Π_C$ 等

$Π_A$ 先看有那个样本走向(step to)样本A，分别是A->A,B->A,C->A，概率分别是0.3,0.1,0.1，那么 $Π_A=0.3Π_A+0.1Π_B+0.1Π_C$ => $0.7Π_A=0.1Π_B+0.1Π_C$

$Π_B$ 先看有那个样本走向(step to)样本B，分别是A->B,B->B,C->B，概率分别是0.5,0.6,0.1，那么
$Π_B=0.5Π_A+0.6Π_B+0.1Π_C$ => $0.4Π_B=0.5Π_A+0.1Π_C$ => $0.5Π_A=-0.4Π_B+0.1Π_C$

$Π_C$ 先看有那个样本走向(step to)样本C，分别是A->C,B->C,C->C，概率分别是0.2,0.3,0.8，那么
$Π_C=0.2Π_A+0.3Π_B+0.8Π_C$ => $0.2Π_C=0.2Π_A+0.3Π_B$ => $0.2Π_A=0.3Π_B-0.2Π_C$

martingale

首先我们的martingale是一种特殊的随机过程,假设我们的随机过程满足下面的式子那么他就是maringale的
$X_t=E[X_{t+1}|F_t]$ ，其中t>=0，t也可以看成是当前的时间t+1可以看成未来的时间, $F_t={X_0,X_1,X_2...X_t}$

通俗的话讲，就是未来的事件发生的值的期望值(sample mean)等于当前所发生的值
random walk是martingale的

例如，我们有一个股票在当天t,的价格是4元( $X_t$ )，明天有1/3的概率涨到8元( $X_{t+1}$ ),2/3的概率降低到2元( $X_{t+1}$ ),我们可以计算t+1(明天)股票的期望值如下
$E[X_{t+1}]=\frac{1}{3}8+\frac{2}{3}2=4=X_t$
那么我们可以说这个随机过程是martingale的

假如 $X_t>E[X_{t+1}]$ 那么可以称这个随机过程是supermartingale的
假如 $X_t<E[X_{t+1}]$ 那么可以称呼这个随机过程是submartingale的

discrete-time random process

continued-time random process

regression analysis

我们用线性回归的目的是为了寻找2个dependent和independent variable之间的关系，以便预测未来的变化
我们之前看到过一些线性模型，其具体是2个random variable dependent，且相交，然后我们将已知的多个点在直角坐标轴上标出来，然后画出线，
$y = a x + b$
在这里插入图片描述
最后我们可以通过这个线预测我们未来数据的走向,关于线性模型还有一个参数是error(简称e)如下
$y = a x + b + e$
e是一个变量，其代表我们的线性方程到每个具体值的offset，如下图

上述也叫做simple regression，为什么simple因为他就一个predictors(independent random variable)，就是上述的x，如下
$\bar{Y}=B_0+B_1X_1+B_2X_2+B_3X_3+...+B_kX_k$

$\bar{Y}$ predicted value on the outcome variable Y
$B_0$ predicted value on Y when all X = 0
$X_k$ predictor variables
$B_k$ unstandardized regression coefficients

multiple regression

既然有了simple regression那么就有multiple regression，multiple代表其有多个predictors(independent random variable)

General Linear Model(GLM)

GLM是一个非常有用的框架，其通过用来对比不同的variable是如何影响不同的连续variable的，GLM可以描述为下面的形式
$D a t a = M o d e l + E rror$

我们的GLM和上面讲的差不多但是！在GLM中讲述的不再是2个dependent的random variable了，而是一系列的random variable如下
$y=b_0+b_x+e$
y is a set of outcome variable
x is a set of pre-program variables or convariates
b0 is the set of intercepts

概率论基础3