第十六讲 投影矩阵(Ax=b)和最小二乘法
上一讲中,我们知道了投影矩阵
P
=
A
(
A
T
A
)
−
1
A
T
P=A(A^TA)^{-1}A^T
P=A(ATA)−1AT,
P
b
Pb
Pb将会把向量投影在
A
A
A的列空间中。即只要知道矩阵
A
A
A的列空间,就能得到投影矩阵
P
P
P的导出式。
##1.投影矩阵(Ax=b无解的情形)
1.1两个极端的例子:
- 如果
b
∈
C
(
A
)
b\\in C(A)
b∈C(A),则
P
b
=
b
Pb=b
Pb=b;
- 如果
b
⊥
C
(
A
)
b\\bot C(A)
b⊥C(A),则
P
b
=
0
Pb=0
Pb=0。
证明1:
P
b
=
A
(
A
T
A
)
−
1
A
T
b
=
A
(
A
T
A
)
−
1
A
T
A
x
=
A
(
(
A
T
A
−
1
)
A
T
A
)
x
=
A
x
=
b
Pb = A(A^TA)^{-1}A^Tb\\\\ = A(A^TA)^{-1}A^TAx\\\\ =A((A^TA^{-1})A^TA)x =Ax=b
Pb=A(ATA)−1ATb=A(ATA)−1ATAx=A((ATA−1)ATA)x=Ax=b
证明2:
P
b
=
A
(
A
T
A
)
−
1
A
T
b
=
A
(
A
T
A
−
1
)
(
A
T
b
)
=
A
(
(
A
T
A
−
1
)
0
=
0
Pb = A(A^TA)^{-1}A^Tb\\\\ = A(A^TA^{-1})(A^Tb)\\\\ =A((A^TA^{-1})0=0
Pb=A(ATA)−1ATb=A(ATA−1)(ATb)=A((ATA−1)0=0
一般情况下,
b
b
b将会有一个垂直于
A
A
A的分量,有一个在
A
A
A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。
1.2一般情形
一般情况下,
b
b
b将会有一个垂直于
A
A
A的分量,有一个在
A
A
A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。如图:
向量
b
投
影
后
,
有
b
=
e
+
p
,
p
=
P
b
,
e
=
(
I
−
P
)
b
,
这
里
的
p
是
b
在
C
(
A
)
中
的
分
量
,
而
e
是
b
在
N
(
A
T
)
中
的
分
量
。
b投影后,有b=e+p, p=Pb, e=(I-P)b,这里的p是b在C(A)中的分量,而e是b在N(A^T)中的分量。
b投影后,有b=e+p,p=Pb,e=(I−P)b,这里的p是b在C(A)中的分量,而e是b在N(AT)中的分量。
可以理解为:向量
b
b
b的投影在
A
A
A的column space,error vector的投影在left null space上,我们知道
P
P
P,可以将
b
b
b 投影到
p
p
p,那么一个什么样的投影矩阵把
b
b
b投影到了
e
e
e?因为column space与left null space正交补,所以他们共同组成了整个空间,
I
I
I的column space就是整个空间,
I
−
P
I−P
I−P就是把
b
b
b投影到
e
e
e的矩阵,它和
P
P
P有意义的性质。
2. 最小二乘法(Ax=b)
回到上一讲最后提到的例题:
我们需要找到距离图中三个点
(
1
,
1
)
,
(
2
,
2
)
,
(
3
,
2
)
(1, 1), (2, 2), (3, 2)
(1,1),(2,2),(3,2) 偏差最小的直线:
y
=
C
+
D
t
y=C+Dt
y=C+Dt。
根据条件可以得到方程组
{
C
+
D
=
1
C
+
2
D
=
2
C
+
3
D
=
2
\\begin{cases} C+D&=1 \\\\ C+2D&=2 \\\\ C+3D&=2 \\\\ \\end{cases}
⎩⎪⎨⎪⎧C+DC+2DC+3D=1=2=2
,写作矩阵形式
[
1
1
1
2
1
3
]
[
C
D
]
=
[
1
2
2
]
\\begin{bmatrix}1 &1 \\\\1 &2 \\\\1&3\\\\\\end{bmatrix}\\begin{bmatrix}C\\\\D\\\\\\end{bmatrix}=\\begin{bmatrix}1\\\\2\\\\2\\\\\\end{bmatrix}
⎣⎡111123⎦⎤[CD]=⎣⎡122⎦⎤,也就是我们的
A
x
=
b
Ax=b
Ax=b,很明显方程组无解。
此时我们要找到最接近的解"最优解",我们要使得解最优即误差最小,定义误差为
A
x
−
b
=
e
Ax−b=e
Ax−b=e的模长的平方即
∥
A
x
−
b
∥
2
=
∥
e
∥
2
=
e
21
+
e
22
+
e
23
∥Ax−b∥_2=∥e∥_2=e_{21}+e_{22}+e_{23}
∥Ax−b∥2=∥e∥2=e21+e22+e23。此处使用平方的原因一是排除开根号带来的非线性运算,一是方便利用偏导数求解最小值。
- 1.利用偏导求解
这里如果使用偏导数我们也能得到关于最优解的方程,展开结果为:
{
∥
e
∥
2
=
e
1
2
+
e
2
2
+
e
2
2
=
(
C
+
D
−
1
)
2
+
(
C
+
2
D
−
2
)
2
+
(
C
+
3
D
−
2
)
2
=
3
C
2
+
14
D
2
+
9
−
10
C
−
22
D
+
12
C
D
\\begin{cases} ∥e∥_2&=e_1^2+e_2^2+e_2^2\\\\ &=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2\\\\ &=3C^2+14D^2+9−10C−22D+12CD\\\\ \\end{cases}
⎩⎪⎨⎪⎧∥e∥2=e12+e22+e22=(C+D−1)2+(C+2D−2)2+(C+3D−2)2=3C2+14D2+9−10C−22D+12CD
然后对
C
C
C求偏导为
6
C
−
10
+
12
D
=
0
6C-10+12D=0
6C−10+12D=0;对
D
D
D求偏导为
28
D
−
22
+
12
C
=
0
28D-22+12C=0
28D−22+12C=0。
解方程得
C
^
=
2
3
,
D
^
=
1
2
\\hat C=\\frac{2}{3}, \\hat D=\\frac{1}{2}
C^=32,D^=21,则“最佳直线”为
y
=
2
3
+
1
2
t
y=\\frac{2}{3}+\\frac{1}{2}t
y=32+21t,带回原方程组解得
p
1
=
7
6
,
p
2
=
5
3
,
p
3
=
13
6
p_1=\\frac{7}{6}, p_2=\\frac{5}{3}, p_3=\\frac{13}{6}
p1=67,p2=35,p3=613,即
e
1
=
−
1
6
,
e
2
=
1
3
,
e
3
=
−
1
6
e_1=-\\frac{1}{6}, e_2=\\frac{1}{3}, e_3=-\\frac{1}{6}
e1=−61,e2=31,e3=−61。
于是我们得到
p
=
[
7
6
5
3
13
6
]
,
e
=
[
−
1
6
1
3
−
1
6
]
p=\\begin{bmatrix}\\frac{7}{6}\\\\\\frac{5}{3}\\\\\\frac{13}{6}\\end{bmatrix}, e=\\begin{bmatrix}-\\frac{1}{6}\\\\\\frac{1}{3}\\\\-\\frac{1}{6}\\end{bmatrix}
p=⎣⎡6735613⎦⎤,e=⎣⎡−6131−61⎦⎤,易看出
b
=
p
+
e
b=p+e
b=p+e,同时我们发现
p
⋅
e
=
0
p\\cdot e=0
p⋅e=0即
p
⊥
e
p\\bot e
p⊥e。
可以验证,向量p 与e 正交,并且e 与矩阵A 的列空间正交。
p
T
e
=
7
/
6
∗
(
−
1
/
6
)
+
5
/
3
∗
1
/
3
+
13
/
6
∗
(
−
1
/
6
)
=
0
e
T
a
1
=
1
∗
(
−
1
/
6
)
+
1
∗
1
/
3
+
1
∗
(
−
1
/
6
)
=
0
e
T
a
2
=
1
∗
(
−
1
/
6
)
+
2
∗
1
/
3
+
3
∗
(
−
1
/
6
)
=
0
p^Te=7/6*(-1/6)+5/3*1/3+13/6*(-1/6)=0\\\\ e^Ta_1=1*(-1/6)+1*1/3+1*(-1/6)=0\\\\ e^Ta_2=1*(-1/6)+2*1/3+3*(-1/6)=0
pTe=7/6∗(−1/6)+5/3∗1/3+13/6∗(−1/6)=0eTa1=1∗(−1/6)+1∗1/3+1∗(−1/6)=0eTa2=1∗(−1/6)+2∗1/3+3∗(−1/6)=0
误差向量
e
e
e不仅垂直于投影向量
p
p
p,它同时垂直于列空间,如
[
1
1
1
]
,
[
1
2
3
]
\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}, \\begin{bmatrix}1\\\\2\\\\3\\end{bmatrix}
⎣⎡111⎦⎤,⎣⎡123⎦⎤。
- 2.利用矩阵求解
用矩阵的方法求解
A
x
^
=
P
b
A\\hat x=Pb
Ax^=Pb得到的方程是一样的,现在我们尝试解出
x
^
=
[
C
^
D
^
]
\\hat x=\\begin{bmatrix}\\hat C\\\\ \\hat D\\end{bmatrix}
x^=[C^D^]与
p
=
[
p
1
p
2
p
3
]
。
p=\\begin{bmatrix}p_1\\\\p_2\\\\p_3\\end{bmatrix}。
p=⎣⎡p1p2p3⎦⎤。
A
T
A
x
^
=
A
T
b
A
T
A
=
[
3
6
6
14
]
A
T
b
=
[
5
11
]
[
3
6
6
14
]
[
C
^
D
^
]
=
[
5
11
]
A^TA\\hat x=A^Tb\\\\ A^TA= \\begin{bmatrix}3&6\\\\6&14\\end{bmatrix}\\qquad A^Tb= \\begin{bmatrix}5\\\\11\\end{bmatrix}\\\\ \\begin{bmatrix}3&6\\\\6&14\\end{bmatrix} \\begin{bmatrix}\\hat C\\\\\\hat D\\end{bmatrix}= \\begin{bmatrix}5\\\\11\\end{bmatrix}\\\\
ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]
写成方程形式为
{
3
C
^
+
16
D
^
=
5
6
C
^
+
14
D
^
=
11
\\begin{cases}3\\hat C+16\\hat D&=5\\\\6\\hat C+14\\hat D&=11\\\\\\end{cases}
{3C^+16D^6C^+14D^=5=11,也称作
正
规
方
程
组
(
n
o
r
m
a
l
e
q
u
a
t
i
o
n
s
)
\\color{red}{正规方程组(normal equations)}
正规方程组(normalequations)。
求的的结果是一样的。
我们现在做的运算也称作
线
性
回
归
(
l
i
n
e
a
r
r
e
g
r
e
s
s
i
o
n
)
\\color{red}{线性回归(linear regression)}
线性回归(linearregression),使用误差的平方和作为
测
量
总
误
差
的
标
准
\\color{red}{测量总误差的标准}
测量总误差的标准。
- 注:
如果有另一个点,如(
0
,
100
)
(0, 100)
通
常
使
用
最
小
二
乘
时
会
去
掉
明
显
离
群
的
点
\\color{red}{通常使用最小二乘时会去掉明显离群的点}
3.证明
A
T
A
A^TA
ATA可逆
###3.1 证明可逆
接下来我们观察
A
T
A
A^TA
ATA,
如
果
A
的
各
列
线
性
无
关
,
求
证
A
T
A
是
可
逆
矩
阵
\\color{red}{如果A的各列线性无关,求证A^TA是可逆矩阵}
如果A的各列线性无关,求证ATA是可逆矩阵。
先假设
A
T
A
x
=
0
A^TAx=0
ATAx=0,两边同时乘以
x
T
x^T
xT有
x
T
A
T
A
x
=
0
x^TA^TAx=0
xTATAx=0,即
(
A
x
)
T
(
A
x
)
=
0
(Ax)^T(Ax)=0
(Ax)T(Ax)=0。一个矩阵乘其转置结果为零,则这个矩阵也必须为零(
(
A
x
)
T
(
A
x
)
(Ax)^T(Ax)
(Ax)T(Ax)相当于
A
x
Ax
Ax长度的平方)。则
A
x
=
0
Ax=0
Ax=0,结合题设中的“
A
A
A的各列线性无关”,可知
x
=
0
x=0
x=0,也就是
A
T
A
A^TA
ATA的零空间中有且只有零向量,得证。
###3.2互相垂直线性无关
我们再来看一种线性无关的特殊情况:
互
相
垂
直
的
单
位
向
量
一
定
是
线
性
无
关
的
\\color{red}{互相垂直的单位向量一定是线性无关的}
互相垂直的单位向量一定是线性无关的。
比如:
[
1
0
0
]
[
0
1
0
]
[
0
0
1
]
\\begin{bmatrix}1\\\\0\\\\0\\end{bmatrix}\\begin{bmatrix}0\\\\1\\\\0\\end{bmatrix}\\begin{bmatrix}0\\\\0\\\\1\\end{bmatrix}
⎣⎡100⎦⎤⎣⎡010⎦⎤⎣⎡001⎦⎤,这三个正交单位向量也称作标准正交向量组(orthonormal vectors)。
另一个例子
[
cos
θ
sin
θ
]
[
−
sin
θ
cos
θ
]
\\begin{bmatrix}\\cos\\theta\\\\\\sin\\theta\\end{bmatrix}\\begin{bmatrix}-\\sin\\theta\\\\\\cos\\theta\\end{bmatrix}
[cosθsinθ][−sinθcosθ]
下一讲研究标准正交向量组。
4.总结
1.记住图的意义:
2.最小二乘法求解的意义。
3.
A
T
A
A^TA
ATA可逆的条件和正交向量组。
#第十七讲:正交矩阵和Gram-Schmidt正交化法
这是关于正交性最后一讲,已经知道正交空间,比如行空间和零空间,今天主要看正交基和正交矩阵
1.标准正交基与正交矩阵
###1.1 标准正交基
- 定义**
标
准
正
交
向
量
\\color{red}{标准正交向量}
标准正交向量(orthonormal):
q
i
T
q
j
=
{
0
i
≠
j
1
i
=
j
q_i^Tq_j=\\begin{cases}0\\quad i\\neq j\\\\1\\quad i=j\\end{cases}
qiTqj={0i=j1i=j;
2.将标准正交向量放入矩阵中,有Q
=
[
q
1
q
2
⋯
q
n
]
Q=\\Bigg[q_1 q_2 \\cdots q_n\\Bigg]
Q=[q1q2⋯qn],计算
Q
T
Q
Q^TQ
QTQ
Q
T
Q
=
[
1
0
⋯
0
0
1
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
1
]
=
I
Q^TQ=\\begin{bmatrix}1& 0& \\cdots& 0\\\\0& 1& \\cdots& 0\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0& \\cdots& 1\\end{bmatrix}=I
QTQ=⎣⎢⎢⎢⎡10⋮001⋮0⋯⋯⋱⋯00⋮1⎦⎥⎥⎥⎤=I
我们也把Q
Q
Q成为
标
准
正
交
矩
阵
\\color{red}{标准正交矩阵}
标准正交矩阵**(orthonormal matrix)。
标准正交基:
- 举个置换矩阵的例子:
Q
=
[
0
1
0
1
0
0
0
0
1
]
Q=\\begin{bmatrix}0& 1& 0\\\\1& 0& 0\\\\0& 0& 1\\end{bmatrix}
Q
T
=
[
0
1
0
0
0
1
1
0
0
]
Q^T=\\begin{bmatrix}0& 1& 0\\\\0& 0& 1\\\\1& 0& 0\\end{bmatrix}
Q
T
Q
=
I
Q^TQ=I
- 使用上一讲的例子
Q
=
[
cos
θ
−
sin
θ
sin
θ
cos
θ
]
Q=\\begin{bmatrix}\\cos\\theta& -\\sin\\theta\\\\\\sin\\theta& \\cos\\theta\\end{bmatrix}
1
1
- 其他例子
Q
=
1
2
[
1
1
1
−
1
]
Q=\\frac{1}{\\sqrt 2}\\begin{bmatrix}1& 1\\\\1& -1\\end{bmatrix}
1
1
- 使用上一个例子的矩阵,令
Q
′
=
c
[
Q
Q
Q
−
Q
]
Q'=c\\begin{bmatrix}Q& Q\\\\Q& -Q\\end{bmatrix}
c
c
1
1
Q
=
1
2
[
1
1
1
1
1
−
1
1
−
1
1
1
−
1
−
1
1
−
1
−
1
1
]
Q=\\frac{1}{2}\\begin{bmatrix}1& 1& 1& 1\\\\1& -1& 1& -1\\\\1& 1& -1& -1\\\\1& -1& -1& 1\\end{bmatrix}
2
,
4
,
16
,
64
,
⋯
2, 4, 16, 64, \\cdots
- 再来看一个例子,
Q
=
1
3
[
1
−
2
2
2
−
1
−
2
2
2
1
]
Q=\\frac{1}{3}\\begin{bmatrix}1& -2& 2\\\\2& -1& -2\\\\2& 2& 1\\end{bmatrix}
1
1
**标准正交矩阵 **
Q
T
Q
Q^TQ
QTQ对任意的
Q
Q
Q都成立,但我们更关注
Q
Q
Q为方阵时的情况,因为其有逆且由
Q
T
Q
=
I
⇒
Q
−
1
=
Q
T
Q^TQ=I⇒Q^{−1}=Q^T
QTQ=I⇒Q−1=QT,我们叫这种column vector为标准正交向量组成且为方阵的矩阵为正交矩阵 orthogonal matrix。
注意:标准正交矩阵 orthogonormal matrix不一定是方阵,当它是方阵的时候,我们叫它正交矩阵 orthogonal matrix。
1.2正交矩阵
为什么我们如此关注标准正交矩阵 orthogonormal matrix为方阵 的情形?
上一讲我们研究了
A
T
A
A^TA
ATA的特性,联系我们之前学习的投影矩阵projection matrix,将向量
b
b
b投影在标准正交矩阵
Q
Q
Q的列空间中,根据上一讲的公式得
P
=
Q
(
Q
T
Q
)
−
1
Q
T
P=Q(Q^TQ)^{-1}Q^T
P=Q(QTQ)−1QT,由于标准正交矩阵
Q
Q
Q的性质,易得
P
=
Q
Q
T
P=QQ^T
P=QQT。
我们断言,当列向量为标准正交基时,
Q
Q
T
QQ^T
QQT是投影矩阵。极端情况,假设矩阵是方阵,而其列向量是标准正交的,则其列空间就是整个向量空间,而投影整个空间的投影矩阵就是单位矩阵,此时
Q
Q
T
=
I
QQ^T=I
QQT=I。
投影矩阵的两个性质:
(
Q
Q
T
)
T
=
Q
Q
T
(QQ^T)^T=QQ^T
(QQT)T=QQT,
证明:(
Q
Q
T
)
T
=
(
Q
T
)
T
Q
T
=
Q
Q
T
(QQ^T)^T=(Q^T)^TQ^T=QQ^T
(QQT)T=(QT)TQT=QQT
2.
(
Q
Q
T
)
2
=
Q
Q
T
(QQ^T)^2=QQ^T
(QQT)2=QQT
证明:(
Q
Q
T
)
2
=
Q
Q
T
Q
Q
T
=
Q
(
Q
T
Q
)
Q
T
=
Q
Q
T
(QQ^T)^2=QQ^TQQ^T=Q(Q^TQ)Q^T=QQ^T
(QQT)2=QQTQQT=Q(QTQ)QT=QQT
我
们
计
算
的
A
T
A
x
^
=
A
T
b
\\color{red}{我们计算的A^TA\\hat x=A^Tb}
我们计算的ATAx^=ATb,现在变为
Q
T
Q
x
^
=
Q
T
b
Q^TQ\\hat x=Q^Tb
QTQx^=QTb,也就是
x
^
=
Q
T
b
\\hat x=Q^Tb
x^=QTb,分解开来看就是
x
^
i
=
q
i
T
b
‾
\\underline{\\hat x_i=q_i^Tb}
x^i=qiTb,这个式子在很多数学领域都有重要作用。当我们知道标准正交基,则解向量第
i
i
i个分量为基的第
i
i
i个分量乘以b,在第
i
i
i个基方向上的投影就等于q_i^Tb。}$
##2. Gram-Schmidt正交化法
这是一种将矩阵转化为标准正交向量orthogonormal matrix的方法。按老师的说法Schmidt教我们如何将一个向量标准化normalized,而Graham教我们如何使得各个向量正交orthogonal。
总思路:
已知相互无关的向量a
a
a,
b
b
b,目标要将
a
a
a,
b
b
b 变成相互正交且长度为$1
的
的
的q_1
,
,
,q_2
,
可
将
向
量
,可将向量
,可将向量a$ 固定,然后
b
b
b投影到$a
上
,
误
差
上,误差
上,误差e=B$.
我们有两个线性无关的向量
a
,
b
a, b
a,b,先把它们化为单位正交向量
A
,
B
A, B
A,B:
- 我们取定
a
a
a
=
A
a=A
- 接下来将
b
b
A
A
B
B
e
=
b
−
p
e=b-p
B
=
b
−
A
T
b
A
T
A
A
B=b-\\frac{A^Tb}{A^TA}A
A
⊥
B
A\\bot B
A
T
B
=
A
T
b
−
A
T
A
T
b
A
T
A
A
=
A
T
b
−
A
T
A
A
T
A
A
T
b
=
0
A^TB=A^Tb-A^T\\frac{A^Tb}{A^TA}A=A^Tb-\\frac{A^TA}{A^TA}A^Tb=0
A
T
b
A
T
A
A
\\frac{A^Tb}{A^TA}A
A
x
^
=
p
A\\hat x=p
- 再将它们单位化,变为单位正交向量
q
1
=
A
∥
A
∥
,
q
2
=
B
∥
B
∥
q_1=\\frac{A}{\\left\\|A\\right\\|}, q_2=\\frac{B}{\\left\\|B\\right\\|}
如果我们有三个线性无关的向量
a
,
b
,
c
a, b, c
a,b,c,则我们现需要求它们变换成单位正交向量
A
,
B
,
C
A, B, C
A,B,C:
- 前两个向量我们已经得到了,我们现在需要求第三个向量同时正交于
A
,
B
A, B
- 我们依然沿用上面的方法,从
c
c
A
,
B
A, B
A
,
B
A, B
C
C
C
=
c
−
A
T
c
A
T
A
A
−
B
T
c
B
T
B
B
C=c-\\frac{A^Tc}{A^TA}A-\\frac{B^Tc}{B^TB}B
- 再将它们单位化,变为单位正交向量
q
1
=
A
∥
A
∥
,
q
2
=
B
∥
B
∥
,
q
3
=
C
∥
C
∥
q_1=\\frac{A}{\\left\\|A\\right\\|}, q_2=\\frac{B}{\\left\\|B\\right\\|}, q_3=\\frac{C}{\\left\\|C\\right\\|}
例子:
现在我们试验一下推导出来的公式,
a
=
[
1
1
1
]
,
b
=
[
1
0
2
]
a=\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}, b=\\begin{bmatrix}1\\\\0\\\\2\\end{bmatrix}
a=⎣⎡111⎦⎤,b=⎣⎡102⎦⎤:
则
A
=
a
=
[
1
1
1
]
A=a=\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}
A=a=⎣⎡111⎦⎤;
根据公式有
B
=
a
−
h
A
B=a-hA
B=a−hA,
h
h
h是比值
A
T
b
A
T
A
=
3
3
\\frac{A^Tb}{A^TA}=\\frac{3}{3}
ATAATb=33,则
B
=
[
1
1
1
]
−
3
3
[
1
0
2
]
=
[
0
−
1
1
]
B=\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}-\\frac{3}{3}\\begin{bmatrix}1\\\\0\\\\2\\end{bmatrix}=\\begin{bmatrix}0\\\\-1\\\\1\\end{bmatrix}
B=⎣⎡111⎦⎤−33⎣⎡102⎦⎤=⎣⎡0−11⎦⎤。验证一下正交性有
A
⋅
B
=
0
A\\cdot B=0
A⋅B=0。
单位化,
q
1
=
1
3
[
1
1
1
]
,
q
2
=
1
2
[
1
0
2
]
q_1=\\frac{1}{\\sqrt 3}\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix},\\quad q_2=\\frac{1}{\\sqrt 2}\\begin{bmatrix}1\\\\0\\\\2\\end{bmatrix}
q1=3
1⎣⎡111⎦⎤,q2=2
1⎣⎡102⎦⎤,则标准正交矩阵为
Q
=
[
1
3
0
1
3
−
1
2
1
3
1
2
]
Q=\\begin{bmatrix}\\frac{1}{\\sqrt 3}& 0\\\\\\frac{1}{\\sqrt 3}& -\\frac{1}{\\sqrt 2}\\\\\\frac{1}{\\sqrt 3}& \\frac{1}{\\sqrt 2}\\end{bmatrix}
Q=⎣⎢⎡3
13
13
10−2
12
1⎦⎥⎤,对比原来的矩阵
D
=
[
1
1
1
0
1
2
]
D=\\begin{bmatrix}1& 1\\\\1& 0\\\\1& 2\\end{bmatrix}
D=⎣⎡111102⎦⎤,有
D
,
Q
D, Q
D,Q的列空间是相同的,我们只是将原来的基标准正交化了。
##3.QR分解
我们曾经用矩阵的眼光审视消元法,有
A
=
L
U
A=LU
A=LU。同样的,我们也用矩阵表达标准正交化,
A
=
Q
R
A=QR
A=QR,这里的
R
R
R是一个上三角矩阵upper triangular matrix 。
设矩阵
A
A
A有两个列向量
[
a
1
a
2
]
\\Bigg[a_1 a_2\\Bigg]
[a1a2],则标准正交化后有
[
a
1
a
2
]
=
[
q
1
q
2
]
[
a
1
T
q
1
a
2
T
q
1
a
1
T
q
2
a
2
T
q
2
]
\\Bigg[a_1 a_2\\Bigg]=\\Bigg[q_1 q_2\\Bigg]\\begin{bmatrix}a_1^Tq_1& a_2^Tq_1\\\\a_1^Tq_2& a_2^Tq_2\\end{bmatrix}
[a1a2]=[q1q2][a1Tq1a1Tq2a2Tq1a2Tq2],而左下角的
a
1
T
q
2
a_1^Tq_2
a1Tq2始终为
0
0
0,因为Gram-Schmidt正交化总是使得
a
1
⊥
q
2
a_1\\bot q_2
a1⊥q2,后来构造的向量总是正交于先前的向量。所以这个
R
R
R矩阵是一个上三角矩阵。
##4.总结
1.标准正交基与正交矩阵;
2.Gram-Schmidt正交标准化;
3.QR分解(与LU分解的区别)。
#第十八讲:行列式及其性质
- 行列式最早是应用在用来判断方程组是否有解,在矩阵被发明后,行列式就拥有了更多的性质和应用。其强大之处在于将整个矩阵的信息压缩到了一个值当中。
- 行列式的英文名为determinant:决定因素,因为他可以决定方程组是否有解即矩阵是否可逆,从另外一个角度来理解,行列式代表了这个矩阵的特征,这是学习特征分解的前置概念。
##1.基础性质
本讲我们讨论出行列式(determinant)的性质:
行列式的基本性质:
性质1:det
I
=
1
,
单
位
矩
阵
行
列
式
值
为
一
。
\\color{red}{\\det{I}=1,单位矩阵行列式值为一。}
detI=1,单位矩阵行列式值为一。
性质2:交
换
行
,
行
列
式
变
号
。
\\color{red}{交换行,行列式变号。}
交换行,行列式变号。
性质3: a.∣
t
a
t
b
t
c
t
d
∣
=
t
∣
a
b
c
d
∣
。
\\color{red}{\\begin{vmatrix}ta& tb\\\\tc& td\\end{vmatrix}=t\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}。 }
∣∣∣∣tatctbtd∣∣∣∣=t∣∣∣∣acbd∣∣∣∣。
b.∣
a
+
a
′
b
+
b
′
c
d
∣
=
∣
a
b
c
d
∣
+
∣
a
′
b
′
c
d
∣
。
\\color{red}{\\begin{vmatrix}a+a'& b+b'\\\\c& d\\end{vmatrix}=\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}+\\begin{vmatrix}a'& b'\\\\c& d\\end{vmatrix}。}
∣∣∣∣a+a′cb+b′d∣∣∣∣=∣∣∣∣acbd∣∣∣∣+∣∣∣∣a′cb′d∣∣∣∣。
由性质1和2可知,对置换矩阵有
det
P
=
{
1
e
v
e
n
−
1
o
d
d
\\det P=\\begin{cases}1\\quad & even\\\\-1\\quad & odd\\end{cases}
detP={1−1evenodd。
举例:
∣
1
0
0
1
∣
=
1
,
∣
0
1
1
0
∣
=
−
1
\\begin{vmatrix}1& 0\\\\0& 1\\end{vmatrix}=1,\\quad\\begin{vmatrix}0& 1\\\\1& 0\\end{vmatrix}=-1
∣∣∣∣1001∣∣∣∣=1,∣∣∣∣0110∣∣∣∣=−1,于是我们猜想,对于二阶方阵,行列式的计算公式为
∣
a
b
c
d
∣
=
a
d
−
b
c
\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}=ad-bc
∣∣∣∣acbd∣∣∣∣=ad−bc。
性质3(b)对于每行都单独成立,其他行则不变,即不能同时组合第一行和第二行。$det(A+B)≠det(A)+det(B) $。
2. 推导出的性质
更多的性质可以从以上的三条性质中推导出来。
性质4:
如
果
两
行
相
等
,
则
行
列
式
为
零
。
使
用
性
质
2
交
换
两
行
易
证
。
\\color{red}{如果两行相等,则行列式为零。使用性质2交换两行易证。}
如果两行相等,则行列式为零。使用性质2交换两行易证。
**性质5 **:
从
第
k
行
中
减
去
第
i
行
的
l
倍
,
行
列
式
不
变
。
\\color{red}{从第k行中减去第i行的l倍,行列式不变。}
从第k行中减去第i行的l倍,行列式不变。
解析:这条性质是针对消元的,我们可以先消元,将方阵变为上三角形式后再计算行列式。
举例:∣
a
b
c
−
l
a
d
−
l
b
∣
=
3.
b
∣
a
b
c
d
∣
+
∣
a
b
−
l
a
−
l
b
∣
=
3.
a
∣
a
b
c
d
∣
−
l
∣
a
b
a
b
∣
=
4
∣
a
b
c
d
∣
\\begin{vmatrix}a& b\\\\c-la& d-lb\\end{vmatrix}\\stackrel{3.b}{=}\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}+\\begin{vmatrix}a& b\\\\-la& -lb\\end{vmatrix}\\stackrel{3.a}{=}\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}-l\\begin{vmatrix}a& b\\\\a& b\\end{vmatrix}\\stackrel{4}{=}\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}
∣∣∣∣ac−labd−lb∣∣∣∣=3.b∣∣∣∣acbd∣∣∣∣+∣∣∣∣a−lab−lb∣∣∣∣=3.a∣∣∣∣acbd∣∣∣∣−l∣∣∣∣aabb∣∣∣∣=4∣∣∣∣acbd∣∣∣∣
性质6:
如
果
方
阵
的
某
一
行
为
零
,
则
其
行
列
式
值
为
零
。
\\color{red}{如果方阵的某一行为零,则其行列式值为零。}
如果方阵的某一行为零,则其行列式值为零。
证明:使用性质3(a)对为零行乘以不为零系数l
l
l,使
l
det
A
=
det
A
l\\det A=\\det A
ldetA=detA即可证明;或使用性质5将某行加到为零行,使存在两行相等后使用性质4即可证明。
性质7:有
上
三
角
行
列
式
U
=
∣
d
1
∗
⋯
∗
0
d
2
⋯
∗
⋮
⋮
⋱
⋮
0
0
⋯
d
n
∣
,
则
det
U
=
d
1
d
2
⋯
d
n
。
\\color{red}{有上三角行列式U=\\begin{vmatrix}d_{1}& *& \\cdots& *\\\\0& d_{2}& \\cdots& *\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0& \\cdots& d_{n}\\end{vmatrix},则\\det U=d_1d_2\\cdots d_n。}
有上三角行列式U=∣∣∣∣∣∣∣∣∣d10⋮0∗d2⋮0⋯⋯⋱⋯∗∗⋮dn∣∣∣∣∣∣∣∣∣,则detU=d1d2⋯dn。
证明:使用性质5,从最后一行开始,将对角元素上方的∗
*
∗元素依次变为零,可以得到型为
D
=
∣
d
1
0
⋯
0
0
d
2
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
d
n
∣
D=\\begin{vmatrix}d_{1}& 0& \\cdots& 0\\\\0& d_{2}& \\cdots& 0\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0&\\cdots&d_{n}\\end{vmatrix}
D=∣∣∣∣∣∣∣∣∣d10⋮00d2⋮0⋯⋯⋱⋯00⋮dn∣∣∣∣∣∣∣∣∣的对角行列式,再使用性质3将对角元素提出得到
d
n
d
n
−
1
⋯
d
1
∣
1
0
⋯
0
0
1
⋯
0
⋮
⋮
⋱
⋮
0
0
⋯
1
∣
d_nd_{n-1}\\cdots d_1\\begin{vmatrix}1& 0& \\cdots& 0\\\\0& 1& \\cdots& 0\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0& \\cdots& 1\\end{vmatrix}
dndn−1⋯d1∣∣∣∣∣∣∣∣∣10⋮001⋮0⋯⋯⋱⋯00⋮1∣∣∣∣∣∣∣∣∣,得证。
性质8:当
矩
阵
A
为
奇
异
矩
阵
时
,
det
A
=
0
;
当
且
仅
当
A
可
逆
时
,
有
det
A
≠
0
\\color{red}{当矩阵A为奇异矩阵时,\\det A=0;当且仅当A可逆时,有\\det A\\neq0}
当矩阵A为奇异矩阵时,detA=0;当且仅当A可逆时,有detA=0。
证明:如果矩阵可逆,则化简为上三角形式后各行都含有主元,行列式即为主元乘积;如果矩阵奇异,则化简为上三角形式时会出现全零行,行列式为零。
再回顾二阶情况:∣
a
b
c
d
∣
→
消
元
∣
a
b
0
d
−
c
a
b
∣
=
a
d
−
b
c
\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}\\xrightarrow{消元}\\begin{vmatrix}a& b\\\\0& d-\\frac{c}{a}b\\end{vmatrix}=ad-bc
∣∣∣∣acbd∣∣∣∣消元
∣∣∣∣a0bd−acb∣∣∣∣=ad−bc,前面的猜想得到证实。
性质9:
det
A
B
=
(
det
A
)
(
det
B
)
\\color{red}{\\det AB=(\\det A)(\\det B)}
detAB=(detA)(detB)。
解析:使用这一性质,det
I
=
det
A
−
1
A
=
det
A
−
1
det
A
\\det I=\\det{A^{-1}A}=\\det A^{-1}\\det A
detI=detA−1A=detA−1detA,所以
det
A
−
1
=
1
det
A
\\det A^{-1}=\\frac{1}{\\det A}
detA−1=detA1。
同时还可以得到:det
A
2
=
(
det
A
)
2
\\det A^2=(\\det A)^2
detA2=(detA)2,以及
det
2
A
=
2
n
det
A
\\det 2A=2^n\\det A
det2A=2ndetA,这个式子就像是求体积,对三维物体有每边翻倍则体积变为原来的八倍。
性质10:
det
A
T
=
det
A
。
\\color{red}{\\det A^T=\\det A。}
detAT=detA。
前
面
一
直
在
关
注
行
的
属
性
给
行
列
式
带
来
的
变
化
,
有
了
这
条
性
质
,
行
的
属
性
同
样
适
用
于
列
,
比
如
对
性
质
2
就
有
“
交
换
列
行
列
式
变
号
”
。
\\color{red}{前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。}
前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。
证明:∣
A
T
∣
=
∣
A
∣
→
∣
U
T
L
T
∣
=
∣
L
U
∣
→
∣
U
T
∣
∣
L
T
∣
=
∣
L
∣
∣
U
∣
\\left|A^T\\right|=\\left|A\\right|\\rightarrow\\left|U^TL^T\\right|=\\left|LU\\right|\\rightarrow\\left|U^T\\right|\\left|L^T\\right|=\\left|L\\right|\\left|U\\right|
∣∣AT∣∣=∣A∣→∣∣UTLT∣∣=∣LU∣→∣∣UT∣∣∣∣LT∣∣=∣L∣∣U∣,值得注意的是,
L
,
U
L, U
L,U的行列式并不因为转置而改变,得证。
暂无评论内容