MIT 线性代数(16—18)读书笔记

第十六讲 投影矩阵(Ax=b)和最小二乘法


上一讲中,我们知道了投影矩阵

P

=

A

(

A

T

A

)

1

A

T

P=A(A^TA)^{-1}A^T

P=A(ATA)1AT

P

b

Pb

Pb将会把向量投影在

A

A

A的列空间中。即只要知道矩阵

A

A

A的列空间,就能得到投影矩阵

P

P

P的导出式。
##1.投影矩阵(Ax=b无解的情形)

1.1两个极端的例子:

  1. 如果

    b

    C

    (

    A

    )

    b\\in C(A)

    bC(A),则

    P

    b

    =

    b

    Pb=b

    Pb=b

  2. 如果

    b

    C

    (

    A

    )

    b\\bot C(A)

    bC(A),则

    P

    b

    =

    0

    Pb=0

    Pb=0

证明1:

P

b

=

A

(

A

T

A

)

1

A

T

b

=

A

(

A

T

A

)

1

A

T

A

x

=

A

(

(

A

T

A

1

)

A

T

A

)

x

=

A

x

=

b

Pb = A(A^TA)^{-1}A^Tb\\\\ = A(A^TA)^{-1}A^TAx\\\\ =A((A^TA^{-1})A^TA)x =Ax=b

Pb=A(ATA)1ATb=A(ATA)1ATAx=A((ATA1)ATA)x=Ax=b
证明2:

P

b

=

A

(

A

T

A

)

1

A

T

b

=

A

(

A

T

A

1

)

(

A

T

b

)

=

A

(

(

A

T

A

1

)

0

=

0

Pb = A(A^TA)^{-1}A^Tb\\\\ = A(A^TA^{-1})(A^Tb)\\\\ =A((A^TA^{-1})0=0

Pb=A(ATA)1ATb=A(ATA1)(ATb)=A((ATA1)0=0
一般情况下,

b

b

b将会有一个垂直于

A

A

A的分量,有一个在

A

A

A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。

1.2一般情形

一般情况下,

b

b

b将会有一个垂直于

A

A

A的分量,有一个在

A

A

A列空间中的分量,投影的作用就是去掉垂直分量而保留列空间中的分量。如图:
的分量
向量

b

b

=

e

+

p

,

p

=

P

b

,

e

=

(

I

P

)

b

p

b

C

(

A

)

e

b

N

(

A

T

)

b投影后,有b=e+p, p=Pb, e=(I-P)b,这里的p是b在C(A)中的分量,而e是b在N(A^T)中的分量。

bb=e+p,p=Pb,e=(IP)bpbC(A)ebN(AT)
可以理解为:向量

b

b

b的投影在

A

A

Acolumn spaceerror vector的投影在left null space上,我们知道

P

P

P,可以将

b

b

b 投影到

p

p

p,那么一个什么样的投影矩阵把

b

b

b投影到了

e

e

e?因为column spaceleft null space正交补,所以他们共同组成了整个空间,

I

I

Icolumn space就是整个空间,

I

P

I−P

IP就是把

b

b

b投影到

e

e

e的矩阵,它和

P

P

P有意义的性质。

2. 最小二乘法(Ax=b)


回到上一讲最后提到的例题:
我们需要找到距离图中三个点

(

1

,

1

)

,

(

2

,

2

)

,

(

3

,

2

)

(1, 1), (2, 2), (3, 2)

(1,1),(2,2),(3,2) 偏差最小的直线:

y

=

C

+

D

t

y=C+Dt

y=C+Dt
图2
根据条件可以得到方程组

{

C

+

D

=

1

C

+

2

D

=

2

C

+

3

D

=

2

\\begin{cases} C+D&=1 \\\\ C+2D&=2 \\\\ C+3D&=2 \\\\ \\end{cases}

C+DC+2DC+3D=1=2=2
,写作矩阵形式

[

1

1

1

2

1

3

]

[

C

D

]

=

[

1

2

2

]

\\begin{bmatrix}1 &1 \\\\1 &2 \\\\1&3\\\\\\end{bmatrix}\\begin{bmatrix}C\\\\D\\\\\\end{bmatrix}=\\begin{bmatrix}1\\\\2\\\\2\\\\\\end{bmatrix}

111123[CD]=122,也就是我们的

A

x

=

b

Ax=b

Ax=b,很明显方程组无解。
此时我们要找到最接近的解"最优解",我们要使得解最优即误差最小,定义误差为

A

x

b

=

e

Ax−b=e

Axb=e的模长的平方即

A

x

b

2

=

e

2

=

e

21

+

e

22

+

e

23

∥Ax−b∥_2=∥e∥_2=e_{21}+e_{22}+e_{23}

Axb2=e2=e21+e22+e23。此处使用平方的原因一是排除开根号带来的非线性运算,一是方便利用偏导数求解最小值。


  • 1.利用偏导求解

这里如果使用偏导数我们也能得到关于最优解的方程,展开结果为:

{

e

2

=

e

1

2

+

e

2

2

+

e

2

2

=

(

C

+

D

1

)

2

+

(

C

+

2

D

2

)

2

+

(

C

+

3

D

2

)

2

=

3

C

2

+

14

D

2

+

9

10

C

22

D

+

12

C

D

\\begin{cases} ∥e∥_2&=e_1^2+e_2^2+e_2^2\\\\ &=(C+D-1)^2+(C+2D-2)^2+(C+3D-2)^2\\\\ &=3C^2+14D^2+9−10C−22D+12CD\\\\ \\end{cases}

e2=e12+e22+e22=(C+D1)2+(C+2D2)2+(C+3D2)2=3C2+14D2+910C22D+12CD
然后对

C

C

C求偏导为

6

C

10

+

12

D

=

0

6C-10+12D=0

6C10+12D=0;对

D

D

D求偏导为

28

D

22

+

12

C

=

0

28D-22+12C=0

28D22+12C=0
解方程得

C

^

=

2

3

,

D

^

=

1

2

\\hat C=\\frac{2}{3}, \\hat D=\\frac{1}{2}

C^=32,D^=21,则“最佳直线”为

y

=

2

3

+

1

2

t

y=\\frac{2}{3}+\\frac{1}{2}t

y=32+21t,带回原方程组解得

p

1

=

7

6

,

p

2

=

5

3

,

p

3

=

13

6

p_1=\\frac{7}{6}, p_2=\\frac{5}{3}, p_3=\\frac{13}{6}

p1=67,p2=35,p3=613,即

e

1

=

1

6

,

e

2

=

1

3

,

e

3

=

1

6

e_1=-\\frac{1}{6}, e_2=\\frac{1}{3}, e_3=-\\frac{1}{6}

e1=61,e2=31,e3=61
于是我们得到

p

=

[

7

6

5

3

13

6

]

,

e

=

[

1

6

1

3

1

6

]

p=\\begin{bmatrix}\\frac{7}{6}\\\\\\frac{5}{3}\\\\\\frac{13}{6}\\end{bmatrix}, e=\\begin{bmatrix}-\\frac{1}{6}\\\\\\frac{1}{3}\\\\-\\frac{1}{6}\\end{bmatrix}

p=6735613,e=613161,易看出

b

=

p

+

e

b=p+e

b=p+e,同时我们发现

p

e

=

0

p\\cdot e=0

pe=0

p

e

p\\bot e

pe

可以验证,向量p 与e 正交,并且e 与矩阵A 的列空间正交。

p

T

e

=

7

/

6

(

1

/

6

)

+

5

/

3

1

/

3

+

13

/

6

(

1

/

6

)

=

0

e

T

a

1

=

1

(

1

/

6

)

+

1

1

/

3

+

1

(

1

/

6

)

=

0

e

T

a

2

=

1

(

1

/

6

)

+

2

1

/

3

+

3

(

1

/

6

)

=

0

p^Te=7/6*(-1/6)+5/3*1/3+13/6*(-1/6)=0\\\\ e^Ta_1=1*(-1/6)+1*1/3+1*(-1/6)=0\\\\ e^Ta_2=1*(-1/6)+2*1/3+3*(-1/6)=0

pTe=7/6(1/6)+5/31/3+13/6(1/6)=0eTa1=1(1/6)+11/3+1(1/6)=0eTa2=1(1/6)+21/3+3(1/6)=0

误差向量

e

e

e不仅垂直于投影向量

p

p

p,它同时垂直于列空间,如

[

1

1

1

]

,

[

1

2

3

]

\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}, \\begin{bmatrix}1\\\\2\\\\3\\end{bmatrix}

111,123

  • 2.利用矩阵求解

用矩阵的方法求解

A

x

^

=

P

b

A\\hat x=Pb

Ax^=Pb得到的方程是一样的,现在我们尝试解出

x

^

=

[

C

^

D

^

]

\\hat x=\\begin{bmatrix}\\hat C\\\\ \\hat D\\end{bmatrix}

x^=[C^D^]

p

=

[

p

1

p

2

p

3

]

p=\\begin{bmatrix}p_1\\\\p_2\\\\p_3\\end{bmatrix}。

p=p1p2p3

A

T

A

x

^

=

A

T

b

A

T

A

=

[

3

6

6

14

]

A

T

b

=

[

5

11

]

[

3

6

6

14

]

[

C

^

D

^

]

=

[

5

11

]

A^TA\\hat x=A^Tb\\\\ A^TA= \\begin{bmatrix}3&6\\\\6&14\\end{bmatrix}\\qquad A^Tb= \\begin{bmatrix}5\\\\11\\end{bmatrix}\\\\ \\begin{bmatrix}3&6\\\\6&14\\end{bmatrix} \\begin{bmatrix}\\hat C\\\\\\hat D\\end{bmatrix}= \\begin{bmatrix}5\\\\11\\end{bmatrix}\\\\

ATAx^=ATbATA=[36614]ATb=[511][36614][C^D^]=[511]

写成方程形式为

{

3

C

^

+

16

D

^

=

5

6

C

^

+

14

D

^

=

11

\\begin{cases}3\\hat C+16\\hat D&=5\\\\6\\hat C+14\\hat D&=11\\\\\\end{cases}

{3C^+16D^6C^+14D^=5=11,也称作

n

o

r

m

a

l

e

q

u

a

t

i

o

n

s

\\color{red}{正规方程组(normal equations)}

normalequations
求的的结果是一样的。

我们现在做的运算也称作

线

l

i

n

e

a

r

r

e

g

r

e

s

s

i

o

n

\\color{red}{线性回归(linear regression)}

线linearregression,使用误差的平方和作为

\\color{red}{测量总误差的标准}


  • 如果有另一个点,如

    (

    0

    ,

    100

    )

    (0, 100)

    (0,100),在本例中该点明显距离别的点很远,最小二乘将很容易被离群的点影响,

    使

    \\color{red}{通常使用最小二乘时会去掉明显离群的点}

    使

3.证明

A

T

A

A^TA

ATA可逆


###3.1 证明可逆
接下来我们观察

A

T

A

A^TA

ATA

A

线

A

T

A

\\color{red}{如果A的各列线性无关,求证A^TA是可逆矩阵}

A线ATA
先假设

A

T

A

x

=

0

A^TAx=0

ATAx=0,两边同时乘以

x

T

x^T

xT

x

T

A

T

A

x

=

0

x^TA^TAx=0

xTATAx=0,即

(

A

x

)

T

(

A

x

)

=

0

(Ax)^T(Ax)=0

(Ax)T(Ax)=0。一个矩阵乘其转置结果为零,则这个矩阵也必须为零(

(

A

x

)

T

(

A

x

)

(Ax)^T(Ax)

(Ax)T(Ax)相当于

A

x

Ax

Ax长度的平方)。则

A

x

=

0

Ax=0

Ax=0,结合题设中的“

A

A

A的各列线性无关”,可知

x

=

0

x=0

x=0,也就是

A

T

A

A^TA

ATA的零空间中有且只有零向量,得证。

###3.2互相垂直线性无关
我们再来看一种线性无关的特殊情况:

线

\\color{red}{互相垂直的单位向量一定是线性无关的}

线
比如:

[

1

0

0

]

[

0

1

0

]

[

0

0

1

]

\\begin{bmatrix}1\\\\0\\\\0\\end{bmatrix}\\begin{bmatrix}0\\\\1\\\\0\\end{bmatrix}\\begin{bmatrix}0\\\\0\\\\1\\end{bmatrix}

100010001,这三个正交单位向量也称作标准正交向量组(orthonormal vectors)。
另一个例子

[

cos

θ

sin

θ

]

[

sin

θ

cos

θ

]

\\begin{bmatrix}\\cos\\theta\\\\\\sin\\theta\\end{bmatrix}\\begin{bmatrix}-\\sin\\theta\\\\\\cos\\theta\\end{bmatrix}

[cosθsinθ][sinθcosθ]
下一讲研究标准正交向量组。

4.总结


1.记住图的意义:
这里写图片描述
2.最小二乘法求解的意义。
3.

A

T

A

A^TA

ATA可逆的条件和正交向量组。


#第十七讲:正交矩阵和Gram-Schmidt正交化法


这是关于正交性最后一讲,已经知道正交空间,比如行空间和零空间,今天主要看正交基和正交矩阵

1.标准正交基与正交矩阵


###1.1 标准正交基

  1. 定义**

    \\color{red}{标准正交向量}

    (orthonormal):

    q

    i

    T

    q

    j

    =

    {

    0

    i

    j

    1

    i

    =

    j

    q_i^Tq_j=\\begin{cases}0\\quad i\\neq j\\\\1\\quad i=j\\end{cases}

    qiTqj={0i=j1i=j;
    2.将标准正交向量放入矩阵中,有

    Q

    =

    [

    q

    1

    q

    2

    q

    n

    ]

    Q=\\Bigg[q_1 q_2 \\cdots q_n\\Bigg]

    Q=[q1q2qn],计算

    Q

    T

    Q

    Q^TQ

    QTQ

    Q

    T

    Q

    =

    [

    1

    0

    0

    0

    1

    0

    0

    0

    1

    ]

    =

    I

    Q^TQ=\\begin{bmatrix}1& 0& \\cdots& 0\\\\0& 1& \\cdots& 0\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0& \\cdots& 1\\end{bmatrix}=I

    QTQ=100010001=I
    我们也把

    Q

    Q

    Q成为

    \\color{red}{标准正交矩阵}

    **(orthonormal matrix)。

标准正交基

  • 举个置换矩阵的例子:

    Q

    =

    [

    0

    1

    0

    1

    0

    0

    0

    0

    1

    ]

    Q=\\begin{bmatrix}0& 1& 0\\\\1& 0& 0\\\\0& 0& 1\\end{bmatrix}

    Q=010100001,则

    Q

    T

    =

    [

    0

    1

    0

    0

    0

    1

    1

    0

    0

    ]

    Q^T=\\begin{bmatrix}0& 1& 0\\\\0& 0& 1\\\\1& 0& 0\\end{bmatrix}

    QT=001100010,易得

    Q

    T

    Q

    =

    I

    Q^TQ=I

    QTQ=I

  • 使用上一讲的例子

    Q

    =

    [

    cos

    θ

    sin

    θ

    sin

    θ

    cos

    θ

    ]

    Q=\\begin{bmatrix}\\cos\\theta& -\\sin\\theta\\\\\\sin\\theta& \\cos\\theta\\end{bmatrix}

    Q=[cosθsinθsinθcosθ],列向量长度为

    1

    1

    1,且列向量相互正交。

  • 其他例子

    Q

    =

    1

    2

    [

    1

    1

    1

    1

    ]

    Q=\\frac{1}{\\sqrt 2}\\begin{bmatrix}1& 1\\\\1& -1\\end{bmatrix}

    Q=2

    1[1111],列向量长度为

    1

    1

    1,且列向量相互正交。

  • 使用上一个例子的矩阵,令

    Q

    =

    c

    [

    Q

    Q

    Q

    Q

    ]

    Q'=c\\begin{bmatrix}Q& Q\\\\Q& -Q\\end{bmatrix}

    Q=c[QQQQ],取合适的

    c

    c

    c另列向量长度为

    1

    1

    1也可以构造标准正交矩阵:

    Q

    =

    1

    2

    [

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    1

    ]

    Q=\\frac{1}{2}\\begin{bmatrix}1& 1& 1& 1\\\\1& -1& 1& -1\\\\1& 1& -1& -1\\\\1& -1& -1& 1\\end{bmatrix}

    Q=211111111111111111,这种构造方法以阿德玛(Adhemar)命名,对

    2

    ,

    4

    ,

    16

    ,

    64

    ,

    2, 4, 16, 64, \\cdots

    2,4,16,64,阶矩阵有效。

  • 再来看一个例子,

    Q

    =

    1

    3

    [

    1

    2

    2

    2

    1

    2

    2

    2

    1

    ]

    Q=\\frac{1}{3}\\begin{bmatrix}1& -2& 2\\\\2& -1& -2\\\\2& 2& 1\\end{bmatrix}

    Q=31122212221,列向量长度为

    1

    1

    1,且列向量相互正交。格拉姆-施密特正交化法的缺点在于,由于要求得单位向量,所以我们总是除以向量的长度,这导致标准正交矩阵中总是带有根号,而上面几个例子很少有根号。

**标准正交矩阵 **

Q

T

Q

Q^TQ

QTQ对任意的

Q

Q

Q都成立,但我们更关注

Q

Q

Q为方阵时的情况,因为其有逆且由

Q

T

Q

=

I

Q

1

=

Q

T

Q^TQ=I⇒Q^{−1}=Q^T

QTQ=IQ1=QT,我们叫这种column vector为标准正交向量组成且为方阵的矩阵为正交矩阵 orthogonal matrix。


注意标准正交矩阵 orthogonormal matrix不一定是方阵,当它是方阵的时候,我们叫它正交矩阵 orthogonal matrix。

1.2正交矩阵


为什么我们如此关注标准正交矩阵 orthogonormal matrix为方阵 的情形?

上一讲我们研究了

A

T

A

A^TA

ATA的特性,联系我们之前学习的投影矩阵projection matrix,将向量

b

b

b投影在标准正交矩阵

Q

Q

Q的列空间中,根据上一讲的公式得

P

=

Q

(

Q

T

Q

)

1

Q

T

P=Q(Q^TQ)^{-1}Q^T

P=Q(QTQ)1QT,由于标准正交矩阵

Q

Q

Q的性质,易得

P

=

Q

Q

T

P=QQ^T

P=QQT

我们断言,当列向量为标准正交基时,

Q

Q

T

QQ^T

QQT是投影矩阵。极端情况,假设矩阵是方阵,而其列向量是标准正交的,则其列空间就是整个向量空间,而投影整个空间的投影矩阵就是单位矩阵,此时

Q

Q

T

=

I

QQ^T=I

QQT=I

投影矩阵的两个性质:

  1. (

    Q

    Q

    T

    )

    T

    =

    Q

    Q

    T

    (QQ^T)^T=QQ^T

    (QQT)T=QQT
    证明:

    (

    Q

    Q

    T

    )

    T

    =

    (

    Q

    T

    )

    T

    Q

    T

    =

    Q

    Q

    T

    (QQ^T)^T=(Q^T)^TQ^T=QQ^T

    (QQT)T=(QT)TQT=QQT

2.

(

Q

Q

T

)

2

=

Q

Q

T

(QQ^T)^2=QQ^T

(QQT)2=QQT
证明:

(

Q

Q

T

)

2

=

Q

Q

T

Q

Q

T

=

Q

(

Q

T

Q

)

Q

T

=

Q

Q

T

(QQ^T)^2=QQ^TQQ^T=Q(Q^TQ)Q^T=QQ^T

(QQT)2=QQTQQT=Q(QTQ)QT=QQT

A

T

A

x

^

=

A

T

b

\\color{red}{我们计算的A^TA\\hat x=A^Tb}

ATAx^=ATb,现在变为

Q

T

Q

x

^

=

Q

T

b

Q^TQ\\hat x=Q^Tb

QTQx^=QTb,也就是

x

^

=

Q

T

b

\\hat x=Q^Tb

x^=QTb,分解开来看就是

x

^

i

=

q

i

T

b

\\underline{\\hat x_i=q_i^Tb}

x^i=qiTb,这个式子在很多数学领域都有重要作用。当我们知道标准正交基,则解向量第

i

i

i个分量为基的第

i

i

i个分量乘以b,在第

i

i

i个基方向上的投影就等于q_i^Tb。}$

##2. Gram-Schmidt正交化法

这是一种将矩阵转化为标准正交向量orthogonormal matrix的方法。按老师的说法Schmidt教我们如何将一个向量标准化normalized,而Graham教我们如何使得各个向量正交orthogonal。

总思路:
已知相互无关的向量

a

a

a,

b

b

b,目标要将

a

a

a,

b

b

b 变成相互正交且长度为$1

q_1

,

,

,q_2

,可将向量

a$ 固定,然后

b

b

b投影到$a

上,误差

e=B$.

我们有两个线性无关的向量

a

,

b

a, b

a,b,先把它们化为单位正交向量

A

,

B

A, B

A,B

  • 我们取定

    a

    a

    a向量的方向,

    a

    =

    A

    a=A

    a=A

  • 接下来将

    b

    b

    b投影在

    A

    A

    A的法方向上得到

    B

    B

    B,也就是求子空间投影一讲中,我们提到的误差向量

    e

    =

    b

    p

    e=b-p

    e=bp,即

    B

    =

    b

    A

    T

    b

    A

    T

    A

    A

    B=b-\\frac{A^Tb}{A^TA}A

    B=bATAATbA。检验一下

    A

    B

    A\\bot B

    AB

    A

    T

    B

    =

    A

    T

    b

    A

    T

    A

    T

    b

    A

    T

    A

    A

    =

    A

    T

    b

    A

    T

    A

    A

    T

    A

    A

    T

    b

    =

    0

    A^TB=A^Tb-A^T\\frac{A^Tb}{A^TA}A=A^Tb-\\frac{A^TA}{A^TA}A^Tb=0

    ATB=ATbATATAATbA=ATbATAATAATb=0。(

    A

    T

    b

    A

    T

    A

    A

    \\frac{A^Tb}{A^TA}A

    ATAATbA就是

    A

    x

    ^

    =

    p

    A\\hat x=p

    Ax^=p);

  • 再将它们单位化,变为单位正交向量

    q

    1

    =

    A

    A

    ,

    q

    2

    =

    B

    B

    q_1=\\frac{A}{\\left\\|A\\right\\|}, q_2=\\frac{B}{\\left\\|B\\right\\|}

    q1=AA,q2=BB

如果我们有三个线性无关的向量

a

,

b

,

c

a, b, c

a,b,c,则我们现需要求它们变换成单位正交向量

A

,

B

,

C

A, B, C

A,B,C

  • 前两个向量我们已经得到了,我们现在需要求第三个向量同时正交于

    A

    ,

    B

    A, B

    A,B

  • 我们依然沿用上面的方法,从

    c

    c

    c中减去其在

    A

    ,

    B

    A, B

    A,B上的分量,得到正交与

    A

    ,

    B

    A, B

    A,B

    C

    C

    C

    C

    =

    c

    A

    T

    c

    A

    T

    A

    A

    B

    T

    c

    B

    T

    B

    B

    C=c-\\frac{A^Tc}{A^TA}A-\\frac{B^Tc}{B^TB}B

    C=cATAATcABTBBTcB

  • 再将它们单位化,变为单位正交向量

    q

    1

    =

    A

    A

    ,

    q

    2

    =

    B

    B

    ,

    q

    3

    =

    C

    C

    q_1=\\frac{A}{\\left\\|A\\right\\|}, q_2=\\frac{B}{\\left\\|B\\right\\|}, q_3=\\frac{C}{\\left\\|C\\right\\|}

    q1=AA,q2=BB,q3=CC

这里写图片描述

例子
现在我们试验一下推导出来的公式,

a

=

[

1

1

1

]

,

b

=

[

1

0

2

]

a=\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}, b=\\begin{bmatrix}1\\\\0\\\\2\\end{bmatrix}

a=111,b=102

A

=

a

=

[

1

1

1

]

A=a=\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}

A=a=111
根据公式有

B

=

a

h

A

B=a-hA

B=ahA

h

h

h是比值

A

T

b

A

T

A

=

3

3

\\frac{A^Tb}{A^TA}=\\frac{3}{3}

ATAATb=33,则

B

=

[

1

1

1

]

3

3

[

1

0

2

]

=

[

0

1

1

]

B=\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix}-\\frac{3}{3}\\begin{bmatrix}1\\\\0\\\\2\\end{bmatrix}=\\begin{bmatrix}0\\\\-1\\\\1\\end{bmatrix}

B=11133102=011。验证一下正交性有

A

B

=

0

A\\cdot B=0

AB=0
单位化,

q

1

=

1

3

[

1

1

1

]

,

q

2

=

1

2

[

1

0

2

]

q_1=\\frac{1}{\\sqrt 3}\\begin{bmatrix}1\\\\1\\\\1\\end{bmatrix},\\quad q_2=\\frac{1}{\\sqrt 2}\\begin{bmatrix}1\\\\0\\\\2\\end{bmatrix}

q1=3

1111,q2=2

1102,则标准正交矩阵为

Q

=

[

1

3

0

1

3

1

2

1

3

1

2

]

Q=\\begin{bmatrix}\\frac{1}{\\sqrt 3}& 0\\\\\\frac{1}{\\sqrt 3}& -\\frac{1}{\\sqrt 2}\\\\\\frac{1}{\\sqrt 3}& \\frac{1}{\\sqrt 2}\\end{bmatrix}

Q=3

13

13

102

12

1,对比原来的矩阵

D

=

[

1

1

1

0

1

2

]

D=\\begin{bmatrix}1& 1\\\\1& 0\\\\1& 2\\end{bmatrix}

D=111102,有

D

,

Q

D, Q

D,Q的列空间是相同的,我们只是将原来的基标准正交化了。

##3.QR分解


我们曾经用矩阵的眼光审视消元法,有

A

=

L

U

A=LU

A=LU。同样的,我们也用矩阵表达标准正交化,

A

=

Q

R

A=QR

A=QR,这里的

R

R

R是一个上三角矩阵upper triangular matrix 。

设矩阵

A

A

A有两个列向量

[

a

1

a

2

]

\\Bigg[a_1 a_2\\Bigg]

[a1a2],则标准正交化后有

[

a

1

a

2

]

=

[

q

1

q

2

]

[

a

1

T

q

1

a

2

T

q

1

a

1

T

q

2

a

2

T

q

2

]

\\Bigg[a_1 a_2\\Bigg]=\\Bigg[q_1 q_2\\Bigg]\\begin{bmatrix}a_1^Tq_1& a_2^Tq_1\\\\a_1^Tq_2& a_2^Tq_2\\end{bmatrix}

[a1a2]=[q1q2][a1Tq1a1Tq2a2Tq1a2Tq2],而左下角的

a

1

T

q

2

a_1^Tq_2

a1Tq2始终为

0

0

0,因为Gram-Schmidt正交化总是使得

a

1

q

2

a_1\\bot q_2

a1q2,后来构造的向量总是正交于先前的向量。所以这个

R

R

R矩阵是一个上三角矩阵。

##4.总结


1.标准正交基与正交矩阵;
2.Gram-Schmidt正交标准化;
3.QR分解(与LU分解的区别)。


#第十八讲:行列式及其性质


  • 行列式最早是应用在用来判断方程组是否有解,在矩阵被发明后,行列式就拥有了更多的性质和应用。其强大之处在于将整个矩阵的信息压缩到了一个值当中。
  • 行列式的英文名为determinant:决定因素,因为他可以决定方程组是否有解即矩阵是否可逆,从另外一个角度来理解,行列式代表了这个矩阵的特征,这是学习特征分解的前置概念。
    ##1.基础性质

本讲我们讨论出行列式(determinant)的性质:

行列式的基本性质:
性质1

det

I

=

1

\\color{red}{\\det{I}=1,单位矩阵行列式值为一。}

detI=1
性质2

\\color{red}{交换行,行列式变号。}


性质3: a.

t

a

t

b

t

c

t

d

=

t

a

b

c

d

\\color{red}{\\begin{vmatrix}ta& tb\\\\tc& td\\end{vmatrix}=t\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}。 }

tatctbtd=tacbd
b.

a

+

a

b

+

b

c

d

=

a

b

c

d

+

a

b

c

d

\\color{red}{\\begin{vmatrix}a+a'& b+b'\\\\c& d\\end{vmatrix}=\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}+\\begin{vmatrix}a'& b'\\\\c& d\\end{vmatrix}。}

a+acb+bd=acbd+acbd

由性质1和2可知,对置换矩阵有

det

P

=

{

1

e

v

e

n

1

o

d

d

\\det P=\\begin{cases}1\\quad & even\\\\-1\\quad & odd\\end{cases}

detP={11evenodd
举例:

1

0

0

1

=

1

,

0

1

1

0

=

1

\\begin{vmatrix}1& 0\\\\0& 1\\end{vmatrix}=1,\\quad\\begin{vmatrix}0& 1\\\\1& 0\\end{vmatrix}=-1

1001=1,0110=1,于是我们猜想,对于二阶方阵,行列式的计算公式为

a

b

c

d

=

a

d

b

c

\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}=ad-bc

acbd=adbc

性质3(b)对于每行都单独成立,其他行则不变,即不能同时组合第一行和第二行。$det(A+B)≠det(A)+det(B) $。

2. 推导出的性质


更多的性质可以从以上的三条性质中推导出来。

性质4

使

2

\\color{red}{如果两行相等,则行列式为零。使用性质2交换两行易证。}

使2

**性质5 **:

k

i

l

\\color{red}{从第k行中减去第i行的l倍,行列式不变。}

kil
解析:这条性质是针对消元的,我们可以先消元,将方阵变为上三角形式后再计算行列式。
举例:

a

b

c

l

a

d

l

b

=

3.

b

a

b

c

d

+

a

b

l

a

l

b

=

3.

a

a

b

c

d

l

a

b

a

b

=

4

a

b

c

d

\\begin{vmatrix}a& b\\\\c-la& d-lb\\end{vmatrix}\\stackrel{3.b}{=}\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}+\\begin{vmatrix}a& b\\\\-la& -lb\\end{vmatrix}\\stackrel{3.a}{=}\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}-l\\begin{vmatrix}a& b\\\\a& b\\end{vmatrix}\\stackrel{4}{=}\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}

aclabdlb=3.bacbd+alablb=3.aacbdlaabb=4acbd

性质6

\\color{red}{如果方阵的某一行为零,则其行列式值为零。}


证明:使用性质3(a)对为零行乘以不为零系数

l

l

l,使

l

det

A

=

det

A

l\\det A=\\det A

ldetA=detA即可证明;或使用性质5将某行加到为零行,使存在两行相等后使用性质4即可证明。
性质7

U

=

d

1

0

d

2

0

0

d

n

det

U

=

d

1

d

2

d

n

\\color{red}{有上三角行列式U=\\begin{vmatrix}d_{1}& *& \\cdots& *\\\\0& d_{2}& \\cdots& *\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0& \\cdots& d_{n}\\end{vmatrix},则\\det U=d_1d_2\\cdots d_n。}

U=d100d20dndetU=d1d2dn
证明:使用性质5,从最后一行开始,将对角元素上方的

*

元素依次变为零,可以得到型为

D

=

d

1

0

0

0

d

2

0

0

0

d

n

D=\\begin{vmatrix}d_{1}& 0& \\cdots& 0\\\\0& d_{2}& \\cdots& 0\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0&\\cdots&d_{n}\\end{vmatrix}

D=d1000d2000dn的对角行列式,再使用性质3将对角元素提出得到

d

n

d

n

1

d

1

1

0

0

0

1

0

0

0

1

d_nd_{n-1}\\cdots d_1\\begin{vmatrix}1& 0& \\cdots& 0\\\\0& 1& \\cdots& 0\\\\\\vdots& \\vdots& \\ddots& \\vdots\\\\0& 0& \\cdots& 1\\end{vmatrix}

dndn1d1100010001,得证。
性质8

A

det

A

=

0

A

det

A

0

\\color{red}{当矩阵A为奇异矩阵时,\\det A=0;当且仅当A可逆时,有\\det A\\neq0}

AdetA=0AdetA=0
证明:如果矩阵可逆,则化简为上三角形式后各行都含有主元,行列式即为主元乘积;如果矩阵奇异,则化简为上三角形式时会出现全零行,行列式为零。
再回顾二阶情况:

a

b

c

d

a

b

0

d

c

a

b

=

a

d

b

c

\\begin{vmatrix}a& b\\\\c& d\\end{vmatrix}\\xrightarrow{消元}\\begin{vmatrix}a& b\\\\0& d-\\frac{c}{a}b\\end{vmatrix}=ad-bc

acbd

a0bdacb=adbc,前面的猜想得到证实。

性质9

det

A

B

=

(

det

A

)

(

det

B

)

\\color{red}{\\det AB=(\\det A)(\\det B)}

detAB=(detA)(detB)
解析:使用这一性质,

det

I

=

det

A

1

A

=

det

A

1

det

A

\\det I=\\det{A^{-1}A}=\\det A^{-1}\\det A

detI=detA1A=detA1detA,所以

det

A

1

=

1

det

A

\\det A^{-1}=\\frac{1}{\\det A}

detA1=detA1
同时还可以得到:

det

A

2

=

(

det

A

)

2

\\det A^2=(\\det A)^2

detA2=(detA)2,以及

det

2

A

=

2

n

det

A

\\det 2A=2^n\\det A

det2A=2ndetA,这个式子就像是求体积,对三维物体有每边翻倍则体积变为原来的八倍。

性质10

det

A

T

=

det

A

\\color{red}{\\det A^T=\\det A。}

detAT=detA

2

\\color{red}{前面一直在关注行的属性给行列式带来的变化,有了这条性质,行的属性同样适用于列,比如对性质2就有“交换列行列式变号”。}

2
证明:

A

T

=

A

U

T

L

T

=

L

U

U

T

L

T

=

L

U

\\left|A^T\\right|=\\left|A\\right|\\rightarrow\\left|U^TL^T\\right|=\\left|LU\\right|\\rightarrow\\left|U^T\\right|\\left|L^T\\right|=\\left|L\\right|\\left|U\\right|

AT=AUTLT=LUUTLT=LU,值得注意的是,

L

,

U

L, U

L,U的行列式并不因为转置而改变,得证。

© 版权声明
THE END
喜欢就支持一下吧
点赞132 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容