线性方程组的解法

讨论一般线性方程组的解

{a11x1+a12x2++a1nxn=b1,a21x1+a22x2++a2nxn=b2,as1x1+as2x2++asnxn=bs.\begin{cases} a_{11}x_1 + a_{12}x_2 + \cdots + a_{1n}x_n &= b_1,\\ a_{21}x_1 + a_{22}x_2 + \cdots + a_{2n}x_n &= b_2,\\ &\vdots\\ a_{s1}x_1 + a_{s2}x_2 + \cdots + a_{sn}x_n &= b_s. \end{cases}

[a11a12a1na21a22a2nas1as2asn][x1x2xn]=[b1b2bs]\begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{s1} & a_{s2} & \cdots & a_{sn} \\ \end{bmatrix} \begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix} = \begin{bmatrix} b_1\\ b_2\\ \vdots\\ b_s \end{bmatrix}

x1[a11a21as1]+x2[a12a22as2]++xn[a1na2nasn]=[b1b2bs]x_1\cdot\begin{bmatrix} a_{11} \\ a_{21} \\ \vdots\\ a_{s1} \end{bmatrix} + x_2\cdot\begin{bmatrix} a_{12} \\ a_{22} \\ \vdots\\ a_{s2} \end{bmatrix} +\cdots+ x_n\cdot\begin{bmatrix} a_{1n} \\ a_{2n} \\ \vdots\\ a_{sn} \end{bmatrix} = \begin{bmatrix} b_1\\ b_2\\ \vdots\\ b_s \end{bmatrix}

初等变换与初等矩阵

  • 线性方程组的初等变换
  1. 把一个方程的倍数加到另一个方程上

    {ai1x1+ai2x2++ainxn=bi,(aj1+kai1)x1+(aj2+kai2)x2++(ajn+kain)xn=(bj+kbi),\begin{cases} &\vdots\\ a_{i1}x_1 + a_{i2}x_2 + \cdots + a_{in}x_n &= b_i,\\ &\vdots\\ (a_{j1}+ka_{i1})x_1 + (a_{j2}+ka_{i2})x_2 + \cdots + (a_{jn}+ka_{in})x_n &= (b_j+kb_i),\\ &\vdots \end{cases}

  2. 互换两个方程的位置

    {aj1x1+aj2x2++ajnxn=bj,ai1x1+ai2x2++ainxn=bi,\begin{cases} &\vdots\\ a_{j1}x_1 + a_{j2}x_2 + \cdots + a_{jn}x_n &= b_j,\\ &\vdots\\ a_{i1}x_1 + a_{i2}x_2 + \cdots + a_{in}x_n &= b_i,\\ &\vdots \end{cases}

  3. 用一个非零数乘以某一个方程

    {kai1x1+kai2x2++kainxn=kbi,\begin{cases} &\vdots\\ ka_{i1}x_1 + ka_{i2}x_2 + \cdots + ka_{in}x_n &= kb_i,\\ &\vdots\\ \end{cases}

上面对线性方程组的三种操作称为 线性方程组的初等变换,经过一系列初等变换得到的方程组与原方程组同解。(证明:分别经过1.2.3.变换前后的方程组同解)

  • 矩阵的初等行变换
  1. 把一行的倍数加到另一行上
  2. 互换两行的位置
  3. 用一个非零数乘以某一行
  • 如何将矩阵化简为最简形

    辗转相减

阶梯形矩阵

为什么要做初等行变换

  • 从方程组的角度,做行变换是在消元,方便求解未知数
  • 从线性空间的角度来看,做行变换是在进行线性变换,变换线性空间的基,以此方便看出线性表示的系数

【例】求线性方程组的解

[131342154271][x1x2x3]=[29101]\begin{bmatrix} 1 & 3 & 1 \\ 3 & 4 & 2 \\ -1&-5 & 4 \\ 2 & 7 & 1 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = \begin{bmatrix} 2 \\ 9 \\ 10 \\ 1 \end{bmatrix}

x1[1312]+x2[3457]+x3[1241]=[29101]x_1\begin{bmatrix} 1\\3\\-1\\2 \end{bmatrix} + x_2\begin{bmatrix} 3\\4\\-5\\7 \end{bmatrix} + x_3\begin{bmatrix} 1\\2\\4\\1 \end{bmatrix} = \begin{bmatrix} 2\\9\\10\\1 \end{bmatrix}

做线性行变换相当于在变换线性空间的基

本来在基{ϵ1,ϵ2,ϵ3,ϵ4}\{\epsilon_1,\epsilon_2,\epsilon_3,\epsilon_4\}下讨论向量[1312],[3457],[1241]\left[\begin{smallmatrix}1\\3\\-1\\2\end{smallmatrix}\right],\left[\begin{smallmatrix}3\\4\\-5\\7\end{smallmatrix}\right],\left[\begin{smallmatrix}1\\2\\4\\1\end{smallmatrix}\right]如何线性表出向量[29101]\left[\begin{smallmatrix}2\\9\\10\\1\end{smallmatrix}\right]

将其变换到基{[1312],[3457],[1241],[0001]}\left\{ \left[ \begin{smallmatrix} 1\\3\\-1\\2 \end{smallmatrix} \right], \left[ \begin{smallmatrix} 3\\4\\-5\\7 \end{smallmatrix} \right], \left[ \begin{smallmatrix} 1\\2\\4\\1 \end{smallmatrix} \right], \left[ \begin{smallmatrix} 0\\0\\0\\1 \end{smallmatrix} \right] \right\}下讨论向量[1000],[0100],[0010]\left[\begin{smallmatrix}1\\0\\0\\0\end{smallmatrix}\right],\left[\begin{smallmatrix}0\\1\\0\\0\end{smallmatrix}\right],\left[\begin{smallmatrix}0\\0\\1\\0\end{smallmatrix}\right]如何线性表出向量[3120]\left[\begin{smallmatrix}3\\-1\\2\\0\end{smallmatrix}\right]

{[1312],[3457],[1241],[0001]}[100010001000][x1x2x3]={[1312],[3457],[1241],[0001]}[3120]\left\{ \begin{bmatrix} 1\\3\\-1\\2 \end{bmatrix}, \begin{bmatrix} 3\\4\\-5\\7 \end{bmatrix}, \begin{bmatrix} 1\\2\\4\\1 \end{bmatrix}, \begin{bmatrix} 0\\0\\0\\1 \end{bmatrix} \right\} \begin{bmatrix} 1 & 0 & 0\\ 0 & 1 & 0\\ 0 & 0 & 1\\ 0 & 0 & 0 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \\ x_3 \end{bmatrix} = \left\{ \begin{bmatrix} 1\\3\\-1\\2 \end{bmatrix}, \begin{bmatrix} 3\\4\\-5\\7 \end{bmatrix}, \begin{bmatrix} 1\\2\\4\\1 \end{bmatrix}, \begin{bmatrix} 0\\0\\0\\1 \end{bmatrix} \right\} \begin{bmatrix} 3 \\ -1 \\ 2 \\ 0 \end{bmatrix}

齐次方程

  • 零解(满秩)
  • 无穷多解(退化)

非齐次方程

  • 无解(系数矩阵的秩 < 增广矩阵的秩)
  • 唯一解(系数矩阵满秩)
  • 无穷多解(系数矩阵退化,系数矩阵的秩 = 增广矩阵的秩)

线性空间

线性空间的定义

设V是一个非空集合,其中的元素称为向量;F是数域,其中的元素称为或者纯量。如果在V中定义两种运算:

  1. 向量与向量的加法运算,使得

    α,βV,α+βV;(V关于加法运算封闭)\forall \alpha,\beta \in V,有\alpha+\beta\in V;\qquad(V关于加法运算封闭)

  2. 数与向量的数乘运算,使得

    α,kF,kαV.(V关于数乘运算封闭)\forall \alpha,\forall k\in F, 有k\alpha \in V.\qquad(V关于数乘运算封闭)

并且满足如下8条运算法则

关于加法运算(α,β,γV)(\forall \alpha,\beta,\gamma \in V)

  1. 交换律:α+β=β+α\alpha + \beta = \beta + \alpha
  2. 结合律:(α+β)+γ=α+(β+γ)(\alpha + \beta) + \gamma = \alpha + (\beta + \gamma)
  3. 存在零元:存在一个 零向量 0V0 \in V,使得αV\forall \alpha \in V, 有 α+0=α\alpha + 0 = \alpha
  4. 存在负元:对于αV\forall \alpha \in V,存在βV\beta \in V,使得α+β=0\alpha + \beta = 0,其中称β\betaα\alpha的负向量,记为α-\alpha

关于加法成交换群

关于数乘运算(α,βV,k,lF)(\forall \alpha,\beta \in V,\forall k,l \in F)

  1. 存在幺元:1α=α1\alpha=\alpha,其中11FF的单位元
  2. 结合律:(kl)α=k(lα)(kl)\alpha = k(l\alpha)
  3. 分配律:(k+l)α=kα+lα(k+l)\alpha = k\alpha + l\alpha
  4. 分配律:k(α+β)=kα+kβk(\alpha + \beta) = k\alpha + k\beta

称V是数域F上的一个线性空间向量空间

线性空间的基和维数

基和维数的定义

设V是数域F上的线性空间,若存在一个有限元素的部分组α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n满足

  1. α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n线性无关
  2. V中的任意向量α\alpha可以由α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n线性表示

则称α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n为V的一组基;称部分组中向量的个数n为V的维数,记为dimV=ndimV = n

基的作用和坐标

  • 任意向量由基的线性表示是唯一的

【定理】设α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n是线性空间的V的一组基,β\beta是V的一个向量。β\beta由基α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n的线性表示是唯一的。(证明唯一性)

证明:设β=x1α1+x2α2++xnαn\beta = x_1\alpha_1+x_2\alpha_2+\cdots+x_n\alpha_n,假设β\beta的线性表示不是唯一的,设其存在另外的线性表示β=y1α1+y2α2++ynαn\beta = y_1\alpha_1+y_2\alpha_2+\cdots+y_n\alpha_n,两式相减整理得到

(x1y1)α1+(x2y2)α2++(xnyn)αn=0(x_1-y_1)\alpha_1+(x_2-y_2)\alpha_2+\cdots+(x_n-y_n)\alpha_n = 0

α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n线性无关x1=y1,x2=y2,,xn=yn\Rightarrow x_1=y_1,x_2=y_2,\cdots,x_n=y_n

  • 坐标的定义

α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n是线性空间V的一组基,V的向量β\beta可以由基α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n唯一线性表示

β=x1α1+x2α2++xnαn.\beta = x_1\alpha_1 + x_2 \alpha_2 + \cdots + x_n\alpha_n.

称有序数组x1,x2,,xnx_1,x_2,\cdots,x_n为向量β\beta在基α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_n下的坐标,记为

X=[x1x2xn]X = \begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}

当基确定后,向量与坐标是一一对应的关系

β=x1α1+x2α2++xnαn=[α1,α2,,αn][x1x2xn]\beta = x_1\alpha_1 + x_2 \alpha_2 + \cdots + x_n\alpha_n = \begin{bmatrix}\alpha_1,\alpha_2,\cdots,\alpha_n\end{bmatrix} \begin{bmatrix}x_1 \\ x_2 \\ \vdots \\ x_n \end{bmatrix}

基变换与坐标变换

基变换

  • 过度矩阵

α1,α2,,αn\alpha_1,\alpha_2,\cdots,\alpha_nβ1,β2,,βn\beta_1,\beta_2,\cdots,\beta_n是线性空间V的两组基,两组基之间存在过度关系

{β1=a11α1+a21α2++an1αnβ2=a12α1+a22α2++an2αnβn=a1nα1+a2nα2++annαn\begin{cases} \beta_1 = a_{11}\alpha_1 + a_{21}\alpha_2 + \cdots + a_{n1}\alpha_n\\ \beta_2 = a_{12}\alpha_1 + a_{22}\alpha_2 + \cdots + a_{n2}\alpha_n\\ \cdots\\ \beta_n = a_{1n}\alpha_1 + a_{2n}\alpha_2 + \cdots + a_{nn}\alpha_n \end{cases}

写成矩阵形式(注意不要写成转置,α\alphaβ\beta分别是列向量)

[β1,β2,,βn]=[α1,α2,,αn][a11a12a1na21a22a2nan1an2ann]\begin{bmatrix} \beta_1, \beta_2, \cdots, \beta_n \end{bmatrix} = \begin{bmatrix}\alpha_1, \alpha_2, \cdots, \alpha_n \end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{bmatrix}

记上式右边的矩阵为AA

[β1,β2,,βn]=[α1,α2,,αn]A[α1,α2,,αn]=[β1,β2,,βn]A1\begin{split} \begin{bmatrix} \beta_1, \beta_2, \cdots, \beta_n \end{bmatrix}&= \begin{bmatrix}\alpha_1, \alpha_2, \cdots, \alpha_n \end{bmatrix}A \\ \begin{bmatrix}\alpha_1, \alpha_2, \cdots, \alpha_n \end{bmatrix}&= \begin{bmatrix} \beta_1, \beta_2, \cdots, \beta_n \end{bmatrix}A^{-1} \end{split}

称矩阵AA为由基{α1,α2,,αn}\{\alpha_1,\alpha_2,\cdots,\alpha_n\}到基{β1,β2,,βn}\{\beta_1, \beta_2, \cdots, \beta_n\}过度矩阵

矩阵A1A^{-1}为由基{β1,β2,,βn}\{\beta_1, \beta_2, \cdots, \beta_n\}到基{α1,α2,,αn}\{\alpha_1,\alpha_2,\cdots,\alpha_n\}过度矩阵

  • 过渡矩阵是可逆矩阵

证明:设ξ=[k1,k2,,kn]T\xi = [k_1,k_2,\cdots,k_n]^T

{β}的线性无关性[β1,β2,,βn]ξ=0ξ=0{α}的线性无关性[α1,α2,,αn]Aξ=0Aξ=0Aξ=0ξ=0(Aξ=0只有零解,A可逆)\begin{gather*} 基\{\beta\}的线性无关性\rightarrow \begin{bmatrix}\beta_1, \beta_2, \cdots, \beta_n\end{bmatrix} \xi=0 \Rightarrow \xi=0 \\ \Updownarrow \\ 基\{\alpha\}的线性无关性\rightarrow \begin{bmatrix}\alpha_1, \alpha_2, \cdots, \alpha_n \end{bmatrix}A \xi=0 \Rightarrow A\xi=0 \\\Downarrow\\ A\xi=0 \Rightarrow \xi=0 \quad(A\xi=0只有零解,即A可逆) \end{gather*}

坐标变换

设向量β\beta在基{α1,α2,,αn}\{\alpha_1,\alpha_2,\cdots,\alpha_n\}和基{β1,β2,,βn}\{\beta_1, \beta_2, \cdots, \beta_n\}下的坐标分别为XXYY

β=[α1,α2,,αn]X=[β1,β2,,βn]A1Y=[β1,β2,,βn]Y=[α1,α2,,αn]AY\begin{align*} \beta &= [\alpha_1,\alpha_2,\cdots,\alpha_n]X = [\beta_1,\beta_2,\cdots,\beta_n]A^{-1}Y \\ &= [\beta_1,\beta_2,\cdots,\beta_n]Y = [\alpha_1,\alpha_2,\cdots,\alpha_n]AY \end{align*}

于是得到同一向量在不同基底下坐标间的关系

X=AYY=A1XX = AY\qquad Y=A^{-1}X

【总结】在一个基变换中,基右乘过渡矩阵AA得到变换后的基,向量的坐标左乘过渡矩阵的逆A1A^{-1}得到变换后的坐标

β=[α1,α2,,αn]X=[α1,α2,,αn]AA1X=[β1,β2,,βn]Y\begin{split} \beta &= [\alpha_1,\alpha_2,\cdots,\alpha_n]X \\ &= [\alpha_1,\alpha_2,\cdots,\alpha_n]AA^{-1}X \\ &= [\beta_1,\beta_2,\cdots,\beta_n]Y \end{split}

当你需要给向量的坐标进行一个左乘BB的变换,那么就要对基进行过渡矩阵为B1B^{-1}的基变换.

子空间

线性变换

映射的概念

给定集合A和B,若对于A中的每一个元素xx,在B中存在唯一的元素yy与之对应,则称此对应关系为由集合A到集合B的映射,记为

f:AB或者f:xy=f(x)f:A\rightarrow B\quad或者\quad f:x \mapsto y = f(x)

f(A)={f(x)xA}f(A) = \{f(x)|x\in A\}为映射ff像集

随着集合的不同,定义在集合上的映射,其名称也随之变化,如函数(数域)、变换(线性空间)、算子(函数空间)等

设映射f:ABf:A\rightarrow B.

  • f(A)=Bf(A) = B,则称ff满射(surjective)

  • x1x2f(x1)f(x2)x_1 \neq x_2 \Rightarrow f(x_1) \neq f(x_2),则称ff单射(injective)

    或者f(x1)=f(x2)x1=x2f(x_1) = f(x_2) \Rightarrow x_1 = x_2,两者是等价的(互为逆否命题)

  • ff既是单设又是满射,则称ff一一映射(one-to-one)或双射(bijective)

线性变换的定义

设V是数域F上的线性空间,映射T:VVT:V\rightarrow V,满足

  1. T(α+β)=T(α)+T(β),α,βVT(\alpha + \beta) = T(\alpha) + T(\beta), \quad \forall \alpha,\beta\in V
  2. T(kα)=kT(α),α,βV,kFT(k\alpha) = kT(\alpha), \quad \forall \alpha,\beta\in V, \forall k \in F

则称映射TT线性变换(Transformation)

Note: 线性变换的定义中强调了两点,一是它是线性空间到自身的映射,二是线性性.

线性变换的两个常用运算

运算1: 设矩阵 A=[A1,A2,,An]A = [A_1,A_2,\cdots,A_n] 和向量 α=[a1,a2,,an]T\alpha = [a_1,a_2,\cdots,a_n]^{T}, 矩阵和向量乘积的线性变换满足下面的式子:

T(Aα)=T(A)αT(A\alpha) = T(A)\alpha

证明:T(Aα)=T(A1a1+A2a2+Anan)=T(A1a1)+T(A2a2)++T(Anan)=T(A1)a1+T(A2)a2++T(An)an=[T(A1),T(A2),,T(An)][a1a2an]=T(A1,A2,,An)α=T(A)α\begin{split} 证明:\qquad T(A\alpha) &= T(A_1a_1 + A_2a_2\cdots + A_na_n) \\ &=T(A_1a_1) + T(A_2a_2) + \cdots + T(A_na_n) \\ &=T(A_1)a_1 + T(A_2)a_2 + \cdots + T(A_n)a_n \\ &=[T(A_1),T(A_2), \cdots, T(A_n)] \begin{bmatrix} a_1\\ a_2 \\ \vdots\\ a_n \end{bmatrix} \\ &=T(A_1,A_2,\cdots,A_n)\alpha = T(A)\alpha \end{split}\notag

**运算2: ** 设矩阵 AA 和矩阵 BB, 矩阵和矩阵乘积的线性变换满足下面的式子:

T(AB)=T(A)BT(AB) = T(A)B

证明:T(AB)=T(A[B1,B2,,Bn])=T([AB1,AB2,,ABn])=[T(AB1),T(AB2),,T(ABn)]=[T(A)B1,T(A)B2,,T(A)Bn]=T(A)B\begin{split} 证明:\qquad T(AB) &= T(A[B_1,B_2,\cdots,B_n])\\ &= T([AB_1,AB_2,\cdots,AB_n])\\ &= [T(AB_1),T(AB_2),\cdots,T(AB_n)]\\ &= [T(A)B_1,T(A)B_2,\cdots,T(A)B_n]\\ &= T(A)B \end{split}\notag

线性变换的运算

线性变换的乘积还是线性变换

线性变换的和还是线性变换

线性变换的数乘还是线性变换

线性空间 VV 上的线性变换的全体, 对于线性变换的加法和数量乘法构成数域 PP 上的一个线性空间.

核空间和像空间

TT是线性空间V上的线性变换,称

Ker(T)={αVT(α)=0}Im(T)={T(α)αV}\begin{split} Ker(T) &= \{\alpha \in V | T(\alpha) = 0\}\\ Im(T) &= \{T(\alpha)|\alpha \in V \} \end{split}

分别为线性变换TT(kernel)和(image)

其中核和像均成线性空间,Ker(T)Ker(T)Im(T)Im(T)又称为核空间像空间

线性变换的矩阵

TT是线性空间VV上的线性变换,α1,α2,,αn\alpha_1,\alpha_2,\cdots, \alpha_nVV的一组基,设

T(α1)=a11α1+a21α2++an1αnT(α2)=a12α1+a22α2++an2αnT(αn)=a1nα1+a2nα2++annαn\begin{split} T(\alpha_1) &= a_{11}\alpha_1 + a_{21}\alpha_2 + \cdots + a_{n1}\alpha_n \\ T(\alpha_2) &= a_{12}\alpha_1 + a_{22}\alpha_2 + \cdots + a_{n2}\alpha_n \\ &\cdots\\ T(\alpha_n) &= a_{1n}\alpha_1 + a_{2n}\alpha_2 + \cdots + a_{nn}\alpha_n \\ \end{split}

写成矩阵形式

[Tα1,Tα2,,Tαn]=[α1,α2,,αn][a11a12a1na21a22a2nan1an2ann]T[α1,α2,,αn]=[α1,α2,,αn]A\begin{gather} \begin{bmatrix}T\alpha_1, T\alpha_2,\cdots,T\alpha_n\end{bmatrix} = \begin{bmatrix}\alpha_1,\alpha_2,\cdots,\alpha_n\end{bmatrix} \begin{bmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \\ \end{bmatrix} \\ T[\alpha_1,\alpha_2,\cdots,\alpha_n] = [\alpha_1,\alpha_2,\cdots,\alpha_n]A \end{gather}

称矩阵AA为线性变换TT在基{α1,α2,,αn}\{\alpha_1,\alpha_2,\cdots,\alpha_n\}下的矩阵.

定理: 线性变换在两组不同基下的矩阵是相似的.

证明: 设线性空间 VV 上的线性变换 TT 在两组基 {ϵ1,ϵ2,,ϵn}\{\epsilon_1,\epsilon_2,\cdots,\epsilon_n\}{η1,η2,,ηn}\{\eta_1,\eta_2,\cdots,\eta_n\} 下的矩阵分别为 AABB , 从基 {ϵ}\{\epsilon\} 到基 {η}\{\eta\} 下的过度矩阵是 XX, 于是有

T[η1,,ηn]=[η1,,ηn]BT[η1,,ηn]=T([ϵ1,,ϵn]X)=T[ϵ1,,ϵn]X=[ϵ1,,ϵn]AX=[η1,,ηn]X1AX\begin{split} T[\eta_1,\cdots,\eta_n] &= \underline{[\eta_1,\cdots,\eta_n]B}\\ T[\eta_1,\cdots,\eta_n]&= T([\epsilon_1,\cdots,\epsilon_n]X)=T[\epsilon_1,\cdots,\epsilon_n]X = [\epsilon_1,\cdots,\epsilon_n]AX = \underline{[\eta_1,\cdots,\eta_n]X^{-1}AX} \end{split}

线性变换和基变换的关系

取线性空间 VV 的一组基{α1,α2,,αn}\{\alpha_1,\alpha_2,\cdots,\alpha_n\}, 设向量 β\beta 在基下的坐标为 X=[x1,,xn]TX = [x_1,\cdots,x_n]^T.

β=(α1,α2,,αn)X\beta = (\alpha_1,\alpha_2,\cdots,\alpha_n)X

设线性空间 VV 上的线性变换 TT 在基下对应的矩阵为 AA

T[α1,α2,,αn]=[α1,α2,,αn]AT[\alpha_1,\alpha_2,\cdots,\alpha_n] = [\alpha_1,\alpha_2,\cdots,\alpha_n]A

计算 T(β)T(\beta)

T[(α1,α2,,αn)X]=T[x1α1+x2α2++xnαn]=[T(x1α1)+T(x2α2)++T(xnαn)]=[x1T(α1)+x2T(α2)++xnT(αn)]=[T(α1),T(α2),,T(αn)][x1x2xn]=T(α1,α2,,αn)X=[α1,α2,,αn]AX\begin{split} T[(\alpha_1,\alpha_2,\cdots,\alpha_n)X] &= T[x_1\alpha_1 + x_2\alpha_2 + \cdots + x_n\alpha_n] \\ &=[T(x_1\alpha_1) + T(x_2\alpha_2) + \cdots + T(x_n\alpha_n)] \\ &=[x_1T(\alpha_1) + x_2T(\alpha_2) + \cdots + x_nT(\alpha_n)] \\ &=[T(\alpha_1),T(\alpha_2), \cdots, T(\alpha_n)] \begin{bmatrix} x_1\\ x_2 \\ \vdots\\ x_n \end{bmatrix} \\ &=T(\alpha_1,\alpha_2,\cdots,\alpha_n)X \\ &=[\alpha_1,\alpha_2,\cdots,\alpha_n]AX \end{split}

所以, 当一个线性空间的基 {α1,,αn}\{\alpha_1,\cdots,\alpha_n\} 已经确定. 向量 β\beta 在基下的坐标为 XX , 线性变换 TT 在基下对应的矩阵为 AA, 对 β\beta 的线性变换为

T(β)=(α1,α2,,αn)AXT(\beta) = (\alpha_1,\alpha_2,\cdots,\alpha_n)AX

T(β)T(\beta) 在基 {α1,,αn}\{\alpha_1,\cdots,\alpha_n\} 下的坐标为 AXAX.

特别地, 当基取为 {ϵ1,ϵ2,,ϵn}\{\epsilon_1,\epsilon_2,\cdots,\epsilon_n\} 时, [ϵ1,ϵ2,,ϵn]=I[\epsilon_1,\epsilon_2,\cdots,\epsilon_n] = I 为单位矩阵, 有

T(X)=T(IX)=[ϵ1,ϵ2,,ϵn]AX=IAX=AX.\underline{T(X)} = T(IX) = [\epsilon_1,\epsilon_2,\cdots,\epsilon_n]AX = IAX = \underline{AX}.

矩阵内积转化为矩阵乘积的迹

矩阵内积的定义:两个行数和列数相同的矩阵,对应元素相乘再求和,记为

<A,B>=i,jaijbij=tr(ATB),A,BRm×n<A, B> = \sum_{i,j} a_{ij}b_{ij} = tr(A^TB), \quad A,B\in\R^{m\times n}

ATB=[A1TB1A2TB2AnTBn]=[k=1mak1bk1k=1mak2bk2k=1maknbkn]A^TB = \begin{bmatrix} A_1^TB_1 & * & \cdots & * \\ * & A_2^TB_2 & \cdots & * \\ \vdots & \vdots & \ddots & \vdots \\ * & * & \cdots & A_n^TB_n \end{bmatrix} = \begin{bmatrix} \sum_{k=1}^m a_{k1}b_{k1} & * & \cdots & * \\ * & \sum_{k=1}^m a_{k2}b_{k2} & \cdots & * \\ \vdots & \vdots & \ddots & \vdots \\ * & * & \cdots & \sum_{k=1}^m a_{kn}b_{kn} \end{bmatrix}

其中 A1,,AnA_1,\cdots,A_nB1,,BnB_1,\cdots,B_n 分别表示矩阵 A,BA,B 的列向量

矩阵对角化

A=PΛP1A = P\Lambda P^{-1}

特征值与特征向量

定义

定义A\mathscr{A} 是属于 PP 上线性空间 VV 的一个线性变换, 如果对于数域 PP 中一个数 λ\lambda , 存在一个非零向量 ξ0\xi\neq0, 使得

Aξ=λξ,ξ0.(eq33)\mathscr{A} \xi = \lambda \xi,\quad \xi \neq 0. \quad (eq33)

那么称 λ\lambdaA\mathscr{A} 的一个特征值, 而 ξ\xi 称为 A\mathscr{A} 的属于特征值 λ\lambda特征向量.

Note: 从几何上来看, 特征向量的方向经过线性变换后, 保持在同一条直线上, 这时或方向不变(λ>0\lambda>0)或方向相反(λ<0\lambda<0), 至于λ=0\lambda=0 时, 特征向量被映射为00向量.

  • 特征向量不是唯一的

    如果 ξ\xi 是线性变换 A\mathscr{A} 的属于特征值 λ\lambda 的特征向量, 那么 ξ\xi 的任何一个非零倍数 kξk\xi 也是 A\mathscr{A} 的属于特征值 λ\lambda 的特征向量, 因为

    A(kξ)=λ(kξ)\mathscr{A}(k\xi) = \lambda (k\xi)

    Note: 这说明特征向量并不是被特征值唯一决定的. 相反, 特征值却是被特征向量所唯一决定的, 因为, 一个特征向量只能属于一个特征值.

    Aξ=λ1ξAξ=λ2ξ(λ1λ2)ξ=0λ1=λ2\begin{split} \mathscr{A}\xi = \lambda_1\xi\\ \mathscr{A}\xi = \lambda_2\xi \end{split} \Rightarrow (\lambda_1-\lambda_2)\xi = 0 \Rightarrow \lambda_1=\lambda_2 \notag

求解

VV 是数域 PPnn 维线性空间, {ϵ1,,ϵn}\{\epsilon_1,\cdots,\epsilon_n\} 是它的一组基, 线性变换 A\mathscr{A} 在这组基下的矩阵是 AA. 设 λ\lambdaA\mathscr{A} 的一个特征值, 它的一个特征向量 ξ\xi 在基 {ϵ1,,ϵn}\{\epsilon_1,\cdots,\epsilon_n\} 下的坐标是 x=[x1,,xn]Tx=[x_1,\cdots,x_n]^T , 则 Aξ\mathscr{A}\xi 在基 {ϵ1,,ϵn}\{\epsilon_1,\cdots,\epsilon_n\} 下的坐标是 AxAx, 那么 eq33eq33 式可以写成坐标之间的等式

Aξ=[ϵ1ϵn]Ax=[ϵ1ϵn]λx=λξAx=λx(λEA)x=0{(λa11)x1a12x2a1nxn=0,a21x1+(λa22)x2a2nxn=0,an1x1an2x2+(λann)xn=0.(eq137)\begin{gather} \mathscr{A} \xi = \underline{[\epsilon_1\cdots\epsilon_n]Ax=[\epsilon_1\cdots\epsilon_n]\lambda x} = \lambda \xi \\ \Updownarrow \notag\\ Ax=\lambda x \\ 或 \notag\\ (\lambda E - A)x = 0 \\ 即\notag \\ \begin{cases} (\lambda-a_{11})x_1-a_{12}x_2-\cdots-a_{1n}x_n &= 0,\\ -a_{21}x_1 + (\lambda-a_{22})x_2-\cdots-a_{2n}x_n &= 0,\\ \cdots&\cdots\\ -a_{n1}x_1 - a_{n2}x_2 - \cdots + (\lambda-a_{nn})x_n &= 0. \end{cases} \quad (eq137) \end{gather}

那么特征向量 ξ\xi 是否存在的问题, 便等价成了齐次线性方程组 eq137eq137 式是否有非零解的问题, 齐次线性方程组 eq137eq137 式有非零解的充分必要条件是它的系数行列式为 00, 即

λEA=λa11a12a1na21λa22a2nan1an2λann=0.\vert \lambda E - A \vert = \begin{vmatrix} \boldsymbol{\lambda-a_{11}} & -a_{12} & \cdots & -a_{1n} \\ -a_{21} & \boldsymbol{\lambda-a_{22}} & \cdots & -a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ -a_{n1} & -a_{n2} & \cdots & \boldsymbol{\lambda - a_{nn}} \end{vmatrix} = 0.

其带参数的行列式 λEA|\lambda E - A| 被称为矩阵 AA特征多项式.

Note: 上面的分析说明, 如果 λ0\lambda_0 是线性变换 A\mathscr{A} 的特征值, 那么 λ0\lambda_0 一定是矩阵 AA 的特征多项式的一个根, 即 λ0EA=0|\lambda_0 E - A| = 0, 那么齐次线性方程组 eq137eq137 式当 λ\lambdaλ0\lambda_0 时就有非零解.

例如设 x=(x1,x2,,xn)x = (x_1,x_2,\cdots,x_n) 是它的一个非零解, 那么非零向量 ξ=x1ϵ1+x2ϵ2++xnϵnV\xi = x_1\epsilon_1+x_2\epsilon_2+\cdots+x_n\epsilon_n \in V 即是 A\mathscr{A} 的属于特征值 λ0\lambda_0 的一个特征向量.

Ax=λ0xAξ=[ϵ1ϵn]Ax=[ϵ1ϵn]λ0x=λ0ξ\begin{gather*} Ax = \lambda_0 x\\ \Updownarrow \\ \mathscr{A} \xi = [\epsilon_1\cdots\epsilon_n]\underline{Ax}=[\epsilon_1\cdots\epsilon_n]\underline{\lambda_0 x} = \lambda_0 \xi \\ \end{gather*}

特征多项式

定义: 称带参数的行列式 λEA|\lambda E - A| 为矩阵 AA特征多项式, 它是数域 PP 上的一个 nn 次多项式.

在线性变换的研究中, 特征多项式是重要的. 下面先来看一下它的系数. 在特征多项式

λEA=λa11a12a1na21λa22a2nan1an2λann\vert \lambda E - A \vert = \begin{vmatrix} \boldsymbol{\lambda-a_{11}} & -a_{12} & \cdots & -a_{1n} \\ -a_{21} & \boldsymbol{\lambda-a_{22}} & \cdots & -a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ -a_{n1} & -a_{n2} & \cdots & \boldsymbol{\lambda - a_{nn}} \end{vmatrix}\notag

的展开式中, 有一项是主对角线上元素的连乘 (λa11)(λa22)(λann)(\lambda-a_{11})(\lambda-a_{22})\cdots(\lambda-a_{nn}). 展开式中的其余各项至多包含 n2n-2 个主对角线上的元素, 它对 λ\lambda 的次数最多是 n2n-2 次. 因此特征多项式中含 λn\lambda^{n}λn1\lambda^{n-1} 的项只能在主对角线上元素的连乘中出现, 它们是

λn(a11+a22++ann)λn1\lambda^n - (a_{11}+a_{22}+\cdots+a_{nn})\lambda^{n-1}\notag

再令 λ=0\lambda = 0, 即得特征多项式的常数项 A=(1)nA|-A| = (-1)^{n}|A|. 因此, 特征多项式应该具有下面的形式:

λEA=λn(a11+a22++ann)λn1++(1)nA(eq40)|\lambda E - A| = \lambda^n - \underline{(a_{11}+a_{22}+\cdots+a_{nn})}\lambda^{n-1}+\cdots+(-1)^n\underline{|A|} \quad (eq40)

如果 λEA|\lambda E - A| 在数域 PP 上能分解为一次因式的乘积如下, λ1,,λn\lambda_1,\cdots,\lambda_n 对应为 AA 的n个特征值.

λEA=(λλ1)(λλ2)(λλn)=λn(λ1+λ2++λn)λn1++(1)nλ1λ2λn(eq41)\begin{split} |\lambda E - A| &= (\lambda-\lambda_1)(\lambda-\lambda_2)\cdots(\lambda-\lambda_n)\\ &= \lambda^n-\underline{(\lambda_1+\lambda_2+\cdots+\lambda_n)}\lambda^{n-1}+\cdots+(-1)^{n}\underline{\lambda_1\lambda_2\cdots\lambda_n} \end{split}\quad(eq41)

eq40eq40 式和 eq41eq41 式可以看出 AA 的全体特征值的和为 a11+a22++anna_{11}+a_{22}+\cdots+a_{nn}, 称为 AA, 记为 Tr(A)Tr(A). 而 AA 的全体特征值的乘积为 AA 的行列式 A|A|.

Tr(A)Tr(A) 和行列式 A|A| 都是矩阵的相似不变量, 这说明它们都是属于线性变换本身的性质, 与基的选择无关.

定理: 相似的矩阵有相同的特征多项式.

证明: 设 ABA \sim B, 即存在可逆矩阵 XX , 使得 B=X1AXB = X^{-1}AX . 于是

λEB=λEX1AX=X1(λEA)X=X1λEAX=λEA\begin{equation*} \underline{|\lambda E - B|} = |\lambda E - X^{-1}AX| = |X^{-1}(\lambda E - A)X| = |X^{-1}||\lambda E - A||X| = \underline{|\lambda E - A|} \end{equation*}

Note1: 之前的定理中证明了, 线性变换在不同基下的矩阵是相似的. 而这个定理又说明相似矩阵有相同的特征多项式, 于是线性变换在不同基下的特征多项式是相同的.

Note2: 这个定理说明线性变换的矩阵的特征多项式与基的选择无关, 它直接被线性变换所决定, 因此可以直接说是线性变换的特征多项.

Note3: 此外还可以说明方程 λEA=0|\lambda E - A| = 0 的根, 即特征值, 也与基的选取无关.

特征子空间

可以看出, 对于线性变换 A\mathscr{A} 的任意一个特征值 λ0\lambda_0 , 全部满足条件

Aα=λ0α\mathscr{A} \alpha = \lambda_0 \alpha \notag

的向量 α\alpha 所构成的集合, 也就是 A\mathscr{A} 的属于 λ0\lambda_0 的全部特征向量再加上零向量所构成的集合, 构成线性空间 VV 的一个子空间, 称为 A\mathscr{A} 的一个特征子空间, 记为 Vλ0V_{\lambda_0}

Vλ0={αAα=λ0α,αV}.V_{\lambda_0} = \{\alpha|\mathscr{A}\alpha = \lambda_0\alpha, \alpha\in V\}.\notag

显然, Vλ0V_{\lambda_0} 的维数就是属于 λ0\lambda_0 的线性无关的特征向量的最大个数. 此外在给定的基下, 特征子空间中全体向量的坐标构成线性方程组

(λ0EA)x=0(\lambda_0 E - A)x = 0 \notag

的解空间, Vλ0V_{\lambda_0} 的维数也等于线性方程组基础解系中向量的个数.

对角矩阵

定理1:A\mathscr{A} 是 n 维线性空间 VV 中的一个线性变换, A\mathscr{A} 在某一组基下的矩阵可以为对角阵的==充分必要条件==是, A\mathscr{A} 有 n 个线性无关的特征向量.

定理2: 属于不同特征值的特征向量是线性无关的.

定理3: 如果 λ1,,λk\lambda_1,\cdots,\lambda_k 是线性变换 A\mathscr{A} 的不同的特征值, 而 αi(1),,ai(ri)\alpha_{i}^{(1)},\cdots,a_i^{(r_i)} 是属于特征值 λi\lambda_i 的线性无关的特征向量, i=1,,ki=1,\cdots,k, 那么向量组 α1(1),,a1(r1),,αk(1),,ak(rk)\alpha_{1}^{(1)},\cdots,a_1^{(r_1)},\cdots\cdots,\alpha_{k}^{(1)},\cdots,a_k^{(r_k)} 也线性无关.

根据定理3, 对于一个线性变换, 求出属于每个特征值的线性无关的特征向量, 把它们合在一起还是线性无关的.

如果它们的个数等于空间的维数, 根据定理1, 那么这个线性变换在一组合适的基 (由特征向量构成的基) 下的矩阵是对角矩阵;

如果它们的个数少于空间的维数, 那么这个线性变换在任何一组基下的矩阵都不能是对角形的.

换句话说, 设 A\mathscr{A} 全部不同的特征值是 λ1,,λk\lambda_1,\cdots,\lambda_k , 于是 A\mathscr{A} 在某一组基下的矩阵成对角形的==充分必要条件==是 A\mathscr{A} 的特征子空间 Vλ1,,VλkV_{\lambda_1},\cdots,V_{\lambda_k} 的维数之和等于空间的维数.

Jordan标准型

对于一个 nn 阶方阵 AA, 当其有 nn 个线性无关的特征向量时, 它可以相似于一个对角阵 P1AP=ΛP^{-1}AP = \Lambda. 但当其没有 nn 个线性无关的特征向量, 不能对角化时, 它可以相似于怎样的最简矩阵是本章所要讨论的内容, Jordan标准型.

任何一个复方阵都和一个Jordan标准型相似任何一个复方阵都和一个Jordan标准型相似\notag

本章主要围绕这个结论来展开.

行列式

二次型

多项式