哈密尔顿-凯莱定理的本质是什么？

Question

哈密尔顿-凯莱定理的本质是什么？

高等代数里的哈密尔顿-凯莱定理，感觉形式非常优美，用处也很广泛。然而书上只有形式的证明，并没有说明它的本质，求各位大牛们给小弟指点一下吧~

关注者

677

被浏览

242,542

25 个回答

其实，很多教材上证明哈密尔顿-凯莱定理都用到了一个引理，即在复数域下，每个方阵都可以上三角化。或者用线性变换的语言，对任意 \mathcal{A}:\mathbb{C}^{n}\rightarrow \mathbb{C}^{n} ，可以找到子空间链

\mathbb{C}^{n}=V_{n}\supset V_{n-1}\supset\cdots \supset V_{1}\supset V_{0}=0 ，使得 \text{dim}(V_{k})=k 且 V_{k} 是 \mathcal{A} 的不变子空间。

这是我认为的哈密尔顿-凯莱定理的本质。

一旦有上面的引理，则商空间 V_{k}/V_{k-1} 是 \mathcal{A} 的一维不变空间，所以 \mathcal{A} (\bar{v})=\lambda_{k}\bar{v} ，

即 (\mathcal{A}-\lambda_{k}\mathcal{E})V_{k}\subset V_{k-1} ，其中 \mathcal{E} 是恒同变换。所以有 (\mathcal{A}-\lambda_{1}\mathcal{E})\cdots(\mathcal{A}-\lambda_{n}\mathcal{E})=0 。

编辑于 2020-12-23 20:45

Algebra · Accepted Answer

对一个方阵 A ，定义 \[{f_A}\left( \lambda \right) = \left| {\lambda E - A} \right|\] ，则：

\[{f_A}\left( \lambda \right) = {\lambda ^n} - Tr\left( A \right){\lambda ^{n - 1}} + \cdots + {\left( { - 1} \right)^n}\left| A \right|\]

此时若把多项式里的自变量 \[\lambda \] 换成矩阵 X ，就变成了：

\[{f_A}\left( X \right) = {X^n} - Tr\left( A \right){X^{n - 1}} + \cdots + {\left( { - 1} \right)^n}\left| A \right|E\]

然后， Cayley-Hamilton 定理告诉我们： \[{f_A}\left( A \right) = O\] 。

说实话，我第一次看到这个定理的时候，先感受到了疑惑与不解，之后是震惊

我相信有相当一部分人第一次看到的时候，有一种直接把 \[\left| {\lambda E - A} \right|\] 里的 \[\lambda \] 替换成 \[A\] 的想法，认为这么简单的命题也能算一个定理？

刚刚在知乎搜了一下，确实有这样的提问：

之后回过味来了，就感受到了震撼，因为……它完全没理由啊！

这么没理由的命题为什么是对的？

由 \[\left| {\lambda E - A} \right|\] 生成的一个多项式，变成一个矩阵多项式后为何当自变量为 A 时，结果是零矩阵？

火急火燎的看完了书上的证明，但并没有打消我的疑虑

这么美妙的一个结论如果背后没有什么深层次的原因是无法说服我的

这段时间复习到这，又遇到了它，于是上知乎搜了一圈

该提问下的这篇回答让我茅塞顿开，原来是这样！

下面，我会尽量用非常通俗化的语言，让大多数刚学到这里的同学理解这个定理背后的原理

不过考虑到大部分大一大二学生的数学水平，不得不牺牲部分严谨性，本回答仅相当于提供一个思路

首先，我们考虑一个二阶方阵 \[A = \left( {\begin{array}{*{20}{c}} a&b\\ c&d \end{array}} \right)\]

请问，什么时候它有两个特征值？

根据 \[\left| {\lambda E - A} \right| = \left| {\begin{array}{*{20}{c}} {\lambda - a}&{ - b}\\ { - c}&{\lambda - d} \end{array}} \right| = \left( {\lambda - a} \right)\left( {\lambda - d} \right) - bc\]

故： \[\left| {\lambda E - A} \right| = {\lambda ^2} - \left( {a + d} \right)\lambda + \left( {ad - bc} \right)\]

如果在复数域中，当且仅当 \[\Delta \ne 0\] 时， \[A\] 有两个特征值

即 \[{\left( {a - d} \right)^2} + 4bc \ne 0\] 时，\[A\] 有两个特征值。

请注意，这是一个非常非常宽松的条件！

说句不好听的，你随便挑 4 个数字 a、b、c、d 构成一个二阶方阵，几乎都有两个特征值。

换句话说，在所有二阶方阵中，几乎每一个都有两个特征值。

有两个特征值意味着什么呀，还记得我们为什么要算特征值吗？为了找一组基，使得线性变换在这组基下的矩阵为对角矩阵。

而一个特征值意味着起码有一个特征向量，所以两个特征值说明有两个特征向量，也就意味着这两个特征向量可以构成原线性空间的一组基，使得原线性变换在这组基下为对角矩阵。

意思就是，一个矩阵有两个特征值意味着它可以对角化！

总结一下，几乎每一个二阶方阵都有两个特征值，一个二阶方阵有两个特征值意味着它可以对角化。

所以几乎每一个二阶方阵都可以对角化

同样的，我可以告诉你，几乎每一个 n 阶方阵都可以对角化！

事实上，所有可以对角化的n 阶方阵在所有n 阶方阵里是稠密的，不过这个证明起来比较麻烦，只要知道这个结论即可。

现在，我们可以证明Cayley-Hamilton 定理了

首先，对一个n阶方阵B，若 B 可对角化，不妨假设 \[B = {P^{ - 1}}CP\] ，其中\[C{\rm{ = }}\left( {\begin{array}{*{20}{c}} {{c_1}}&{}&{}&{}\\ {}&{{c_2}}&{}&{}\\ {}&{}& \ddots &{}\\ {}&{}&{}&{{c_n}} \end{array}} \right)\]是对角矩阵

则：\[{f_B}\left( \lambda \right)\]

\[ = \left| {\lambda E - B} \right| = \left| {\lambda E - {P^{ - 1}}CP} \right| = \left| {{P^{ - 1}}} \right|\left| {\lambda E - C} \right|\left| P \right| = \left| {\lambda E - C} \right|\]

\[ = {f_C}\left( \lambda \right) = \left( {\lambda - {c_1}} \right)\left( {\lambda - {c_2}} \right) \cdots \left( {\lambda - {c_n}} \right)\]

故： \[{f_B}\left( B \right)\]

\[ = \left( {B - {c_1}E} \right)\left( {B - {c_2}E} \right) \cdots \left( {B - {c_n}E} \right)\]

\[ = \left( {{P^{ - 1}}CP - {c_1}E} \right)\left( {{P^{ - 1}}CP - {c_2}E} \right) \cdots \left( {{P^{ - 1}}CP - {c_n}E} \right)\]

\[ = {P^{ - 1}}\left( {C - {c_1}E} \right)\left( {C - {c_2}E} \right) \cdots \left( {C - {c_n}E} \right)P = O\]

那如果对一个n阶方阵D， D 不可对角化呢？

因为对角化方阵在所有方阵中稠密，所以我们可以找到一个矩阵 H ，使得 \[{D_t} = D + tH\] 可对角化， \[t \in \left( { - 1,0} \right) \cup \left( {0,1} \right)\] 。

故： \[{f_D}\left( D \right) = \mathop {\lim }\limits_{t \to 0} {f_{{D_t}}}\left( {{D_t}} \right)\]

又因为 \[{D_t}\] 可对角化，故 \[{f_{{D_t}}}\left( {{D_t}} \right) \equiv 0\] ，又因为 \[{{D_t}}\] 关于 t 是连续的，故 \[{f_{{D_t}}}\left( {{D_t}} \right)\] 关于 t 也是连续的，故 \[{f_D}\left( D \right) = \mathop {\lim }\limits_{t \to 0} {f_{{D_t}}}\left( {{D_t}} \right) = \mathop {\lim }\limits_{t \to 0} O = O\]

得证。

编辑于 2020-12-21 01:13