在矩阵中,哪些情况下AB=BA成立?
3 个回答
矩阵乘法不守交换律,即一般来说,AB≠BA。这个原因在于矩阵乘法中左右矩阵的作用是不同的。A在左,则C=AB必分布在A张成的空间里,B在左,则C=BA分布在B空调里。A,B在右侧都只是扮演坐标值的角色,即确定C可线表的向量在A或B里具体的位置。
不过,如果A,B互逆,则AB=BA。
补
或有对A,B在左就是“坐标系”,在右就是“坐标值”不解的。再解说一下。
AB是A(b₁ b₂ …bₙ)的简写,也就是(Ab₁ Ab₂… Abₙ),c₁=Ab₁,c₁是A作为坐标可以标定的A空间里的一个向量,b₁是c₁以A为坐标系来标定时的“坐标值”。这样,C(c₁ c₂ … cₙ)就是A空间里的一组向量,B是这组向量对应的坐标值。C在A空间里,A里的列向量构成A空间的坐标轴,坐标轴的汇总就是一个坐标系。
这个问题的几何意义是鲜明的,当且仅当矩阵 A 将矩阵 B 的每一个若尔当块对应的极大特征向量链映射成相同特征值的另一个特征向量链(可以不是极大)之时。
本人当年研究若尔当标准型时悟出它的充分必要条件,不仅仅如此,本人还悟出矩阵 AB 与 BA 的特征向量链的结构关系以及特征值的关系。下面进行详细论述和证明。
- 若尔当标准型的结论
- AB=BA 的充分必要条件的证明
- AB 与 BA 在更普遍意义下特征值与特征向量链的关系
1. 若尔当标准型的结论
我们知道任意矩阵均可以化为若尔当标准型,例如对于矩阵 B 来说一定存在矩阵 S 使得
S^{-1}BS=J= \left( \begin{array}{c} J_{n_{1}}(\lambda_{1}) & O & \cdots & O \\ O & J_{n_{1}}(\lambda_{2}) & \cdots & O \\ \vdots & \vdots & & \vdots \\ O & O & \cdots & J_{n_{s}}(\lambda_{s}) \\ \end{array} \right)
其中
J_{n_{i}}(\lambda_{i})= \left( \begin{array}{c} \lambda_{i} & 1 & 0 & \cdots & 0 & 0 \\ 0 & \lambda_{i} & 1 & \cdots & 0 & 0 \\ 0 & 0 & \lambda_{i} & \cdots & 0 & 0 \\ \vdots & \vdots & \vdots & & \vdots & \vdots \\ 0 & 0 & 0 & \cdots & \lambda_{i} & 1 \\ 0 & 0 & 0 & \cdots & 0 & \lambda_{i} \\ \end{array} \right)
其中 n_{i} 表示矩阵的维数。
由于篇幅问题该结论此处不予详细证明,而是直接使用。如果想将若尔当标准型的理论掌握得出神入化,可以看本人的文章
以及文章
以及本人的知乎专栏“高等代数精深简明讲义”。第一篇文章提供了若化而当标准型问题的各种方法以及求过渡矩阵的思路,但是由于篇幅过渡矩阵的求法没有详细给出,仅仅是给出了思路,更加详细参见本人的专栏文章。第二篇文章并不是去简单地证明若当标准型以及求解过渡矩阵,而是从更加“上帝”的去解决一般人理解若尔当标准型的疑难杂症,让读者一眼望到骨髓。
2. AB=BA 的充分必要条件的证明
假定矩阵 B 的第 i 个若尔当块对应的特征向量链为
(\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}-1}\bm{\xi}, (\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}-2}\bm{\xi}, \cdots, \bm{\xi}
其中 \mathcal{B}, \mathcal{E} 分别表示矩阵 B 以及单位矩阵 E 在已经选定的基矢下对应的变换(后者是恒等变换),则显然
(\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}}\bm{\xi}=\bm{0}
则特征向量链中的每个向量经过 \mathcal{A} 的映射得到
\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}-1}\bm{\xi}, \mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}-2}\bm{\xi}, \cdots, \mathcal{A}\bm{\xi}
先证明必要性:
若 AB=BA , 则对于任意的 j 有
(\lambda_{i}\mathcal{E}-\mathcal{B})\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{j}\bm{\xi}=\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{j+1}\bm{\xi}
且
\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}}\bm{\xi}=\bm{0}
再证明充分性:
若对任意一个若尔当块对应的特征向量链均经过 \mathcal{A} 的映射确实构成相同特征值的一个特征向量链,即满足
(\lambda_{i}\mathcal{E}-\mathcal{B})\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{j}\bm{\xi}=\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{j+1}\bm{\xi}
及
\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})^{n_{i}}\bm{\xi}=\bm{0}
因此这就已经充分说明了
\mathcal{A}(\lambda_{i}\mathcal{E}-\mathcal{B})=(\lambda_{i}\mathcal{E}-\mathcal{B})\mathcal{A}
在该特征向量链构成的子空间上成立,从而在该子空间上有
\mathcal{A}\mathcal{B}=\mathcal{B}\mathcal{A}
由于特征向量链可以构成空间的完备基矢,任意一个向量均可以由这些基矢线性表出,因此上式在整个空间上也成立,进而有
AB=BA
3. AB 与 BA 在更普遍意义下特征值与特征向量链的关系
在更普遍的意义下,我们并不要求 AB 与 BA 相等,此时 A 将矩阵 BA 的极大特征向量链映射成矩阵 AB 的极大特征向量链,对于特征值非零的特征向量链结构不变,对于特征值为零的特征向量链的长度可能不变,也可能减小 1 . 详细论述与证明参见本人的文章