行列式的几种定义方式
1 部分教材上的定义
一部分线性代数的教材从解线性方程组讲起, 从方程组的解来得到行列式的定义. 具体来说, 一个方阵\(A=(a_{ij})\)的行列式(determinant)是用排列来定义的, \[ |A| := \sum_{\sigma\in S_n}(\sgn\sigma) a_{1\sigma(1)} \cdots a_{n\sigma(n)}. \] 它是一个数. 由这个看起来比较复杂的公式出发, 可以推出行列式的性质, 例如
- 交换矩阵的两行, 行列式多一个负号.
- (推论) 矩阵某两行相等, 行列式为零.
- 矩阵的某一行乘以一个常数, 行列式也乘以一个常数.
- 行列式的某一行是两组数之和, 那么行列式等于两个行列式的和, 它们的这一行分别为这两组数, 其余行不变.
- (推论) 将行列式某行的常数倍加到另一行上, 行列式值不变.
行列式的展开式定义虽然直接, 却略显琐碎, 也很难让人一下子理解行列式的本质特征. 因此, 我们不妨抛弃这个定义, 重新定义一个"行列式".
2 Characterizing properties
设域\(F\)上的线性空间\(V=F^n\).
Def 1 行列式\(\det\)可以看作一个\(n\)元函数, 输入\(n\)个向量\(v_1,\dots,v_n\in V\), 并输出一个数. 所以, \[ \det:V^n \to F. \] 我们要求\(\det\)满足如下三条公理:
(\(n\)-线性性) 对每个\(v_i\)都是线性的: \[ \Align{ \det(\dots,kv_i,\dots) &= k\det(\dots,v_i,\dots), \\ \det(\dots,v_i+w,\dots) &= \det(\dots,v_i,\dots) + \det(\dots,w,\dots). } \] (这实际上参照了上一节的性质3, 4.)
(交错性) 若\(v_i=v_j\)(\(i\neq j\)), 则\(\det(\dots,v_i,\dots,v_j,\dots)=0\). (这参照了性质1.)
(归一化) 对于\(V=F^n\)的标准基底\(\{e_i\}\)(其中\(e_i\)是第\(i\)分量为\(1\), 其余分量为\(0\)的向量), \(\det(e_1,\dots,e_n)=1\).
简单来说, 行列式\(\det\)是一个归一化的(normalized)交错(alternating)\(n\)-线性形式(\(n\)-linear form).
从这个定义可以推出行列式的一切性质. 在此之前, 先给出几个引理.
Lemma 1 设\(n\)-线性形式\(f\). 如果\(f\)是交错的, 则\(f\)是反对称的.
- 反对称(anti-symmetric)的含义如下: 交换\(f\)的任意两个向量, \(f\)多一个负号, 即 \[ f(\dots,v_i,\dots,v_j,\dots) = -f(\dots,v_j,\dots,v_i,\dots). \]
Lemma 2 设反对称的\(n\)-线性形式\(f\), \(n\)阶置换\(\sigma\in S_n\), 则 \[ f(v_{\sigma(1)},\dots,v_{\sigma(n)}) = (\sgn\sigma) f(v_1,\dots,v_n). \]
- 一般将\(f(v_{\sigma(1)},\dots,v_{\sigma(n)})\)记作\((\tau f)(v_1,\dots,v_n)\).
- 行列式\(\det\)是交错的, 自然是反对称的(Lemma 1), 因此适用此引理.
Lemma 3 设反对称的\(n\)-线性形式\(f\neq0\), \(v_1,\dots,v_n\in V\), 则 \[ v_1,\dots,v_n\,\textsf{线性无关}\iff f(v_1,\dots,v_n)\neq0. \]
由Def 1, 我们可以得到行列式的展开形式. 设\(v_1,\dots,v_n\in V\), 且\(v_i=\sum_{j=1}^nv_{ij}e_j\), 则 \[ \Align{ \det(v_1,\dots,v_n) &=\det\pqty{ \sum_{j_1=1}^nv_{1j_1}e_{j_1},\dots, \sum_{j_n=1}^nv_{nj_n}e_{j_n} } \tag{1} \\ &=\sum_{j_1,\dots,j_n=1}^n v_{1j_1}\cdots v_{nj_n} \det(e_{j_1},\dots,e_{j_n}) \tag{2} \\ &=\sum_{\sigma\in S_n} v_{1\sigma(1)}\cdots v_{n\sigma(n)} \det(e_{\sigma(1)},\dots,e_{\sigma(n)}) \tag{3} \\ &=\sum_{\sigma\in S_n} v_{1\sigma(1)}\cdots v_{n\sigma(n)} (\sgn\sigma)\det(e_1,\dots,e_n) \tag{4} \\ &=\sum_{\sigma\in S_n}(\sgn\sigma)v_{1\sigma(1)}\cdots v_{n\sigma(n)}. \tag{5} } \] 其中, \((2)\)根据\(\det\)的\(n\)-线性性; \((3)\)是因为\(\det\)是交错的, 所以\(j_1,\dots,j_n\)必定两两不相等, 即对所有排列(置换)求和; \((4)\)根据Lemma 2; \((5)\)根据\(\det\)的归一性.
行列式的一些简单性质也可以由\(\det\)的三条公理很快得到. 另外, 我们可以得到如下定理.
Proposition 1 (Cramer's rule) 设向量\(A_1,\dots,A_n,B\in F^n\), 如果\(x_1,\dots,x_n\in F\)满足方程 \[ x_1A_1 + \dots + x_nA_n = B, \tag{a} \] 则对于\(i=1,\dots,n\), 有 \[ \det(A_1,\dots,A_n)\, x_i = \det(A_1,\dots,A_{i-1},B,A_{i+1},\dots,A_n). \tag{b} \]
Pf 只需\(\text{(a)}\)式的\(B\)代入\(\text{(b)}\)式, 利用\(\det\)的线性性和交错性即得.
现在我们给出了一个行列式的不依赖于展开式的定义, 看上去十分简洁清晰. 然而, 如果我们要推导一些重要结论, 例如
- 矩阵乘积的行列式等于行列式的乘积.
- 线性变换的表示矩阵的行列式不依赖于基底的选取.
- ...
利用Def 1去证明还是有些曲折的: 一般我们还得诉诸于行列式的展开式. 一个原因就是Def 1是依赖于基底的(归一化条件), 或者说, \(\det\)是\(n\times n\)矩阵的函数, 而不是线性映射\(T\in{\rm End}_F(V)\)的函数(其中\(V\)是一个一般的线性空间). 下面我们将给出一个更一般化的, 不依赖于基底的定义.
3 泛性质: 交错线性形式
设\(V\)是域\(F\)上的\(n\)维线性空间.
先回顾线性空间\(V\)上的\(k\)形式空间\(\Lambda_k(V)\). \(\Lambda_k(V)\)的元素是所有交错的\(k\)-线性函数 \[ f : V^k \to F, \] 而且作为线性空间, \(\dim\Lambda_k(V)={n\choose k}\). 特别地, 有\(\dim\Lambda_n(V)={n\choose n}=1\).
现在可以开始定义行列式了. 对于一个线性映射\(T:V\to V\)和一个\(n\)形式\(f\in\Lambda_n(V)\), 记 \[ (T^{(n)}f)(v_1,\dots,v_n) := f(Tv_1,\dots,Tv_n),\quad \forall v_1,\dots,v_n\in V. \] 容易验证, \(T^{(n)}f\in\Lambda_n(V)\). 上式定义了一个线性映射\(f\mapsto T^{(n)}f\), \(\Lambda_n(V)\to\Lambda_n(V)\). 注意到\(\Lambda_n(V)\)是\(1\)维线性空间, 所以\(f\mapsto T^{(n)}f\)就是一个数乘运算, 即存在\(\lambda\in F\), 使得\(T^{(n)}f=\lambda f\).
Def 2 对于线性映射\(T:V\to V\), 存在唯一的\(\lambda\in F\), 使得\(T^{(n)}=\lambda\,{\rm id}_{\Lambda_n(V)}\). 我们把\(\lambda\)称为\(T\)的行列式(determinant), 记作\(\det{T}\).
也被称为行列式的泛性质定义. 可以画成交换图: \[ \xymatrix{ V^n \ar[r]^{T^n} \ar[d]_{f} & V^n \ar[d]^{f} \\ F \ar@{.>}[r]^{\lambda} & F } \]
立刻可以看出, 恒等映射\({\rm id}_V\)的行列式为\(1\).
Def 2定义的行列式是一个映射\(\det:{\rm End}_F(V)\to F\). 这个定义比较抽象, 不涉及具体的基底和坐标, 然而却将行列式的性质挖掘得更加深入(之后证明定理的过程中就可看出). 下面我们给出Def 2定义的行列式的一种构造方法, 进而说明Def 2和展开式定义以及Def 1是等价的.
取\(V\)的一个基底\(\qty{e_i}\), 设\(Te_i=\sum_{j=1}^n e_jT_{ji}\), 于是(仿照上一节的推导) \[ \Align{ (\det{T})f(e_1,\dots,e_n) &=f(Te_1,\dots,Te_n)\\ &=f\pqty{ \sum_{j_1=1}^nT_{j_11}e_{j_1},\dots, \sum_{j_n=1}^nT_{j_nn}e_{j_n} } \\ &=\sum_{j_1,\dots,j_n=1}^n T_{j_11}\cdots T_{j_nn} f(e_{j_1},\dots,e_{j_n}) \\ &=\sum_{\sigma\in S_n} T_{\sigma(1)1}\cdots T_{\sigma(n)n} f(e_{\sigma(1)},\dots,e_{\sigma(n)}) \\ &=\sum_{\sigma\in S_n} T_{\sigma(1)1}\cdots T_{\sigma(n)n} (\sgn\sigma)f(e_1,\dots,e_n). } \] 由Lemma 3, \(f(e_1,\dots,e_n)\neq0\), 两边约去后得到\(\det{T}\)在基底\(\qty{e_i}\)下的表达式, 也称为矩阵\((T_{ji})\)的行列式. 由于\(\det{T}\)是唯一由\(T\)决定的, 所以\(\det{T}\)在不同基底下的矩阵具有相同的行列式.
接下来给出几个定理. 利用行列式的展开式证明这些定理是不太容易的, 但是泛性质定义大大简化了证明过程.
Proposition 2 对于\(S,T\in{\rm End}_F(V)\), 有\(\det(ST)=(\det{S})(\det{T})\).
Pf 取线性无关的\(v_1,\dots,v_n\), 则\(f(v_1,\dots,v_n)\neq0\). 有 \[ \Align{ (\det{ST}) f(v_1,\dots,v_n) &=f(v_1,\dots,v_n) \\ &=f(STv_1,\dots,STv_n) \\ &=\det{T}\cdot f(Sv_1,\dots,Sv_n) \\ &=\det{S}\cdot\det{T}\cdot f(v_1,\dots,v_n), } \] (第三步, 因为\(S^{(n)}f\)也是一个\(n\)-形式, 对\(T\)应用行列式的定义可得.) 所以\(\det{ST}=\det{S}\det{T}\).
Proposition 3 \(T\in{\rm End}_F(V)\)可逆的充要条件是\(\det{T}\neq0\). 此时\(\det(T^{-1})=(\det{T})^{-1}\).
Pf 若\(T\)可逆, 则\(TT^{-1}={\rm id}_V\), 由Proposition 2有\(\det{T}\det(T^{-1})=\det({\rm id}_V)=1\), 所以\(\det{T}\neq0\)且\(\det(T^{-1})=(\det{T})^{-1}\).
若\(\det{T}\neq0\), 取\(V\)的基底\(\qty{e_i}\), 由Lemma 3得\(f(e_1,\dots,e_n)\neq0\), 于是 \[ \Align{ 0\neq(\det{T})f(e_1,\dots,e_n) =(T^{(n)}f)(e_1,\dots,e_n) =f(Te_1,\dots,Te_n), } \] 再次应用Lemma 3可知, \(Te_1,\dots,Te_n\)线性无关, 进而是\(V\)的基底. \(T\)将基底映为基底, 即\(T\)可逆.
4 泛性质: 一般线性群的交换化
线性空间\(V\)的一般线性群(general linear group)是所有可逆线性映射\(T:V\to V\), 以映射的复合为乘法, 所构成的群, 记作\({\rm GL}(V)\). 由Proposition3, \({\rm GL}(V)\)中元素的行列式非零. 而Proposition 2, \[
\det(ST) = \det{S}\cdot\det{T},
\] 这其实说的是, 行列式\(\det\)是一个\({\rm GL}(V)\to F^\times\)的群同态
Proposition 4 \({\rm GL}(V)\)到任意交换群\(H\)的群同态\(\varphi\)都可以唯一地由\(\det\)复合得到, 即唯一存在\(\tilde\varphi:F^\times\to H\), 使得下图交换: \[ \xymatrix{ \mathrm{GL}(V) \ar[r]^(.55){\det} \ar[dr]_{\varphi} & F^\times \ar@{.>}[d]^{\tilde\varphi} \\ & H } \]
- 这里有个小瑕疵. 当\({\rm char}\,F=\dim{V}=2\)时, 如果想成立此性质, 需要将\(F^\times\)换成\(\Z/2\Z\)(二阶循环群). 下文中, 我们默认\({\rm char}\,F\neq2\)或\(\dim{V}\neq2\).
行列式\(\det\)的这个泛性质其实是"交换化"的泛性质.
一个群\(G\)的换位子群(commutator subgroup)\(G'\)定义为所有 \[
[g,h]:=ghg^{-1}h^{-1},\quad\forall g,h\in G,
\] 生成的子群. \([g,h]\)称为\(g,h\)的换位子(commutator). 换位子群\(G'\)是一个正规子群, 商群\(G/G'\)称为\(G\)的交换化(abelianization)
可以证明(在这儿就不证了), 交换化满足如下泛性质: \(G\)到任意交换群\(H\)的群同态\(\varphi\)都可以由标准投影\(\pi:G\to G^{\rm ab}\)复合得到, 即有交换图 \[ \xymatrix{ G \ar[r]^(0.45){\pi} \ar[rd]_{\varphi} & G^{\textrm{ab}} \ar@{.>}[d]^{\tilde\varphi} \\ & H } \]
回到行列式. 下面我们尝试去证明Proposition 4. 对此, 我们只需要证明\({\rm SL}(V)\)是\({\rm GL}(V)\)的换位子群, 从而\(\det:{\rm GL}(V)\to{\rm GL}(V)/{\rm SL}(V)\cong F^\times\)作为标准投影, 满足交换化的泛性质.
一般线性群\({\rm GL}(V)\)的换位子群\({\rm GL}(V)'\)的群元是由所有换位子 \[ [S,T]=STS^{-1}T^{-1} \quad (S,T\in{\rm GL}(V)) \] 乘积得到的, (根据Proposition 2, 3)显然行列式等于\(1\), 于是\({\rm GL}(V)'\subset{\rm SL}(V)\). 另一方面, \({\rm GL}(V)'\supset{\rm SL}(V)\)的证明则需要费些功夫. 我们首先要把\({\rm GL}(V)\)中的线性映射表示为矩阵, 因为矩阵的可操作性更强一些. 设矩阵群 \[ \Align{ {\rm GL}_n(F) &:= \qty{A\in F^{n\times n}:\det{A}\neq0}, \\ {\rm SL}_n(F) &:= \qty{A\in F^{n\times n}:\det{A}=1}, \\ } \] 它们分别和\({\rm GL}(V)\), \({\rm SL}(V)\)同构, 所以我们只需证明\({\rm GL}_n(F)'\supset{\rm SL}_n(F)\). 给出几个引理:
回忆一下, 第一类初等矩阵\(E_{ij}(\lambda)\)(\(i\neq j\))指的是对角线上全为\(1\), 第\(i,j\)元为\(\lambda\in F\), 其余位置为\(0\)的矩阵. \(E_{ij}(\lambda)\)可逆, 且\(\det{E_{ij}(\lambda)}=1\)以及\(E_{ij}(\lambda)=E_{ij}(-\lambda)\).
Lemma 4 任意第一类初等矩阵\(E_{ij}(\lambda)\)都是某两个可逆矩阵\(A,B\)的换位子\([A,B]\).
Lemma 5 所有第一类初等矩阵\(E_{ij}(\lambda)\)生成了特殊线性群\({\rm SL}_n(F)\).
根据Lemma 4, 5, 特殊线性群\({\rm SL}_n(F)\)可以由所有的换位子\([A,B]\)生成, 也就是说\({\rm GL}_n(F)'\supset{\rm SL}_n(F)\), 即\({\rm GL}(V)'\supset{\rm SL}(V)\). 结合第一部分有\({\rm GL}(V)'={\rm SL}(V)\). 根据定义, \({\rm GL}(V)/{\rm SL}(V)\cong F^\times\)是\({\rm GL}(V)\)交换化, 标准投影\(\det\)也就满足泛性质: 任意一个一般线性群到交换群的同态\(\varphi\)都唯一地由行列式\(\det\)复合而来.
Proposition 4启发我们用\({\rm GL}(V)\)的交换化\((F^\times,\det:{\rm GL}(V)\to F^\times)\)来定义行列式. 注意到任意满足交换化泛性质的东西\((A,\pi:{\rm GL}(V)\to A)\)都是同构的(unique up to an isomorphism), 所以光有这一个条件还不能唯一确定行列式\(\det\), 还应该附加另外的条件, 然而这超出了我目前的能力范围.
5 *引理的证明
Lemma 1 设\(n\)-线性形式\(f\). 如果\(f\)是交错的, 则\(f\)是反对称的.
- 当\({\rm char}\,F\neq2\)时, 逆命题成立.
Pf 让\(f\)的某两个输入相同, 则 \[ \Align{0 =f(\dots,v+w,\dots,v+w,\dots) ={} &f(\dots,v,\dots,v,\dots)+{} \\ &f(\dots,v,\dots,w,\dots)+{} \\ &f(\dots,w,\dots,v,\dots)+{} \\ &f(\dots,w,\dots,w,\dots), } \] 注意到第一项和第四项为零, 于是第二项和第三项为相反数, 即得反对称性.
Lemma 2 设反对称的\(n\)-线性形式\(f\), \(n\)阶置换\(\sigma\in S_n\), 则 \[ f(v_{\sigma(1)},\dots,v_{\sigma(n)}) = (\sgn\sigma) f(v_1,\dots,v_n). \]
Pf 从反对称形式以及置换的符号的定义即得.
Lemma 3 设交错\(n\)形式\(f\neq0\), \(v_1,\dots,v_n\in V\), 则 \[ v_1,\dots,v_n\,\textsf{线性无关}\iff f(v_1,\dots,v_n)\neq0. \]
Pf \(\Leftarrow\)是比较容易的, 但是\(\Rightarrow\)则需要用到楔积等构造来弄清\(\Lambda_k(V)\)的结构, 在此略去.
Lemma 4 任意第一类初等矩阵\(E_{ij}(\lambda)\)都是某两个可逆矩阵\(A,B\)的换位子\([A,B]\).
Pf 分为两种情况.
- 记\(E_{ij}(\lambda)=I+e_{ij}(\lambda)\), 其中\(e_{ij}(\lambda)\)是\(i,j\)处为\(\lambda\), 其余为零的矩阵. 注意到 \[ e_{ij}(x)e_{jk}(y) = e_{ik}(xy), \] 而\(e_{ij}(x)e_{kl}(y)=0\)若\(j\neq k\).
对于\(n\geq3\). 取\(A=E_{il}(\lambda)\), \(B=E_{lj}(1)\), 其中\(l\)不同于\(i,j\), 下面验证\([A,B]=E_{ij}(\lambda)\). \[ \Align{ [A,B] &=E_{il}(\lambda)E_{lj}(1)E_{il}(-\lambda)E_{lj}(-1) \\ &=(I+e_{il}(\lambda))(I+e_{lj}(1))(I-e_{il}(e_\lambda))(1-e_{lj}(1)) \\ &=(I+e_{il}(\lambda)+e_{lj}(1))(I-e_{il}(\lambda)-e_{lj}(1)) \\ &=I+e_{ij}(\lambda) =E_{ij}(\lambda). } \] 对于\(n=2\)且\({\rm char}\,F\neq2\). 此时第一类初等矩阵只有\(E_{12}(\lambda)\)和\(E_{21}(\lambda)\). 取\(\mu\neq0,1\), 可以验证, \[ A=\pmqty{\mu&0\\0&1},\quad B=\pmqty{1&\frac\lambda{\mu-1}\\0&1} \] 的换位子是\(E_{12}(\lambda)\), 而下方\(A,B\)的换位子是\(E_{21}(\lambda)\). \[ A=\pmqty{1&0\\0&\mu},\quad B=\pmqty{1&0\\\frac\lambda{\mu-1}&1}. \]
Lemma 5 所有第一类初等矩阵\(E_{ij}(\lambda)\)生成了特殊线性群\({\rm SL}_n(F)\).
Pf 任取\(A\in{\rm SL}_n(F)\), 根据Gauss-Jordan消元法的思想, 可以将\(A\)经过若干次第一类初等行变换
注: 下面证明, 可以将\(A\)(\(\det{A}=1\))经过第一类初等行与列变换变成\(I\). 利用数学归纳法.
当\(n=1\)时, \(A_1=(1)\)已经是单位矩阵.
假设命题对\(n\)(\(n\geq1\))成立, 下面证明命题对\(n+1\)成立. 设 \[ A_{n+1} = \pmqty{ a_{11} & a_{12} & \cdots & a_{1,n+1} \\ a_{21} \\ \vdots && A_{n} \\ a_{n+1,1} }, \] 其中右下角的\(A_n\)为\(n\times n\)矩阵. 我们只需要将\(A_{n+1}\)变成如下形式 \[ \tilde A_{n+1} = \pmqty{ 1 & 0 & \cdots & 0 \\ 0 \\ \vdots && A'_{n} \\ 0 }, \] 之后由归纳假设, \(A_n'\)可以变成单位阵, 即证. 其中, 对\(A_{n+1}\)的变换分为两步:
第一步, 将\(a_{11}\)变成\(1\). 对于\(a_{11}\neq1\), 进行分类讨论:
- 若\(a_{11}=0\), 则\(a_{21},\dots,a_{n+1,1}\)中一定有非零元\(a_{k1}\)(否则矩阵不可逆), 将第\(k\)行的\(\frac1{a_{k1}}\)倍加到第一行即可.
- 若\(a_{11}\neq0\),
- 若\(a_{21},\dots,a_{n+1,1}\)与\(a_{12},\dots,a_{1,n+1}\)中有非零元\(a_{k1}\)(或\(a_{1k}\)), 只需将第\(k\)行(列)的\(\frac{1-a_{11}}{a_{k1}}\)(\(\frac{1-a_{11}}{a_{1k}}\))倍加到第一行(列)即可.
- 若\(a_{21},\dots,a_{n+1,1}\)与\(a_{12},\dots,a_{1,n+1}\)均为零, 则\(A_{n+1}\)的第二行一定存在非零元(否则矩阵不可逆), 将第二行加到第一行, 便转化为上面的情况.
第二步, 将第一行乘以\(-a_{21},\dots,-a_{n+1,1}\), 分别加到第\(2\)到\(n+1\)行; 再将第一列乘以\(-a_{12},\dots,-a_{1,n+1}\), 分别加到第\(2\)到\(n+1\)列, 便消去了第一行和第一列的其他元素.
经过上面两步, \(A_{n+1}\)变成了我们想要的形式\(\tilde A_{n+1}\), 根据归纳假设, 可以将右下角的\(A_n'\)变成单位阵(而且不影响\(\tilde A_{n+1}\)的第一行和第一列), 进而整个\(A_{n+1}\)就变成了单位矩阵, 即证.