ICode9

精准搜索请尝试: 精确搜索
首页 > 其他分享> 文章详细

人工智能数学基础: 13-线性映射的合成和矩阵乘法

2021-11-09 15:02:51  阅读:163  来源: 互联网

标签:13 映射 矩阵 cdots vdots pmatrix mathcal 乘法 rightarrow


线性映射的复合和矩阵乘法

现在让我们考虑如何用基底来表示线性映射的复合。

设 E , F E, F E,F 和 G G G 时三个线性空间, E E E 的基为 ( u 1 , ⋯   , u p ) (u_1, \cdots, u_p) (u1​,⋯,up​) , F F F 的基为 ( v 1 , ⋯   , v n ) (v_1, \cdots, v_n) (v1​,⋯,vn​) , G G G 的基为 ( w 1 , ⋯   , w m ) (w_1, \cdots, w_m) (w1​,⋯,wm​) . 设 g : E → F g: E\rightarrow F g:E→F 和 f : F → G f: F \rightarrow G f:F→G 是线性映射。如前所述, g : E → F g:E\rightarrow F g:E→F 是由基向量 u j u_j uj​ 的像决定, f : F → G f:F \rightarrow G f:F→G 由基向量 v k v_k vk​ 的像决定。我们想了解 f ∘ g : E → G f \circ g: E\rightarrow G f∘g:E→G 是如何由基向量 u j u_j uj​ 的像决定的。

注意 我们正在考虑线性映射 g : E → F g:E \rightarrow F g:E→F 和 f : F → G f: F\rightarrow G f:F→G ,而不是 f : E → F f:E \rightarrow F f:E→F 和 g : F → G g: F\rightarrow G g:F→G ,这产生的构成 f ∘ g : E → G f\circ g:E\rightarrow G f∘g:E→G 而不是 g ∘ f : E → G g \circ f:E\rightarrow G g∘f:E→G 。我们可能不寻常的选择是基于这样一个事实: 如果 f f f 由矩阵 M ( f ) = ( a i k ) M(f) = (a_{ik}) M(f)=(aik​) 和 g g g 由矩阵 M ( g ) = ( b k j ) M(g) = (b_{kj}) M(g)=(bkj​) 表示,那么 f ∘ g : E → G f\circ g: E \rightarrow G f∘g:E→G 由矩阵 A A A 和 B B B 的积 A B AB AB 表示。如果我们采用了其他选择 f : E → F f:E\rightarrow F f:E→F 和 g : f → g g:f\rightarrow g g:f→g ,那么 g ∘ f : E → G g\circ f:E\rightarrow G g∘f:E→G 将由乘积 B A BA BA 表示。就我个人而言,我们发现当两个矩阵的乘积写成 A B AB AB 而不是 B A BA BA 时,记住第 i i i 行第 j j j 列项的公式更容易。显然,这是一个品味问题!我们将不得不接受我们也许非正统的选择。

因此,设

f ( v k ) = ∑ i = 1 m a i k w i , ∀ k , 1 ≤ k ≤ n , f(v_k) = \sum_{i = 1}^{m}a_{ik}w_i, \forall k, 1 \le k \le n, f(vk​)=i=1∑m​aik​wi​,∀k,1≤k≤n,

g ( u j ) = ∑ k = 1 n b k j v k , ∀ j , 1 ≤ j ≤ p ; g(u_j) = \sum_{k = 1}^{n}b_{kj}v_k, \forall j, 1 \le j \le p; g(uj​)=k=1∑n​bkj​vk​,∀j,1≤j≤p;

在矩阵形式中,我们有

f ( v 1 ) f ( v 2 ) ⋯ f ( v n ) w 1 w 2 ⋮ w m ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ) \begin{matrix}& & f(v_1) & f(v_2) & \cdots & f(v_n) \end{matrix}\\ \begin{matrix} w_1 \\ w_2 \\ \vdots \\ w_m\end{matrix} \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n}\\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix} ​​f(v1​)​f(v2​)​⋯​f(vn​)​w1​w2​⋮wm​​⎝⎜⎜⎜⎛​a11​a21​⋮am1​​a12​a22​⋮am2​​⋯⋯⋱⋯​a1n​a2n​⋮amn​​⎠⎟⎟⎟⎞​

g ( u 1 ) g ( g 2 ) ⋯ g ( u p ) v 1 v 2 ⋮ v m ( b 11 b 12 ⋯ b 1 p b 21 b 22 ⋯ b 2 p ⋮ ⋮ ⋱ ⋮ b n 1 b n 2 ⋯ b n p ) \begin{matrix}& & g(u_1) & g(g_2) & \cdots & g(u_p) \end{matrix}\\ \begin{matrix} v_1 \\ v_2 \\ \vdots \\ v_m\end{matrix} \begin{pmatrix} b_{11} & b_{12} & \cdots & b_{1p} \\ b_{21} & b_{22} & \cdots & b_{2p}\\ \vdots & \vdots & \ddots & \vdots \\ b_{n1} & b_{n2} & \cdots & b_{np} \end{pmatrix} ​​g(u1​)​g(g2​)​⋯​g(up​)​v1​v2​⋮vm​​⎝⎜⎜⎜⎛​b11​b21​⋮bn1​​b12​b22​⋮bn2​​⋯⋯⋱⋯​b1p​b2p​⋮bnp​​⎠⎟⎟⎟⎞​

根据前面的考虑,对于每一个

x = x 1 u 1 + ⋯ + x p u p x = x_1u_1 + \cdots + x_pu_p x=x1​u1​+⋯+xp​up​
设 g ( x ) = y = y 1 v 1 + ⋯ + y n v n g(x) = y = y_1v_1 + \cdots + y_n v_n g(x)=y=y1​v1​+⋯+yn​vn​ , 我们有
y k = ∑ j = 1 p b k j x j , ( 2 ) ∀ k , 1 ≤ k ≤ n y_k = \sum_{j = 1}^{p} b_{kj}x_j,(2) \forall k , 1 \le k \le n yk​=j=1∑p​bkj​xj​,(2)∀k,1≤k≤n

对每一个
y = y 1 v 1 + ⋯ + y n v n y = y_1v_1 + \cdots + y_n v_n y=y1​v1​+⋯+yn​vn​

设 f ( y ) = z = z 1 w 1 + ⋯ + z m w m f(y) = z = z_1w_1+ \cdots + z_mw_m f(y)=z=z1​w1​+⋯+zm​wm​ ,我们有

z i = ∑ k = 1 n a i k y k , ( 3 ) ∀ i , 1 ≤ i ≤ m z_i = \sum_{k = 1}^n a_{ik}y_k,(3) \forall i , 1 \le i \le m zi​=k=1∑n​aik​yk​,(3)∀i,1≤i≤m

如果 y = g ( x ) y = g(x) y=g(x) 和 z = f ( y ) z = f(y) z=f(y) , 我们有 z = f ( g ( x ) ) z = f(g(x)) z=f(g(x)) , 在 ( 2 ) (2) (2) 和 ( 3 ) (3) (3) 视图中,我们有

z i = ∑ k = 1 n a i k ( ∑ j = 1 p b k j x j ) = ∑ k = 1 n ∑ j = 1 p a i k b k j x j = ∑ j = 1 p ∑ k = 1 n a i k b k j x j = ∑ j = 1 p ( ∑ k = 1 n a i k b k j ) x j , \begin{aligned} z_i &= \sum_{k = 1}^{n}a_{ik}(\sum_{j = 1}^{p}b_{kj}x_j)\\ &= \sum_{k=1}^{n}\sum_{j = 1}^{p}a_{ik}b_{kj}x_j\\ &= \sum_{j=1}^{p}\sum_{k=1}^{n}a_{ik}b_{kj}x_j\\ &= \sum_{j=1}^{p}(\sum_{k=1}^{n}a_{ik}b_{kj})x_j, \end{aligned} zi​​=k=1∑n​aik​(j=1∑p​bkj​xj​)=k=1∑n​j=1∑p​aik​bkj​xj​=j=1∑p​k=1∑n​aik​bkj​xj​=j=1∑p​(k=1∑n​aik​bkj​)xj​,​

因此,定义 c i j c_{ij} cij​ 使得

c i j = ∑ k = 1 n a i k b k j , ∀ 1 ≤ i ≤ m , 1 ≤ j ≤ p c_{ij} = \sum_{k = 1}^{n}a_{ik}b_{kj}, \forall 1 \le i \le m , 1 \le j \le p cij​=k=1∑n​aik​bkj​,∀1≤i≤m,1≤j≤p

我们有

z i = ∑ j = 1 p c i j x j , ( 4 ) z_i = \sum_{j = 1}^p c_{ij}x_j, (4) zi​=j=1∑p​cij​xj​,(4)

恒等 ( 4 ) (4) (4) 证明了线性映射的复合对应于矩阵的乘积.

然后,给定一个线性映射 f : E → F f: E \rightarrow F f:E→F , 关于基 ( u 1 , ⋯   , u n ) (u_1, \cdots, u_n) (u1​,⋯,un​) 和 ( v 1 , ⋯   , v m ) (v_1, \cdots, v_m) (v1​,⋯,vm​) 的矩阵表示为 M ( f ) = ( a i j ) M(f) = (a_{ij}) M(f)=(aij​) 。 通过等式 ( 1 ) (1) (1) , 即

y i = ∑ j = 1 n a i j x j , 1 ≤ i ≤ m y_i = \sum_{j = 1}^{n}a_{ij}x_j , 1 \le i \le m yi​=j=1∑n​aij​xj​,1≤i≤m

矩阵乘法的定义,方程 y = f ( x ) y=f(x) y=f(x) 对应矩阵方程 M ( y ) = M ( f ) M ( x ) M(y)=M(f)M(x) M(y)=M(f)M(x) 即,
( y 1 ⋮ y m ) = ( a 11 ⋯ a 1 n ⋮ ⋱ ⋮ a m 1 ⋯ a m n ) ( x 1 ⋮ x m ) \begin{pmatrix}y_1 \\ \vdots \\ y_m \end{pmatrix} = \begin{pmatrix} a_{11} & \cdots & a_{1n} \\ \vdots & \ddots & \vdots\\ a_{m1} & \cdots & a_{mn} \end{pmatrix} \begin{pmatrix}x_1 \\ \vdots \\ x_m \end{pmatrix} ⎝⎜⎛​y1​⋮ym​​⎠⎟⎞​=⎝⎜⎛​a11​⋮am1​​⋯⋱⋯​a1n​⋮amn​​⎠⎟⎞​⎝⎜⎛​x1​⋮xm​​⎠⎟⎞​

回想一下

( a 11 a 12 ⋯ a 12 a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a m 1 a m 2 ⋯ a m n ) ( x 1 x 2 ⋮ x n ) = x 1 ( a 11 a 21 ⋮ a m 1 ) + x 2 ( a 12 a 22 ⋮ a m 2 ) + ⋯ + x n ( a 1 n a 2 n ⋮ a m n ) \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{12}\\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{m1} & a_{m2} & \cdots & a_{mn} \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_n \end{pmatrix} = x_1 \begin{pmatrix} a_{11} \\ a_{21} \\ \vdots \\ a_{m1} \end{pmatrix} + x_2 \begin{pmatrix} a_{12} \\ a_{22} \\ \vdots \\ a_{m2} \end{pmatrix} + \cdots + x_n \begin{pmatrix} a_{1n} \\ a_{2n} \\ \vdots \\ a_{mn} \end{pmatrix} ⎝⎜⎜⎜⎛​a11​a21​⋮am1​​a12​a22​⋮am2​​⋯⋯⋱⋯​a12​a2n​⋮amn​​⎠⎟⎟⎟⎞​⎝⎜⎜⎜⎛​x1​x2​⋮xn​​⎠⎟⎟⎟⎞​=x1​⎝⎜⎜⎜⎛​a11​a21​⋮am1​​⎠⎟⎟⎟⎞​+x2​⎝⎜⎜⎜⎛​a12​a22​⋮am2​​⎠⎟⎟⎟⎞​+⋯+xn​⎝⎜⎜⎜⎛​a1n​a2n​⋮amn​​⎠⎟⎟⎟⎞​

有时,在用矩阵 M ( f ) M(f) M(f) 表示关于基 ( u 1 , ⋯   , u n ) (u_1, \cdots, u_n) (u1​,⋯,un​) 和 ( v 1 , ⋯   , v m ) (v_1, \cdots, v_m) (v1​,⋯,vm​) 的 f f f 时,合并这些基时必要的。

我们建议采取以下行动:

定义4.2 设 U = ( u 1 , ⋯   , u n ) \mathcal{U} = (u_1, \cdots, u_n) U=(u1​,⋯,un​) 和 V = ( v 1 , ⋯   , v m ) \mathcal{V} = (v_1, \cdots, v_m) V=(v1​,⋯,vm​) 是 E E E 和 F F F 的基,记 M U , V ( f ) M_{\mathcal{U,V}}(f) MU,V​(f) 为 f f f 关于基 U \mathcal{U} U 和 V \mathcal{V} V 的矩阵。 此外,记 x U x_{\mathcal{U}} xU​ 是关于基 U \mathcal{U} U 的坐标为 M ( x ) = ( x 1 , ⋯   , x n ) , x ∈ E M(x) = (x_1, \cdots, x_n), x \in E M(x)=(x1​,⋯,xn​),x∈E , y V y_{\mathcal{V}} yV​ 是关于基 V \mathcal{V} V 的坐标为 M ( y ) = ( y 1 , ⋯   , y m ) M(y) = (y_1, \cdots, y_m) M(y)=(y1​,⋯,ym​) . 那么
y = f ( x ) y = f(x) y=f(x)

用矩阵形式表示为

y V = M U , V ( f ) x U . y_{\mathcal{V}} = M_{\mathcal{U,V}}(f)x_{\mathcal{U}}. yV​=MU,V​(f)xU​.

当 U = V \mathcal{U} = \mathcal{V} U=V, 我们将 $ M_{\mathcal{U,V}}(f)$ 写成 $ M_{\mathcal{U}}(f)$

上面的符号似乎是合理的,但它存在一个小缺点就是,在表达式 M U , V ( f ) x U M_{\mathcal{U,V}}(f)x_{\mathcal{U}} MU,V​(f)xU​ 中,给矩阵 M U , V ( f ) M_{\mathcal{U,V}}(f) MU,V​(f) 输入参数 x U x_{\mathcal{U}} xU​ 没有出现在 M U , V ( f ) M_{\mathcal{U, V}}(f) MU,V​(f) 中下标 U \mathcal U U 的旁边. 我们可以使用 M V , U ( f ) M_{\mathcal{V,U}}(f) MV,U​(f) 这样的符号。但是,我们发现有困惑,当 f f f 从空间 E E E(以 U \mathcal U U 为基) 映射到空间 F F F (以 V \mathcal V V 为基)时, V \mathcal V V 在 U \mathcal U U 之前,所以,我们更喜欢用符号 M U , V ( f ) M_{\mathcal{U,V}}(f) MU,V​(f).

定义4.2 表明函数与线性映射 f : E → F f:E \rightarrow F f:E→F 关于基 ( u 1 , ⋯   , u n ) (u_1, \cdots, u_n) (u1​,⋯,un​) 和 ( v 1 , ⋯   , v m ) (v_1, \cdots, v_m) (v1​,⋯,vm​) 的矩阵 M ( f ) M(f) M(f) 具有 矩阵乘法 对应于 线性映射复合 的性质。这允许我们将线性映射的性质转移到矩阵上。以下是这种技术的说明:

命题4.1

  • ( 1 ) (1) (1) 给定任意矩阵 A ∈ M m , n ( K ) , B ∈ M n , p ( K ) A \in M_{m,n}(K), B \in M_{n,p}(K) A∈Mm,n​(K),B∈Mn,p​(K) 和 C ∈ M p , q ( K ) C \in M_{p, q}(K) C∈Mp,q​(K) , 我们有 ( A B ) C = A ( B C ) ; (AB)C = A(BC); (AB)C=A(BC); 也就是说,矩阵乘法是结合的

  • ( 2 ) (2) (2) 给定任意矩阵 A , B ∈ M m , n ( K ) A, B \in M_{m,n}(K) A,B∈Mm,n​(K) 和 C , D ∈ M n , p ( K ) C, D \in M_{n,p}(K) C,D∈Mn,p​(K) , ∀ λ ∈ K \forall \lambda \in K ∀λ∈K , 我们有 ( A + B ) C = A C + B C A ( C + D ) = A C + A D ( λ A ) C = λ ( A C ) A ( λ C ) = λ ( A C ) (A + B)C = AC + BC \\ A(C+D) = AC + AD \\ (\lambda A)C = \lambda(AC) \\ A(\lambda C) = \lambda (AC) (A+B)C=AC+BCA(C+D)=AC+AD(λA)C=λ(AC)A(λC)=λ(AC) 使矩阵乘法 ⋅ : M m , n ( K ) × M n , p ( K ) → M m , p ( K ) \cdot:M_{m,n}(K) \times M_{n,p}(K) \rightarrow M_{m,p}(K) ⋅:Mm,n​(K)×Mn,p​(K)→Mm,p​(K) 是双线性的

命题4.2 给定三个线性空间 E , F , G E,F,G E,F,G , 它们的基分别是 ( u 1 , ⋯   , u p ) , ( v 1 , ⋯   , v n ) , ( w 1 , ⋯   , w m ) (u_1, \cdots, u_p), (v_1, \cdots, v_n), (w_1, \cdots, w_m) (u1​,⋯,up​),(v1​,⋯,vn​),(w1​,⋯,wm​) , 将矩阵 M ( g ) M(g) M(g) 与线性映射 g : E → F g : E \rightarrow F g:E→F 相关联的映射 M : H o m ( E , F ) → M n , p M: Hom(E, F) \rightarrow M_{n,p} M:Hom(E,F)→Mn,p​ 对所有 x ∈ E x \in E x∈E, 所有 g , h : E → F g, h : E\rightarrow F g,h:E→F , 以及所有 f : F → G f: F \rightarrow G f:F→G 满足一下性质。

M ( g ( x ) ) = M ( g ) M ( x ) M ( g + h ) = M ( g ) + M ( h ) M ( λ g ) = λ M ( g ) M ( f ∘ g ) = M ( f ) M ( g ) , M(g(x)) = M(g)M(x)\\ M(g + h) = M(g) + M(h)\\ M(\lambda g) = \lambda M(g)\\ M(f\circ g) = M(f)M(g), M(g(x))=M(g)M(x)M(g+h)=M(g)+M(h)M(λg)=λM(g)M(f∘g)=M(f)M(g),

其中 M ( x ) M(x) M(x) 是与向量 x x x 相关联的列向量, M ( g ( x ) ) M(g(x)) M(g(x)) 是与 g ( x ) g(x) g(x) 相关联的列向量,如 定义4.1 所述。

因此, M : H o m ( E , F ) → M n , p M: Hom(E,F)\rightarrow M_{n,p} M:Hom(E,F)→Mn,p​ 是向量空间的同构,当 p = n p=n p=n 和基 ( v 1 , ⋯   , v n ) (v_1, \cdots, v_n) (v1​,⋯,vn​) 与基 ( u 1 , ⋯   , u p (u_1, \cdots, u_p (u1​,⋯,up​ 完全相同。 M : H o m ( E , E ) → M n M: Hom(E, E)→M_n M:Hom(E,E)→Mn​ 是环的同构。

标签:13,映射,矩阵,cdots,vdots,pmatrix,mathcal,乘法,rightarrow
来源: https://blog.csdn.net/weixin_42470629/article/details/121228345

本站声明: 1. iCode9 技术分享网(下文简称本站)提供的所有内容,仅供技术学习、探讨和分享;
2. 关于本站的所有留言、评论、转载及引用,纯属内容发起人的个人观点,与本站观点和立场无关;
3. 关于本站的所有言论和文字,纯属内容发起人的个人观点,与本站观点和立场无关;
4. 本站文章均是网友提供,不完全保证技术分享内容的完整性、准确性、时效性、风险性和版权归属;如您发现该文章侵犯了您的权益,可联系我们第一时间进行删除;
5. 本站为非盈利性的个人网站,所有内容不会用来进行牟利,也不会利用任何形式的广告来间接获益,纯粹是为了广大技术爱好者提供技术内容和技术思想的分享性交流网站。

专注分享技术,共同学习,共同进步。侵权联系[81616952@qq.com]

Copyright (C)ICode9.com, All Rights Reserved.

ICode9版权所有