Duplicate

Lecture 3 | Linear Algebra Review 2

형태
Math
수강 일자
2022/09/12

Gram Matrix

G=ATA=[a1Ta1a1Ta2a1Tana2Ta1a2Ta2a2TananTa1anTa2anTan]G=A^TA = \begin{bmatrix} a_1^Ta_1 & a_1^Ta_2 & \dots & a_1^Ta_n \\ a_2^Ta_1 & a_2^Ta_2 & \dots & a_2^Ta_n \\ \vdots & \vdots & \ddots & \vdots \\ a_n^Ta_1 & a_n^Ta_2 & \dots & a_n^Ta_n \\ \end{bmatrix}
Gram Matrix 가 identity 면 AA 는 orthonormal

Skew Symmetric Matrix

AT=AA^T = -A
Transpose 가 negative 과 같은 matrix
Symmetric 은 AT=AA^T =A
Cross product 는 skew symmetric matrix 로 표현될 수 있음
a×b=[a]×b=[0a3a2a30a1a2a10](b1b2b3)=(a2b3a3b2a3b1a1b3a1b2a2b1)a\times b =[a]_{\times}b= \begin{bmatrix} 0 & -a_3 & a_2 \\ a_3 & 0& -a_1 \\ -a_2 & a_1 & 0 \\ \end{bmatrix} \begin{pmatrix} b_1 \\ b_2 \\ b_3 \\ \end{pmatrix} = \begin{pmatrix} a_2b_3 - a_3b_2 \\ a_3b_1 - a_1b_3 \\ a_1b_2 - a_2b_1 \\ \end{pmatrix}
이런 식의 표현이 중요한 이유는 모든 것을 matrix multiplication 으로 통합하여 표현할 수 있도록 해주기 때문

Null Space

N(A)={xRn:Ax=0}{\mathcal N} (A) = \{ x\in \mathbb R^n : Ax =0\}
Matrix ARm×nA \in \mathbb R^{m\times n} 의 nullspace 는 해당 matrix 와 right multiplication 을 했을 때 0 이 나오는 모든 벡터의 set
중요한 이유는 많은 AI 문제에서 AA 가 주어졌을 때 optimal 한 xx 를 구하는 경우가 많기 때문
SVD 를 이용해서 null space 를 찾을 수 있음!
Rank-Nullity Theorem
Rank(A)+Nullity(A)=n{\rm Rank}(A) + {\rm Nullity}(A) = n

Determinant

A=i=1n(1)i+jaijA\i,\j|A| = \sum_{i=1}^n (-1)^{i+j}a_{ij} |A_{\backslash i, \backslash j}|
A=AT|A| =|A^T|
AB=AB|AB| =|A||B|
ARn×nA \in \mathbb R^{n\times n} 에 대해서 A=0|A|=0 AA 가 singular 인 것이랑 동치임
ARn×nA \in \mathbb R^{n\times n} 에 대해서 AA 가 non-singular 이면 A1=1/A|A^{-1}| = 1/|A|

Quadratic Forms

xTAx=i=1nxI(Ax)i=i=1n(j=1nAijxj)=i=1nj=1nAijxixjx^TAx = \sum_{i=1}^n x_I(Ax)_i = \sum_{i=1}^n (\sum_{j=1}^n A_{ij}x_j) = \sum_{i=1}^n\sum_{j=1}^n A_{ij}x_ix_j
Quadratic Forms 로 표현되는 matrix 는 symmetric 임
Conic 의 quadratic form 표현
ax2+bxy+cy2+dx+ey+f=0ax^2 + bxy +cy^2 + dx+ ey+ f =0
xTCx=0x=(x,y,1)TC=[ab/2d/2b/2ce/2d/2e/2f]x^TCx = 0 \\ x = (x,y,1)^T \\ C = \begin{bmatrix} a & b/2 & d/2 \\ b/2 & c & e/2 \\ d/2 & e/2 & f\\ \end{bmatrix}

Positive Semidefinite

Positive Definite (PD)
xTAx>0,x0Rnx^TAx > 0, \forall x \ne 0\in \mathbb R^n
Positive Semidefinite (PSD)
xTAx0,xRnx^TAx \ge 0, \forall x \in \mathbb R^n
Negative Definite (ND)
xTAx<0,x0Rnx^TAx < 0, \forall x \ne 0\in \mathbb R^n
Negative Semidefinite (NSD)
xTAx0,xRnx^TAx \le 0, \forall x \in \mathbb R^n
Indefinite
PSD 도, NSD 도 아닌 경우

Eigenvalues and Eigenvectors

Av=λvAv = \lambda v
Square matrix AA 에 대해서 위 식을 만족하는 nonzero vector vvλ\lambda 쌍이 존재하면 vv 를 eigenvector, λ\lambda 를 해당 eigenvector 의 eigenvalue 라고 함
vv 가 eigenvector 면 svsv 도 eigenvector 이기 때문에 보통은 v2=1\|v \|_2 = 1 을 가정하고 eigenvector 를 정의함
Characteristic polynomial
(λIA)v=0(\lambda I-A)v = 0 의 non-zero solution vv 가 존재하려면 det(λIA)=0{\rm det}(\lambda I-A)=0 이어야 함
PA(λ)=det(λIA)=1×λn+cn1×λn1++c0P_A(\lambda)={\rm det}(\lambda I -A) = 1 \times \lambda^n + c_{n-1} \times \lambda^{n-1} + \dots + c_0
위 식을 characteristic polynomial of AA 라고 함
tr(A)=i=1nλi{\rm tr}(A) = \sum_{i=1}^n \lambda_i
A=i=1nλi|A| = \prod_{i=1}^n \lambda_i
rank of AA 는 non-zero eigenvalues of AA 의 개수와 같음
AA 가 non-singular 하고 λ\lambda 라는 eigenvalue 를 가지면 A1A^{-1}1/λ1/\lambda 라는 eigenvalue 를 가짐
Diagonal matrix DD 의 eigen value 는 그냥 diagonal term 들임

Eigen Value Decomposition

ARn×nA \in \mathbb R^{n\times n} 이고 VVAA 의 n 개의 eigenvector 를 column 에 모아둔 matrix 라 하자
Eigenvector, eigenvalue 의 정의 때문에 다음이 성립함
AV=Vdiag(λ)AV = V{\rm diag}(\lambda)
최종적으로 AA 는 다시 다음과 같이 표현할 수 있음
가정에 의해 VV 는 invertible 함 (linearly independent 한 nn 개의 column)
A=Vdiag(λ)V1A = V{\rm diag}(\lambda)V^{-1}
모든 symmetric matrix 는 nn 개의 orthonormal 한 eigenvector 를 가지고, eigenvalue 는 모두 real 임 → real valued eigenvector 및 eigenvalue 로 Eigen Value Decomposition 가능!
AA 는 unit space 를 v(i)v^{(i)} 방향으로 λi\lambda_i 만큼 scaling 한 것과 같음
Convention 에 따라서 diagonal matrix 는 descending order 로 정렬됨
0 인 eigenvalue 가 존재하면 해당 matrix 는 singular 함. (Av=0v=0Av=0v=0 인 nonzero vv 가 존재하는 것이기 때문)
Positive Definite Revisited
AA 가 positive definite 하면, 모든 eigenvalue 는 positive 함
AA 가 positive semidefininte 하면, 모든 eigenvalue 는 non-negative 함
Bx=λxxTBx=xTλx=λx220Bx=\lambda x \rarr x^TBx = x^T\lambda x = \lambda \|x\|_2^2 \ge 0

Singular Value Decomposition

A=UΣVTA = U\Sigma V^T
UU: m×mm\times m orthonormal matrix
VTV^T: n×nn\times n orthonormal matrix
Σ\Sigma: m×nm\times n diagnoal matrix
AA 가 non-square 이면 Eigen Value Decomposition 이 정의되지 않음
SVD non-square 에도 적용될 수 있는 A=UDVTA = UDV^T 형태의 decompostion

Reduced SVD

ARm×nA \in \mathbb R ^{m\times n}
m>nm > n
A=URΣRVTA = U_R\Sigma_R V^T
UUVV 보다 크기가 크고 Σ\Sigma 는 아래쪽 영역이 모두 0이 됨
Reconstruction 만 생각한다면 UU 의 좌측, Σ\Sigma 의 위만 잘라서 사용가능
n>mn > m
A=UΣRVRTA = U\Sigma_R V_R^T
UUVV 보다 크기가 작고 Σ\Sigma 는 우측 영역이 모두 0이 됨
Reconstruction 만 생각한다면 VV 의 위, Σ\Sigma 의 좌측만 잘라서 사용가능

Relation between SVD and Eigen Value Decomposition

ATA=(UΣVT)T(UΣVT)=(VΣTUT)(UΣVT)=VΣTΣVT=VΣ2VT\begin{align*} A^TA &= (U\Sigma V^T)^T(U\Sigma V^T) \\ &= (V\Sigma^T U^T)(U\Sigma V^T) \\ &= V\Sigma^T \Sigma V^T \\ &= V\Sigma^2 V^T \end{align*}
A=UΣVTA = U\Sigma V^T 로 SVD 가 이루어졌다고 가정하자
VV 의 column 은 ATAA^T A 의 eigenvector 들임
Σ2\Sigma^2 의 diagonal term 은 ATAA^T A 의 eigenvalue 들임
마찬가지로, UU 의 column 은 AATAA^T 의 eigenvector 들임
Singular value 는 항상 nonnegative
ATAA^TA 의 eigenvalue 의 square root 로 볼 수 있는데 ATAA^TA 가 positive semidefinite 이기 때문에 eigenvalue 가 0 이상임!

Understanding Transformation via SVD

Applications of SVD

Matrix 의 rank 를 판단할 수 있음
nonzero singular value 의 개수가 rank
zero singular value 가 없으면 k=min(m,n)k=\min(m,n) 의 full rank 를 가짐
Pseudo-inverse (left inverse of AA) 를 쉽게 나타낼 수 있음
A=(ATA)1ATA^{\dagger} = (A^TA)^{-1}A^T
AA 가 square 라면 A1A^{-1} 로 표현할 여지도 있음
A=UΣVTA = U\Sigma V^T라고 하면 AA^{\dagger} 는 다음과 같이 표현됨
A=(VΣTUTUΣVT)1(UΣVT)T=(VΣTΣVT)1VΣTUT=VΣTΣVTVΣTUT=VΣTΣΣTUT=VΣUT\begin{align*} A^{\dagger} &= (V\Sigma^T U^T U\Sigma V^T)^{-1} (U\Sigma V^T)^T \\ &= (V\Sigma^T\Sigma V^T)^{-1} V\Sigma^T U^T \\ &= V\Sigma^T \Sigma V^T V\Sigma^T U^T \\ &= V\Sigma^T \Sigma \Sigma^T U^T \\ &= V\Sigma^{\dagger}U^T \end{align*}
Low-Rank Approximation
minAkAAk      such that      rank(Ak)k\min_{A_k} \|A-A_k\| \thickspace\thickspace\thickspace {\rm such\ that} \thickspace\thickspace\thickspace {\rm rank}(A_k) \le k
kmin(m,n)k \le \min(m,n)
Rank 를 줄이면서 비슷한 matrix 를 만드는 과정
가장 좋은 approximation 은 kk 미만의 크기를 가지는 index 의 singular vector 및 singular value 를 버리는 것
Ak=σ1u1v1T+σ2u2v2T++σkukvkTA_k = \sigma_1 u_1 v_1^T + \sigma_2 u_2 v_2^T + \dots + \sigma_k u_k v_k^T
σ1σ2σ30\sigma_1 \ge \sigma_2 \ge \sigma_3 \cdots \ge 0
AAk2=σk+1uk+1vk+1T+σk+2uk+2vk+2T++σnunvnT2=σk+1\|A-A_k\|_2 = \| \sigma_{k+1}u_{k+1}v_{k+1}^T + \sigma_{k+2}u_{k+2}v_{k+2}^T + \dots + \sigma_{n}u_{n}v_{n}^T\|_2 = \sigma_{k+1}
Image Compression 등에 사용

Polynomial Fitting

f^(x)=θ1+θ2x++θpxp1\hat f(x)=\theta_1 + \theta_2x +\dots + \theta_p x^{p-1}
Sample 을 polynomial model 로 설명하려는 경우를 생각해볼 수 있음
AA 를 Vandermonde Matrix 라고 부름
A=[1x(1)(x(1))p11x(2)(x(2))p11x(N)(x(N))p1]A = \begin{bmatrix} 1 & x^{(1)} & \dots & (x^{(1)})^{p-1} \\ 1 & x^{(2)} & \dots & (x^{(2)})^{p-1} \\ \vdots & \vdots & & \vdots \\ 1 & x^{(N)} & \dots & (x^{(N)})^{p-1} \\ \end{bmatrix}
θ\theta 를 구함에 있어 데이터로 구성된 AA matrix 를 활용함!