Duplicate

Lecture 4 | Probability Review

형태
Math
수강 일자
2022/09/14

Random Variable

Random event 의 outcome 을 real scalar value 로 mapping 해주는 함수
특정 시행 이전에는 값을 예측할 수 없는 numerical value
동전을 던지는 시행 예시
X={1      if heads0      if tailsX = \begin{cases} 1 \thickspace\thickspace\thickspace {\rm if\ heads} \\ 0 \thickspace\thickspace\thickspace {\rm if\ tails} \end{cases}
P(X=1)=1/2P(X=1)=1/2
Discrete vs. Continuous
Discrete
Discrete Sample Space 를 가짐
P[X=x]=fX(x)\mathbb P [X=x] = f_X(x)
Probability Mass Function (PMF)
ex. Binomial Distribution
Continuous
Continuos Sample Space 를 가짐
P[XA]=Afx(x)dx\mathbb P [X\in A] = \int_A f_x(x)dx
Probability Density Function (PDF)
밑넓이의 합은 1 이어야 함
모든 xx 에 대해 f(x)0f(x) \ge0
ex. Gaussian Distribution
특정 값을 가질 확률 자체는 0, 범위를 가질 확률은 PDF 의 밑넓이

Probability Theory

Bayes’ Theorem

p(YX)=p(XY)p(Y)p(X)p(Y|X)=\frac{p(X|Y)p(Y)}{p(X)}
Product Rule 과 symmetry property 로 인해 유도됨
p(XY)p(Y)=p(Y,X)=p(X,Y)=p(YX)p(X)p(X|Y)p(Y)=p(Y,X)=p(X,Y)=p(Y|X)p(X)

Independence in Probability Theory

두 event XX, YY 가 independent 한 것은 다음과 동치임
P(X,Y)=P(X)P(Y)P(X,Y) = P(X)P(Y)
Bayes’ Theorem 에 의해서 다음도 성립함
P(XY)=P(X,Y)P(Y)=P(X)P(YX)=P(X,Y)P(X)=P(Y)P(X|Y)=\frac{P(X,Y)}{P(Y)} = P(X) \\ P(Y|X)=\frac{P(X,Y)}{P(X)} = P(Y)

Probability Densities with Continuous Random Variables

p(x)=p(x,y)dy=p(yx)p(x)dy\begin{align*} p(x) &= \int p(x,y)dy &= \int p(y|x)p(x)dy \end{align*}

Expectation

기댓값: 특정 값에 해당 값이 나올 확률을 곱해 summation (integral) 한 것
Discrete variable
E[f]=xp(x)f(x)\mathbb E[f] = \sum_x p(x)f(x)
Continuous variable
E[f]=p(x)f(x)dx\mathbb E[f] = \int p(x)f(x) dx
Conditional Expectation
E[fy]=xp(xy)f(x)\mathbb E[f|y] = \sum_x p(x|y)f(x)

Variance

var[f]=E[(f(x)E[f(x)])2]var[f]=E[f(x)2]E[f(x)]2var[x]=E[x2]E[x]2{\rm var}[f] = \mathbb E [(f(x)-\mathbb E [f(x)])^2] \\ {\rm var}[f] = \mathbb E [f(x)^2]-\mathbb E [f(x)]^2 \\ {\rm var}[x] = \mathbb E [x^2]-\mathbb E [x]^2 \\

Covariances

cov[x,y]=Ex,y[{xE[x]}{yE[y]}]=Ex,y[xy]E[x]E[y]\begin{align*} {\rm cov}[x,y] &= \mathbb E_{x,y} [\{ x- \mathbb E [x] \}\{ y- \mathbb E [y] \}] \\ &= \mathbb E_{x,y} [xy] - \mathbb E [x]\mathbb E [y] \end{align*}
xx, yy 가 vector 인 경우에는 다음과 같이 matrix 형태로 covariance 가 구해짐
cov[x,y]=Ex,y[{xE[x]}{yTE[yT]}]=Ex,y[xyT]E[x]E[yT]\begin{align*} {\rm cov}[x,y] &= \rm\mathbb E_{x,y} [\{ x- \mathbb E [x] \}\{ y^T -\mathbb E [y^T] \}] \\ &= \rm\mathbb E_{x,y} [xy^T] - \mathbb E [x]\mathbb E [y^T] \end{align*}

Gaussian (Normal) Distribution

N(xμ,σ2)=12πσexp(12σ2(xμ)2)\mathcal N (x|\mu, \sigma^2) =\frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{1}{2\sigma^2}(x-\mu)^2)
Multivariate Gaussian 은 다음과 같이 표현됨
N(xμ,Σ)=1(2π)D/21Σ1/2exp(12(xμ)TΣ1(xμ))\mathcal N (x|\mu, \Sigma) =\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}} \exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

Bayesian Probabilities

p(wD)=p(Dw)p(w)p(D)p({\rm w}|D)=\frac{p(D|{\rm w})p(\rm w)}{p(D)}
데이터가 나온 분포에 대한 parameter 의 특성에 대한 inference 를 하는 것을 prior 라 함
prior: p(w)p(\rm w)
Obeservation DD 가 특정 prior 에 의해 나왔을 확률 p(Dw)p(D|\rm w) 는 likelihood 라고 함
likelihood: p(Dw)p(D|\rm w)
데이터로부터 특정 prior 가 나왔을 확률을 posterior 라고 함
posterior: p(wD)p({\rm w} | D)
posteriorlikelihood×prior\rm posterior \propto likelihood \times prior 이고, p(D)p(D) 는 normalized term 으로 볼 수 있음

Probabilities vs. Likelihoods

Probability: 고정된 distribution 의 밑면적
Likelihood: 특정 데이터가 변할 수 있는 distribution 에서 나올 수 있는 확률 (yy-axis value)

Information Theory

h(x)=log2p(x)h(x)=-\log_2p(x)
정보 h(x)h(x)xx 라는 관찰을 통해서 얻을 수 있는 정보의 양을 의미함
일반적으로 p(x)p(x) 작을수록 의미있는 정보이기 때문에 h(x)h(x) 가 큼
두 독립적인 관찰에 대해서 h(x,y)=h(x)+h(y)h(x,y)= h(x)+h(y) 가 성립함
통계적으로 독립인 두 사건 x,yx, y 에 대해서 p(x,y)=p(x)p(y)p(x,y) =p(x)p(y)
위 세 관계를 만족시키기 위해 hhpplog-\log 형태로 설계함
Entropy 는 확률변수 xx 가 전해주는 정보의 총량으로 다음과 같음
H[x]=xp(x)h(x)=xp(x)log2p(x)H[x] = \sum_x p(x)h(x) = \sum_x p(x)\log_2 p(x)
Entropy 는 average coding length 를 알려줌 (lower bound on number of bits needed to transmit a random variable) → average 가 가장 작은 encoding 을 사용하는 것이 좋겠죠?!

Kullback-Leibler (KL) Divergence

KL(pq)=p(x)lnq(x)dx(p(x)lnp(x)dx)=p(x)ln(q(x)p(x))dx\begin{align*} {\rm KL}(p\|q)&=-\int p(x)\ln q(x)dx - (-\int p(x)\ln p(x)dx) \\ &= - \int p(x)\ln(\frac{q(x)}{p(x)})dx \end{align*}
True distribution p(x)p(x) 대신에 esimation q(x)q(x) 를 사용했을 때 얻는 추가적인 정보량
두 확률분포 p(x)p(x)q(x)q(x) 의 차이를 계산할 수 있는 지표 (추가 정보량이 작으면 분포가 비슷하다는 것임)
앞의 항목을 Cross-Entropy 라고 하고 뒤의 항목은 앞서의 p(x)p(x) 의 Entropy 임
KL(pq)=p(x)lnq(x)dx(p(x)lnp(x)dx)=H(p,q)H(p)\begin{align*} {\rm KL}(p\|q)&=-\int p(x)\ln q(x)dx - (-\int p(x)\ln p(x)dx) \\ &= H(p,q)-H(p) \end{align*}
KL(pq)≢KL(qp){\rm KL}(p\|q) \not\equiv {\rm KL}(q\|p)
KL(pq)0{\rm KL}(p\|q) \ge 0 (Jensen’s Inequality 로 증명 가능)
KL(pq)p(x)=q(x){\rm KL}(p\|q) \lrarr p(x)=q(x)
많은 AI 등에서 모르는 p(x)p(x)q(x;θ)q(x;\theta) 로 근사하여 구해냄

Mutual Information

I[x,y]=KL(p(x,y)p(x)q(y))=p(x,y)ln(p(x)p(y)p(x,y))dxdy\begin{align*} {\rm I[x,y]} &= {\rm KL}(p({\rm x,y})\|p({\rm x})q({\rm y}))\\ &= -\int\int p({\rm x,y}) \ln(\frac{p({\rm x})p({\rm y})}{p({\rm x,y})}){\rm dxdy} \end{align*}
두 확률변수 X,YX,Y 가 얼마나 independent 한지를 측정하는 지표
X,YX,Y 가 independent 하면 p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)
Mutual Dependence 는 아래와 같이 계산할 수도 있음
I[x,y]=H[x]H[xy]=H[y]H[yx]\rm I[x,y]=H[x]-H[x|y]=H[y]-H[y|x]
H(YX)=xX,yYp(x,y)logp(x,y)p(x)H(Y|X) = -\sum_{x\in X, y\in Y} p(x,y)\log \frac{p(x,y)}{p(x)}