확률

상대도수를 이용한 확률

똑같은 실험을 무수히 많이 반복할 때 어떤 일이 일어나는 비율

(예를 들면, 다음날 비가 올 확률)

고전적인 확률의 정의를 사용하여 계산할 때는 표본 공간의 모든 원소가 일어날 확률이 같은 경우에만 사용 가능하다.

(예를 들어, 날씨의 경우에는 계절에 따라 비가 올 확률이 다르므로 해당되지 않는다.)


덧셈 법칙

$P(A\cup B) = P(A)+P(B)+P(A\cap B)$


서로 배반

두 사건의 교집합이 없는 경우


조건부 확률

A 사건이 일어났을 때, B 사건이 발생할 확률

$P(B|A)={P(A\cap B)\over P(A)}$


곱셈 법칙

$P(A\cap B)=P(B|A)P(A)$


서로 독립인 경우

$P(B|A) = P(B) $


확률의 분할 법칙

$P(B)=P(A\cap B)+P(A^C\cap B) $
$=P(B|A)P(A)+P(B|A^C)P(A^C)$


베이즈 정리

  • 처음의 확률:
    • 사전확률(prior probability) - 아래 식에서 $P(A)$에 해당
  • 수정된 확률:
    • 사후확률(posterior probability) - 아래 식에서 $P(A B)$에 해당
$P(A|B)={P(A\cap B)\over P(B)}={P(B|A)P(A)\over P(B|A)P(A)+P(B|A^C)P(A^C)}$


확률 분포

⇒ 확률변수는 꼭 실수여야 한다.

이산확률변수의 평균

  • 기댓값(expected value)라고도 한다.
  • $E(X) =\sum_xxP(X=x)=\sum_xxf(x)$


이산확률변수의 분산

  • $(X-\mu)^2$의 평균
  • $\sigma^2=E((X-\mu)^2)=\sum_x(x-\mu)^2P(X=x)=E(X^2)-[E(X)]^2$
  • $Var(x)$라고도 한다.


결합확률 분포(joint probability distribution)

⇒ 두 개 이상의 확률 변수가 동시에 취하는 값들에 대해 확률을 대응시켜주는 관계

(결국 2차원 확률변수 쌍이랄까..?)


공분산(Covariance)

  • 확률변수 X와 Y의 공분산
    • $(X-\mu_x)(Y-\mu_y)$ 의 평균
$Cov(X,Y)=E[(X-\mu_x)(Y-\mu_y)]$
$=E(XY)-\mu_x\mu_y=E[XY]-E[X]E[Y]$

X, Y가 연관이 있는지 알 수 있다. 연관이 있다면 $E[(X-\mu_x)(Y-\mu_y)]$ 가 양의 값을 가질 수 있는 확률이 높고, 반대의 경우는 음의 값을 가질 확률이 높다.


상관계수(correlation coefficient)

  • 공분산은 각 확률 변수의 절대적인 크기에 영향을 받기 때문에 (예: Y = 0, 1, 2의 경우와 0, 100, 200 의 경우 비교) 단위에 의한 영향을 없앨 필요가 있다.

    $\rho=Corr(X,Y)={Cov(X,Y)\over \sigma_X\sigma_Y}$


이항분포

  • 베르누이 시행
  • 이항확률변수 = n번의 베르누이 시행에서 성공의 횟수
$P[X=x]=\begin{pmatrix} n \\ x \end{pmatrix} p^x(1-p)^{n-x}$

ex. 어떤 랜덤박스의 뽑기 성공 확률이 0.2이다. 3개를 뽑았을 때, 적어도 하나 이상의 성공이 발생할 확률($P[X\geqq 1]$)은?

from scipy import stats 1 - stats.binom.cdf(0, n=3, p=0.2)


정규분포

  • 연속확률 변수의 확률 분포 - 확률밀도함수 $f(x)$ (probability density function)
  • $P[a\leqq X\leqq b]=\int_a^bf(x)dx$

ex. $X~N(4,3^2)$ 일때 $P[X\leqq 4]=?$

stats.norm.cdf(4, loc=4, scale=3)


정규분포의 확률밀도함수

$f(x)={1\over \sqrt{2\pi}\sigma}e^{-{1\over 2}{(x-u)\over \sigma}^2}$

표준정규확률변수 (standard )

$Z={X-\mu \over \sigma }$


포아송 분포 (poisson distribution)

일정한 시간단위 혹은 공간 단위에서 발생하는 이벤트 수의 확률분포

  • 확률분포함수 (확률질량함수)

$P[X=x]=f(x)=\lambda ^x{e^{-\lambda}\over x!}$

  • 평균 = $\lambda$, 분산 = $\lambda$

ex. $\lambda = 3$ 인 포아송 분포에서 $P[x\leqq 2]$ 는?

stats.poisson.cdf(2, mu=3)

‘일정한 시간단위 혹은 공간 단위에서 발생하는 이벤트 수의 확률분포’ 에 해당되고, 어떤 분포에 알 수 없는 상황에서는 포아송 분포로 가정하는 것이 가장 좋다.


지수분포 (exponential distribution)

포아송 분포에 의해 어떤 사건이 발생할 때, 어느 한 시점으로부터 이 사건이 발생할 때까지 걸리는 시간에 대한 확률 분포

  • 확률밀도함수
    • $f(t)=\lambda e^{-\lambda t}$
    • $\lambda$는 포아송분포의 평균
  • 평균 : $E(T)={1\over \lambda}$
  • 분산 : $Var(T) = {1 \over \lambda^2}$

ex. 어느 웹사이트에 시간당 접속자 수는 평균이 3($\lambda=3$)인 포아송 분포를 따른다. 앞으로 1시간 동안 접속자 수가 2명 이하일 확률($P[X\leqq 2]$)은?

lam=3

stats.expon.cdf(0.5, scale=1/lam)